Buscar

Processamento de Linguagem Natural

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Processamento de Linguagem Natural (PLN)
Thayza Sacconi Guarnier
thayzasaconi@hotmail.com
Universidade Federal do Espírito Santo - Campus São Mateus - CEUNES/UFES
Departamento de Computação e Eletrônica - DCEL
São Mateus - ES - Brasil
Junho de 2018.
Resumo: Este artigo tem por objetivo fazer um levantamento bibliográfico
das pesquisas já realizadas até o momento com o intuito de contextualizar,
de maneira geral, o que é o Processamento de Linguagem Natural(PLN),
obtendo um panorama geral da área, suas características, além das
características da língua natural do homem, algumas aplicações que são
utilizadas no meio tecnológico.
Palavras chave: Linguagem Natural. Aspectos da PLN. Gramática e Análise.
Ferramentas de PLN. Inteligência Artificial. Comunicação. Interação
homem-máquina.
1. Introdução
No âmbito geral, uma linguagem é definida como sendo um conjunto bem
formado de caracteres ou símbolos, denotado sentenças, no qual pode ser
finito ou infinito e construídas a partir de um alfabeto específico. Uma
linguagem é a base da comunicação. Comunicação é definida, segundo o
trabalho de João M. de O. Neto, Sávio D. Tonin e Soraia S. Prietch:
Em geral, comunicação é uma forma intencional de
trocar informações através da produção e percepção
de sinais a partir de um sistema convencional. Os
seres humanos desenvolveram um complexo e
estruturado sistema de sinais conhecido como
Linguagem Natural, é através desse sistema que os
seres humanos se comunicam. A tarefa de processar
uma linguagem natural permite que os seres
humanos comuniquem-se com os computadores da
forma mais "natural" possível, utilizando a linguagem
com a qual mais estão acostumados. Eliminando-se,
a necessidade de adaptação a formas inusitadas de
interação, ou mesmo o aprendizado de uma
linguagem artificial, cuja sintaxe costuma ser de
difícil aprendizado e domínio.
Após o avanço das tecnologias, as máquinas e as pessoas tinham a
necessidade de interagir de forma mais natural, ter a comunicação entre si por
meio da língua natural. Para isso, viu-se necessário aplicar um conjunto de
técnicas de Inteligência Artificial (IA) para processar, tanto a fonologia quanto
a estrutura morfológica e sintática, além do léxico e semântico da expressão
escrita ou falada da pessoa, isto é, as técnicas combinadas da IA teriam de
ser capaz de entender o que uma pessoa que está interagindo com algum
sistema de diálogo está falando ou escrevendo. Para isso, foram feitos
estudos na área da Ciência Cognitiva, afim de elaborar a técnica para o
Processamento da Linguagem Natural.
O Processamento de Linguagem Natural (PLN) é uma área de pesquisa
que envolve, não somente IA, mas também várias outras áreas de
conhecimento que estuda a interação entre máquina-homem de forma que
eles possam se comunicar com a linguagem natural do homem. Esse
processamento está relacionado a três aspectos principais da comunicação
em língua natural, que são o som, a estrutura e o significado.
Por Ana P. Ladeira e Lídia Alvarenga,
Processamento de Linguagem Natural (PLN) é uma
área de pesquisa e de aplicação que explora como
os computadores podem ser usados para processar
e manipular texto ou discurso em linguagem natural
para fazer coisas úteis.
Com o intuito de aplicar as definições existentes, várias grandes
empresas da atualidade estão envolvidas nesse ramo de pesquisa, afim de
tornar a comunicação do homem com a máquina ou software, como Facebook,
Google e Microsoft, mais eficazes. Além disso, essas mesmas empresas
estão tentando usar tais tecnologias para oferecer algumas aplicações e
serviços diferenciados para seus clientes. Essas aplicações englobam
corretores de textos, reconhecedores de voz, tradução automática dentre
outras.
1.1. Objetivos
Tem-se por objetivo geral mostrar aplicações, reais e que estão sendo estudas
para implementação, que utilizam a Linguagem Natural, de forma a facilitar a
vida do usuário.
Por objetivo específico, tem-se como finalidade a apresentação do
contexto histórico, brevemente discutido, do surgimento da linguagem e como
ela é utilizada, analisando os aspectos morfológico, sintático e semântico.
2. Metodologia
Este trabalho utiliza como metodologia de pesquisa um levantamento
bibliográfico dos estudos já realizados e termina com algumas aplicações,
tanto reais quanto em estudo para que, num futuro, sejam implementadas e
implantadas de forma a ajudar a interação homem-máquina.
3. Levantamento Bibliográfico
Pelo trabalho de João M. de O. Neto, Sávio D. Tonin e Soraia S. Prietch, as
aplicações baseadas em textos e as baseadas em diálogo são os segmentos
básicos das aplicações de Linguagem Natural.
As aplicações baseadas em texto tratam de busca de documentos e a
compreensão de textos. Já as aplicações baseadas em diálogo tratam,
principalmente, de sistemas interpretadores de comandos expressados em
linguagem tanto de forma escrita como a falada.
Nas sub-seções seguintes veremos um breve histórico de como surgiram
as linguagens, como e quando foram introduzidas, um estudo da gramática e
suas análises para melhor entendimento e os desafios encontrados pela PLN.
3.1. Histórico do Processamento de Linguagem Natural
Desde os primórdios do computador, já se existia um desejo de interação
entre o homem e a máquina. Na época do fim da Segunda Guerra Mundial e
início da Guerra Fria, por volta de 1940 a 1946, as calculadoras científicas
foram muito utilizadas pelos americanos para a tradução automática das
informações soviéticas e quebrar os códigos das comunicações alemãs, feitas
por um tipo de computador chamado Enigma. Essas calculadoras, onde em
algumas literaturas já as chamavam de um tipo de computador denominado
Bombe, ou bomba eletromecânica, projetado por Alan Turing, continham
dados suficientes para traduzir, singularmente, as palavras de inglês para
russo, mas não tinham a capacidade de considerar as questões morfológica e
sintática das palavras. A partir disso, o inglês Booth e o americano Warren
Weaver iniciaram estudos para a tradução automática.
Em 1948, após as primeiras ideias de Booth e Weaver, o inglês Richens
adicionou informações relacionadas à análise gramatical da língua russa, afim
de proporcionar a quem estivesse ouvindo ou até mesmo lendo as
mensagens uma informação mais precisa em relação a alguma palavra da
sentença.
Em 1954 foi realizada, na Universidade de Georgetown, nos Estados
Unidos da América, a primeira experiência de tradução automática de russo
para inglês usando um computador, ao invés das calculadoras científicas.
Em 1957 Chomsky desenvolveu trabalhos relevantes sobre tradução
automática, no qual, de um ponto de vista teórico, estavam baseados em
teoria da informação na criptografia de mensagens. Um trabalho
particularmente relevante desta época é o livro Syntactic Structures (Chomsky,
1957) que introduziu a gramática gerativa, a partir daí ficou mais clara como a
área de linguística poderia auxiliar a área de tradução automática. [RENATA
VIEIRA, LUCELENE LOPES]
Por volta dos anos 60, segundo [OLIVEIRA], os computadores já tinham a
capacidade de aceitar questões em inglês sobre vários assuntos, como por
exemplo álgebra e medicina, e a habilidade de respondê-las. Além disso,
podiam conduzir uma pesquisa psiquiátrica em inglês e alemão. Nessa
mesma época houve a inclusão do reconhecimento da fala, do inglês Speech
Recognition.
Em 1965, as ideias de Chomsky se tornaram base para outros
pesquisadores e cientistas trabalharem com a representação da gramática.
Isso ficou conhecido como o advento da Teoria Sintática da Linguagem.
Entre 1970 e 1975, os trabalhos baseados em lógica começaram com
Q-systems e as gramáticas metafóricas,os quais foram os precursores da
linguagem Prolog1. Ainda nessa mesma época, a atenção foi voltada para a
semântica, fonemas e planos para a comunicação.
Depois da década de 90, com o “boom” da informática, veio também a
grande quantidade de informação que deve ser tratada. Assim, as técnicas de
PLN com as de mineração de dados vêm convergindo para as técnicas
baseadas em corpus. Este aumento significativo das ferramentas à disposição
dos pesquisadores de PLN permitiu também um aumento significativo nas
ambições da área. [RENATA VIEIRA, LUCELENE LOPES]
3.2. A Gramática e os Níveis de Processamento
Uma gramática2 é um modo formal usado para definir conjuntos de
sequências de símbolos, utilizando regras de produção que especificam uma
certa linguagem. [JOSÉ A. BARANAUSKAS]
1 Linguagem de programação de uso geral, se enquadra no paradigma de Programação em Lógica Matemática mas
que está associada, especialmente, com Inteligência Artificial e linguística computacional.
2 Este trabalho está utilizando a gramática livre de contexto (GLC)
Sobre a classificação da gramática, elas possuem quatro (4) níveis
conforme sua capacidade de geração de linguagens. Definidas por Chomsky,
por volta de 1957, são elas:
a) Tipo 0: gramáticas irrestritas;
b) Tipo 1: gramáticas sensíveis ao contexto;
c) Tipo 2: gramáticas livres de contexto; e
d) Tipo 3: gramáticas regulares.
Figura 1. Capacidade Gerativa.
Fonte: Processamento de Linguagem Natural. José Augusto Baranauskas.
A gramática do tipo G(S, T, N, R), formalmente, é definida por quatro
componentes, que são:
I. S: símbolo inicial da gramática, ao qual pertence ao conjunto N de
símbolos não-terminais;
II. T: conjunto de símbolos terminais, também denominado léxico ou
palavras da linguagem;
III. N: conjunto de símbolos não-terminais; e
IV. R: conjunto de regras de produção.
Uma gramática pode ser usada para gerar uma sentença, sendo que deve
obedecer a regra geral de sempre começar por um símbolo não-terminal (S),
os símbolos que são não-terminais devem ser substituídos por outras
sequências, conforme as regras de produção da gramática (R) e a geração
chega ao fim quando somente existe símbolos terminais (T).
Tomando a gramática a seguir como exemplo:
Exemplo 1:
S = { frase }
T = { o, gato, rato, caçou }
N = { frase, sujeito, predicado, artigo, substantivo, verbo }
R = {
frase --> sujeito, predicado;
sujeito --> artigo, substantivo;
predicado --> verbo, artigo, substantivo;
artigo --> [o];
substantivo --> [gato] | [rato] ;
verbo --> [caçou]
}
Temos como análise do exemplo acima que uma frase é composta por um
sujeito e um predicado, sendo o sujeito um artigo mais um substantivo. Já o
predicado é um verbo combinado com um artigo e um substantivo. Um artigo
não pode ser mais derivado a partir da regra, logo ele é definido como um
símbolo terminal, denotado da letra ‘o’. A mesma coisa acontece com o
substantivo e o verbo. Neste caso em especial, o substantivo definido como
símbolo terminal pode ser tanto ‘gato’ quanto ‘rato’. Já o verbo é definido
como ‘caçou’.
Nas sub-seções a seguir veremos de forma mais detalhada como esse
dado exemplo pode ser analisado, de diferentes formas, a partir da entrada de
frases da linguagem.
A Figura 2 mostra, de forma gráfica, como o PLN ocorre, analisando de
diferentes modos uma entrada e gerando uma saída para o sistema.
Figura 2. Fases de análise de PLN a partir de uma frase da linguagem.
Fonte: Processamento de Linguagem Natural (PLN), Inteligência Artificial. Jacson R. C. Silva.
3.2.1. Análise Fonética
A análise fonética, ou fonologia, se define como o reconhecimento de sons
presentes nas palavras ou como sendo o estudo dos sons que compões as
palavras em um determinado idioma.
No trabalho de Westerley da Silva Reis,
Em PLN, as ondas sonoras são processadas para a
interpretação da linguagem específica utilizada. Este
tipo de processamento é utilizado em sistemas de
reconhecimento de voz.
Em geral, um computador não entende a linguagem natural humana. Para
que exista esse reconhecimento e entendimento por parte da máquina, é
necessário que a fala seja transformada em algo que seja armazenado,
processado e então compreendido pela máquina. Isso ocorre da seguinte
forma: a voz humana é convertida em um sinal analógico, na qual alimenta a
entrada da placa de som da máquina. Essa placa dispõe de um conversor, no
qual pega o sinal analógico e o transforma em digital, criando uma sequência
de bits que possa ser interpretado pela máquina. Dependendo da aplicação
que for escolhida pelo usuário, a forma de digitalização do som é feita de
maneira diferente, mas todas possuem dois (2) componentes básicos, que
são os modelos acústico e linguístico.
O modelo acústico começa a se preparar para que seus dados sejam
analisados e convertidos em fonemas reconhecíveis pelo segundo
componente com o passo de eliminação de ruídos. Depois desses ruídos
serem retirados, alguns cálculos para que haja uma redução de dados a um
determinado espectro de frequência são feitos.
O modelo linguístico pega a combinação dos fonemas formados no
modelo acústico, analisa e faz uma comparação com uma base de dados
antes determinada, também conhecida como dicionário, com a finalidade de
associar esse conjunto de fonemas a uma palavra.
Embora feito esses processos, uma simples análise fonética não é
suficiente para uma correta identificação do sentido de uma frase, pois
existem palavras que, na escrita são diferentes, possuem significados
diferentes mas com pronúncias semelhantes/equivalentes. [MARTINS;
KATAOKA; TRINDADE]
Visto isso, o reconhecimento da fala contínua envolve também outras
temas, como gramática, sintaxe, ortografia [MARTINS; KATAOKA; TRINDADE]
e outros aspectos, que serão vistos a seguir.
3.2.2. Análise Morfológica
A análise morfológica realiza a análise da estrutura do texto e estuda cada
palavra presente de forma independente, visando sua classe gramatical. Na
língua portuguesa existem dez (10) classes gramaticais, que são: substantivo,
adjetivo, artigo, pronomes, numeral, verbo, advérbio, preposição, conjunção e
interjeição.
No trabalho de João M. de O. Neto, Sávio D. Tonin e Soraia S. Prietch há
um trecho que diz que
(...) o analisador morfológico identifica palavras ou
expressões isoladas em uma sentença, sendo este
processo auxiliado por delimitadores (pontuação e
espaços em branco). As palavras identificadas são
classificadas de acordo com seu tipo de uso ou, em
linguagem natural, categoria gramatical.
3.2.3. Análise Sintática
A análise sintática analisa a estrutura sintática e as funções as quais cada
palavra desempenha em uma frase. Em seu trabalho, Westerley Reis cita que
“É através da análise sintática que se pode verificar se a concordância
estabelecida pelas regras da língua está sendo obedecida”.
No trabalho de João M. de O. Neto, Sávio D. Tonin e Soraia S. Prietch tem
uma definição de análise sintática que diz
A análise sintática (parsing) é o procedimento que
avalia os vários modos de como combinar regras
gramaticais, com a finalidade de gerar uma estrutura
de árvore que represente a estrutura sintática da
sentença analisada. Se a sentença for ambígua, o
analisador sintático (parser) irá obter todas as
possíveis estruturas sintáticas que a representam.
Pegando o Exemplo 1 dado anteriormente, temos como resultado de sua
análise sintática a seguinte árvore, representada na Figura 3 a seguir.
Figura 3. Árvore sintática.
Fonte: Processamento de Linguagem Natural. Silvio do Lago Pereira.
Numa árvore sintática, assim como a ideia de árvore em estrutura de
dados, as folhas da árvore são símbolos terminais e os nós internos sãosímbolos não-terminais.
Analisando a árvore temos como entrada inicial, ou nó inicial, a frase, que
é o nó principal desta árvore. Seguimos ramificando essa árvore conforme a
composição da frase, com sujeito e predicado. Partindo do sujeito, temos que
sua composição é uma combinação de artigo com um substantivo. Como nós
folhas destes, ou terminais, temos que o artigo termina como “o” e o
substantivo como “gato”. Olhando do outro lado da ramificação, do lado do
predicado, vemos que ele se ramifica em uma combinação de verbo, artigo e
outro substantivo. Como nós folhas destes, ou terminais, temos que o verbo
termina sendo “caçou”, o artigo termina, novamente, como “o” e o substantivo
como “rato”.
3.2.4. Análise Semântica
No trabalho de Westerley Reis há uma definição de análise em nível
semântico que diz
O nível semântico(...) está relacionado ao significado
das palavras em busca de alcançarem certo sentido
no escopo da sentença, não apenas nas palavras
como uma unidade completa, mas nas suas
unidades constitutivas.
3.2.5. Análise Pragmática
A análise pragmática examina uma construção linguística, a qual procura ter
uma compreensão das palavras na fala das pessoas.
No trabalho de Westerley Reis há uma definição de análise em nível
pragmático que diz que
(...) a pragmática tem como objeto de estudo o
significado de uma sentença que integra a diferença
entre o significado literal da linguagem e o
significado da linguagem em uso, ou seja, o contexto
do falante na comunicação.
Isso quer dizer que ela tem por objetivo analisar a linguagem, onde o
contexto é uma peça importante para o entendimento da sentença. Pode-se
entender coisas nas entrelinhas que não foram ditas por uma pessoa em uma
conversa.
3.3. Geração de Língua Natural
A partir de um conjunto de elementos com objetivos na comunicação,
podemos produzir textos em língua natural. Para isso existe um processo de
três (3) passos fundamentais para a geração, que são: a seleção de conteúdo,
o planejamento e a realização do texto. [REIS, W.]
Na seleção do conteúdo faz-se necessário selecionar o assunto e todos
os artefatos de conhecimento no qual irão fazer parte do texto. No
planejamento do texto é necessário que toda a estrutura do que foi
selecionado seja analisada, com a finalidade de organizar o conteúdo. Por fim
a realização do texto, onde são escolhidos o vocabulário para o texto, um
estilo, como será disposta a estrutura textual entre as análises que mais se
adequam para expressar a ideia do texto.
Figura 4. Fases principais de um gerador de textos.
Fonte: Sistema de Diálogo em Linguagem Natural para Serviços de
Atendimento ao Cliente. Westerley da Silva Reis.
3.3.1. Áreas de Aplicações
Em seu trabalho, Westerley Reis classifica algumas tarefas básicas nas áreas
de aplicações em PLN para o processamento da língua natural, conforme o
autor Nunes, que são: pré-processar, classificar e mapear representações da
língua natural.
No Pré-processamento, de acordo com o objetivo da tarefa da aplicação,
os textos são subdivididos em unidades fonéticas, léxicas, gramaticais e
semânticas. A partir disso, faz-se a segunda tarefa básica, que é classificar.
Classificar as unidades do texto entende-se por etiquetar as classes
relacionadas às tarefas, as quais se dividem em morfossintáticas, sintáticas e
semântica. Por fim, mapear representações da língua natural para uma
representação ou sintática ou semântica, com o intuito de interpretar e gerar a
língua natural.
Algumas aplicações citadas ainda no trabalho de Westerley Reis que
utilizam técnicas de PLN são os sistemas de recuperação de informação, a
extração de informação, correção ortográfica e gramatical e o reconhecimento
de voz.
3.4. Desafios do PLN
As linguagens naturais, em geral, são ambíguas, estão em constante mutação
e não são exatas como a linguagem de máquina. Isso se torna um obstáculo
para o PLN, pois o objetivo dele é fazer com que a máquina compreenda a
fala do humano, a mensagem deixada por ele. E muitas vezes o problema se
encontra no fato da comunicação conter essa ambiguidade e variações de
dialeto para dialeto, fazendo que o conteúdo real, o sentido da mensagem
seja interferido.
Embora existam várias áreas de estudo a respeito, o processamento de
linguagem natural ainda é um pouco limitado.
No que se refere às expressões com ruídos, ou interferências no conteúdo,
uma proposta feita no trabalho de Westerley Reis é que se resolva esses
problemas com a lógica Fuzzy3, no qual
(...) coloca-se como o principal instrumento para uma
representação mais adequada do conhecimento,
isso se devendo à sua capacidade de lidar com
incertezas, raciocínio aproximado, termos vagos e
ambíguos”. Muitos dos desafios enfrentados ainda
serão compreendidos e resolvidos devido o uso de
PLN nas aplicações apresentadas serem recorrentes
nos dias atuais.
4. Aplicações
4.1. Sintetização e reconhecimento de voz
Desde o início da computação, era evidente uma necessidade entre uma
comunicação homem-máquina que não fosse tão “robotizada”, ou seja, que
fosse mais natural.
As pesquisas então começaram por volta da década de 40 e hoje existem
alguns sintetizadores de voz e aplicativos reconhecedores de voz que
tornaram possível o sonho da necessidade humanizada entre
homem-máquina realidade. Antes essa comunicação era feita por cartões
perfurados; hoje já se tem teclado, mouse e até telas touch screen. E ainda
sim, embora os avanços com o passar do tempo, os estudos na área de PLN
não pararam por aqui.
4.1.2. Código de exemplo
import speech_recognition as sr
r = sr.Recognizer() #faz a instância do múdulo do reconhecedor
print("Calibrando threshold")
3 Ou lógica difusa é uma forma multivalorada de lógica na qual os valores das variáveis podem ser qualquer número
real entre o 0, que corresponde ao falso booleano e 1, que corresponde ao verdadeiro na lógica booleana.
with sr.Microphone() as source: #enquanto houver fala no
microfone
r.adjust_for_ambient_noise(source)
print("Diga algo: ")
audio = r.listen(source) #ouve o que falamos no microfone
e salva na variável audio
try:
print("Voce disse: " + r.recognize_google(source,
language='pt')) #transforma a fala em texto
except sr.UnknownValueError:
print("Nao reconhecido")
4.2. Instrumento de Investigação Clínico-Epidemiológica em Cardiologia
Fundamentado no Processamento de Linguagem Natural
Devido à constante transição na mudança de se armazenar os dados de um
paciente, do meio físico para o digital, surge a possibilidade de se usar das
operações de procura, análise e comparação de documentos que a PLN
oferece para que ocorra a Recuperação de Informações, que é um ramo da
ciência que tem por objetivo procurar elementos em um meio de resposta de
consulta de um usuário. [CASTILHA, André]
Considerando as ferramentas bem sucedidas de PLN para língua inglesa,
propõe-se usar da tradução automatizada para traduzir textos médicos do
português para o inglês de forma controlada, utilizando de um dicionário
fundamentado de tradução especializado no domínio escolhido, para que
então, sejam processados com uma dessas ferramentas.
Essa aplicação tem como o domínio do sistema os textos e relatórios de
radiografias do tórax, buscando achados cardíacos e pulmonares que
estiverem presentes nesses relatórios.
Para sua proposta investigativa, André C. Castilha apresenta algumas
metodologias para seguir com seu trabalho
• Construção de um dicionário para tradução Português-Inglês especializado
no domínio da radiologia do tórax.
• Avaliação qualitativa da Tradução Automatizada4 (TA) de textos médicos
utilizando um sistema baseado em regras associado ao dicionário
especializadoelaborado para este projeto.
• Aplicação e avaliação do uso do texto automaticamente traduzido do
Português para o Inglês como entrada para um processador de linguagem
natural médico desenvolvido para textos em Inglês.
• Estruturação de uma ontologia reutilizável no domínio da radiologia torácica
para realizar operações de raciocínio lógico visando a identificação de
padrões clínicos de ocorrência.
• Aplicar os tópicos acima em um experimento de extração e recuperação de
informações de textos médicos, isto é executando o instrumento de
investigação clínico epidemiológica em Cardiologia.
4 Refere-se a sistemas de linguística computacional que são responsáveis por produzir traduções com pouca ou
nenhuma interação humana.
Figura 5. Visão geral da metodologia proposta.
Fonte: Instrumento de Investigação Clínico-Epidemiológica em Cardiologia Fundamentado
no Processamento de Linguagem Natural. Atendimento ao Cliente. André C. Castilha.
Apesar desses sistemas apresentarem resultados de saída ainda
complexos sendo necessário interpretação adicional, os sistemas de PLN
mostraram-se ferramentas eficazes em converter texto narrativo em dados
codificados, portanto, podendo ter suma importância para extração e
recuperação de informações de textos médicos , podendo ser inclusive
utilizados em tempo real. Sendo assim diversos tipos de sistemas bem
sucedidos foram concebidos para o domínio médico em diversos idiomas
como Inglês, Holandês, Alemão, Japonês e Francês.
É importante citar que para língua portuguesa temos um projeto de PLN
na área médica testado recentemente, ainda restrito, chamado SIRIMED
(Sistema de Recuperação de Informações Médicas). O aplicativo é composto
de um algoritmo de semelhança semântica com o DECS e de semelhança
ortográfica baseada em um algoritmo de stemming, ou seja de redução da
palavra ao seu elemento raiz. Recupera textos de relatórios de alta hospitalar
a partir de consultas elaboradas pelo usuário.
Em seu trabalho, André C. Castilha diz que
A radiologia e todas as outras especialidades
médicas que realizam exames por imagem são um
fértil campo para o desenvolvimento de aplicativos
de PLN. Estas especialidades têm como objeto de
trabalho a avaliação de imagens médicas com
elaboração de um relatório clínico a partir dos
achados e interpretações encontrados. Este laudo
pode ser considerado a representação escrita do
exame de imagem de acordo com uma semântica e
conhecimento prévio do domínio específico.
5. Considerações Finais
A utilização da Linguagem Natural nas aplicações atuais servem como um
auxílio e facilidade, de certa forma, para várias soluções de problemas ou de
uso pessoal da humanidade. Acredita-se que com o passar do tempo, novas
aplicações irão surgir com o intuito de facilitar ainda mais as áreas, em
especial a medicina, e que não precise mais de muita interação humana num
nível de máquina.
Referências
REIS, W. da Silva. Sistema de Diálogo em Linguagem Natural para Serviços de
Atendimento ao Cliente. Corumbá, 2017.
PICOLI, Larissa; PIROVANI, Juliana P. C.; OLIVEIRA, E. Silva de, LAPORTE, Eric.
Uso de uma ferramenta de processamento de linguagem natural com auxílio à coleta
de exemplos para o estudo de propriedades sintático-semânticas de verbos.
SILVA, Jacson R. C. Processamento de Linguagem Natural (PLN). Universidade
Federal do Espírito Santo - CCA UFES.
PEREIRA, S. do Lago. Processamento de Linguagem Natural. Departamento de
Tecnologia da Informação, Faculdade de Tecnologia de São Paulo.
PEREIRA, S. do Lago. Processamento de Linguagem Natural.
BARANAUSKAS, J. Augusto. Processamento de Linguagem Natural. Revisão, 2005.
VIEIRA, Renata; LOPES, Lucelene. Processamento de Linguagem Natural e o
Tratamento Computacional de Linguagens Científicas. FACIN-PUCRS.
NETO, J. M. de Oliveira; TONIN, S. Duarte; PRIETCH, S. Silva. Processamento de
Linguagem Natural e suas Aplicações Computacionais. Universidade Federal de
Mato Grosso - Campus Universitário de Rondonópolis.
MARTINS, Danilo; KATAOKA, Karina; TRINDADE, Leonardo. Processamento de
Linguagem Natural. Universidade Federal da Bahia. Salvador, Bahia, Julho de 2010.
Wikipedia, a enciclopédia livre. História da Computação. Disponível em
<https://pt.wikipedia.org/wiki/Hist%C3%B3ria_da_computa%C3%A7%C3%A3o>.
SAYÃO, Miriam. Verificação e Validação em Requisitos: Processamento da
Linguagem Natural e Agentes. Rio de Janeiro, Abril de 2007.
CASTILLA, André C. Instrumento de Investigação Clínico-Epidemiológica em
Cardiologia Fundamentado no Processamento de Linguagem Natural. São Paulo,
2007.
STOLFI, Rumiko O. Síntese e Reconhecimento da Fala Humana. Outubro de 2006,
Campinas.
BATISTA, P. dos Santos. Avanços em Reconhecimento de Fala para Português
Brasileiro e Aplicações: Ditado no LibreOffice e Unidade de Resposta Audível com
Asterisk. Campus Universitário do Guamá, Belém - Pará. 2013.

Mais conteúdos dessa disciplina