Unidad 1 full introdução ao PNL

Reconhecimento de Padrões

•

UNIVALI

Osvaldo Chapov

07/07/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Reconhecimento de Padrões

61 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Introdução ao processamento de
linguagem natural
Apresentação
A ideia de proporcionar aos computadores a capacidade de processar a linguagem humana é tão
antiga quanto as próprias ideias por trás do surgimento de um computador. Assim, você será
apresentado ao Processamento de Linguagem Natural (PLN) e a todas as principais ações dessa
vertente interdisciplinar que envolve a Ciência da Computação, a Inteligência Artificial, a Linguística
e, mais especificamente, o Aprendizado de Máquina (Machine Learning).
Nesta Unidade de Aprendizagem, você vai conhecer as principais informações básicas acerca da
linguagem natural e as motivações por trás do desenvolvimento do PLN. Em seguida, vai
entender toda a linha cronológica do PLN, com os principais fatos e pesquisadores, e seu fluxo
básico. Por fim, vai reconhecer as áreas do conhecimento que estão direta ou indiretamente
relacionadas ao PLN, além de compreender e comparar o papel deste em diferentes cenários de
problemas.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Descrever o fluxo básico do processamento de linguagem
natural (PLN).
•
Reconhecer as áreas de conhecimento relacionadas ao PLN.•
Comparar o papel do PLN em diferentes problemas.•
Desafio
O projeto de um algoritmo que utiliza técnicas de processamento
de linguagem natural (PLN) deverá considerar vários critérios da Linguística, além de técnicas do
Aprendizado de Máquina.
Suponha que você é responsável por um projeto de Inteligência
Artificial que visa à construção de um chatbot para uma rede social.
a) Aponte, de forma geral, os principais passos para a construção
desse sistema, seguindo um fluxo básico de ideias.
b) Descreva cada uma das etapas básicas de um projeto dessa natureza, em que é aplicado o
processamento de linguagem natural.
Osvaldo
Máquina de escribir
Entretanto, é importante lembrar que, neste caso, também é necessária uma etapa inicial adicional de processamento da fala, para que esta seja disponibilizada em texto.
Assim, no processamento da fala, existirão sistemas aptos para a captação de áudio e posterior transcrição, para conversão do áudio
em texto. Além disso, nesse primeiro momento, essa fala será gravada
e analisada, com o áudio sendo segmentado em palavras e frases.
Este é o pré-processamento, e se deve observar, ainda, que essas etapas contam também com recursos eletrônicos e equipamentos específicos, voltados para a captação do áudio em si, como o uso de microfones.
Antes de descrever as demais etapas, é importante saber que entender um texto ou grupo de textos está diretamente relacionado com a extração geral de informações para a aplicação final do sistema de processamento de linguagem natural. Assim, tem-se o reconhecimento do contexto, a realização das análises sintática e semântica, léxica e morfológica, além da capacidade de sintetizar o conteúdo abordado e
o possível aprendizado com os textos processados.
b) Etapas básicas que incluem um projeto dessa natureza, em que
é aplicado o processamento de linguagem natural:
Na análise léxica, o objetivo principal é estudar as unidades lexicais (palavras) do ponto de vista de sua morfologia, acessando e armazenando informações que serão utilizadas em análises posteriores mais aprofundadas. Um exemplo comum nesse tipo de análise é a tokenização lexical sentencial, que consiste em dividir frases em tokens, como, por exemplo: “Eu amo cachorro”, em que os tokens são "eu", "amo" e "cachorro".
Já na análise sintática, tem-se a atenção na estrutura das sentenças, conforme a definição da gramática formal, considerando várias noções comuns da área, como o fato de o significado estar na sentença como um todo e não nas palavras, isoladamente. Um exemplo desse tipo de análise é o part of speech tagging, em que se tem a separação e a organização estrutural de palavras dentro da frase.
A análise semântica traz, basicamente, o conhecimento dos significados e estuda a palavra propriamente dita, dentro de análises como a Named Entity Recognition (NER), que envolve o reconhecimento e a distinção
de determinadas palavras em frases, como nomes próprios, datas e outras mais.
Por último, a relação descrita pela análise pragmática trará o
“significado final”, correlacionando os significados das palavras e expandindo-os dentro da frase e dos textos, para correlação com a intenção do interlocutor ou do usuário que escreveu determinado texto, por exemplo. Ademais, é importante ressaltar que os resultados da área do PLN, em geral, apontam evidências de que esse tipo de análise ainda possa ser um elo perdido ou “frouxo” em diversas aplicações dentro do processamento de linguagem natural.
Osvaldo
Imagen colocada
Infográfico
O domínio da Linguística pode ser um diferencial na estrutura de programas e sistemas que
realizam o processamento de linguagem natural (PLN). Por isso, a construção e a compreensão da
linguagem natural são muito importantes em aplicações que envolvam o processamento desta.
Neste Infográfico, você vai ver uma revisão geral dos principais conceitos da Linguística.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/47cb1d9f-cf14-403d-98f6-65327ebf7fa3/367e121c-aa2c-4ae3-a9dd-cb44bde893cd.jpg
Conteúdo do livro
O funcionamento de um computador, em muitos aspectos, está relacionado ao processamento de
linguagem natural (PLN). Além disso, diversas ações e tecnologias do cotidiano são exemplos de
implementação desse tipo de processamento.
No capítulo Introdução ao processamento de linguagem natural, da obra Processamento de
linguagem natural, base teórica desta Unidade de Aprendizagem, você vai conhecer informações
básicas da linguagem natural e as motivações por trás, bem como todo o embasamento cronológico
e teórico para compreender as principais aplicações e algoritmos, além de entender o fluxo básico
do PLN.
Boa leitura.
PROCESSAMENTO
DE LINGUAGEM
NATURAL
Sofia Maria Amorim Falco Rodrigues
Introdução ao
processamento de
linguagem natural
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Descrever o fluxo básico do processamento de linguagem natural.
� Reconhecer as áreas de conhecimento relacionadas ao processamento
de linguagem natural.
� Comparar o papel do processamento de linguagem natural em di-
ferentes problemas.
Introdução
Você já deve ter ouvido falar sobre o processamento de linguagem na-
tural (PLN) ou, do inglês, natural language processing (NPL), por exemplo,
pela própria vertente da ciência da computação, em alguma aplicação
específica ou em outro contexto interdisciplinar. Aqui, o principal objetivo
consiste em apresentar e contextualizar o PLN como uma subárea da
ciência da computação, que também integra áreas como a inteligência
artificial, o aprendizado de máquina (ou, como mais conhecido em inglês,
machine learning) e a própria linguística, em que é responsável pelo estudo
da interpretação e geração automática da linguagem natural. Assim,
pretende-se que você consiga compreender, em um panorama geral, em
que contexto está inserida a disciplina dentro da ciência da computação,
além da vasta aplicabilidade de toda a metodologia envolvida.
Neste capítulo, você aprenderá como se dá o PLN, além de tornar-se
capaz de reconhecer as principais áreas de conhecimento relacionadas
a esse processamento. Ao final, conseguirá realizar comparações para
a compreensão do papel do PLN para diferentes problemas práticos.
1 Processamento de linguagem natural
Esse tipo de processamento segue um fluxo básico de análises e ações, conforme
visto na Figura 1 (DALE, 2010). Assim, nesse momento você compreenderá
inicialmente o que é a própria linguagem natural, analisando as ideias e a
estrutura básica para a implementação, para, depois, entender cada uma das
ações descritas no diagrama da Figura1. Um texto ou o conjunto de textos,
também denominado corpus ou corpora, corresponde à entrada do sistema
de processamento de linguagem natural (PLN). Em seguida, tem-se o estágio
de pré-processamento, que poderá envolver até mesmo análises do som e que
consiste geralmente na segmentação de unidades lexicais e de sentenças,
até que possam ser executadas cada uma das análises que trarão, ao final, o
significado intencional, no qual ocorre o entendimento por parte da máquina.
Figura 1. Estágios básicos comuns de
análise dentro do processamento de
linguagem natural.
Fonte: Adaptada de Dale (2010).
Introdução ao processamento de linguagem natural2
Osvaldo
Resaltar
Osvaldo
Resaltar
Antes de compreender as motivações por trás dessa vertente, que passou
a se configurar inclusive como uma área interdisciplinar de pesquisa, você
deverá entender, de antemão, o que é a linguagem natural humana.
Linguagem natural
Linguagem natural (ou, simplesmente, língua natural ou idioma) compreende
qualquer tipo de linguagem desenvolvida de forma natural pelo ser humano, e
não premeditada, considerada o resultado da própria facilidade inata humana
e basicamente subdivida entre língua falada e de sinais (MATTHEWS, 2003).
Contudo, fazendo um breve histórico, sabe-se que não há dados certos
quanto ao surgimento da linguagem nos seres humanos ou até mesmo em
seus ancestrais, ainda que se estime, a partir de evidências recentes, que a
linguagem natural tenha sido elaborada ou evoluído no continente africano,
antes mesmo da movimentação dos humanos em todo o planeta, há cerca de 50
mil anos, tornando-se importante lembrar que há, essencialmente, linguagem
natural na comunicação entre indivíduos, o que inclui até mesmo os povos
ancestrais (WADE, 2003).
Já do ponto de vista do processamento natural, pode-se pensar sobre as
relações entre a linguagem e o cérebro humano além do próprio funcionamento
da linguagem. Embora reitere-se que sabe muito pouco acerca das relações
exatas entre a linguagem, a maneira como a percebemos e o próprio cérebro
humano, alguns pesquisadores atribuem um crescimento já constatado do cé-
rebro humano, comparando-o a tempos anteriores, como o próprio surgimento
da linguagem (LORITZ, 2002). Com relação às características envolvidas na
linguagem natural, como a própria fala, entende-se que esse processo se dá
pela proferição de unidades, denominadas palavras ou, em menores escalas,
letras, vogais e consoantes, embora essa divisão possa se tornar desafiadora em
diversos contextos (LADEFOGED; MADDIESON, 1996). Além disso, como é
esperado, a fala reflete diretamente na linguagem falada e entende-se também,
por consequência, que a linguagem falada variará no tempo e no espaço e que
informações relevantes sobre essa característica advêm de estudos da forma
como as línguas faladas mudam, além do fato de que, independentemente da
velocidade de fala de um idioma, a transmissão de informação é estimada em
uma velocidade de 39 bits por segundo (MATACIC, 2019).
3Introdução ao processamento de linguagem natural
Osvaldo
Resaltar
Osvaldo
Resaltar
Ainda no contexto do funcionamento da linguagem natural, pode-se des-
tacar as linguagens de sinais, outra de suas variedades, com complexidades
também relacionadas às estruturas gramaticais, além da própria capacidade
de expressão atrelada, caso em que está diretamente associada à comunicação
(SACKS, 2009).
Todavia, conforme o contexto já apresentado e o seu próprio contato com
uma linguagem, seja um idioma do país de origem com o qual você se comu-
nica, seja uma língua de sinais, há o estabelecimento de uma série de regras
para a construção tanto da própria forma escrita quanto da falada, aspectos
que serão explorados a seguir para que você entenda como isso se dá de forma
básica e geral, além de certos exemplos e aplicações específicas. Ademais,
você verá as principais motivações envolvidas no PLN, para compreender o
surgimento desta vertente interdisciplinar.
Motivações
O estudo do PLN poderá avaliar, por exemplo, problemas relacionados à gera-
ção e à compreensão automática de línguas naturais humanas, o que mostra a
infinidade de sua aplicabilidade, visto as próprias premissas de estabelecimento
de linguagem natural: a comunicação falada e de sinais. Além disso, um dos
principais desafios, de fato, consiste na compreensão da linguagem natural,
relacionada ao “fazer com que o computador compreenda”, tornando-o capaz
de extrair “sentido” da linguagem natural humana e, também, à geração de
linguagem natural, outra ação dentro do PLN.
Um dos principais objetivos a destacar no PLN é simplesmente fazer com
que os computadores executem tarefas úteis que envolverão a própria lin-
guagem humana, como a habilitação da comunicação entre o humano e a
máquina, atuação na melhoria da comunicação entre os próprios humanos ou
até mesmo na execução de processos úteis que se utilizem de textos ou falas
(JURAFSKY; MARTIN, 2008).
Assim, compreendendo as principais razões para o desenvolvimento do
PLN, você deverá agora entender o histórico no qual este ocorreu, analisando
toda a linha cronológica com os principais fatos e pesquisadores envolvidos.
Introdução ao processamento de linguagem natural4
Osvaldo
Resaltar
Histórico do processamento de linguagem natural
Sem dúvidas, o primeiro marco a ser citado para o PLN se deu em 1950, pelo
matemático, cientista da computação e pesquisador Alan Turing, quando da
publicação na ocasião do trabalho Computing machinery and intelligence
(traduzido para o Brasil como “Computadores e Inteligência”), pioneiro não
somente no ramo de inteligência artificial, mas também em toda a ciência
da computação, tornando-se o responsável especialmente pela resposta da
questão: “as máquinas podem pensar?”. Além disso, com esse trabalho Turing
formulou o que hoje se conhece como teste de Turing, basicamente uma ma-
neira de avaliar a capacidade de uma máquina em exibir um comportamento
considerado inteligente, pela semelhança com o comportamento humano,
essencialmente. Ademais, a proposta é converter a pergunta apresentada em
outra menos ambígua: “Há como imaginar um computador digital que faria
bem ‘o jogo da imitação’?”.
O trabalho de Alan Turing pode ser visto em Parsing the Turing Test (TURING, 2009). Ainda,
é possível visualizar várias outras informações sobre esse importante pesquisador da
área em buscas simples na internet, contextualizando com o cenário atual dentro da
inteligência artificial, machine learning e o próprio PLN.
Sequencialmente a Turing, em 1954, destacou-se a experiência de Geor-
getown (HUTCHINS, 2004), na qual se fez a tradução automática de mais de
60 frases em russo para o inglês, fato que marcou tanto o PLN quanto a própria
ciência da computação. Por sua vez, surgiram na prática sistemas estatísticos
de tradução no final da década de 1980, que contradiziam a expectativa de
que em até 5 anos a tradução automática estivesse resolvida, além do fato
de que experimentos e pesquisas anteriores ao surgimento desses sistemas
tinham se desenvolvido em meio a um cenário desmotivador, pelos resultados
insuficientes inesperados e pela redução de investimentos.
5Introdução ao processamento de linguagem natural
Adicionalmente, na década de 1960, é possível citar sistemas bem-sucedidos
de PLN denominados SHRDLU, programas desenvolvidos para a interação
humana com termos em inglês, com base no arranjo das teclas de letras em uma
máquina Linotype (ETAOIN SHRDLU), organizados em ordem decrescente
de frequência de uso na língua inglesa (WINOGRAD, 1972). Esse sistema
trabalhava com os denominados mundos dos blocos, um dos mais famosos
domínios da inteligência artificial, em linguagem com vocabulário restrito e
com a simulação ELIZA (WEIZENBAUM, 1966), o primeiro software para
simulação de diálogos, empregando pouca informação sobre o pensamento e/
ou a emoção humana para a criação do diálogo, também tido como um tipo de
chatterbot (em português,“programas que simulam humanos na conversação
interpessoal”).
Já por volta dos anos 1970 e 1980, diversos programadores iniciaram a
escrita do que se chamou “ontologias conceituais”, responsáveis pela estru-
turação das informações do mundo real em dados que eram compreensíveis
para o computador, cujos alguns exemplos de resultados são organizados em
ordem crescente no tempo: MARGIE (RIESBECK et al., 1975), TaleSpin
(MEEHAN, 1976), QUALM (LEHNERT, 1977), SAM (CULLINGFORD,
1978), PAM (SCHANK; WILENSKY, 1978), Politics (CARBONELL, 1979)
e Plot Units (LEHNERT, 1981).
Basicamente, uma ontologia, com relação à própria ciência da computação, refere-se
a um conjunto de especificações formais e explícitas de uma conceitualização, que, no
PLN, pode ser observada em exemplos específicos, como a facilitação da tradução de
textos médicos, quando se baseia em textos especializados e até mesmo dicionários
médicos.
Ademais, no período é possível citar diversos chatterbots, como o PARRY,
de 1971 (COLBY; WEBER; HILF, 1971), o Racter (CHAMBERLAIN, 1984)
e o Jabberwacky, criado pelo programador britânico Rollo Carpenter, com os
primeiros resultados datados por volta de 1981.
Introdução ao processamento de linguagem natural6
Osvaldo
Resaltar
Para mais detalhes sobre o chatterbot Jabberwacky existe um site oficial, com histórico
e demais informações. Acesse no link a seguir.
https://qrgo.page.link/weFCV
Até meados da década de 1980 a maior parte dos algoritmos era realizada
com base em conjuntos de regras manuscritas, contudo, ao final da década,
houve o que foi considerada a revolução no processamento de linguagem
natural, sobretudo pela introdução de algoritmos de aprendizagem automática
(a aprendizagem de máquina, ou, como mais conhecida, machine learning),
o que foi possível pelo aumento constante da capacidade dos computadores,
dentro da expectativa da lei de Moore, e, também, por modificações específicas
dentro da linguística. Além disso, processos como a marcação de partes da
fala (conhecida como part-of-speech tagging) introduziram na época o uso
de modelos ocultos de Markov, voltando a construção dos algoritmos ao uso
de modelos estatísticos, que utilizam, por exemplo, pesos diferenciados aos
componentes de dados de entrada, nos quais se enquadram os modelos de
linguagem de cachê, muito usados em sistemas destinados ao reconhecimento
de fala.
Do ponto de vista dos próprios modelos e algoritmos, observa-se que
boa parte das implementações de tarefas dentro do PLN envolvia o processo
de codificação direta de muitos conjuntos de regas. Analisando ainda de
maneira geral, entende-se que boa parte dos resultados vistos até os dias
atuais no campo do PLN está relacionada à tradução automática, como os
trabalhos desenvolvidos pela International Business Machines Corporation
(IBM) e os sistemas com modelos estatísticos aplicados ao Parlamento do
Canadá e da União Europeia. Em contrapartida, atualmente observa-se que
os algoritmos mais modernos se baseiam em processos de aprendizagem
mecânica, principalmente na aprendizagem de máquinas estatísticas dentro
da própria aprendizagem automática, sobretudo em algoritmos de árvores de
decisão (HUTCHINS, 2005). Nos últimos 5 anos, estima-se ainda uma nova
tendência no processamento, em razão do destaque do desenvolvimento de
algoritmos de aprendizagem profunda (mais conhecidos como deep learning).
7Introdução ao processamento de linguagem natural
Osvaldo
Resaltar
Caso o leitor deseje saber mais detalhes sobre os modelos mencionados, desenvolvidos
pela IBM, pode obter mais informações sobre o Projeto Candide, um de seus pioneiros,
em Berger et al. (1994).
Assim, analisando o contexto histórico atual, com o cenário de inserção
tecnológica estabelecido principalmente com o uso cada vez mais frequente de
computadores e o surgimento do smartphone, o PLN assume um papel cada
vez mais protagonista, em virtude, de maneira geral, do grande fluxo de dados.
Além disso, prevê-se e sabe-se que a quantidade de informações disponíveis no
meio digital tende ainda a se manter em crescimento exponencial, o que traz
à tona a necessidade do PLN para facilitar, por exemplo, a própria absorção
de informações digitais pelo ser humano. Para compreender melhor alguns
exemplos de aplicações do PLN, considere o exemplo a seguir.
Considere o contexto estabelecido pela rotina apresentada a seguir.
Assim, às 6h da manhã, o relógio desperta para a pessoa ir trabalhar; a esse ponto do
dia, um sensor na cama detecta ativando a cafeteira e ligando o chuveiro. Em seguida,
enquanto toma seu café, essa pessoa pergunta para o próprio smartphone qual será a
previsão do tempo para o dia de hoje e solicita a ele um resumo das principais notícias
até o horário. Depois, já ao sair de casa, também com o auxílio do smartphone essa
pessoa acessa um mapa, ligando o GPS (do inglês, global positioning system ou “satélite
de posicionamento global”) que a guiará; ao chegar ao trabalho, precisa fazer uma
busca no Google; depois, tem em suas mãos um documento escaneado por alguém;
e, durante sua pausa, ao marcar uma consulta médica, uma atendente automática o
guiará por meio de opções até a marcação.
No final do dia, ao chegar em casa, essa pessoa nota que recebeu uma multa em
seu nome, pois um radar detectou que ela avançou o sinal vermelho há 2 meses.
Durante seu descanso, acessa o YouTube, porém o vídeo que ela quer ver está inaudível,
levando-a a ligar a ferramenta de legenda automática para ajudá-la a entender.
Dessa forma, note que essa rotina descrita poderá ser a de boa parte das pessoas
nos dias de hoje, com diversas ações e tarefas que contam com o uso da tecnologia.
Entretanto, é necessário entender nesse ponto: o que grande parte dos acontecimentos
descritos tem em comum? A resposta é simples: todos utilizam técnicas de PLN, seja
em ações para auxiliar o usuário, seja na comunicação entre diferentes tecnologias.
Introdução ao processamento de linguagem natural8
Logo, como já esperado, hoje o PLN está presente em diversas situações
cotidianas, por exemplo nas duas das principais redes sociais em todo o mundo:
o Instagram e o Facebook. Dessa forma, por meio de técnicas de aprendizado de
máquina, existem algoritmos nessas redes para encontrar padrões em grandes
conjuntos de dados, por exemplo, capazes de reconhecer a linguagem natural
para a análise de sentimentos, em que esses algoritmos poderão procurar por
padrões em postagens, até mesmo para compreender como os indivíduos se
sentem em relação a empresas e/ou a determinados produtos em específico.
A Figura 2 resume a linha cronológica do PLN com alguns dos fatos,
sistemas e algoritmos mais marcantes vistos neste tópico.
Figura 2. Linha cronológica do processamento de linguagem natural.
Aprendizado de
máquina em geral e
Aprendizado
profundo
Mais recente
Programas: Plot units
Chatterbot: Racter,
Jabberwacky
Tendências: modelos
Aprendizado
de máquina
Década de 80
SHRDLU e Eliza
Terry Winograd
1968
Experiência de
Georgetown
Georgetown
University e IBM
1954
Computing machinery
and intelligence
Alan Turing
1950
Década de 70
Programas: MARGIE,
Talespin, Qualm, SAM,
PAM, Politics
Chatterbots: PARRY
A seguir, você verá uma introdução ao PLN e suas principais ações rela-
cionadas, com o fluxo básico de ideias de um algoritmo.
Informações gerais sobre o processamento de
linguagem natural
A partir de agora, você observará a ideia básica por trás do processamento
de linguagem natural, a fim de compreender também as principais ações
proporcionadas com algoritmos da área.
9Introdução ao processamento de linguagem natural
Assim, do ponto de vista da própria linguagem, como já foi possível com-
preender, a linguagem natural é a principal e mais comum ferramenta de
comunicação da relação humana. E o computador também dispõe de mecanis-
mos análogos de comunicação, representados pelas linguagens formais para o
processamento das informações, como Java,Python, etc. Entretanto, na lin-
guagem natural, tanto na forma escrita quanto na falada, há uma infinidade de
regras complexas e que resultam em diversos casos de ambiguidade, sobretudo
quando consideramos os diversos idiomas existentes. Assim, em geral um dos
principais desafios no PLN consiste no desenvolvimento de sistemas capazes de
entender a linguagem natural dentro de todos os parâmetros comuns envolvidos
na construção da linguagem formal como conhecida, independentemente do
idioma e de acordo com as especificidades de cada idioma e das aplicações,
além de outros desafios e mais detalhes mencionados adiante.
Para entender o fluxo básico do PLN, considere os dois grandes exemplos
apresentados a seguir: o agente de conversação (sistema de diálogo) e a
máquina de tradução. O primeiro é um exemplo de tarefa bastante útil e de
grande aplicabilidade dentro do PLN: um dos mais conhecidos e citados de
agente de conversação é o próprio computador HAL 9000, do filme “2001:
uma odisseia no espaço”. Na ocasião, demonstrou-se que o HAL é um agente
artificial capaz de realizar comportamentos linguísticos avançados, como
falar e entender o inglês e, conforme demonstrado no enredo do próprio filme,
até mesmo realizar a leitura de lábios em certos momentos. Além disso, um
agente de conversação moderno incluirá um sistema que proporcionará o
reconhecimento automático da fala e a compreensão da linguagem, que será,
em termos resumidos, o estágio de entrada da linguagem e a saída desta, em
que parte do sistema ou um sistema adicional é responsável pelo diálogo, pelo
planejamento da resposta e pela síntese de fala. Continuando, outra tarefa
útil que se relaciona diretamente ao idioma refere-se à tradução automática,
proporcionada pela introdução de algoritmos e ferramentas matemáticas, que,
por sua vez, está ainda distante de soluções definitivas pelas dificuldades já
mencionadas, como a complexidade do estabelecimento da linguagem natural,
que se dá por meio de regras e mecanismos específicos e que podem provocar
ambiguidades (JURAFSKY; MARTIN, 2008).
No Quadro 1, tem-se uma visão geral do PLN, com os principais objetivos,
conhecimentos necessários sobre artes e humanidades e ciência e engenharia.
Introdução ao processamento de linguagem natural10
Osvaldo
Resaltar
Osvaldo
Resaltar
Fonte: Adaptado de Bird, Klein e Loper (2009).
Objetivos
principais
Conhecimentos de
artes e humanidades
Conhecimentos de
ciência e engenharia
Análise da
linguagem
Manipular grandes
corporas (conjuntos de
textos escritos ou registros
orais), explorando modelos
linguísticos e testando
afirmações empíricas
Uso de técnicas dentro
da modelagem de dados,
mineração de dados
e da descoberta de
conhecimento para analisar
a linguagem natural
Linguagem
tecnológica
Construir sistemas
robustos para performar
tarefas linguísticas com
aplicações tecnológicas
Uso de algoritmos
linguísticos e estrutura
de dados em programas
robustos de processamento
de linguagem
Quadro 1. Habilidades e conhecimentos envolvidos no processamento de linguagem
natural
Assim, é possível notar que, de maneira geral, o que distinguirá sistemas
cujas aplicações se destinam ao PLN dos demais sistemas de processamento
será o próprio uso do conhecimento da linguagem, em níveis mais complexos
ou não conforme a aplicação em si. A seguir, você verá as principais áreas nas
quais o PLN atua, envolvendo os conhecimentos linguísticos.
2 Atuação do processamento de linguagem
natural quanto às áreas do conhecimento
linguístico e exemplos práticos
O conhecimento linguístico principal para o uso do PLN nas mais diversas
aplicações modernas e clássicas envolverá em grande parte dos casos, com
exceção de aplicações específicas e restritas usos determinados, as competên-
cias linguísticas (JURAFSKY; MARTIN, 2008) listadas a seguir.
� Fonética e fonologia: o conhecimento relacionado ao som da linguagem.
� Morfologia: tratará sobre os componentes significativos das palavras.
� Sintaxe: retrata a relação estrutural existente entre palavras.
� Semântica: conhecimento dos significados.
11Introdução ao processamento de linguagem natural
� Pragmática: retrata a relação entre o significado e as intenções e os
objetivos do locutor.
� Discurso: responsável pelo conhecimento das unidades maiores da
linguística.
Essas competências e seu respectivo tratamento serão vistos de modo geral,
dentro de suas funções e exemplos no PLN, com a introdução das tarefas
executadas nesse processamento.
Principais tarefas no processamento de linguagem
natural e exemplos práticos
Algumas das principais tarefas a realizar dentro do PLN poderão estar ligadas
diretamente à sintática, como a segmentação, o part of speech tagging e a
análise de dependência. Na segmentação, tem-se a divisão de um texto em
frases ou em palavras, por exemplo, ou mesmo a divisão de palavras que
formam esse texto nos denominados morfemas, unidades significativas dentro
da palavra. No part-of-speech tagging (“marcação de partes da fala”, há uma
análise baseada no “rótulo” de cada palavra dentro de uma frase dada. Para
entendê-lo, considere a frase: “Eu me interesso por inteligência artificial” —
“eu” é o sujeito, por exemplo, e nesses rótulos apresenta-se a função sintática
de cada palavra. Por último, existe a análise de dependência, que pode ser feita
por meio da construção de uma árvore de dependência como uma estratégia
para compreensão da relação entre as partes da frase. Assim, considerando
a frase exemplificada, o verbo poderá ter outras partes relacionadas a ele,
como um objeto ou até mesmo um pronome. Uma das principais aplicações
da análise de dependência dentro do PLN consiste na análise de sentimento,
que, considerando novamente a dependência entre os itens da frase, poderá
revelar à máquina, por exemplo, se determinada pessoa se interessa por in-
teligência artificial.
No exemplo a seguir, você verá a execução da segmentação de palavras,
para entender essa ação no contexto do PLN.
Introdução ao processamento de linguagem natural12
Osvaldo
Resaltar
Osvaldo
Resaltar
Osvaldo
Resaltar
Osvaldo
Resaltar
Considere a seguinte frase:
As eleições dos EUA resultaram na vitória do candidato A.
Realizando a segmentação por palavras, deverão ser retornadas as seguintes divisões:
As; eleições; dos; EUA; resultaram; na; vitória; do; candidato; A
Assim, o computador deverá conseguir não somente compreender que os espaços
em branco significam, nesse caso, o começo e o fim das palavras, mas também entender
corretamente que EUA também devem ser considerados um elemento único.
Outra questão bastante relevante com relação à segmentação e que deve
ser considerada reside no fato de que essa tarefa não é algo tão trivial, espe-
cialmente quando consideramos a multiplicidade de idiomas existentes e suas
estruturas diversas. Assim, considerando como exemplo a língua inglesa,
pode-se notar que as palavras nela são separadas por espaços em branco, o
que compreende um padrão para muitas outras línguas, como o português,
embora haja exceções a essa regra (p. ex., o chinês).
Agora tenha em conta o próximo caso, em que se utiliza a análise de senti-
mento, tomando como exemplo o Twitter para estudar o cenário estabelecido
na Eleição Geral de 2015 no Reino Unido.
Considere o seguinte exemplo de aplicação do PLN, destinado às análises sobre
a Eleição Geral de 2015 no Reino Unido (BURNAP et al., 2015): pela análise dos 140
caracteres de cada mensagem elaborada no ambiente do Twitter, os denominados
tweets, obtiveram-se diversos resultados a analisar e que forneceram previsões concretas
sobre a mudança de compartilhamento de voto em 2015 a partir de 2010, com base
na própria rede social e em vitórias projetadas.
13Introdução ao processamento de linguagem natural
Contudo, embora a análise de sentimentos configure-se como uma ferra-
menta para geração de diversos resultados e grande aplicabilidade, deve-se
tomar alguns cuidados,sobretudo do ponto de vista do uso de dados disponi-
bilizados pela própria internet. Assim, entende-se que, ao mesmo tempo que
há uma vasta quantidade de informações disponíveis, existe uma quantidade
expressiva nesse montante que poderá ser irrelevante ao contexto de análise.
Ainda, as fontes e os formatos dos dados são diversos, em muitos casos não há
uma estrutura coesa dos dados, além do fato de que, especialmente no caso de
dados digitais, o uso de informalidades na fala e na escrita é expressivamente
mais comum, o que também pode dificultar as análises. Também é preciso
considerar a possibilidade de manipulação dos dados, a existência de boatos
e a variável temporal, pois em diversas análises e para vários tipos de dados
o tempo poderá atuar diretamente na usabilidade das informações fornecidas
pelos dados.
Com relação à semântica, é possível citar a tradução automática, o named
entity recognition (NER), determinadas representações semânticas, a aná-
lise de tópicos e a própria análise de sentimento. A tradução automática,
já introduzida, é, sem dúvidas, uma das principais funcionalidades dentro
do PLN. Já o NER, o reconhecimento de entidades nomeadas, proporciona
a distinção em textos ou frases do que é, dentro dessas estruturas, uma pes-
soa, um lugar ou mesmo uma data, a partir emprego apenas das estruturas
sintáticas e semânticas, sem o auxílio externo de outros bancos de dados. Na
representação semântica, analisa-se como é possível representar uma palavra
ou uma frase semanticamente, para extrair relações para comparação, ana-
lisando palavras plurais, sinônimos, em contextos similares, etc. Por análise
de tópicos, entende-se a capacidade de extração de características gerais de
textos, como os assuntos tratados, as similaridades semânticas entre diferentes
documentos, etc. Já a análise de sentimento, conforme mencionado, poderá
revelar posicionamentos positivos e negativos, mas também ser utilizada em
aplicações diversas do PLN, executada do ponto de vista semântico.
Adicionalmente à competência da semântica, é necessário definir a tarefa
de análise semântica, que, conforme Goddard e Schalley (2010), tem como
objetivo final, tanto para pessoas quanto para sistemas de PLN, entender o
enunciado: não apenas ler o que está escrito, mas também compreender a
declaração. Além disso, do ponto de vista pragmático, há aplicações como
extração de informação, criação automática de resumos, data mining, tradução
automática, tratamento de parâmetros de pesquisa de usuários, sistemas de
representação do conhecimento, etc.
Introdução ao processamento de linguagem natural14
Osvaldo
Resaltar
Osvaldo
Resaltar
Osvaldo
Resaltar
Osvaldo
Resaltar
Por último, há ainda tarefas diretamente relacionadas ao discurso e à fala,
como a sumarização automática, em que são utilizados algoritmos capazes
de coletar todas as informações de um livro e fornecer resumos, e o próprio
diálogo, cujos principais exemplos são os chatterbots, importantes algoritmos
que proporcionam o diálogo direto entre a máquina e o indivíduo, além de
assistentes dentro de sistemas, como o Google Assistent, a Siri, etc. Nesses
exemplos, destaca-se a capacidade de “pensar” adquirida. Na Figura 3, é ob-
servada a divisão por níveis de um sistema dessa natureza, de diálogo por fala.
Figura 3. Sistema de diálogo por fala — divisão por níveis de processamento.
Fonte: Adaptada de Bird, Klein e Loper (2009).
Note que o sistema de diálogo por fala é bastante completo do ponto de
vista do PLN, com boa parte dos elementos linguísticos e complexidades
vistos até agora. Assim, para compreender como de fato esse sistema funciona,
considere o exemplo a seguir.
Suponha que você resolva perguntar a um sistema de diálogo como o Google Assistent
se você deve levar um guarda-chuva com você amanhã, quando sair de casa. Em um
primeiro momento, esse áudio será gravado e se fará a análise da fala, quebrando o
áudio em palavras e frases, traduzindo-a em forma de texto e realizando uma análise
morfológica, sintática e léxica, transformando o que foi falado de fato em palavras
isoladas. Na etapa de análise sintática (mais conhecida do inglês parsing), entendem-se
quais os elementos são verbos, sujeitos, etc., e, assim, se realiza a análise semântica, para
entender de fato o que o interlocutor disse. No processamento semântico, tem-se o
15Introdução ao processamento de linguagem natural
“raciocínio” do diálogo, caso em que o Google, por exemplo, analisará pela localização
via GPS a previsão do tempo no local para fornecer a resposta correta; então, no
processamento de raciocínio, tem-se a mudança de sentido do fluxo de execuções,
para que o assistente consiga responder corretamente ao indivíduo. Durante a “mon-
tagem” da resposta, são levados em consideração processos similares, para a correta
formulação da resposta e análise morfológica da resposta a caminho para que sejam
estabelecidos, primeiro, os morfemas e, por último, a estrutura da própria palavra.
Além disso, o processo de conversão da linguagem natural em uma repre-
sentação útil ao computador, por meio de ferramentas da linguística, é consi-
derado comumente o primeiro componente geral do PLN: o NLU (do inglês,
natural language understanding, ou “entendimento da linguagem natural”).
Para tal finalidade, é possível citar, por exemplo, a análise de sentimentos, a
análise de palavras-chave dentro de um texto, etc. O segundo componente visto
dentro da PLN, por sua vez, compreende o processo de geração da linguagem
natural, a partir da saída de uma máquina, abreviado como NLG (do inglês,
natural language generation, ou “geração de linguagem natural”). Nesse caso,
ainda é possível citar assistentes virtuais e até mesmo o processo de geração
de legendas a partir de um vídeo.
A seguir, tem-se uma introdução aos principais desafios, que também está
diretamente relacionado à linguística: a ambiguidade.
Ambiguidade no processamento de linguagem natural
A ambiguidade pode representar um desafio persistente dentro do PLN como
um todo, como você verá a seguir. Assim, Jurafsky e Martin (2008) destacaram
que a ambiguidade envolve todas as complexidades e análises linguísticas
vistas anteriormente, pois a maioria das tarefas ao longo do processamento não
só da fala, mas também da linguagem pode ser vista como uma ambiguidade
resolutiva, em uma ambiguidade a cada um desses níveis.
Diz-se, então, que uma entrada é ambígua para o PLN se várias estruturas
linguísticas alternativas ambíguas puderem ser construídas para esta, como
no exemplo a seguir.
Introdução ao processamento de linguagem natural16
Osvaldo
Resaltar
Considere a seguinte frase:
Andréia pediu a Fabiano que pegasse sua mochila na sala.
Note que, para essa simples frase, existem ainda outras formas de construir uma
estrutura diferente, mas que produz o mesmo significado, pois, afinal, a mochila de
quem deveria ser pegada?
A ambiguidade poderá ocorrer também em outras formas, dependendo
da construção do texto e das frases, o que gera, basicamente, incoerências no
PLN. Para que isso se torne ainda mais claro, basta você pensar o seguinte:
o seu entendimento sobre a frase do exemplo foi dificultado? A instrução
estava completamente clara? O que se deve analisar é que, similarmente ao
tratamento de ambiguidades na comunicação humana, dentro das construções
da linguagem natural, o computador estará ainda mais propenso a erros.
A seguir, você entenderá de maneira mais direta a atuação de algoritmos
e sistemas de PLN em diferentes problemas e aplicações, evidenciando, so-
bretudo, a interdisciplinaridade do uso das técnicas.
3 Atuação do processamento de linguagem
natural quanto aos diferentes problemas
A partir de agora, serão enfatizadas as aplicações e resoluções de problemas
a partir de técnicas do PLN, que envolvem diversas áreas e disciplinas.
Iniciando pela própria linguística, em problemas destinados à melhoria de
comunicação a partir da realização de traduçãohá diversos exemplos, inclusive
disponibilizados gratuitamente, como a transcrição de fala, em que o locutor
fala e o computador é responsável pela transcrição da fala, ou o contrário.
O próprio tradutor do Google é um exemplo desse tipo de aplicação, em que
se pode citar a seguinte situação de transcrição de fala a partir do PLN: o ato
de digitar uma palavra, selecionar o idioma para aprender a pronúncia é um
recurso bastante utilizado para ouvi-la a partir da resposta do tradutor. Ainda
sobre tradutores, tem-se o neural machine translation (NMT), a máquina de
tradução automática também fornecida pelo Google, que se configura como
17Introdução ao processamento de linguagem natural
uma modificação que promoveu diversos ganhos à tradução obtida ao final,
já que a tradução nessas ferramentas era feita, no início, frase à frase, e hoje o
é a partir de implementações de técnicas de deep learning. Assim, atualmente
o uso desse tipo de técnica permite a memorização das palavras, impactando
diretamente no sentido final do texto ou no conjunto de textos traduzidos,
melhorando o sentido final construído.
Os chatbots configuram-se também como grandes exemplos do uso atual
do PLN, como alguns dos principais e mais usados de sistemas de diálogo.
Há, ainda, sistemas de perguntas de respostas, criados a partir do uso do PLN,
em que geralmente o usuário passa por um sistema de PLN que, então, será
capaz de fornecer as respostas necessárias. Além disso, uma das principais
possibilidades de aplicação desse tipo de sistema é sua inserção em fóruns e
até mesmo em plataformas destinadas ao ensino a distância, possibilitando
aos alunos respostas sobre dúvidas de determinados conteúdos.
No ramo das linguagens de programação, existem vários exemplos de sistemas de
perguntas e respostas, capazes de fornecer auxílio e exemplos práticos, a fim de sanar
dúvidas sobre o tema de forma on-line. Um deles é o Stack Over Flow, um site de
perguntas e respostas destinado a programadores, curiosos e entusiastas da área, que
exige apenas a inscrição do usuário para que possa usufruir dos serviços. Além disso,
no sistema qualquer um desses usuários pode realizar as perguntas e qualquer outro
respondê-las, além do fato de as melhores respostas receberem votações positivas
até atingirem a classificação de 1º lugar.
https://qrgo.page.link/2SeFt
Os sistemas de perguntas e respostas funcionam na prática da seguinte
maneira: um robô é treinado para aprender as respostas, para que estar apto a
responder às perguntas de um aluno ou outro participante de um fórum sem
auxílio humano.
Contudo, destaca-se outro problema, que pode ser auxiliado por técnicas e
programas do PLN, relacionado à absorção de um grande volume de conteúdos
e informações: a sumarização de textos. Um exemplo prático de algoritmos
que usam essa tarefa pode ser visto em Cabral (2015), em que se propõe uma
plataforma destinada à tarefa.
Introdução ao processamento de linguagem natural18
O Image Captioning, a tarefa de ter uma imagem dada e descrevê-la, é
proporcionado pelas técnicas do PLN e constitui-se em uma aplicação também
bastante multidisciplinar, funcionando basicamente da seguinte forma: suponha
que há uma fotografia de uma flor em um jardim. Para a tarefa de reconheci-
mento, o computador deverá ser capaz de armazenar todas as dependências
e elementos, com técnicas de redes neurais e em vídeo. Um exemplo prático
dessa tarefa para imagens é apresentado a seguir.
O reconhecimento de imagem pode ser utilizado em aplicações visando à resolução e
ao atendimento de diversos problemas. Assim, neste exemplo você verá um trabalho
realizado para auxiliar na monitoração de alagamentos.
Em um dos trabalhos do pesquisador Roger Wang, um especialista na aplicação
de dados na investigação de problemas ambientais, da Universidade de Dundee, na
Escócia, foram usadas duas técnicas dentro da inteligência artificial — o processamento
de linguagem natural e a visão computacional — para monitorar a ocorrência de
alagamentos, utilizando como dados os tweets no Twitter e recursos gráficos como
fotos disponibilizadas no MyCoast (um aplicativo criado para supervisionar o litoral
norte-americano com imagens fornecidas pelos usuários).
A própria análise de sentimentos, vista ao longo deste texto, representa
uma das principais aplicações do PLN, especialmente quando se observam
a aplicabilidade e a tendência atual do uso desse tipo de análise no universo
crescente do uso de redes sociais e de grandes volumes de dados digitais
diversos. Além dos exemplos destacados, sabe-se que grande parte do próprio
funcionamento das redes sociais se dá pela análise de sentimentos, com uma
tendência cada vez maior de uso em estratégias comerciais.
Existem trabalhos diretamente relacionados às redes sociais e ao uso do PLN, capazes
de fornecer informações interessantes para diversas áreas. Nesse sentido, sugerimos
ao leitor o livro Análise de redes sociais: uma visão computacional, de Gabardo (2015).
19Introdução ao processamento de linguagem natural
Osvaldo
Resaltar
Por último, as pesquisas mais recentes indicam ao estado da arte do PLN
que o uso de técnicas como a aprendizagem profunda (deep learning) aponta
um novo horizonte de possibilidades, tanto no PLN quanto na própria resolução
de problemas ainda em aberto, referentes à inteligência artificial, mas com
interface para áreas multidisciplinares.
BERGER, A. L. et al. The Candide system for machine translation. In: WORKSHOP ON
HUMAN LANGUAGE TECHNOLOGY, 1994, Stroudsburg. Proceedings [...]. Stroudsburg:
Association for Computational Linguistics, 1994. p. 157–162.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with
the natural language toolkit. [S. l.]: O'Reilly Media, 2009.
BURNAP, P. et al. 140 characters to victory? Using Twitter to predict the UK 2015 General
Election. Electoral Studies, [s. l.], v. 41, p. 230–233, 2016.
CABRAL, L. S. Uma plataforma para sumarização automática de textos independente de
idioma. 2015. Tese (Doutorado em Engenharia Elétrica) — Programa de Pós-Graduação
em Engenharia Elétrica, Universidade Federal de Pernambuco, Recife, 2015.
CARBONELL, J. G. Subjective understanding: computer models of belief systems. New
Haven: Yale University, 1979.
CHAMBERLAIN, W. The policeman’s beard is half constructed. [S. l.]: Warner Books, 1984.
COLBY, K. M.; WEBER, S.; HILF, F. D. Artificial paranoia. Artificial Intelligence, [s. l.], v. 2, n.
1, p. 1–25, 1971.
CULLINGFORD, R. E. Script application: computer understanding of newspaper stories.
1978. Disponível em: https://apps.dtic.mil/docs/citations/ADA056080. Acesso em: 07
mar. 2020.
DALE, R. Classical approaches to natural language processing. In: INDURKHYA, N.;
DAMERAU, F. J. (ed.). Handbook of natural language processing. 2nd ed. Boca Raton:
Chapman & Hall, 2010.
GABARDO, A. C. Análise de redes sociais: uma visão computacional. [S. l.]: Novatec, 2015.
GODDARD, C.; SCHALLEY, A. C. Semantic analysis. In: INDURKHYA, N.; DAMERAU, F. J. (ed.).
Handbook of natural language processing. 2nd ed. Boca Raton: Chapman & Hall, 2010.
HUTCHINS, J. The history of machine translation in a nutshell. [S. l.: s. n.], 2005.
HUTCHINS, J. The Georgetown-IBM experiment demonstrated in January 1954. In:
CONFERENCE OF THE ASSOCIATION FOR MACHINE TRANSLATION IN THE AMERICAS,
6., 2004, Washington. Proceedings [...]. Springer: Heidelberg, 2004. p. 102–114.
Introdução ao processamento de linguagem natural20
JURAFSKY, D.; MARTIN, J. H. Speech and language processing. 2nd ed. [S. l.]: Pearson
Prentice Hall, 2008.
LADEFOGED, P.; MADDIESON, I. The sounds of the world's languages. Oxford: Blackwell,
1996.
LEHNERT, W. G. Plot units and narrative summarization. Cognitive Science, [s. l.], v. 5, n.
4, p. 293–331, 1981.
LEHNERT, W. G. A conceptual theory of question answering. In: INTERNATIONAL JOINT
CONFERENCE ON ARTIFICIAL INTELLIGENCE, 5., 1977, Cambridge. Proceedings[...]. Cam-
bridge: MIT, 1977. v. 1, p. 158–164.
LORITZ, D. How the brain evolved language. Oxford: Oxford University Press, 2002.
MATACIC, C. Human speech may have a universal transmission rate: 39 bits per second.
Science, [s. l.], 4 Sept. 2019. Disponível em: https://www.sciencemag.org/news/2019/09/
human-speech-may-have-universal-transmission-rate-39-bits-second. Acesso em: 07
mar. 2020.
MATTHEWS, P. H. Linguistics: a very short introduction. Oxford: Oxford University Press,
2003.
MEEHAN, J. R. The metanovel: writing stories by computer. 1976. Disponível em: https://
apps.dtic.mil/docs/citations/ADA031625. Acesso em: 07 mar. 2020.
RIESBECK, C. K. et al. Inference and paraphrase by computer. Journal of the ACM, [s. l.],
v. 22, n. 3, p. 309–328, 1975.
SACKS, O. Seeing voices: a journey into the world of the deaf. [S. l.]: Pan Macmillan, 2009.
SCHANK, R. C.; WILENSKY, R. A goal-directed production system for story understanding.
In: WATERMAN, D. A.; HAYES-ROTH, F. (ed.). Pattern-directed inference systems. Cambridge:
Academic Press, 1978. p. 415–430.
TURING, A. M. Computing machinery and intelligence. In: TURING, A. M. Parsing the
turing test. Dordrecht: Springer, 2009. p. 23–65.
WADE, N. Early voices: the leap to language. The New York Times, New York, 15 July 2003.
Disponível em: https://www.nytimes.com/2003/07/15/science/early-voices-the-leap-
-to-language.html. Acesso em: 07 mar. 2020.
WEIZENBAUM, J. ELIZA: a computer program for the study of natural language com-
munication between man and machine. Communications of the ACM, [s. l.], v. 9, n. 1,
p. 36–45, 1966.
WINOGRAD, T. Understanding natural language. Cognitive Psychology, [s. l.], v. 3, n. 1,
p. 1–191, 1972.
21Introdução ao processamento de linguagem natural
Os links para sites da Web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.
Leituras recomendadas
JABBERWACKY.COM. About the Jabberwacky AI. 2011. Disponível em: http://www.jab-
berwacky.com/j2about. Acesso em: 07 mar. 2020.
STACK OVERFLOW. Explore nossas perguntas. 2020. Disponível em: https://pt.stackoverflow.
com/. Acesso em: 07 mar. 2020.
WINOGRAD, T. Procedures as a representation for data in a computer program for understan-
ding natural language. 1971. Disponível em: https://dspace.mit.edu/handle/1721.1/7095.
Acesso em: 07 mar. 2020.
Introdução ao processamento de linguagem natural22
Dica do professor
Existem diversas pesquisas e pesquisadores que, além de marcarem
a Ciência da Computação e a Inteligência Artificial, também se estabeleceram como marcos na linha
cronológica do Processamento
de Linguagem Natural (PLN).
Nesta Dica do Professor, você vai conhecer um pouco mais sobre
o pesquisador Alan Turing e seu trabalho de 1950, Computação e inteligência, no qual propôs o jogo
que posteriormente ficou conhecido como Teste de Turing, para testar a capacidade de uma
máquina em exibir comportamento semelhante ao humano.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/f2f8bbd5218f0b902cac4f7d9bc3bd62
Exercícios
1) O processamento de linguagem natural (PLN) depende diretamente do conhecimento acerca
da própria linguagem e, assim, diversas definições da Linguística são necessárias.
Sobre a linguagem natural humana, é correto afirmar que:
A) se divide especialmente nas línguas faladas e de sinais, existindo complexidades comuns e
regras específicas para cada tipo.
B) seu surgimento, embora não pareça, é datado relativamente recente, visto que existe um
consenso de que a comunicação surgiu a partir do surgimento da estrutura urbana.
C) o computador que realizará o processamento de linguagem natural deve ser capaz de
reconhecer com precisão as regras linguísticas e, dados os avanços tecnológicos atuais, as
falhas devido a ambiguidades na linguagem natural são pouco frequentes.
D) as aplicações do processamento de linguagem natural realizadas efetivamente até o momento
se restringem, na maioria dos casos, à tradução de idiomas.
E) a construção da comunicação do computador com o humano não terá praticamente nada em
comum do ponto de vista da construção da linguagem natural por um humano.
2) Um dos principais marcos da história do processamento de linguagem natural é o Teste de
Turing, que surgiu com a publicação de Alan Turing, em 1950, acerca da relação entre o
comportamento humano e o das máquinas.
Sobre a linha do tempo do processamento de linguagem natural, marque a alternativa
correta.
A) O SHRDLU foi desenvolvido na década de 1970, para a interação humana com termos em
francês, baseado no primeiro software de simulação de diálogos, o ELIZA.
B) A experiência de Georgetown consistiu em realizar um dos primeiros grandes experimentos
de tradução, do russo para o inglês, sobre a temática de química orgânica.
C) Os chatterbots surgiram na década de 1950, como os primeiros programas que simulavam
humanos na conversação.
Osvaldo
Resaltar
Osvaldo
Máquina de escribir
É possível dividir, de forma geral, a linguagem natural entre as formas faladas e as línguas de sinal, sendo que cada uma poderá apresentar regras e análises derivadas da Linguística e complexidades específicas. Sabe-se, ainda, que não há um consenso sobre o surgimento exato da linguagem natural, visto que é considerada essencialmente como meio de comunicação interpessoal, desde os ancestrais mais antigos da humanidade. Ademais, para o processamento efetivo da linguagem natural, é necessário que o computador seja capaz de "entender" toda a complexidade da língua natural em questão e também saiba tratar ambiguidades, por exemplo.
Osvaldo
Resaltar
D) Um exemplo de ontologia conceitual na década de 1960, que realizava o entendimento de
informações reais para o computador, é o Margie.
E) Durante um bom tempo, boa parte dos modelos e algoritmos se basearam no aprendizado de
máquina, até o surgimento e a consolidação de técnicas estatísticas.
3) A teoria linguística é extremamente necessária à construção de técnicas e ao
desenvolvimento de algoritmos para a execução de tarefas dentro do processamento de
linguagem natural.
Assinale a alternativa que apresenta as informações corretas acerca dos níveis de
processamento e da relação em um sistema de diálogo.
A) Um sistema de diálogo de fala é uma das formas mais simples do processamento de
linguagem natural, do ponto de vista de estruturas linguísticas e etapas do processamento.
B) Durante o nível de processamento de raciocínio, o computador ou outra máquina que realiza
o processamento deverá ser capaz de responder a um questionário, que o guiará na condução
da resposta para a construção do diálogo.
C) A análise sintática, no processamento da fala no sistema de diálogo, é realizada para a
extração dos significados das palavras.
D) Durante o processamento de linguagem natural, no caso específico de sistemas de diálogo,
em geral, o texto ou frase, gravado pelo áudio, permanece analisado inteiramente, sem
segmentações durante o processamento.
E) Em um sistema de diálogo por fala existe a etapa de análises morfológicas, em que são
avaliadas a Léxica, a realização morfológica e demais regras.
4) Existem sistemas que envolverão o uso de vídeos e imagens no processamento de
linguagem natural, possibilitando aplicações e resoluções de problemas das mais diversas
áreas.
Assim, com base em sua experiência acerca desse tipo de sistema, assinale a alternativa que
apresenta um exemplo correto de aplicação prática da análise de vídeo para processamento
de linguagem natural.
A) Ferramentas de edição de vídeo, baseadas em informações automáticasde correção.
B) Monitoramento de alagamentos por meio de informações via GPS e imagens.
Osvaldo
Resaltar
C) Ferramentas para captura de vídeo e auxílio de gravação de tela.
D) Ferramentas que proporcionam legendas de vídeo, disponíveis em várias plataformas
gratuitas.
E) Chatterbots, como o Google Assistent.
5) Um sistema capaz de realizar o processamento da fala poderá auxiliar em diversas
enfermidades e deficiências, por exemplo. Dessa forma, a aplicabilidade do processamento
de linguagem natural se expande em toda a interdisciplinaridade, sendo também capaz de
envolver aplicações voltadas para a saúde e o bem-estar humano.
Considere o desenvolvimento de um sistema de perguntas e respostas para auxílio no
diagnóstico médico. Assinale a alternativa que apresenta corretamente um esboço de um
sistema web de perguntas e respostas e sua justificativa.
A) Este tipo de arranjo fornece a análise baseada em um grande conjunto de informações e, além disso,
as perguntas poderão vir de um diálogo em andamento ou da inserção deste sistema em um modelo
de usuário.

Este tipo de arranjo fornece a análise baseada em informações extraídas da internet e a
interpretação da pergunta solicitada diretamente pelo usuário.
B)
Osvaldo
Resaltar
Osvaldo
Máquina de escribir
A realização do que se define em inglês como Video Captioning, ou captura de informações em vídeo, está diretamente relacionada ao processamento de linguagem natural e funciona da seguinte forma. Suponha que você está assistindo a um vídeo no YouTube e deseja colocar legendas para auxiliá-lo, seja por conta de problemas com o áudio do vídeo ou para tradução, por exemplo. Esse processo de disponibilização das legendas é proporcionado pelo Video Captioning, sendo baseado na fala do interlocutor e semelhante ao que ocorre, inclusive, na transcrição de fala. Por outro lado, tanto a captura quanto a edição de vídeos não são realizadas com base em técnicas do PLN, além do fato de que chatterbots são sistemas de diálogos e aplicações destinadas, por exemplo, ao monitoramento de alagamentos, com auxílio de GPS, e as imagens ocorrem por processo similar ao Video Captioning, só que voltado para imagens, no caso do exemplo.
Osvaldo
Resaltar
Osvaldo
Máquina de escribir
Um sistema de perguntas e respostas também é um exemplo de aplicação do processamento de linguagem natural e pode ser construído por meio de um robô, treinado para uma série de perguntas acerca de um ou mais temas, sem supervisão humana. Além disso, esse tipo de aplicação pode ser utilizado em fóruns e em sistemas para ensino a distância.
O funcionamento desse tipo de sistema de perguntas e respostas, em geral, contará com as seguintes etapas, do ponto de vista do processamento de linguagem natural:

Esse tipo de arranjo poderá fornecer um sistema conciso de perguntas e respostas em web, em linguagem natural, para uma temática que tenha como fonte de conhecimento uma grande coleção de documentos textuais.
Além disso, note que nesse tipo de análise a pergunta expressa em linguagem natural precisará ser convertida em um ou mais formatos, para que a informação possa prosseguir para os estágios subsequentes. Ademais, existe ainda a possibilidade de interpretação da pergunta no contexto de um diálogo que já esteja em andamento ou em um modelo de interface com o usuário, no qual o sistema seja inserido.

Este tipo de arranjo fornece a análise baseada em um grande conjunto de informações e, além disso,
as perguntas poderão vir de um diálogo em andamento ou da inserção deste sistema em um modelo
de usuário.

C)
D) Este tipo de arranjo fornece a análise baseada em informações extraídas da internet e a
interpretação da pergunta solicitada diretamente pelo usuário.

Este tipo de arranjo fornece a análise baseada em informações extraídas simultaneamente da
internet, além de contar com o auxílio supervisionado de um especialista. Pode ser usado em
E)
sistemas de ensino a distância.

Na prática
Diversas aplicações do processamento de linguagem natural (PLN) envolvem técnicas da
Linguística, além de questões filosóficas, e um dos principais exemplos é a análise de sentimento.
Neste Na Prática, você vai acompanhar a realização da análise de sentimento na empresa onde
Jasiara trabalha como especialista em Inteligência Artificial, especialmente quanto à possibilidade
de construção de um banco de dados, uma das etapas mais importantes do projeto.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para
acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/4addcdff-e317-40ca-a345-5bc634b173bb/8ffe033a-d8bf-4f53-a44a-528328de9232.jpg
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/4addcdff-e317-40ca-a345-5bc634b173bb/4d494686-4ed1-4af2-9495-750b1aee02c1.jpg
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Algoritmos de processamento da linguagem natural para
sistemas de conversão texto-fala em português
Neste trabalho, você conhecerá exemplos de processamento voltados para o português, além de
aplicações.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
O uso de processamento de linguagem natural em chatbots
Neste vídeo, você verá uma revisão do uso do processamento de linguagem natural em chatbots.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
O jogo da imitação
Assista ao trailer do filme O jogo da imitação, uma boa dica para compreender melhor o Teste de
Turing. O filme conta a história de Alan Turing, um dos pioneiros da Ciência da Computação e da
Inteligência Artificial, responsável por um dos principais trabalhos da história do processamento de
linguagem natural.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://ruc.udc.es/dspace/bitstream/handle/2183/1011/Braga_DanielaFilipaMacedoMoreiradaSilva_TD_2008.pdf
https://www.youtube.com/embed/Cpkj6IpvChc
https://www.youtube.com/watch?v=uxBx99_DwDY
2001: uma odisseia no espaço
Filme de ficção científica, mas que traz uma reflexão sobre conceitos e evoluções tecnológicas
importantes, estando relacionado à própria área de Inteligência Artificial. Na ocasião deste, foi
criado o computador HAL, um agente artificial capaz de realizar comportamentos linguísticos
avançados. Confira o trailer a seguir.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://www.youtube.com/embed/7E9CD3Hucws