Prévia do material em texto
Processamento de Linguagem Natural (PLN) Thayza Sacconi Guarnier Departamento de Computação e Eletrônica - DCEL Inteligência Artificial São Mateus - ES - Brasil Julho de 2018. Agenda Introdução Processamento de Linguagem Natural (PLN) Aplicações existentes no mercado Histórico A gramática e seus níveis de processamento Classificação da gramática e componentes básicos Fases da análise de PLN - Análise Fonética - Análise Morfológica - Análise Sintática - Análise Semântica - Análise Pragmática Geração de língua natural Desafios do PLN Aplicações 2 Introdução Linguagem Conjunto bem formado de caracteres ou simbolos; Denotado sentenças Construidas a partir de um alfabeto especifico; Base para a comunicação. 4 Comunicação Em geral, comunicação é uma forma intencional de trocar informações através da produção e percepção de sinais a partir de um sistema convencional . Os seres humanos desenvolveram um complexo e estruturado sistema de sinais conhecido como Linguagem Natural (...) [NETO; TONIN; PRIETCH] 5 Processamento de Linguagem Natural (PLN) Area de pesquisa que envolve multiplas áreas; Está relacionado a três aspectos da comunicação em lingua natural Som Estrutura Significado 6 Processamento de Linguagem Natural (PLN) Processamento de Linguagem Natural (PLN) é uma área de pesquisa e de aplicação que explora como os computadores podem ser usados para processar e manipular texto ou discurso em linguagem natural para fazer coisas uteis. [LADEIRA; ALVARENGA] 7 Algumas aplicações existentes no mercado Corretores de texto; Reconhecedores de voz; Tradução automática. 8 Segmentos básicos Aplicações baseadas em textos Busca de documentos; Compreensão de textos. Aplicações baseadas em diálogo Sistemas interpretadores de comandos. 9 Histórico Entre 1940 e 1946 11 Adição de informações relacionadas a análise g r a m a t i c a l d a l i n g u a russa. Entre 1940 e 1946 1948 12 P r i m e i r a e x p e r i ê n c i a d e tradução automática de russo p a r a i n g l ê s u s a n d o u m computador Entre 1940 e 1946 1948 1954 13 Entre 1940 e 1946 1948 1954 Chomsky desenvolveu trabalhos relevantes baseados em teoria da informação na criptografia de mensagens; Introduziu a gramática gerativa. 1957 14 Entre 1940 e 1946 1948 1954 1957 Anos 60 15 Entre 1940 e 1946 1948 1954 1957 Anos 60 1965 16 Entre 1940 e 1946 1948 1954 1957 Anos 60 1965 Entre 1970 e 1975 Inicio dos trabalhos baseados em lógica; Q-Systems e gramáticas metafóricas: precursores do Prolog; Atenção voltada para semantica, fonêmas e planos para a comunicação. 17 Entre 1940 e 1946 1948 1954 1957 Anos 60 1965 Entre 1970 e 1975 Década de 90 Boom da informática; Técnicas de PLN + mineração de dados vêm convergindo para as técnicas baseadas em corpus. 18 A Gramática e seus Níveis de Processamento Gramática Modo formal usado para definir conjuntos de sequências de simbolos; Utiliza regras de produção que especificam uma linguagem. 20 Classificação Figura 1. Capacidade Gerativa. Fonte: Processamento de Linguagem Natural. José Augusto Baranauskas. 21 Componentes básicos A gramática do tipo G(S, T, N, R) , formalmente, é definida por quatro componentes: S: simbolo inicial da gramática, ao qual pertence ao conjunto N de simbolos não-terminais; T: conjunto de simbolos terminais; N: conjunto de simbolos não-terminais; e R: conjunto de regras de produção. 22 Importante! Uma gramática pode ser usada para gerar uma sentença; Deve obedecer a regra geral: Começar por um simbolo não terminal (S); Simbolos não-terminais devem ser substituidos por outras sequências, conforme as regras de produção (R); Geração chega ao fim quando restar somente simbolos terminais (T). 23 Exemplo S = { frase } T = { o, gato, rato, caçou } N = { frase, sujeito, predicado, artigo, substantivo, verbo } R = { frase --> sujeito, predicado; sujeito --> artigo, substantivo; predicado --> verbo, artigo, substantivo; artigo --> [o]; substantivo --> [gato] | [rato] ; verbo --> [caçou] } 24 Exemplo Figura 2. Arvore sintática. Fonte: Processamento de Linguagem Natural. Silvio do Lago Pereira. 25 Fases de análise de PLN Figura 3. Fases de análise de PLN a partir de uma frase da linguagem. Fonte: Processamento de Linguagem Natural (PLN), Inteligência Artificial. Jacson R. C. Silva. 26 Análise Fonética Reconhecimento de sons presentes nas palavras; Em PLN, as ondas sonoras são processadas para a interpretação da linguagem especifica utilizada. Este tipo de processamento é utilizado em sistemas de reconhecimento de voz. [REIS] 27 Análise Fonética Para o entendimento da máquina, a voz humana é convertida para um sinal analógico; Sinal analógico alimenta a entrada da placa de som; A placa dispõe de um conversor; Sinal analógico Sinal digital. 28 Análise Fonética Digitalização do som: componentes básicos Modelo acustico: análise dos dados e conversão em fon emas reconheciveis pelo modelo lingustico com a eliminação de ruidos. Modelo linguistico: analisa os fonemas formados no modelo acustico, analisa e compara com a base de dados. 29 Análise Morfológica Realiza a análise da estrutura do texto e estuda cada palavra presente de forma independente; Na lingua portuguesa existem dez (10) classes gramaticais substantivo, adjetivo, artigo, pronomes, numeral, verbo, advérbio, preposição, conjunção e interjeição. 30 Análise Sintática A análise sintática (parsing) é o procedimento que avalia os vários modos de como combinar regras gramaticais, com a finalidade de gerar uma estrutura de árvore que represente a estrutura sintática da sentença analisada. Se a sentença for ambigua, o analisador sintático (parser) irá obter todas as possiveis estruturas sintáticas que a representam. [NETO; TONIN; PRIETCH] 31 Análise Semântica O nivel semantico está relacionado ao significado das palavras em busca de alcançarem certo sentido no escopo da sentença, não apenas nas palavras como uma unidade completa, mas nas suas unidades constitutivas. [REIS] 32 Análise Pragmática A análise pragmática tem como objeto de estudo o significado de uma sentença que integra a diferença entre o significado literal da linguagem e o significado da linguagem em uso, ou seja, o contexto do falante na comunicação. [REIS] 33 Geração de Língua Natural Fases de um gerador de texto Figura 4. Fases principais de um gerador de textos. Fonte: Sistema de Diálogo em Linguagem Natural para Serviços de Atendimento ao Cliente. Westerley da Silva Reis. 35 Geração de Língua Natural Seleção: seleciona o assunto e todos os artefatos de conhecimento no qual irão fazer parte do texto. No planejamento do texto é necessário que toda a estrutura do que foi selecionado seja analisada, com a finalidade de organizar o conteudo. Por fim a realização do texto, onde são escolhidos o vocabulário para o texto, um estilo, como será disposta a estrutura textual entre as análises que mais se adequam para expressar a ideia do texto. 36 Desafios do PLN Desafios do PLN As linguagens naturais são ambiguas, estão em constante mutação e não são exatas como a linguagem de máquina; Comunicação ter variações de dialeto para dialeto, interferindo no conteudo real e sentido da mensagem. 38 Proposta de resolução dos problemas Usar lógica Fuzzy,com ela colocando-se como o principal instrumento para uma representação mais adequada do conhecimento, isso se devendo à sua capacidade de lidar com incertezas, raciocinio aproximado, termos vagos e ambiguos. [REIS] 39 Aplicações Ins t rumento de Inves t igação C l í n i c o - E p i d e m i o l ó g i c a e m Cardiologia Fundamentado no PLN Figura 5. Visão geral da metodologia proposta. Fonte: Instrumento de Investigação Clinico-Epidemiológica em Cardiologia Fundamentado no Processamento de Linguagem Natural. Atendimento ao Cliente. André C. Castilha. 41 Essa aplicação tem como o dominio do sistema os textos e relatórios de radiografias do tórax, buscando achados cardiacos e pulmonares que estiverem presentes nesses relatórios; Apresenta algumas metodologias. 42 A radiologia e todas as outras especialidades médicas que realizam exames por imagem são um fértil campo para o desenvolvimento de aplicativos de PLN. Estas especialidades têm como objeto de trabalho a avaliação de imagens médicas com elaboração de um relatório clinico a partir dos achados e interpretações encontrados. Este laudo pode ser considerado a representação escrita do exame de imagem de acordo com uma semantica e conhecimento prévio do dominio especifico. [CASTILHA] 43 Sintetização e reconhecimento de voz As pesquisas então começaram por volta da década de 40; Antes essa comunicação era feita por cartões perfurados; hoje já se tem teclado, mouse e até telas touch screen. 44 Referências REIS, W. da Silva. Sistema de Diálogo em Linguagem Natural para Serviços de Atendimento ao Cliente. Corumbá, 2017. PICOLI, Larissa; PIROVANI, Juliana P. C.; OLIVEIRA, E. Silva de, LAPORTE, Eric. Uso de uma ferramenta de processamento de linguagem natural com auxílio à coleta de exemplos para o estudo de propriedades sintático-semânticas de verbos. SILVA, Jacson R. C. Processamento de Linguagem Natural (PLN). Universidade Federal do Espírito Santo - CCA UFES. 45 Referências PEREIRA, S. do Lago. Processamento de Linguagem Natural. Departamento de Tecnologia da Informação, Faculdade de Tecnologia de São Paulo. PEREIRA, S. do Lago. Processamento de Linguagem Natural. BARANAUSKAS, J. Augusto. Processamento de Linguagem Natural. Revisão, 2005. VIEIRA, Renata; LOPES, Lucelene. Processamento de Linguagem Natural e o Tratamento Computacional de Linguagens Científicas. FACIN-PUCRS. 46 Referências NETO, J. M. de Oliveira; TONIN, S. Duarte; PRIETCH, S. Silva. Processamento de Linguagem Natural e suas Aplicações Computacionais. Universidade Federal de Mato Grosso - Campus Universitário de Rondonópolis. MARTINS, Danilo; KATAOKA, Karina; TRINDADE, Leonardo. Processamento de Linguagem Natural. Universidade Federal da Bahia. Salvador, Bahia, Julho de 2010. Wikipedia, a enciclopédia livre. História da Computação. Disponível em <https://pt.wikipedia.org/wiki/Hist%C3%B3ria_da_computa%C3%A7%C3%A3 o>. 47 Referências SAYAO, Miriam. Verificação e Validação em Requisitos: Processamento da Linguagem Natural e Agentes. Rio de Janeiro, Abril de 2007. CASTILLA, André C. Instrumento de Investigação Clínico-Epidemiológica em Cardiologia Fundamentado no Processamento de Linguagem Natural. São Paulo, 2007. STOLFI, Rumiko O. Síntese e Reconhecimento da Fala Humana. Outubro de 2006, Campinas. 48 Referências BATISTA, P. dos Santos. Avanços em Reconhecimento de Fala para Português Brasileiro e Aplicações: Ditado no LibreOffice e Unidade de Resposta Audível com Asterisk. Campus Universitário do Guamá, Belém - Pará. 2013. 49 Obrigada! Trabalho realizado pela aluna Thayza Sacconi Guarnier, matrícula 2014204174 do curso bacharel em Ciência da Computação, como cumprimento parcial de nota da disciplina de Inteligência Artificial, ministrada pelo prof. Dr. Luis Otávio Rigo Jr. 50