Prévia do material em texto
Modelos de RI Cristiano Carvalho Transformando documentos em vetores Escopo Modelos em Recuperação da Informação Núcleo de qualquer sistema de recuperação de informação Utilizados para representar características semânticas dos elementos envolvidos nos sistemas Modelos em Recuperação da Informação Modelos clássicos: booleano, vetorial e probabilístico Modelos bastante utilizados: vetorial, language models e BM25 (que são probabilísticos) Diversos outros modelos na literatura Modelo Vetorial Proposto em 1968 e continua sendo muito empregado hoje em dia Proposto originalmente para resolver problemas de busca Sucesso reside na eficiência e nos bons resultados obtidos Modelo Vetorial Todos os componentes do sistema são vistos como conjuntos de palavras Elementos a serem modelados são representados como vetores dentro de um espaço vetorial. Dimensão do espaço é dada pelo número de palavras distintas Modelo Vetorial Número de palavras distintas da coleção de documentos determina dimensão do espaço onde os documentos e consultas serão representados Como determinar as coordenadas dos elementos ? Modelo Vetorial O IDF tenta expressar a “importância” de uma palavra dentro da coleção N: número total de documentos de uma coleção nt : número de documentos onde a palavra t ocorreu Quanto mais rara a palavra, maior seu idf ! Peso de um termo em um documento Medidas de Tf e Idf Peso de um termo em um documento Medidas de Tf e Idf Peso de um termo em um documento TF-IDF dos Termos do Documento Peso de um termo em um documento TF-IDF dos Termos do Documento Peso de um termo em um documento TF-IDF dos Termos do Documento Peso de um termo em um documento TF-IDF dos Termos do Documento Peso de um termo em um documento TF-IDF dos Termos da Consulta Peso de um termo em um documento TF-IDF dos Termos da Consulta Peso de um termo em um documento TF-IDF dos Termos da Consulta Peso de um termo em um documento TF-IDF dos Termos da Consulta Peso de um termo em uma consulta TF-IDF dos Termos da Consulta Devemos representar a consulta com todos termos da coleção Peso de um termo em um documento TF-IDF dos Termos da Consulta Peso de um termo em um documento Coordenadas da Consulta Peso de um termo em um documento Coordenadas dos Documentos Peso de um termo em um documento Qual Doc melhor representa a consulta? Como descobrir a melhor ordem de documentos? Referências Imagens sobre Escopo da Disciplina Autor: http://cristianocarvalho.cc http://cristianocarvalho.cc Modelos de RI Cristiano Carvalho Cálculo de similaridade Similaridade de Consultas As consultas são utilizadas para determinar importância das páginas Um modelo de RI é utilizado para computar a similaridade entre uma consulta Q e um determinado documento P Representação de documentos em vetores Qual Doc melhor representa a consulta? Modelo Vetorial Correlação entre dois vetores é utilizada para medir a proximidade entre os elementos reais modelados Cálculo de similaridade entre vetores Qual Doc melhor representa a consulta? Ordenação Final Qual Doc melhor representa a consulta? Aplicações do modelo vetorial O modelo vetorial pode ser aplicado em qualquer tipo de problema de RI Aplicação direta do modelo em sistemas de busca Filtragem com Modelo Vetorial Bases de dados contêm perfis no lugar de documentos Perfis são conjuntos de termos que descrevem os interesses dos usuários Documentos que chegam para o sistema são tratados como consultas Ou ainda... As medidas que dão pesos para termos distintos, podem ser usadas como entrada para algoritmos outros métodos de mineração de dados A similaridade de documentos pode ser utilizada para agrupar documentos similares (doc-doc) ao invés de consultas e documentos (termos - doc) Referências Robot with a bunch of books in the workshop of its creator Imagens Sistema de Busca Imagens Sistema de Filtragem https://www.shutterstock.com Print Screen de serviços https://news.google.com.br https://images.google.com https://www.amazon.com.br https://www.netflix.com https://www.shutterstock.com Mineração de Texto Cristiano Carvalho Processamento de linguagem natural Escopo ● Minimizar o esforço humano ao consumir grandes volumes de dados ● Fornecer conhecimento para tomadas de decisão otimizadas Recuperação de Texto e Mineração ● Recuperação de texto é um componente essencial de qualquer sistema de mineração de textos ● Recuperação de texto pode ser um pré- processador para mineração de textos Recuperação de Texto e Mineração Pipeline Recuperação de Texto Mineração de Texto Big Text Data Conjunto Relevante (Menor) Conhecimento Aplicações Diversas “O cachorro está perseguindo o garoto no playground“ Segmentação de palavras STR 1 STRING 2 STRING 4 STRING 6 STRING 8STR 3 S5 S7 ● Representa mesmo texto porém em forma de sequência de palavras. ● Palavras são as unidades básicas da comunicação humana ● Permite contagem de palavras mais frequentes “O cachorro está perseguindo o garoto no playground“ Segmentação de palavras STR 1 STRING 2 STRING 4 STRING 6 STRING 8STR 3 S5 S7 ● Permite formar tópicos a partir da conexão entre as palavras ● Se algumas palavras são positivas e outras são negativas podemos realizar análise semântica (sentimento) Segmentação de palavras STRING ?? STRING ?? ?? ??STR ?? ? ? ● Generaliza menos que a representação por caracteres ○ Em algumas linguagens torna-se difícil identificar palavras ● Perda de informação “犬は遊び場で子供を追いかけている。“ “O cachorro está perseguindo o garoto no playground“ POS - Part of Speech Tags Art Substantivo Verbo principal gerúndio Substantivo SubstantivoAux Art AD CP ● Método complementar à representação em palavras ● Possível contar adjetivos, sujeitos, verbos, sujeitos associados a quais verbos ● Enriquece a representação do texto “O cachorro está perseguindo o garoto no playground“ Detecção de Entidades Animal Pessoa Local ● Adição de entidades e relacionamentos ● Análise semântica das palavras ● Relações ○ o cachorro estava perseguindo o garoto ○ o garoto está no playground “O cachorro está perseguindo o garoto no playground“ Detecção de Entidades Animal Pessoa Local ● Sujeito mais frequente em uma coleção de artigos e notícias ● Coocorrência: Pessoas geralmente citadas em conjunto ● Menos robusto que identificação de palavras ou até análise sintática Trade-off “O cachorro está perseguindo o garoto no playground“ “O cachorro está perseguindo o garoto no playground“ STR 1 STRING 2 STRING 4 STRING 6 STRING 8STR 3 S5 S7 Animal Pessoa Local Art Substantivo Verbo principal gerúndio Substantivo SubstantivoAux Ar ADCP Mais próximo da representação humana de conhecimento Mais esforço humano e mais propenso a erros Humanos e Algoritmos Computadores não são capazes de obter uma representação de texto completamente correta É preciso combinar a colaboração humana com sistemas computacionais Humanos e Algoritmos Padrões extraídos do texto podem ser interpretados por humanos e esses podem fornecer informações e dados anotados que tornam os algoritmos mais efetivos (Algoritmos de classificação) Associações entre palavras Associações entre termos para sugerir variações de consultas Construção automática de mapas de tópicos: palavras são vértices e conexões são arestas (Nossa aula de grafos! :) Comparar e sumarizar opiniões Quais palavras mais fortemente associadas a “bateria” em reviews positivos e negativos a respeito do iPhone6? Input para métodos de Machine Learning Agrupamentos (clustering) Categorização ou Classificação Mineração de regras de associação Trending Topics Modelos em RI Cristiano Carvalho Pré-processamento de documentos Pré-processamento de documentos ● Importante procedimento empregado na construção de sistemas de RI ● Operações (ou transformações)textuais: ○ Análise léxica do texto ○ Eliminação de stopwords ○ Stemming das palavras ○ Seleção de termos ou palavras-chave Análise léxica ● Processo de conversão de uma sequência de caracteres em uma sequência de palavras (Bag- of-words) Análise léxica ● Somente quebrar espaços? ○ Dígitos ○ Hífen ○ Marcas de pontuação ○ Caixa das palavras (maiúsculas e minúsculas) Dígitos ● Números sozinhos são vagos ● 1987 pode representar um ano ou um número de pessoas em um registro ● Usualmente números não são considerados como termos de índice Hífen ● Difícil decisão para o analisador léxico ● Existem palavras que incluem hífens como parte integral ● Guarda-chuva, B-52 Adote uma regra geral, mas tenha consciência das exceções. Marcas de pontuação ● Removidas por completo do texto ● Baixo risco de não interpretar palavras sem pontuação ○ “300 A.C.” será interpretado de maneira similar ao remover a pontuação “300 AC” Maiúsculas e Minúsculas ● Letras em maiúsculo ou minúsculo normalmente não tem impacto significante na identificação de termos de índice ● Normalmente todo o texto é convertido para maiúsculas ou minúsculas Maiúsculas e Minúsculas ● Mas fique atento, em alguns casos a semântica pode ficar comprometida ○ Banco vs. banco, Serra vs. serra Remoção de stopwords ● Palavras muito frequentes entre os documentos de uma coleção não são boas como discriminantes ● Frequentemente chamadas de stopwords e normalmente removidas dos termos de índice Remoção de stopwords ● Ex: artigos, preposições, conjunções o, a, portanto, logo, pois, como… ● Eliminar stopwords reduz significamente o tamanho do índice Remoção de stopwords ● Fique atento! Apesar dos benefícios, a eliminação de stopwords pode reduzir a revocação ○ Uma busca por “ser ou não ser” Stemming ● Pode ser que um documento possua apenas uma variação da palavra procurada. Ex: Plurais, gerúndios e sufixos ● Substituir as palavras pelos seus respectivos stems (radicais) pode superar parcialmente esse problema Stemming ● Stem é a porção de uma palavra que resta após a remoção de afixos (prefixos e sufixos) casa, casinha, casinhas, casas = casa ● Também reduz o tamanho da estrutura de indexação (número de palavras distintas) Stemming ● Existem controvérsias na literatura sobre os benefícios do stemming na performance da recuperação ● Em determinadas línguas o stemming pode ser difícil de se realizar, exigindo buscas em tabelas externas e algoritmos específicos