Buscar

Prévia do material em texto

Modelos de RI
Cristiano Carvalho
Transformando 
documentos em vetores
Escopo
Modelos em Recuperação da 
Informação
Núcleo de qualquer sistema de recuperação de 
informação
Utilizados para representar características 
semânticas dos elementos envolvidos nos sistemas
Modelos em Recuperação da 
Informação
Modelos clássicos: booleano, vetorial e 
probabilístico
Modelos bastante utilizados: vetorial, language 
models e BM25 (que são probabilísticos)
Diversos outros modelos na literatura
Modelo Vetorial
Proposto em 1968 e continua sendo muito 
empregado hoje em dia
Proposto originalmente para resolver problemas 
de busca
Sucesso reside na eficiência e nos bons resultados 
obtidos
Modelo Vetorial
Todos os componentes do sistema são vistos como 
conjuntos de palavras
Elementos a serem modelados são representados 
como vetores dentro de um espaço vetorial.
Dimensão do espaço é dada pelo número de 
palavras distintas
Modelo Vetorial
Número de palavras distintas da coleção de 
documentos determina dimensão do espaço onde 
os documentos e consultas serão representados
Como determinar as coordenadas dos elementos ?
Modelo Vetorial
O IDF tenta expressar a “importância” de uma 
palavra dentro da coleção
N: número total de documentos de uma coleção
nt : número de documentos onde a palavra t 
ocorreu
Quanto mais rara a palavra, maior seu idf !
Peso de um termo em um documento
Medidas de Tf e Idf 
Peso de um termo em um documento
Medidas de Tf e Idf 
Peso de um termo em um documento
TF-IDF dos Termos do Documento
Peso de um termo em um documento
TF-IDF dos Termos do Documento
Peso de um termo em um documento
TF-IDF dos Termos do Documento
Peso de um termo em um documento
TF-IDF dos Termos do Documento
Peso de um termo em um documento
TF-IDF dos Termos da Consulta
Peso de um termo em um documento
TF-IDF dos Termos da Consulta
Peso de um termo em um documento
TF-IDF dos Termos da Consulta
Peso de um termo em um documento
TF-IDF dos Termos da Consulta
Peso de um termo em uma consulta
TF-IDF dos Termos da Consulta
Devemos representar a consulta com todos
termos da coleção
Peso de um termo em um documento
TF-IDF dos Termos da Consulta
Peso de um termo em um documento
Coordenadas da Consulta
Peso de um termo em um documento
Coordenadas dos Documentos
Peso de um termo em um documento
Qual Doc melhor representa a 
consulta?
Como descobrir a 
melhor ordem de 
documentos?
Referências
Imagens sobre Escopo da Disciplina
Autor: http://cristianocarvalho.cc
http://cristianocarvalho.cc
Modelos de RI
Cristiano Carvalho
Cálculo de 
similaridade
Similaridade de Consultas
As consultas são utilizadas para determinar 
importância das páginas
Um modelo de RI é utilizado para computar a 
similaridade entre uma consulta Q e um 
determinado documento P
Representação de documentos em vetores
Qual Doc melhor representa a 
consulta?
Modelo Vetorial
Correlação entre dois vetores é utilizada para 
medir a proximidade entre os elementos reais 
modelados
Cálculo de similaridade entre vetores
Qual Doc melhor representa a 
consulta?
Ordenação Final
Qual Doc melhor representa a 
consulta?
Aplicações do modelo vetorial
O modelo vetorial pode ser aplicado em qualquer 
tipo de problema de RI
Aplicação direta do modelo em sistemas de busca
Filtragem com Modelo Vetorial
Bases de dados contêm perfis no lugar de 
documentos
Perfis são conjuntos de termos que descrevem os 
interesses dos usuários
Documentos que chegam para o sistema são 
tratados como consultas
Ou ainda...
As medidas que dão pesos para termos distintos, 
podem ser usadas como entrada para algoritmos 
outros métodos de mineração de dados
A similaridade de documentos pode ser utilizada 
para agrupar documentos similares (doc-doc) ao 
invés de consultas e documentos (termos - doc)
Referências
Robot with a bunch of books in the workshop of its creator
Imagens Sistema de Busca
Imagens Sistema de Filtragem
https://www.shutterstock.com
Print Screen de serviços
https://news.google.com.br
https://images.google.com
https://www.amazon.com.br
https://www.netflix.com
https://www.shutterstock.com
Mineração de Texto
Cristiano Carvalho
Processamento de 
linguagem natural
Escopo
● Minimizar o esforço humano ao consumir 
grandes volumes de dados 
● Fornecer conhecimento para tomadas de 
decisão otimizadas
Recuperação de Texto e Mineração
● Recuperação de texto é um componente 
essencial de qualquer sistema de mineração de 
textos
● Recuperação de texto pode ser um pré-
processador para mineração de textos
Recuperação de Texto e Mineração
Pipeline
Recuperação 
de Texto
Mineração 
de Texto
Big Text Data Conjunto 
Relevante 
(Menor)
Conhecimento
Aplicações 
Diversas
“O cachorro está perseguindo o garoto no playground“
Segmentação de palavras
STR 1 STRING 2 STRING 4 STRING 6 STRING 8STR 3 S5 S7
● Representa mesmo texto porém em forma de 
sequência de palavras.
● Palavras são as unidades básicas da 
comunicação humana
● Permite contagem de palavras mais frequentes
“O cachorro está perseguindo o garoto no playground“
Segmentação de palavras
STR 1 STRING 2 STRING 4 STRING 6 STRING 8STR 3 S5 S7
● Permite formar tópicos a partir da conexão
entre as palavras
● Se algumas palavras são positivas e outras são 
negativas podemos realizar análise semântica 
(sentimento)
Segmentação de palavras
STRING ?? STRING ?? ?? ??STR ?? ? ?
● Generaliza menos que a representação por 
caracteres 
○ Em algumas linguagens torna-se difícil 
identificar palavras 
● Perda de informação
“犬は遊び場で子供を追いかけている。“
“O cachorro está perseguindo o garoto no playground“
POS - Part of Speech Tags
Art Substantivo Verbo principal gerúndio Substantivo SubstantivoAux Art AD
CP
● Método complementar à representação em 
palavras
● Possível contar adjetivos, sujeitos, verbos, 
sujeitos associados a quais verbos
● Enriquece a representação do texto
“O cachorro está perseguindo o garoto no playground“
Detecção de Entidades
Animal Pessoa Local
● Adição de entidades e relacionamentos
● Análise semântica das palavras
● Relações
○ o cachorro estava perseguindo o garoto
○ o garoto está no playground
“O cachorro está perseguindo o garoto no playground“
Detecção de Entidades
Animal Pessoa Local
● Sujeito mais frequente em uma coleção de 
artigos e notícias
● Coocorrência: Pessoas geralmente citadas em 
conjunto
● Menos robusto que identificação de palavras ou 
até análise sintática
Trade-off
“O cachorro está perseguindo o garoto no playground“
“O cachorro está perseguindo o garoto no playground“
STR 1 STRING 2 STRING 4 STRING 6 STRING 8STR 3 S5 S7
Animal Pessoa Local
Art Substantivo Verbo principal gerúndio Substantivo SubstantivoAux Ar ADCP
Mais próximo da 
representação 
humana de 
conhecimento
Mais esforço
humano e mais 
propenso a erros
Humanos e Algoritmos
Computadores não são capazes de obter uma 
representação de texto completamente correta
É preciso combinar a colaboração humana com 
sistemas computacionais
Humanos e Algoritmos
Padrões extraídos do texto podem ser 
interpretados por humanos e esses podem 
fornecer informações e dados anotados que 
tornam os algoritmos mais efetivos (Algoritmos de 
classificação)
Associações entre palavras
Associações entre termos para sugerir variações 
de consultas
Construção automática de mapas de tópicos: 
palavras são vértices e conexões são arestas 
(Nossa aula de grafos! :)
Comparar e sumarizar opiniões 
Quais palavras mais fortemente 
associadas a “bateria” em 
reviews positivos e negativos a 
respeito do iPhone6?
Input para métodos de Machine Learning
Agrupamentos (clustering)
Categorização ou Classificação
Mineração de regras de associação
Trending Topics
Modelos em RI
Cristiano Carvalho
Pré-processamento 
de documentos
Pré-processamento de documentos
● Importante procedimento empregado na 
construção de sistemas de RI
● Operações (ou transformações)textuais:
○ Análise léxica do texto
○ Eliminação de stopwords
○ Stemming das palavras
○ Seleção de termos ou palavras-chave
Análise léxica
● Processo de conversão de uma sequência de 
caracteres em uma sequência de palavras (Bag-
of-words)
Análise léxica
● Somente quebrar espaços?
○ Dígitos
○ Hífen
○ Marcas de pontuação
○ Caixa das palavras (maiúsculas e minúsculas)
Dígitos
● Números sozinhos são vagos
● 1987 pode representar um ano ou um número 
de pessoas em um registro
● Usualmente números não são considerados 
como termos de índice
Hífen
● Difícil decisão para o analisador léxico
● Existem palavras que incluem hífens como parte 
integral
● Guarda-chuva, B-52
Adote uma regra geral, mas tenha consciência das 
exceções.
Marcas de pontuação
● Removidas por completo do texto
● Baixo risco de não interpretar palavras sem 
pontuação
○ “300 A.C.” será interpretado de maneira 
similar ao remover a pontuação “300 AC”
Maiúsculas e Minúsculas
● Letras em maiúsculo ou minúsculo 
normalmente não tem impacto significante na 
identificação de termos de índice
● Normalmente todo o texto é convertido para 
maiúsculas ou minúsculas
Maiúsculas e Minúsculas
● Mas fique atento, em alguns casos a semântica 
pode ficar comprometida 
○ Banco vs. banco, Serra vs. serra
Remoção de stopwords
● Palavras muito frequentes entre os documentos 
de uma coleção não são boas como 
discriminantes
● Frequentemente chamadas de stopwords e 
normalmente removidas dos termos de índice
Remoção de stopwords
● Ex: artigos, preposições, conjunções 
o, a, portanto, logo, pois, como…
● Eliminar stopwords reduz significamente o 
tamanho do índice
Remoção de stopwords
● Fique atento! Apesar dos benefícios, a 
eliminação de stopwords pode reduzir a 
revocação
○ Uma busca por “ser ou não ser”
Stemming
● Pode ser que um documento possua apenas 
uma variação da palavra procurada. Ex: Plurais, 
gerúndios e sufixos
● Substituir as palavras pelos seus respectivos 
stems (radicais) pode superar parcialmente esse 
problema
Stemming
● Stem é a porção de uma palavra que resta após 
a remoção de afixos (prefixos e sufixos)
casa, casinha, casinhas, casas = casa
● Também reduz o tamanho da estrutura de 
indexação (número de palavras distintas)
Stemming
● Existem controvérsias na literatura sobre os 
benefícios do stemming na performance da 
recuperação
● Em determinadas línguas o stemming pode ser 
difícil de se realizar, exigindo buscas em tabelas 
externas e algoritmos específicos

Mais conteúdos dessa disciplina