Buscar

Aula02 RI Modelo Booleano

Prévia do material em texto

1
Recuperação de Informação
Modelos de Recuperação de Documentos
Modelo Booleano
Renato Fernandes Corrêa
22
Sistemas de RI (SRI)
Um sistema de recuperação de informação 
pode ser visto como
 a parte do sistema de informação responsável 
pelo armazenamento ordenado dos documentos 
em base de dados, 
 e sua posterior recuperação
 para responder a consulta do usuário.
Todo SRI adota um modelo computacional 
de recuperação de informação que 
determina o modo de operação do sistema.
3
Como funciona os Sistemas de Recuperação de 
Informação?
Usuário
Necessidade de
Informação
Função de busca
Documentos
RepresentaçãoRepresentação Consulta
Modelos de Recuperação de 
Informação 
Sistema de 
Recuperação de Informação
Resultado
Armazenamento 
do Índice
Casamento, Ordenação
Modelos de Recuperação de Informação
Os SRIs adotam modelos de recuperação de 
informação que definem principalmente:
 A representação dos documentos
 A visão lógica dos documentos, sua representação no 
sistema 
 A representação das expressões de busca dos 
usuários
 A visão lógica da expressão de busca ou consulta, sua 
representação no sistema
 A função de busca: como as duas representações 
são comparadas, e como ordenar os documentos que 
casam (a lista de resultado).
Além do modo de operação os modelos definem a 
eficiência e eficácia dos SRIs.
5
Modelos de Recuperação de Informação
Existe uma distinção entre:
 A tarefa do usuário
Recuperação ou browsing
 A visão lógica dos documentos e 
consulta 
sua representação no sistema 
Podem ser categorizados quanto aos 
fundamentos teóricos/históricos dos 
modelos de recuperação de 
informação: Clássico, estruturado, 
navegação
Tarefas e Modelos de 
Recuperação de Informação
Listas não-sobrepostas
Nós proximais
Modelos Estruturados
Recuperação: 
Adhoc
Filtragem
Browsing
T
A
R
E
F
A
D
O
u
S
U
Á
R
I
O
Modelos Clássicos
Booleano
Espaço vetorial
Probabilista
Teoria dos conjuntos
Fuzzy
Booleano estendido
Probabilista
Redes de inferência
Redes de crença
Algebrico
E. V. generalizado
Semântica Latente
Redes Neurais
Browsing
Plano
Estruturado
Hipertextual
7
Modelos Clássicos de Recuperação 
de Documentos
Veremos os seguintes modelos:
 Modelo Booleano 
 Modelo Espaço Vetorial 
 Modelo Probabilista
Para cada modelo, veremos:
 A representação do documento 
 A representação da consulta
 A função de busca
8
Exercícios
O que o modelo computacional de recuperação de 
informação define nos sistemas de recuperação de 
informação?
Quais as tarefas típicas que o usuário pode realizar 
através da interface de um sistema de recuperação 
de informação na especificação de uma expressão de 
busca?
9
Modelo Booleano
Representação do documento
Dado o conjunto de termos representativos para o 
corpus em questão (Vocabulário do Sistema)
 V = {t1, t2,...,tn}
Os documentos são representados como conjunto de 
termos de indexação atribuídos intelectualmente ou 
automaticamente. Os conjuntos são representados 
como vetores de pesos binários de tamanho n
 Cada posição no vetor corresponde a um termo usado 
na indexação dos documentos da base
 Cada valor indica apenas se determinado termo está 
ou não representando assunto do documento
Exemplo
Por exemplo: V={t1,t2,t3}
d1 = {1 ,0 ,1} 
 Ao documento d1 foram 
atribuídos os termos de indexação
t1 e t3, e não foi atribuído o termo de 
indexação t2.
O valor 1 representa VERDADEIRO, e 0 
representa FALSO.
 Um método automático muito utilizado para 
representar o conteúdo textual de documentos 
consiste em considerar cada palavra 
isoladamente ou seu radical como assunto. 
Este método de representação é conhecido 
como modelo sacola de palavras, do inglês 
bag-of-words.
10
t1
t3
d1
d1
t1
t2
t3
Exemplo
Para um conjunto de 7 documentos, e um 
vocabulário do sistema de 3 termos de indexação 
podemos ter os documentos representados através 
da seguinte matriz binária.
11
t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 0 0 1
d5 1 1 1
d6 1 1 0
d7 0 1 0
12
Modelo Booleano
Representação da consulta
Consulta: 
 Expressão booleana: A consulta é expressa 
utilizando termos de indexação conectados por 
operadores lógicos booleanos: E; OU; NÃO.
 Termos ou palavras
 conectados por: AND, OR, NOT
 Parentêses podem ser utilizados para mudar a 
precedência de resolução da consulta.
 A consulta expressa que se deseja um conjunto de 
documentos cuja representação satisfazem às 
restrições lógicas da expressão de busca, isto é 
que fazem a expressão booleana assumir o valor 
VERDADEIRO. 
Exemplo
13
d1
d2
d3
d4
d5
d6
d7
t1
t2
t3
t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 0 0 1
d5 1 1 1
d6 1 1 0
d7 0 1 0
Exemplos de consultas booleanas: 
t1 AND t2 
t1 OR t2
t1 AND NOT t2
14
Operadores booleanos
Exemplo
15
d1
d2
d3
d4
d5
d6
d7
Brasil
Olimpíada
Sidney
Brasil Olimpíada SidneyConsulta q :
Documento d5 :
Brasil em Sidney 2000
O Brasil não foi bem no quadra 
das medalhas da Olimpíada de 
Sidney 2000 ...
Brasil AND
Olimpíada AND
Sidney
Brasil 1
Olimpíada 1
Sidney 1
Representação de q
Representação de d5
Todos os termos Qualquer dos termos
16
Função de busca
Relevância “binária”:
 O documento é considerado relevante se e somente 
se seu “casamento” com a consulta é verdadeiro, isto 
é se o valor verdade da consulta se torna verdadeiro 
para aquele documento.
 Não é possível ordenar os documentos recuperados
Exemplo de consulta
Consulta:
t1 AND t2 AND t3
Documentos 
apresentados ao 
usuário
t1 t2
t3
Corpus de Documentos
Exemplo
Diagrama de Venn
17
d1
d2
d3
d4
d5
d6
d7
t1
t2
t3
t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 0 0 1
d5 1 1 1
d6 1 1 0
d7 0 1 0
Exemplos de aplicação da função de busca booleana: 
t1 AND t2 -> R: d5, d6
t1 OR t2 -> R: d1, d2, d3, d5, d6, d7
t1 AND NOT t2 -> R: d1, d2
* Observação: Resultados (R) em qualquer ordem.
Consultas booleanas: 
t1 AND t2
t1 OR
t1 AND NOT t2
Exemplo
Tabela Verdade
18
t1 t2 t3 t1 AND t2 t1 OR t2 NOT t2 t1 AND NOT t2
d1 1 0 1 0 1 1 1
d2 1 0 0 0 1 1 1
d3 0 1 1 0 1 0 0
d4 0 0 1 0 0 1 0
d5 1 1 1 1 1 0 0
d6 1 1 0 1 1 0 0
d7 0 1 0 0 1 0 0
Exemplos de aplicação da função de busca booleana: 
t1 AND t2 -> R: d5, d6
t1 OR t2 -> R: d1, d2, d3, d5, d6, d7
t1 AND NOT t2 -> R: d1, d2
* Observação: Resultados (R) em qualquer ordem.
19
Modelo Booleano
Operadores de proximidade
Úteis para predizer a adjacência de palavras 
ou frases que podem aparecer no texto dos 
documentos relevantes. Podem especificar 
condições relacionadas a:
 Distância dos termos no texto
 t1 NEAR/3 t2 (o termo t1 aparece com no máximo 3 
palavras de distância que t2, não importando a ordem)
 t1 ADJ/5 t2 (o termo t1 seguido de t2 separados por no 
máximo 5 palavras)
 Posição dos termos no texto
 t1 WITH t2 (mesmo parágrafo)
 t1 SAME t2 (mesma sentença)
 t1 ADJ t2 (t1 seguido de t2), ou “t1 t2”
20
Modelo Booleano
Vantagens
 Modelo simples baseado em teoria bem 
fundamentada
 Fácil de entender e implementar em computador
Desvantagens
 Não permite casamento parcial entre consulta e 
documento
 Não permite ordenação dos documentos recuperados
 A necessidade de informação do usuário deve ser 
expressa em termos de uma expressão booleana
 Nem todo usuário é capaz disso
 Todosos termos de indexação são independentes e 
têm o mesmo peso na descrição dos assuntos de um 
documento.
21
Exercícios
1) Para o exemplo, utilizando o modelo booleano, 
qual o resultado das buscas: 
 a) t2 AND t3
 b) t2 OR t3
 C) t2 AND NOT t3
2) Escreva em português o tipo de documento 
retornado pelas expressões de busca abaixo:
 a) documento OR informação
 b) recuperação AND (documento OR informação)
 c) recuperação AND informação AND web
 d) recuperação AND informação AND NOT imagem
Exercícios
3) Acesse Scielo:
http://www.scielo.br/scielo.php?script=sci_home&lng=pt&nrm=iso
 Acesse Pesquisa de artigos
 Recuperar documentos que possua o termo indexação 
automática em algum dos campos descritivos dos artigos.
22
23
Referências
Slides do Prof. Berthier Ribeiro Neto
FERNEDA, E. Introdução aos Modelos 
Computacionais de Recuperação de 
Informação. Rio de Janeiro: Editora Ciência 
Moderna
Ltda. 2012.
24

Continue navegando