Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Recuperação de Informação Modelos de Recuperação de Documentos Modelo Booleano Renato Fernandes Corrêa 22 Sistemas de RI (SRI) Um sistema de recuperação de informação pode ser visto como a parte do sistema de informação responsável pelo armazenamento ordenado dos documentos em base de dados, e sua posterior recuperação para responder a consulta do usuário. Todo SRI adota um modelo computacional de recuperação de informação que determina o modo de operação do sistema. 3 Como funciona os Sistemas de Recuperação de Informação? Usuário Necessidade de Informação Função de busca Documentos RepresentaçãoRepresentação Consulta Modelos de Recuperação de Informação Sistema de Recuperação de Informação Resultado Armazenamento do Índice Casamento, Ordenação Modelos de Recuperação de Informação Os SRIs adotam modelos de recuperação de informação que definem principalmente: A representação dos documentos A visão lógica dos documentos, sua representação no sistema A representação das expressões de busca dos usuários A visão lógica da expressão de busca ou consulta, sua representação no sistema A função de busca: como as duas representações são comparadas, e como ordenar os documentos que casam (a lista de resultado). Além do modo de operação os modelos definem a eficiência e eficácia dos SRIs. 5 Modelos de Recuperação de Informação Existe uma distinção entre: A tarefa do usuário Recuperação ou browsing A visão lógica dos documentos e consulta sua representação no sistema Podem ser categorizados quanto aos fundamentos teóricos/históricos dos modelos de recuperação de informação: Clássico, estruturado, navegação Tarefas e Modelos de Recuperação de Informação Listas não-sobrepostas Nós proximais Modelos Estruturados Recuperação: Adhoc Filtragem Browsing T A R E F A D O u S U Á R I O Modelos Clássicos Booleano Espaço vetorial Probabilista Teoria dos conjuntos Fuzzy Booleano estendido Probabilista Redes de inferência Redes de crença Algebrico E. V. generalizado Semântica Latente Redes Neurais Browsing Plano Estruturado Hipertextual 7 Modelos Clássicos de Recuperação de Documentos Veremos os seguintes modelos: Modelo Booleano Modelo Espaço Vetorial Modelo Probabilista Para cada modelo, veremos: A representação do documento A representação da consulta A função de busca 8 Exercícios O que o modelo computacional de recuperação de informação define nos sistemas de recuperação de informação? Quais as tarefas típicas que o usuário pode realizar através da interface de um sistema de recuperação de informação na especificação de uma expressão de busca? 9 Modelo Booleano Representação do documento Dado o conjunto de termos representativos para o corpus em questão (Vocabulário do Sistema) V = {t1, t2,...,tn} Os documentos são representados como conjunto de termos de indexação atribuídos intelectualmente ou automaticamente. Os conjuntos são representados como vetores de pesos binários de tamanho n Cada posição no vetor corresponde a um termo usado na indexação dos documentos da base Cada valor indica apenas se determinado termo está ou não representando assunto do documento Exemplo Por exemplo: V={t1,t2,t3} d1 = {1 ,0 ,1} Ao documento d1 foram atribuídos os termos de indexação t1 e t3, e não foi atribuído o termo de indexação t2. O valor 1 representa VERDADEIRO, e 0 representa FALSO. Um método automático muito utilizado para representar o conteúdo textual de documentos consiste em considerar cada palavra isoladamente ou seu radical como assunto. Este método de representação é conhecido como modelo sacola de palavras, do inglês bag-of-words. 10 t1 t3 d1 d1 t1 t2 t3 Exemplo Para um conjunto de 7 documentos, e um vocabulário do sistema de 3 termos de indexação podemos ter os documentos representados através da seguinte matriz binária. 11 t1 t2 t3 d1 1 0 1 d2 1 0 0 d3 0 1 1 d4 0 0 1 d5 1 1 1 d6 1 1 0 d7 0 1 0 12 Modelo Booleano Representação da consulta Consulta: Expressão booleana: A consulta é expressa utilizando termos de indexação conectados por operadores lógicos booleanos: E; OU; NÃO. Termos ou palavras conectados por: AND, OR, NOT Parentêses podem ser utilizados para mudar a precedência de resolução da consulta. A consulta expressa que se deseja um conjunto de documentos cuja representação satisfazem às restrições lógicas da expressão de busca, isto é que fazem a expressão booleana assumir o valor VERDADEIRO. Exemplo 13 d1 d2 d3 d4 d5 d6 d7 t1 t2 t3 t1 t2 t3 d1 1 0 1 d2 1 0 0 d3 0 1 1 d4 0 0 1 d5 1 1 1 d6 1 1 0 d7 0 1 0 Exemplos de consultas booleanas: t1 AND t2 t1 OR t2 t1 AND NOT t2 14 Operadores booleanos Exemplo 15 d1 d2 d3 d4 d5 d6 d7 Brasil Olimpíada Sidney Brasil Olimpíada SidneyConsulta q : Documento d5 : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney 2000 ... Brasil AND Olimpíada AND Sidney Brasil 1 Olimpíada 1 Sidney 1 Representação de q Representação de d5 Todos os termos Qualquer dos termos 16 Função de busca Relevância “binária”: O documento é considerado relevante se e somente se seu “casamento” com a consulta é verdadeiro, isto é se o valor verdade da consulta se torna verdadeiro para aquele documento. Não é possível ordenar os documentos recuperados Exemplo de consulta Consulta: t1 AND t2 AND t3 Documentos apresentados ao usuário t1 t2 t3 Corpus de Documentos Exemplo Diagrama de Venn 17 d1 d2 d3 d4 d5 d6 d7 t1 t2 t3 t1 t2 t3 d1 1 0 1 d2 1 0 0 d3 0 1 1 d4 0 0 1 d5 1 1 1 d6 1 1 0 d7 0 1 0 Exemplos de aplicação da função de busca booleana: t1 AND t2 -> R: d5, d6 t1 OR t2 -> R: d1, d2, d3, d5, d6, d7 t1 AND NOT t2 -> R: d1, d2 * Observação: Resultados (R) em qualquer ordem. Consultas booleanas: t1 AND t2 t1 OR t1 AND NOT t2 Exemplo Tabela Verdade 18 t1 t2 t3 t1 AND t2 t1 OR t2 NOT t2 t1 AND NOT t2 d1 1 0 1 0 1 1 1 d2 1 0 0 0 1 1 1 d3 0 1 1 0 1 0 0 d4 0 0 1 0 0 1 0 d5 1 1 1 1 1 0 0 d6 1 1 0 1 1 0 0 d7 0 1 0 0 1 0 0 Exemplos de aplicação da função de busca booleana: t1 AND t2 -> R: d5, d6 t1 OR t2 -> R: d1, d2, d3, d5, d6, d7 t1 AND NOT t2 -> R: d1, d2 * Observação: Resultados (R) em qualquer ordem. 19 Modelo Booleano Operadores de proximidade Úteis para predizer a adjacência de palavras ou frases que podem aparecer no texto dos documentos relevantes. Podem especificar condições relacionadas a: Distância dos termos no texto t1 NEAR/3 t2 (o termo t1 aparece com no máximo 3 palavras de distância que t2, não importando a ordem) t1 ADJ/5 t2 (o termo t1 seguido de t2 separados por no máximo 5 palavras) Posição dos termos no texto t1 WITH t2 (mesmo parágrafo) t1 SAME t2 (mesma sentença) t1 ADJ t2 (t1 seguido de t2), ou “t1 t2” 20 Modelo Booleano Vantagens Modelo simples baseado em teoria bem fundamentada Fácil de entender e implementar em computador Desvantagens Não permite casamento parcial entre consulta e documento Não permite ordenação dos documentos recuperados A necessidade de informação do usuário deve ser expressa em termos de uma expressão booleana Nem todo usuário é capaz disso Todosos termos de indexação são independentes e têm o mesmo peso na descrição dos assuntos de um documento. 21 Exercícios 1) Para o exemplo, utilizando o modelo booleano, qual o resultado das buscas: a) t2 AND t3 b) t2 OR t3 C) t2 AND NOT t3 2) Escreva em português o tipo de documento retornado pelas expressões de busca abaixo: a) documento OR informação b) recuperação AND (documento OR informação) c) recuperação AND informação AND web d) recuperação AND informação AND NOT imagem Exercícios 3) Acesse Scielo: http://www.scielo.br/scielo.php?script=sci_home&lng=pt&nrm=iso Acesse Pesquisa de artigos Recuperar documentos que possua o termo indexação automática em algum dos campos descritivos dos artigos. 22 23 Referências Slides do Prof. Berthier Ribeiro Neto FERNEDA, E. Introdução aos Modelos Computacionais de Recuperação de Informação. Rio de Janeiro: Editora Ciência Moderna Ltda. 2012. 24
Compartilhar