Baixe o app para aproveitar ainda mais
Prévia do material em texto
DCI-UFPE 1 Introdução à Recuperação da Informação (RI) Renato Fernandes Corrêa Recuperação da Informação 2 Roteiro Problemas\Contexto\Motivação Definições Sistema de Recuperação de Informação (SRI) Exemplos de SRI Interface de SRI 3 Problemas\Contexto Problema de RI: Necessidade de condensar e organizar a informação de acordo com necessidades e objetivos para recuperação posterior.(OTLET, 1934) “A tarefa massiva de tornar mais acessível, um acervo crescente de conhecimento“. (VANNEVAR BUSH, 1945) 4 Problemas\Contexto Problemas na RI: Explosão informacional – acervo crescente de documentos informativos. Sobrecarga de informação – muitos documentos retornados como resultado de uma busca. 5 Contexto\Motivação Motivações: Importância estratégica da informação e do conhecimento Informação como recurso estratégico para profissionais, empresas, governos, sociedades, etc. 6 Contexto\Motivação Motivações: Documentos digitais de conteúdo processável por computador (desde 1980) Web como repositório mundial de informação digital (desde 1990) 7 Exercícios Descreva o problema de pesquisa da área de recuperação de informação. Descreva os dois problemas presentes no processo de recuperação de informação. Cite motivos para pesquisar o processo de recuperação de informação. 8 Definição Calvin MOOERS (1951) cunhou a área de pesquisa (ou disciplina) denominada recuperação de informação (do inglês information retrieval), destacando que ela: "engloba os aspectos intelectuais da descrição de informações e suas especificidades para a busca, além de quaisquer sistemas, técnicas ou máquinas empregados para o desempenho da operação.“ 9 Definição “Certamente, a recuperação da informação não foi a única responsável pelo desenvolvimento da CI [Ciência da Informação], mas pode ser considerada como principal; ao longo do tempo, a CI ultrapassou a recuperação da informação, mas os problemas principais tiveram sua origem aí e ainda constituem seu núcleo.” SARACEVIC (1991) 10 Definição Buckland(1991) define informação “como coisa” como: aquilo que é visto como informativo, pontencial para o processo de informar, expresso, descrito ou representado em algum modo físico. Físico não é mais aplicável atualmente, mas sim modo lógico (manipulável e legível por computador), dada a natureza lógica, abstrata e numérica da informação digital. Este é o sentido de informação que os Sistemas de Recuperação de Informação (SRI) podem lidar diretamente. 11 Definição Recuperação de Informação é uma área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação Com objetivo principal de facilitar o acesso a documentos (itens de informação) relevantes à necessidade de informação do usuário Geralmente representada através de expressões de busca (consultas baseadas em palavras-chaves) 12 Recuperação de Informação O processo de recuperação de informação é uma tarefa típica onde: Dados Um corpus de documentos e Uma expressão de busca do usuário O objetivo é encontrar Um conjunto (ordenado) de documentos que são relevantes para a consulta 13Processso de RI: Elementos de um Sistemas de RI Sistema de RIExpressão de busca Corpus de documentos Documentos ordenados 1. Doc1 2. Doc2 3. Doc3 . . Usuário 1° 2° 4° 3º 14 Sistemas de RI Um sistema de recuperação de informação (SRI) pode ser visto como a parte do sistema de informação responsável pelo armazenamento ordenado dos documentos em base de dados, e sua posterior recuperação para responder a expressão de busca do usuário. Etapas principais na construção do SRI: Aquisição (seleção) dos documentos Preparação dos documentos Indexação dos documentos Armazenamento Recuperação Busca (casamento com a representação da expressão de busca do usuário) Ordenamento dos documentos recuperados (do inglês ranking) 15 Exercícios Defina a área de pesquisa recuperação de informação. Defina o processo de recuperação de informação. Defina o que é um sistema de recuperação de informação. Buscando caracterizar o google como um sistema de recuperação de informação, especifique: a) corpus; b) usuários; c) expressão de busca d) resultado da busca. 16Exemplos de Sistemas de Recuperação de Informação Catálogo em linha de acesso público Mecanismos de busca Serviços de busca em linha Sistemas de gerenciamento de documentos Sistemas de Filtragem de Informação Sistemas de Comércio Eletrônico Sistemas de fluxo de vídeo/áudio Catálogo em linha de acesso público (OPAC) Sistemas que recuperam informação em bases de dados catalográficos de bibliotecas. Exemplo: 18 Mecanismos de Busca Web Consulta Resposta Base de Índices Engenho de Busca Usuário Spider Indexador Representação dos Docs Servidor de Consultas Aquisição Pré-ProcessadorDocs Recuperador Ordenador 2 1 34 Motor de Indexação Browser Serviços de busca em linha Sistemas que recuperam informação em bases de dados bibliográficos ou de texto completo. Exemplos: Sistemas de gerenciamento de documentos Sistemas que gerenciam versões e recuperam informação em um corpus de documentos digitais. Exemplos: Softwares Proprietários da IBM (FileNet), Xerox(DocuShare), Microsoft (SharePoint) e Oracle. Softwares Livres Alfresco KnowledgeTree Main//Pyrus DMS Nuxeo OpenKM Archivista Sistemas de Filtragem de Informação Sistemas que filtram a informação recuperada de acordo com o interesse do usuário Servidor News Artigos Indexados Usuário Perfil do usuário Engenho de Busca Internet 22 Sistemas de Extração de Informação Sistemas capazes de extrair de documentos relevantes apenas a informação requerida A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs. Sistema de EI BD Nome: End.: Fone: Fax: Preços: Template Página de Hotel A tarefa do usuário Diante do SRI o usuário pode realizar duas tarefas: Busca ou Recuperação (do inglês Retrieval) Navegação (do inglês Browsing) Dependendo da tarefa a ser realizada pelo usuário, um modelo computacional de recuperação de informação deve ser empregado na construção do SRI. Tarefas do usuário: Navegação Navegação Embrapa - Infoteca MTTD-UFPE Tarefas do usuário: Recuperação (Busca) 27 Interface de SRI: Recursos de Busca Autocompletar 28 Interface de SRI: Recursos de Busca Motivos para uso do Autocompletar (sugestão de busca): Os usuários da web estão familiarizados com o autocompletar no endereço na barra dos navegadores Reduz o número de letras digitadas permitindo uma entrada rápida da consulta Previne erros de digitação Fornece um retorno ao usuário sobre a validade da consulta digitada Revela assuntos existentes no índice que casam com o que o usuário está digitando Requisito: lista de expressões de busca 29 Interface de SRI: Recursos de Busca Hit Highlights 30 Interface de SRI: Recursos de Busca Motivos para uso de Hit Highlights (destaque de ocorrência): Explica para o usuário porque o documento foi retornado como resultado da busca Permite visualizar no extrato do conteúdo do documento (snippet) trechos que contém os termos buscados mais próximosou em maior frequência. Requisito: o índice deve guardar a posição de ocorrência das palavras ou de suas representações (radical, lemma). 31 Interface de SRI: Recursos de Busca Outros recursos de busca: Você quis dizer? (Did you mean?) – útil na formulação da consulta, permitindo correção de erros ortográficos na consulta Operadores lógicos booleanos: AND, OR, NOT, ANDNOT. Operadores de obrigatoriedade de ocorrência (+,-) Operadores de busca em campo, geralmente através de formulário ou escritos no formato nomedocampo: expressão de busca 32 Interface de SRI: Recursos de Busca Outros recursos de busca: Operador de busca por radical (*) – útil na formulação da consulta, permitindo casamento com variações sintáticas de um radical de palavra que denota o mesmo conceito. Operador de caracter coringa (?) Operador de busca por frase (“”) – útil na formulação da consulta, permitindo casamento com uma sequência de palavras que definem um conceito ou contexto. Operador de proximidade de palavras (NEAR, ADJ, WITH) 33Interface de SRI: Recursos de filtragem Busca Facetada 34Interface de SRI: Recursos de filtragem Motivos para uso da Busca Facetada: Fornece meios para os usuários navegarem pelo catálogo, ou discriminarem os resultados de busca através de facetas (categorias) Encoraja a exploração do catálogo de forma rápida através da seleção de facetas Requisito: Categorias definidas e catalogadas no momento da indexação dos documentos 35 Exercício Escolha um SRI de uma base de dados científica e descreva: A. URL B. corpus C. usuários D. Resultado da busca E. Recursos de busca F. Recursos de filtragem 36 Referências FERNEDA, E. Introdução aos Modelos Computacionais de Recuperação de Informação. Rio de Janeiro: Editora Ciência Moderna Ltda. 2012. Capítulos 1 e 2 BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação de informação: conceitos e tecnologia das máquinas de busca. 2. ed. Porto Alegre: Bookman, 2013 SARACEVIC, T. Ciência da informação: origem, evolução e relações. Perspec. Ci. Inf., Belo Horizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996
Compartilhar