Buscar

Aula01 RI Introducao

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

DCI-UFPE 1
Introdução à Recuperação da 
Informação (RI)
Renato Fernandes Corrêa
Recuperação da Informação
2
Roteiro
Problemas\Contexto\Motivação
Definições
Sistema de Recuperação de Informação (SRI)
Exemplos de SRI
Interface de SRI
3
Problemas\Contexto
Problema de RI:
 Necessidade de condensar e
organizar a informação de acordo com 
necessidades e objetivos para
recuperação posterior.(OTLET, 1934)
 “A tarefa massiva de tornar mais 
acessível, um acervo crescente de 
conhecimento“. (VANNEVAR BUSH, 
1945) 
4
Problemas\Contexto
Problemas na RI:
 Explosão informacional – acervo 
crescente de documentos informativos.
 Sobrecarga de informação – muitos 
documentos retornados como resultado de 
uma busca.
5
Contexto\Motivação
Motivações:
 Importância estratégica da 
informação e do conhecimento
 Informação como recurso estratégico 
para profissionais, empresas, governos, 
sociedades, etc.
6
Contexto\Motivação
Motivações:
 Documentos digitais de conteúdo processável por 
computador (desde 1980)
 Web como repositório mundial de informação 
digital (desde 1990)
7
Exercícios
Descreva o problema de pesquisa da área de 
recuperação de informação.
Descreva os dois problemas presentes no processo
de recuperação de informação.
Cite motivos para pesquisar o processo de 
recuperação de informação.
8
Definição
Calvin MOOERS (1951) cunhou a área de 
pesquisa (ou disciplina) denominada 
recuperação de informação (do inglês 
information retrieval), destacando que 
ela:
 "engloba os aspectos intelectuais da 
descrição de informações e suas 
especificidades para a busca, além de quaisquer 
sistemas, técnicas ou máquinas empregados 
para o desempenho da operação.“
9
Definição
“Certamente, a recuperação da 
informação não foi a única responsável
pelo desenvolvimento da CI [Ciência da 
Informação], mas pode ser considerada como 
principal; ao longo do tempo, a CI 
ultrapassou a recuperação da informação, 
mas os problemas principais tiveram sua 
origem aí e ainda constituem seu núcleo.” 
SARACEVIC (1991)
10
Definição
Buckland(1991) define informação “como 
coisa” como: aquilo que é visto como 
informativo, pontencial para o processo de 
informar, expresso, descrito ou 
representado em algum modo físico.
 Físico não é mais aplicável atualmente, mas sim 
modo lógico (manipulável e legível por 
computador), dada a natureza lógica, abstrata e 
numérica da informação digital.
Este é o sentido de informação que os 
Sistemas de Recuperação de 
Informação (SRI) podem lidar diretamente.
11
Definição
Recuperação de Informação é uma área de pesquisa 
e desenvolvimento que 
 investiga métodos e técnicas
 para a representação, a organização, o 
armazenamento, a busca e a recuperação de itens 
de informação
Com objetivo principal de
 facilitar o acesso a documentos (itens de informação) 
relevantes à necessidade de informação do usuário
 Geralmente representada através de expressões 
de busca (consultas baseadas em palavras-chaves)
12
Recuperação de Informação
O processo de recuperação de 
informação é uma tarefa típica onde:
 Dados
 Um corpus de documentos e
 Uma expressão de busca do usuário
 O objetivo é encontrar 
 Um conjunto (ordenado) de documentos que 
são relevantes para a consulta
13Processso de RI:
Elementos de um Sistemas de RI
Sistema de RIExpressão 
de busca
Corpus de 
documentos
Documentos 
ordenados
1. Doc1
2. Doc2
3. Doc3
.
.
Usuário
1°
2°
4°
3º
14
Sistemas de RI
Um sistema de recuperação de informação (SRI) pode ser visto 
como
 a parte do sistema de informação responsável pelo 
armazenamento ordenado dos documentos em base de 
dados, 
 e sua posterior recuperação
 para responder a expressão de busca do usuário.
Etapas principais na construção do SRI:
 Aquisição (seleção) dos documentos
 Preparação dos documentos
 Indexação dos documentos
 Armazenamento
 Recuperação
 Busca (casamento com a representação da expressão de busca 
do usuário)
 Ordenamento dos documentos recuperados (do inglês ranking)
15
Exercícios
Defina a área de pesquisa recuperação de 
informação.
Defina o processo de recuperação de informação.
Defina o que é um sistema de recuperação de 
informação.
Buscando caracterizar o google como um sistema de 
recuperação de informação, especifique: a) corpus; 
b) usuários; c) expressão de busca d) resultado da 
busca.
16Exemplos de Sistemas de 
Recuperação de Informação
Catálogo em linha de acesso público
Mecanismos de busca
Serviços de busca em linha
Sistemas de gerenciamento de documentos
Sistemas de Filtragem de Informação
Sistemas de Comércio Eletrônico
Sistemas de fluxo de vídeo/áudio
Catálogo em linha de acesso público
(OPAC)
Sistemas que recuperam informação em 
bases de dados catalográficos de bibliotecas.
Exemplo:
18
Mecanismos de Busca
Web
Consulta
Resposta
Base de
Índices
Engenho de Busca
Usuário
Spider
Indexador
Representação dos Docs
Servidor de Consultas
Aquisição
Pré-ProcessadorDocs
Recuperador
Ordenador
2
1
34
Motor de
Indexação
Browser
Serviços de busca em linha
Sistemas que recuperam informação em 
bases de dados bibliográficos ou de texto 
completo.
Exemplos:
Sistemas de gerenciamento de 
documentos
Sistemas que gerenciam versões e recuperam 
informação em um corpus de documentos digitais.
Exemplos:
 Softwares Proprietários da IBM (FileNet), 
Xerox(DocuShare), Microsoft (SharePoint) e 
Oracle.
 Softwares Livres
 Alfresco
 KnowledgeTree
 Main//Pyrus DMS
 Nuxeo
 OpenKM
 Archivista
Sistemas de Filtragem de Informação
Sistemas que filtram a informação recuperada 
de acordo com o interesse do usuário
Servidor News
Artigos
Indexados
Usuário
Perfil do
usuário
Engenho de 
Busca Internet
22
Sistemas de Extração de Informação
Sistemas capazes de extrair de documentos 
relevantes apenas a informação requerida
A informação extraída pode ser apresentada 
ao usuário e/ou armazenada em BDs.
Sistema de EI
BD
Nome:
End.:
Fone:
Fax:
Preços:
Template
Página de Hotel
A tarefa do usuário
Diante do SRI o usuário pode realizar duas 
tarefas:
 Busca ou Recuperação (do inglês Retrieval)
 Navegação (do inglês Browsing)
Dependendo da tarefa a ser realizada pelo 
usuário, um modelo computacional de 
recuperação de informação deve ser 
empregado na construção do SRI.
Tarefas do usuário: Navegação
Navegação
Embrapa - Infoteca
MTTD-UFPE
Tarefas do usuário: Recuperação 
(Busca)
27
Interface de SRI: Recursos de Busca
Autocompletar
28
Interface de SRI: Recursos de Busca
Motivos para uso do Autocompletar (sugestão 
de busca):
 Os usuários da web estão familiarizados com o 
autocompletar no endereço na barra dos 
navegadores
 Reduz o número de letras digitadas permitindo 
uma entrada rápida da consulta
 Previne erros de digitação
 Fornece um retorno ao usuário sobre a validade 
da consulta digitada
 Revela assuntos existentes no índice que casam 
com o que o usuário está digitando
Requisito: lista de expressões de busca
29
Interface de SRI: Recursos de Busca
Hit Highlights
30
Interface de SRI: Recursos de Busca
Motivos para uso de Hit Highlights (destaque 
de ocorrência):
 Explica para o usuário porque o documento foi 
retornado como resultado da busca
 Permite visualizar no extrato do conteúdo do 
documento (snippet) trechos que contém os 
termos buscados mais próximosou em maior 
frequência.
Requisito: o índice deve guardar a posição de 
ocorrência das palavras ou de suas 
representações (radical, lemma).
31
Interface de SRI: Recursos de Busca
Outros recursos de busca:
 Você quis dizer? (Did you mean?) – útil na 
formulação da consulta, permitindo 
correção de erros ortográficos na consulta
 Operadores lógicos booleanos: AND, OR, 
NOT, ANDNOT.
 Operadores de obrigatoriedade de 
ocorrência (+,-)
 Operadores de busca em campo, 
geralmente através de formulário ou 
escritos no formato
nomedocampo: expressão de busca
32
Interface de SRI: Recursos de Busca
Outros recursos de busca:
 Operador de busca por radical (*) – útil na 
formulação da consulta, permitindo 
casamento com variações sintáticas de um 
radical de palavra que denota o mesmo 
conceito.
 Operador de caracter coringa (?)
 Operador de busca por frase (“”) – útil na 
formulação da consulta, permitindo casamento 
com uma sequência de palavras que definem 
um conceito ou contexto.
 Operador de proximidade de palavras (NEAR, ADJ, 
WITH)
33Interface de SRI: Recursos de 
filtragem
Busca Facetada
34Interface de SRI: Recursos de 
filtragem
Motivos para uso da Busca Facetada:
 Fornece meios para os usuários navegarem pelo 
catálogo, ou discriminarem os resultados de busca 
através de facetas (categorias)
 Encoraja a exploração do catálogo de forma 
rápida através da seleção de facetas
Requisito: Categorias definidas e catalogadas 
no momento da indexação dos documentos
35
Exercício
Escolha um SRI de uma base de dados científica e 
descreva:
A. URL
B. corpus
C. usuários
D. Resultado da busca
E. Recursos de busca
F. Recursos de filtragem
36
Referências
FERNEDA, E. Introdução aos Modelos 
Computacionais de Recuperação de 
Informação. Rio de Janeiro: Editora Ciência 
Moderna Ltda. 2012.
 Capítulos 1 e 2
BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação 
de informação: conceitos e tecnologia das 
máquinas de busca. 2. ed. Porto Alegre: Bookman, 
2013
SARACEVIC, T. Ciência da informação: origem, 
evolução e relações. Perspec. Ci. Inf., Belo 
Horizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996

Outros materiais