AULAS RI Completo

•
UFPE

Alexandra Feitosa
23/10/2018
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 231 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 231 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 231 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Recuperação da Informação

265 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
DCI-UFPE 1
Introdução à Recuperação da 
Informação (RI)
Renato Fernandes Corrêa
Recuperação da Informação
2
Roteiro
Problemas\Contexto\Motivação
Definições
Sistema de Recuperação de Informação (SRI)
Exemplos de SRI
Interface de SRI
3
Problemas\Contexto
Problema de RI:
 Necessidade de condensar e
organizar a informação de acordo com 
necessidades e objetivos para
recuperação posterior.(OTLET, 1934)
 “A tarefa massiva de tornar mais 
acessível, um acervo crescente de 
conhecimento“. (VANNEVAR BUSH, 
1945) 
4
Problemas\Contexto
Problemas na RI:
 Explosão informacional – acervo 
crescente de documentos informativos.
 Sobrecarga de informação – muitos 
documentos retornados como resultado de 
uma busca.
5
Contexto\Motivação
Motivações:
 Importância estratégica da 
informação e do conhecimento
 Informação como recurso estratégico 
para profissionais, empresas, governos, 
sociedades, etc.
6
Contexto\Motivação
Motivações:
 Documentos digitais de conteúdo processável por 
computador (desde 1980)
 Web como repositório mundial de informação 
digital (desde 1990)
7
Exercícios
Descreva o problema de pesquisa da área de 
recuperação de informação.
Descreva os dois problemas presentes no processo
de recuperação de informação.
Cite motivos para pesquisar o processo de 
recuperação de informação.
8
Definição
Calvin MOOERS (1951) cunhou a área de 
pesquisa (ou disciplina) denominada 
recuperação de informação (do inglês 
information retrieval), destacando que 
ela:
 "engloba os aspectos intelectuais da 
descrição de informações e suas 
especificidades para a busca, além de quaisquer 
sistemas, técnicas ou máquinas empregados 
para o desempenho da operação.“
9
Definição
“Certamente, a recuperação da 
informação não foi a única responsável
pelo desenvolvimento da CI [Ciência da 
Informação], mas pode ser considerada como 
principal; ao longo do tempo, a CI 
ultrapassou a recuperação da informação, 
mas os problemas principais tiveram sua 
origem aí e ainda constituem seu núcleo.” 
SARACEVIC (1991)
10
Definição
Buckland(1991) define informação “como 
coisa” como: aquilo que é visto como 
informativo, pontencial para o processo de 
informar, expresso, descrito ou 
representado em algum modo físico.
 Físico não é mais aplicável atualmente, mas sim 
modo lógico (manipulável e legível por 
computador), dada a natureza lógica, abstrata e 
numérica da informação digital.
Este é o sentido de informação que os 
Sistemas de Recuperação de 
Informação (SRI) podem lidar diretamente.
11
Definição
Recuperação de Informação é uma área de pesquisa 
e desenvolvimento que 
 investiga métodos e técnicas
 para a representação, a organização, o 
armazenamento, a busca e a recuperação de itens 
de informação
Com objetivo principal de
 facilitar o acesso a documentos (itens de informação) 
relevantes à necessidade de informação do usuário
 Geralmente representada através de expressões 
de busca (consultas baseadas em palavras-chaves)
12
Recuperação de Informação
O processo de recuperação de 
informação é uma tarefa típica onde:
 Dados
 Um corpus de documentos e
 Uma expressão de busca do usuário
 O objetivo é encontrar 
 Um conjunto (ordenado) de documentos que 
são relevantes para a consulta
13Processso de RI:
Elementos de um Sistemas de RI
Sistema de RIExpressão 
de busca
Corpus de 
documentos
Documentos 
ordenados
1. Doc1
2. Doc2
3. Doc3
.
.
Usuário
1°
2°
4°
3º
14
Sistemas de RI
Um sistema de recuperação de informação (SRI) pode ser visto 
como
 a parte do sistema de informação responsável pelo 
armazenamento ordenado dos documentos em base de 
dados, 
 e sua posterior recuperação
 para responder a expressão de busca do usuário.
Etapas principais na construção do SRI:
 Aquisição (seleção) dos documentos
 Preparação dos documentos
 Indexação dos documentos
 Armazenamento
 Recuperação
 Busca (casamento com a representação da expressão de busca 
do usuário)
 Ordenamento dos documentos recuperados (do inglês ranking)
15
Exercícios
Defina a área de pesquisa recuperação de 
informação.
Defina o processo de recuperação de informação.
Defina o que é um sistema de recuperação de 
informação.
Buscando caracterizar o google como um sistema de 
recuperação de informação, especifique: a) corpus; 
b) usuários; c) expressão de busca d) resultado da 
busca.
16Exemplos de Sistemas de 
Recuperação de Informação
Catálogo em linha de acesso público
Mecanismos de busca
Serviços de busca em linha
Sistemas de gerenciamento de documentos
Sistemas de Filtragem de Informação
Sistemas de Comércio Eletrônico
Sistemas de fluxo de vídeo/áudio
Catálogo em linha de acesso público
(OPAC)
Sistemas que recuperam informação em 
bases de dados catalográficos de bibliotecas.
Exemplo:
18
Mecanismos de Busca
Web
Consulta
Resposta
Base de
Índices
Engenho de Busca
Usuário
Spider
Indexador
Representação dos Docs
Servidor de Consultas
Aquisição
Pré-ProcessadorDocs
Recuperador
Ordenador
2
1
34
Motor de
Indexação
Browser
Serviços de busca em linha
Sistemas que recuperam informação em 
bases de dados bibliográficos ou de texto 
completo.
Exemplos:
Sistemas de gerenciamento de 
documentos
Sistemas que gerenciam versões e recuperam 
informação em um corpus de documentos digitais.
Exemplos:
 Softwares Proprietários da IBM (FileNet), 
Xerox(DocuShare), Microsoft (SharePoint) e 
Oracle.
 Softwares Livres
 Alfresco
 KnowledgeTree
 Main//Pyrus DMS
 Nuxeo
 OpenKM
 Archivista
Sistemas de Filtragem de Informação
Sistemas que filtram a informação recuperada 
de acordo com o interesse do usuário
Servidor News
Artigos
Indexados
Usuário
Perfil do
usuário
Engenho de 
Busca Internet
22
Sistemas de Extração de Informação
Sistemas capazes de extrair de documentos 
relevantes apenas a informação requerida
A informação extraída pode ser apresentada 
ao usuário e/ou armazenada em BDs.
Sistema de EI
BD
Nome:
End.:
Fone:
Fax:
Preços:
Template
Página de Hotel
A tarefa do usuário
Diante do SRI o usuário pode realizar duas 
tarefas:
 Busca ou Recuperação (do inglês Retrieval)
 Navegação (do inglês Browsing)
Dependendo da tarefa a ser realizada pelo 
usuário, um modelo computacional de 
recuperação de informação deve ser 
empregado na construção do SRI.
Tarefas do usuário: Navegação
Navegação
Embrapa - Infoteca
MTTD-UFPE
Tarefas do usuário: Recuperação 
(Busca)
27
Interface de SRI: Recursos de Busca
Autocompletar
28
Interface de SRI: Recursos de Busca
Motivos para uso do Autocompletar (sugestão 
de busca):
 Os usuários da web estão familiarizados com o 
autocompletar no endereço na barra dos 
navegadores
 Reduz o número de letras digitadas permitindo 
uma entrada rápida da consulta
 Previne erros de digitação
 Fornece um retorno ao usuário sobre a validade 
da consulta digitada
 Revela assuntos existentes no índice que casam 
com o que o usuário está digitando
Requisito: lista de expressões de busca
29
Interface de SRI: Recursos de Busca
Hit Highlights
30
Interface de SRI: Recursos de Busca
Motivos para uso de Hit Highlights (destaque 
de ocorrência):
 Explica para o usuário porque o documento foi 
retornado como resultado da busca
 Permite visualizar no extrato do conteúdo do 
documento (snippet) trechos que contém os 
termos buscados mais próximosou em maior 
frequência.
Requisito: o índice deve guardar a posição de 
ocorrência das palavras ou de suas 
representações (radical, lemma).
31
Interface de SRI: Recursos de Busca
Outros recursos de busca:
 Você quis dizer? (Did you mean?) – útil na 
formulação da consulta, permitindo 
correção de erros ortográficos na consulta
 Operadores lógicos booleanos: AND, OR, 
NOT, ANDNOT.
 Operadores de obrigatoriedade de 
ocorrência (+,-)
 Operadores de busca em campo, 
geralmente através de formulário ou 
escritos no formato
nomedocampo: expressão de busca
32
Interface de SRI: Recursos de Busca
Outros recursos de busca:
 Operador de busca por radical (*) – útil na 
formulação da consulta, permitindo 
casamento com variações sintáticas de um 
radical de palavra que denota o mesmo 
conceito.
 Operador de caracter coringa (?)
 Operador de busca por frase (“”) – útil na 
formulação da consulta, permitindo casamento 
com uma sequência de palavras que definem 
um conceito ou contexto.
 Operador de proximidade de palavras (NEAR, ADJ, 
WITH)
33Interface de SRI: Recursos de 
filtragem
Busca Facetada
34Interface de SRI: Recursos de 
filtragem
Motivos para uso da Busca Facetada:
 Fornece meios para os usuários navegarem pelo 
catálogo, ou discriminarem os resultados de busca 
através de facetas (categorias)
 Encoraja a exploração do catálogo de forma 
rápida através da seleção de facetas
Requisito: Categorias definidas e catalogadas 
no momento da indexação dos documentos
35
Exercício
Escolha um SRI de uma base de dados científica e 
descreva:
A. URL
B. corpus
C. usuários
D. Resultado da busca
E. Recursos de busca
F. Recursos de filtragem
36
Referências
FERNEDA, E. Introdução aos Modelos 
Computacionais de Recuperação de 
Informação. Rio de Janeiro: Editora Ciência 
Moderna Ltda. 2012.
 Capítulos 1 e 2
BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação 
de informação: conceitos e tecnologia das 
máquinas de busca. 2. ed. Porto Alegre: Bookman, 
2013
SARACEVIC, T. Ciência da informação: origem, 
evolução e relações. Perspec. Ci. Inf., Belo 
Horizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996
1
Recuperação de Informação
Modelos de Recuperação de Documentos
Modelo Booleano
Renato Fernandes Corrêa
22
Sistemas de RI (SRI)
Um sistema de recuperação de informação 
pode ser visto como
 a parte do sistema de informação responsável 
pelo armazenamento ordenado dos documentos 
em base de dados, 
 e sua posterior recuperação
 para responder a consulta do usuário.
Todo SRI adota um modelo computacional 
de recuperação de informação que 
determina o modo de operação do sistema.
3
Como funciona os Sistemas de Recuperação de 
Informação?
Usuário
Necessidade de
Informação
Função de busca
Documentos
RepresentaçãoRepresentação Consulta
Modelos de Recuperação de 
Informação 
Sistema de 
Recuperação de Informação
Resultado
Armazenamento 
do Índice
Casamento, Ordenação
Modelos de Recuperação de Informação
Os SRIs adotam modelos de recuperação de 
informação que definem principalmente:
 A representação dos documentos
 A visão lógica dos documentos, sua representação no 
sistema 
 A representação das expressões de busca dos 
usuários
 A visão lógica da expressão de busca ou consulta, sua 
representação no sistema
 A função de busca: como as duas representações 
são comparadas, e como ordenar os documentos que 
casam (a lista de resultado).
Além do modo de operação os modelos definem a 
eficiência e eficácia dos SRIs.
5
Modelos de Recuperação de Informação
Existe uma distinção entre:
 A tarefa do usuário
Recuperação ou browsing
 A visão lógica dos documentos e 
consulta 
sua representação no sistema 
Podem ser categorizados quanto aos 
fundamentos teóricos/históricos dos 
modelos de recuperação de 
informação: Clássico, estruturado, 
navegação
Tarefas e Modelos de 
Recuperação de Informação
Listas não-sobrepostas
Nós proximais
Modelos Estruturados
Recuperação: 
Adhoc
Filtragem
Browsing
T
A
R
E
F
A
D
O
u
S
U
Á
R
I
O
Modelos Clássicos
Booleano
Espaço vetorial
Probabilista
Teoria dos conjuntos
Fuzzy
Booleano estendido
Probabilista
Redes de inferência
Redes de crença
Algebrico
E. V. generalizado
Semântica Latente
Redes Neurais
Browsing
Plano
Estruturado
Hipertextual
7
Modelos Clássicos de Recuperação 
de Documentos
Veremos os seguintes modelos:
 Modelo Booleano 
 Modelo Espaço Vetorial 
 Modelo Probabilista
Para cada modelo, veremos:
 A representação do documento 
 A representação da consulta
 A função de busca
8
Exercícios
O que o modelo computacional de recuperação de 
informação define nos sistemas de recuperação de 
informação?
Quais as tarefas típicas que o usuário pode realizar 
através da interface de um sistema de recuperação 
de informação na especificação de uma expressão de 
busca?
9
Modelo Booleano
Representação do documento
Dado o conjunto de termos representativos para o 
corpus em questão (Vocabulário do Sistema)
 V = {t1, t2,...,tn}
Os documentos são representados como conjunto de 
termos de indexação atribuídos intelectualmente ou 
automaticamente. Os conjuntos são representados 
como vetores de pesos binários de tamanho n
 Cada posição no vetor corresponde a um termo usado 
na indexação dos documentos da base
 Cada valor indica apenas se determinado termo está 
ou não representando assunto do documento
Exemplo
Por exemplo: V={t1,t2,t3}
d1 = {1 ,0 ,1} 
 Ao documento d1 foram 
atribuídos os termos de indexação
t1 e t3, e não foi atribuído o termo de 
indexação t2.
O valor 1 representa VERDADEIRO, e 0 
representa FALSO.
 Um método automático muito utilizado para 
representar o conteúdo textual de documentos 
consiste em considerar cada palavra 
isoladamente ou seu radical como assunto. 
Este método de representação é conhecido 
como modelo sacola de palavras, do inglês 
bag-of-words.
10
t1
t3
d1
d1
t1
t2
t3
Exemplo
Para um conjunto de 7 documentos, e um 
vocabulário do sistema de 3 termos de indexação 
podemos ter os documentos representados através 
da seguinte matriz binária.
11
t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 0 0 1
d5 1 1 1
d6 1 1 0
d7 0 1 0
12
Modelo Booleano
Representação da consulta
Consulta: 
 Expressão booleana: A consulta é expressa 
utilizando termos de indexação conectados por 
operadores lógicos booleanos: E; OU; NÃO.
 Termos ou palavras
 conectados por: AND, OR, NOT
 Parentêses podem ser utilizados para mudar a 
precedência de resolução da consulta.
 A consulta expressa que se deseja um conjunto de 
documentos cuja representação satisfazem às 
restrições lógicas da expressão de busca, isto é 
que fazem a expressão booleana assumir o valor 
VERDADEIRO. 
Exemplo
13
d1
d2
d3
d4
d5
d6
d7
t1
t2
t3
t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 0 0 1
d5 1 1 1
d6 1 1 0
d7 0 1 0
Exemplos de consultas booleanas: 
t1 AND t2 
t1 OR t2
t1 AND NOT t2
14
Operadores booleanos
Exemplo
15
d1
d2
d3
d4
d5
d6
d7
Brasil
Olimpíada
Sidney
Brasil Olimpíada SidneyConsulta q :
Documento d5 :
Brasil em Sidney 2000
O Brasil não foi bem no quadra 
das medalhas da Olimpíada de 
Sidney 2000 ...
Brasil AND
Olimpíada AND
Sidney
Brasil 1
Olimpíada 1
Sidney 1
Representação de q
Representação de d5
Todos os termos Qualquer dos termos
16
Função de busca
Relevância “binária”:
 O documento é consideradorelevante se e somente 
se seu “casamento” com a consulta é verdadeiro, isto 
é se o valor verdade da consulta se torna verdadeiro 
para aquele documento.
 Não é possível ordenar os documentos recuperados
Exemplo de consulta
Consulta:
t1 AND t2 AND t3
Documentos 
apresentados ao 
usuário
t1 t2
t3
Corpus de Documentos
Exemplo
Diagrama de Venn
17
d1
d2
d3
d4
d5
d6
d7
t1
t2
t3
t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 0 0 1
d5 1 1 1
d6 1 1 0
d7 0 1 0
Exemplos de aplicação da função de busca booleana: 
t1 AND t2 -> R: d5, d6
t1 OR t2 -> R: d1, d2, d3, d5, d6, d7
t1 AND NOT t2 -> R: d1, d2
* Observação: Resultados (R) em qualquer ordem.
Consultas booleanas: 
t1 AND t2
t1 OR
t1 AND NOT t2
Exemplo
Tabela Verdade
18
t1 t2 t3 t1 AND t2 t1 OR t2 NOT t2 t1 AND NOT t2
d1 1 0 1 0 1 1 1
d2 1 0 0 0 1 1 1
d3 0 1 1 0 1 0 0
d4 0 0 1 0 0 1 0
d5 1 1 1 1 1 0 0
d6 1 1 0 1 1 0 0
d7 0 1 0 0 1 0 0
Exemplos de aplicação da função de busca booleana: 
t1 AND t2 -> R: d5, d6
t1 OR t2 -> R: d1, d2, d3, d5, d6, d7
t1 AND NOT t2 -> R: d1, d2
* Observação: Resultados (R) em qualquer ordem.
19
Modelo Booleano
Operadores de proximidade
Úteis para predizer a adjacência de palavras 
ou frases que podem aparecer no texto dos 
documentos relevantes. Podem especificar 
condições relacionadas a:
 Distância dos termos no texto
 t1 NEAR/3 t2 (o termo t1 aparece com no máximo 3 
palavras de distância que t2, não importando a ordem)
 t1 ADJ/5 t2 (o termo t1 seguido de t2 separados por no 
máximo 5 palavras)
 Posição dos termos no texto
 t1 WITH t2 (mesmo parágrafo)
 t1 SAME t2 (mesma sentença)
 t1 ADJ t2 (t1 seguido de t2), ou “t1 t2”
20
Modelo Booleano
Vantagens
 Modelo simples baseado em teoria bem 
fundamentada
 Fácil de entender e implementar em computador
Desvantagens
 Não permite casamento parcial entre consulta e 
documento
 Não permite ordenação dos documentos recuperados
 A necessidade de informação do usuário deve ser 
expressa em termos de uma expressão booleana
 Nem todo usuário é capaz disso
 Todos os termos de indexação são independentes e 
têm o mesmo peso na descrição dos assuntos de um 
documento.
21
Exercícios
1) Para o exemplo, utilizando o modelo booleano, 
qual o resultado das buscas: 
 a) t2 AND t3
 b) t2 OR t3
 C) t2 AND NOT t3
2) Escreva em português o tipo de documento 
retornado pelas expressões de busca abaixo:
 a) documento OR informação
 b) recuperação AND (documento OR informação)
 c) recuperação AND informação AND web
 d) recuperação AND informação AND NOT imagem
Exercícios
3) Acesse Scielo:
http://www.scielo.br/scielo.php?script=sci_home&lng=pt&nrm=iso
 Acesse Pesquisa de artigos
 Recuperar documentos que possua o termo indexação 
automática em algum dos campos descritivos dos artigos.
22
23
Referências
Slides do Prof. Berthier Ribeiro Neto
FERNEDA, E. Introdução aos Modelos 
Computacionais de Recuperação de 
Informação. Rio de Janeiro: Editora Ciência 
Moderna
Ltda. 2012.
24
1
Recuperação de Informação
Modelos de Recuperação de Documentos
Modelo Espaço Vetorial
Renato Fernandes Corrêa
2Modelo Espaço Vetorial
Representação do documento
Associa pesos positivos não-binários aos termos 
nos documentos
Os documentos são representados como vetores 
onde os termos são eixos que definem o espaço 
vetorial multidimensional de termos.
Olimpíada
Brasil
Sidney
d0.2
0.5
0.3
Documento d :
Brasil em Sidney 2000
O Brasil não foi bem no 
quadra das medalhas da 
Olimpíada de Sidney 2000 ...
Brasil 0.5
Olimpíada 0.3
Sidney 0.2
Representação de d
3Modelo Espaço Vetorial
Representação da consulta
A expressão de busca consiste de palavras 
separadas por espaço em branco
Associa pesos positivos não-binários aos termos 
na expressão de busca
A consulta é representada como vetor onde os 
termos são eixos que definem o espaço vetorial 
multidimensional de termos.
Olimpíada
Brasil
Sidney
d0.2
0.50.3
q
Brasil Olimpíada SidneyConsulta q : Brasil 0.4
Olimpíada 0.3
Sidney 0.3
Representação de q
4
Modelo Espaço Vetorial
Representação do documento e da consulta
Dado o conjunto de termos representativos para o 
corpus em questão V = {t1, t2, t3, ...,tn}
 cada termo é um eixo de um espaço vetorial
Consultas (q) e documentos (d) são representados 
como vetores nesse espaço n-dimensional de termos
Olimpíada
Brasil
Sidney
d0.2
0.50.3
q
Brasil Olimpíada SidneyConsulta q :
Documento d :
Brasil em Sidney 2000
O Brasil não foi bem no quadra 
das medalhas da Olimpíada de 
Sidney 2000 ...
Brasil 0.4
Olimpíada 0.3
Sidney 0.3
Brasil 0.5
Olimpíada 0.3
Sidney 0.2
Representação de q
Representação de d
5Modelo Espaço Vetorial
Representação do documento e da consulta
Este modelo pode utilizar diferentes 
fórmulas para calcular os pesos dos 
vetores
Freqüência de ocorrência do termo 
no documento
TF-IDF (mais usado)
Essa escolha depende de quem 
constrói o SRI, e não do modelo 
Espaço Vetorial
6
Modelo Espaço Vetorial
Função de Busca
O modelo ordena os documentos recuperados 
de acordo com sua similaridade em relação à 
consulta
Similaridade pode ser medida pelo cosseno do 
ângulo entre q e d
 Existem outras medidas de similaridade usadas com 
o modelo EV, porém o cosseno é a mais usada
K2
K1 d
q

Similaridade(q,d) = cos()
7
Este modelo pode utilizar diferentes 
fórmulas para calcular a medida de 
similaridade entre consulta e documentos
Cosseno (mais usado)
Jaccard, Coeficiente de Pearson, 
etc...
Essa escolha depende de quem 
constrói o SRI, e não do modelo 
Espaço Vetorial
Modelo Espaço Vetorial
Função de Busca
8Modelo Espaço Vetorial
Função de Busca
A associação de pesos positivos não-binários aos 
termos nos documentos e na expressão de busca 
juntamente com o cálculo de uma função 
similaridade entre os vetores permite o 
casamento parcial entre consulta e documento
 Os pesos são usados para calcular um “grau de 
similaridade” entre consulta e documento
 O usuário recebe um conjunto ordenado de 
documentos como resposta à sua consulta
Mais interessante do que apenas uma lista 
desordenada ou sem ordem significativa.
9
Similaridade pode ser medida pelo 
cosseno do ângulo entre q e d
 função inversamente relacionada ao 
ângulo entre os documentos 
Quanto menor é o ângulo entre os 
documentos, maior o cosseno 
E maior é a similaridade entre d e q
 Varia entre 0 e 1
 Independe do tamanho do vetor
Considera apenas sua direção
Modelo Espaço Vetorial
Função de Busca
10
Função de Busca
Cosseno
Exemplo:







n
i
i
n
i
i
n
i
ii
dq
dq
sim
1
2
1
2
1
)()(
)(
   
97.0
36.0
35.0
38.034.0
35.0
(0.2) (0.3) (0.5)(0.3) (0.3) (0.4)
.200.3 .300.3 .500.4
222222





sim
dq
dq
sim 




Olimpíada
Brasil
Sidney
d0.2
0.5
0.3 -
q
Brasil Olimpíada SidneyConsulta q :
Documento d :
Brasil em Sidney 2000
O Brasil não foi bem no quadra 
das medalhas da Olimpíada de 
Sidney 2000 ...
Brasil 0.4
Olimpíada 0.3
Sidney 0.3
Brasil 0.5
Olimpíada 0.3
Sidney 0.2
Representação de q
Representação de d
0.3 -
11
Função de Busca
0.35 .200.3 .300.3 .500.4 dq

dq
dq
dqdqsim 



 ),cos(),(
Brasil 0.4
Olimpíada 0.3
Sidney 0.3
Brasil 0.5
Olimpíada 0.3
Sidney 0.2
Representaçãode q
Representação de d
Brasil Olimpíada Sidney Norma q  dj Cos
d 0,5 0,3 0,2 0,62 0,35 0,97
q 0,4 0,3 0,3 0,58
58.034.0(0.3) (0.3) (0.4) 222 q

97.0
36.0
35.0
58.062.0
35.0
cos 





dq
dq


62.038.0(0.2) (0.3) (0.5) 222 d

Exemplo 1 
Espaço Vetorial usando Cosseno 
com pesos binários
t1 t2 t3 Norma q  dj Cos
d1 1 0 1 1,41 2 0,82
d2 1 0 0 1,00 1 0,58
d3 0 1 1 1,41 2 0,82
d4 1 0 0 1,00 1 0,58
d5 1 1 1 1,73 3 1,00
d6 1 1 0 1,41 2 0,82
d7 0 1 0 1,00 1 0,58
q 1 1 1 1,73
Consulta q: t1 t2 t3
Modelo Booleano só permite retornar como resultado: 
d5 (todos os termos); ou todos os documentos sem ordem (qualquer dos termos).
Resultado: d5, [d1, d3, d6], [d2, d4, d7]
d1
d2
d3d4
d5
d6
d7
t1
t2
t3
Exemplo 2 
Espaço Vetorial usando cosseno, usando 
frequência de ocorrência como peso das palavras
t1 t2 t3 Norma q  dj Cos
d1 2 0 1 2,24 3 0,77
d2 1 0 0 1,00 1 0,58
d3 0 1 3 3,16 4 0,73
d4 2 0 0 2,00 2 0,58
d5 1 2 4 4,58 7 0,88
d6 1 2 0 2,24 3 0,77
d7 0 5 0 5,00 5 0,58
q 1 1 1 1,73
Consulta q: t1 t2 t3
Pesos calculados pelo próprio sistema de RI
Resultado: d5, [d1, d6], d3, [d2, d4,d7]
14
Modelo Espaço Vetorial
Cálculo dos Pesos
Uma possibilidade é utilizar como peso a 
frequência de ocorrência do termo (TF) no 
documento e na consulta
“Se o desonesto soubesse a 
vantagem de ser honesto, 
ele seria honesto ao menos 
por desonestidade.”
Sócrates
Doc original
desonesto / soubesse /
vantagem / honesto /
seria / honesto /
menos/desonestidade/
socrates
honesto 2
desonesto 1
soubesse 1
vantagem 1
seria 1
menos 1
desonestidade 1
socrates 1
Operações de Texto
Representação
Doc : www.filosofia.com Doc : www.filosofia.com
Doc : www.filosofia.com
15
Modelo Espaço Vetorial
Cálculo dos Pesos
Método TF-IDF leva em consideração
 Freqüência do termo no documento
 Term Frequency (TF)
 Quanto maior, mais relevante é o termo para 
descrever o documento
 Inverso da freqüência do termo nos documentos 
da coleção
 Inverse Document Frequency (IDF)
 Termo que aparece em muitos documentos não é 
útil para distinguir relevância
Peso associado ao termo varia entre zero e 
um e tenta balancear esses dois fatores
16
Definições
 dj: documento; ki:termo 
 freqi,j: freqüência do termo ki no documento dj
 ni: número de documentos que contêm termo ki
 N: número total de documentos do corpus
 maxl freql,j : a freqüência do termo mais freqüente no 
documento
TF:
IDF: 
Modelo Espaço Vetorial
Cálculo dos Pesos com TF-IDF
N
ni
idfi= log
Inverso da freqüência do termo
nos documentos do corpus
freqi,j
maxl freql,j
tfi,j=
Freqüência (normalizada) 
do termo no documento
17
Exemplo de TF
 freqi,j: freqüência do termo ki no documento dj
 maxl freql,j = 2
Modelo Espaço Vetorial
Cálculo dos Pesos com TF-IDF
honesto 2 – 1.0
desonesto 1 – 0.5
soubesse 1 – 0.5
vantagem 1 – 0.5
seria 1 – 0.5
menos 1 – 0.5
desonestidade 1 – 0.5
socrates 1 – 0.5
Termo freq - tf
freqi,j
maxl freql,j
tfi,j=
Por exemplo:
tfhonesto,j = 1.0 
18
Exemplo de IDF
 ni: freqüência do termo ki na coleção 
N: número de documentos na coleção
 Suponha:
 que a palavra honesto apareça em seis documentos na 
coleção
 que a coleção tenha 32 documentos no total
Modelo Espaço Vetorial
Cálculo dos Pesos com TF-IDF
32
6
idfhonesto= log = 0.73
N
ni
idfi= log
19
Modelo Espaço Vetorial
Cálculo dos Pesos com TF-IDF
wi,j = tfi,j x idfi
freqi,j
maxl freql,j
wi,j =
N
ni
x log
Para o exemplo:
whonesto,j = tfhonesto,j x idfhonesto = 1.0 X 0.73 = 0.73
20
Definição do peso nos documentos:
 wi,j: peso associado ao termo ti no documento dj
 wi,j = tfi,j X idfi
Para definição dos pesos dos termos nas 
consultas, Baeza-Yates e Ribeiro-Neto sugerem:
Modelo Espaço Vetorial
Cálculo dos Pesos com TF-IDF
N
ni
X log
0.5 freqi,q
maxl freql,q
wi,j = 0.5 + 
21
Modelo Espaço Vetorial
Vantagens
 Permite casamento parcial dos documentos com a 
consulta
 Ordena documentos de acordo com o grau de 
similaridade com a consulta
 Consultas e documentos são representados de forma 
homogênea pelo sistema
Desvantagens:
 Assim como o modelo booleano assume independência 
entre os termos usados na indexação
 q1: professor ; q2: professores
 Resultados das consultas q1 e q2 são diferentes
 É menos intuitivo que o modelo booleano.
Mecanismos de Busca na Web
22
Todos adotam uma variação do modelo 
espaço vetorial 
Google
 https://www.google.com.br/about/company/history/
 http://www.google.com/intl/pt-BR/insidesearch/
 http://www.google.com/intl/pt-BR/insidesearch/howsearchworks/crawling-
indexing.html
 http://static.googleusercontent.com/media/www.google.com/pt-BR//intl/pt-
BR/insidesearch/howsearchworks/assets/searchInfographic.pdf
Bing
Yahoo
23
Exercícios
1) Construa a lista de documentos retornados 
utilizando o modelo espaço vetorial para o exemplo 2 
para as consulta: t1 t2
2) Faça o cálculo dos pesos das palavras utilizando o 
método TF-IDF para os documentos e consulta do 
exemplo 2. Calcule o cosseno e descreva a ordem 
dos resultados retornados pela busca.
Exercícios
3) Acesse o Google Acadêmico:
https://scholar.google.com.br/
 Recuperar documentos que possua o termo indexação 
automática em algum dos campos descritivos dos artigos ou no 
texto completo. Então, observe e descreva como está ordenado os 
resultados da busca.
24
Resolução
t1 t2 t3 Norma q  dj Cos
d1 2 0 1 2,24 2 0,63
d2 1 0 0 1,00 1 0,71
d3 0 1 3 3,16 1 0,22
d4 2 0 0 2,00 2 0,71
d5 1 2 4 4,58 3 0,46
d6 1 2 0 2,24 3 0,95
d7 0 5 0 5,00 5 0,71
q 1 1 0 1,41
Pesos dos termos na consulta calculados pelo Sistema de RI
Resultado: d6, [d2,d4,d7], d1,d5,d3
1) Consulta: t1 t2
Resolução
2) Primeiro Passo – cálculo de TF e IDF
26
TF t1 t2 t3
d1 1,00 0,00 0,50
d2 1,00 0,00 0,00
d3 0,00 0,33 1,00
d4 1,00 0,00 0,00
d5 0,25 0,50 1,00
d6 0,50 1,00 0,00
d7 0,00 1,00 0,00
q 1,00 1,00 1,00
t1 t2 t3
IDF 0,15 0,24 0,37
t1 t2 t3
d1 2 0 1
d2 1 0 0
d3 0 1 3
d4 2 0 0
d5 1 2 4
d6 1 2 0
d7 0 5 0
q 1 1 1
Resolução
2) Segundo Passo – Calculo do TFIDF
27
TFIDF t1 t2 t3
d1 0,15 0,00 0,18
d2 0,15 0,00 0,00
d3 0,00 0,08 0,37
d4 0,15 0,00 0,00
d5 0,04 0,12 0,37
d6 0,07 0,24 0,00
d7 0,00 0,24 0,00
q 0,15 0,24 0,37
TF t1 t2 t3
d1 1,00 0,00 0,50
d2 1,00 0,00 0,00
d3 0,00 0,33 1,00
d4 1,00 0,00 0,00
d5 0,25 0,50 1,00
d6 0,50 1,00 0,00
d7 0,00 1,00 0,00
q 1,00 1,00 1,00
t1 t2 t3
IDF 0,15 0,24 0,37
Resolução
2) Terceiro Passo – Cálculo do Cosseno 
Resultado: d5,d3,d1,d6,d7,[d2,d4]
28
TFIDF t1 t2 t3 Norma q  dj Cos
d1 0,15 0,00 0,18 0,23 0,09 0,82
d2 0,15 0,00 0,00 0,15 0,02 0,31
d3 0,00 0,08 0,37 0,38 0,16 0,89
d4 0,15 0,00 0,00 0,15 0,02 0,31
d5 0,04 0,12 0,37 0,39 0,17 0,94
d6 0,07 0,24 0,00 0,25 0,07 0,59
d7 0,00 0,24 0,00 0,24 0,06 0,52
q 0,15 0,24 0,37 0,46
Resolução
3) Google Acadêmico:
Busca por: indexação automática
29
Referências
FERNEDA, E. Introdução aos Modelos 
Computacionais de Recuperação de 
Informação. Rio de Janeiro: Editora Ciência 
Moderna
Ltda. 2012.
30
1
Recuperação da Informação
Modelos de Recuperação de Informação:
Modelo Probabilista
Renato Fernandes Correa
2
Modelo Probabilista 
Objetivo
 Trata o problema de RI usando um arcabouço 
probabilístico
Idéia fundamental
 Dada uma consulta, existe um conjunto de 
documentos quecontém exatamente os 
documentos relevantes para o usuário 
 O conjunto resposta ideal 
O Modelo estima a probabilidade dos documentos 
pertencerem ao conjunto ideal
3
Modelo Probabilista 
Como o conjunto ideal não é conhecido, as 
probabilidades são estimadas usando um conjunto 
inicial de documentos avaliados pelo usuário
 Um conjunto inicial de documentos é recuperado 
através de uma consulta
 O usuário inspeciona esses documentos e determina 
aqueles que são relevantes e não-relevantes
O Modelo usa essa informação para tentar 
caracterizar o conjunto ideal de forma probabilística: 
modificando as probabilidades de cada termo de 
indexação estar presente nos documentos do 
conjunto ideal, e depois calculando a probabilidade 
dos documentos em função dos termos.
4
Modelo Probabilista 
Exemplo de interface de um SRI probabilista
Modelo Probabilista
Quais termos de indexação distingue os 
documentos relevantes dos demais 
documentos do corpus?
 As características dos documentos não são conhecidas no 
momento da primeira busca.
 O usuário tenta adivinhar as características dos documentos 
no conjunto ideal por meio da formulação de uma expressão 
de busca, gerando uma primeira descrição probabilística 
desse conjunto.
 É possível gradativamente melhorar os resultados (o 
conjunto de documentos recuperados) por meio de 
interações com o usuário onde o mesmo marca os 
documentos retornados relevantes, o que reflete no 
incremento das probabilidades dos termos de indexação
presentes na consulta e nos documentos marcados.
5
Modelo Probabilista
Proposto inicialmente por Maron e Kuhns (1960)
Veremos a variação do modelo proposto por Robertson e Jones 
(1976), denominado Binary Independence Retrieval.
Dado um corpus e uma expressão de busca, o conjunto de 
documentos pode ser divido em 4 subconjuntos distintos:
O ideal é que o cojunto de recuperados (Rec) contenha todos e 
apenas os documentos relevantes para o usuário (Rel)
6
7
Representação do documento
Dado o conjunto de n termos representativos para o 
corpus em questão (Vocabulário do Sistema)
V = {t1, t2,...,tn}
Os documentos são representados como vetores de 
pesos binários de tamanho n
 Cada posição no vetor corresponde a um termo usado 
na indexação dos documentos da base
 Cada valor indica se o termo está ou não presente no 
documento
Representação do documento
Por exemplo: documento d1 contém os 
termos t1 e t3, e não contém o termo t2
8
t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 1 0 0
d5 1 1 1
d6 1 1 0
d7 0 1 0
9
Representação da Consulta
A expressão de busca informada pelo usuário 
consiste em um conjunto de termos separados por 
espaço em branco
A Consulta (q) é representada como um conjunto de 
termos também associados a pesos binários.
 A consulta é representada pelo sistema como um vetor 
binário de termos de indexação
 Exemplo: dada a consulta q: t1 t3
t1 t2 t3
q 1 0 1
10
Representação dos documentos e da 
Consulta
t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 1 0 0
d5 1 1 1
d6 1 1 0
d7 0 1 0
q 1 0 1
11
Função de Busca
Seja Rel o conjunto de documentos relevantes
considerando uma consulta q
 R é um subconjunto da base de documentos
Seja ~Rel o complemento de R 
 ou seja, documentos não-relevantes para a 
consulta q
12
Função de Busca
Como calcular a similaridade entre consulta e 
documento?
 Seja P(dj|Rel) a probabilidade de que dj seja selecionado 
entre os documentos relevantes
 Seja P(dj|~Rel) a probabilidade de que dj seja 
selecionado entre os documentos não-relevantes
Sim(dj,q) ~
O resultado da consulta é o conjunto de documentos 
ordenados que maximiza a razão entre a probabilidade 
do documento estar no conjunto de relevantes e a 
probabilidade do documento estar no conjunto de 
irrelevantes
P(dj|Rel)
P(dj|~Rel)
13
Função de busca
 Probabilidades estimadas para cada termo de 
indexação a partir dos conjuntos Rel e ~Rel
marcados manualmente pelo usuário (corpus 
etiquetado ou marcado)
 P(ti | Rel) = Número de documentos de Rel que 
contêm o termo ti dividido pelo número total de 
documentos de Rel
 P(ti | ~Rel) = Número de documentos de ~Rel que 
contêm o termo ti dividido pelo número total de 
documentos de ~Rel
14
Função de Busca
Exemplo: Consulta q: Recuperação Informação 
• Conjunto Rel
(10 documentos) 
- t1: Recuperação – 9 docs
- t2: Informação – 6 docs
• Conjunto ~Rel
(10 documentos) 
- t1: Recuperação – 2 docs
- t2: Informação – 4 docs
P(t1|Rel) = 0.9
P(t2|Rel) = 0.6
P(t1|~Rel) = 0.2
P(t2|~Rel) = 0.4
• Documentos que contêm ambos os termos são provavelmente 
os mais relevantes
• Documentos que contêm apenas o termo “Recuperação” são 
mais relevantes que os que contêm apenas o termo “Informação”
15
Função de busca
P(ti | Rel) indica a probabilidade do termo ti estar 
presente entre os documentos relevantes
 Valor alto aumenta a probabilidade de relevância de 
documentos que contêm o termo ti
P(ti|~Rel) indica a probabilidade do termo ti estar 
presente nos documentos não-relevantes
 Valor alto diminui a probabilidade de relevância de 
documentos que contêm o termo ti
Se dj contém um termo ti que aparece com muita 
freqüência em Rel e pouca freqüência em ~Rel então 
dj é provavelmente relevante 
Função de Busca
Estimando as probabilidades por meio de 
contagens
Dados:
 t termos presentes na consulta e no 
documento
 N documentos na coleção
 n documentos contendo o termo ti
 R documentos marcados como relevantes
 r documentos relevantes contendo o termo ti
16
Função de busca
A similaridade entre documento e consulta pode ser expressa 
por:
Na busca inicial pode ser utilizada a simplificação:
17
Função de busca
Portanto, a similaridade entre documentos e consulta pode 
então ser calculada para os t termos da consulta utilizando a 
fórmula
Onde wik é o peso de cada termo, sendo:
 Na primeira interação
 Nas demais interações
(com feedback de relevância)
18



t
i
iiik dqwdqsim
1
)(),(







n
N
IDFw ii log0
 









)()(
log
rRrn
rnRNr
wik
Exemplo
19
d1
d2
d3
d4
d5
d6
d7
Brasil
Olimpíada
Sidney
Brasil Olimpíada SidneyConsulta q :
Documento d5 :
Brasil em Sidney 2000
O Brasil não foi bem no quadra 
das medalhas da Olimpíada de 
Sidney 2000 ...
Brasil 1
Olimpíada 1
Sidney 1 
Brasil 1
Olimpíada 1
Sidney 1
Representação de q
Representação de d5
Brasil 0.5
Olimpíada 0.2
Sidney 0.1
Peso dos termos
Similaridade(q, d5) = 1 x 1 x 0.5 + 1 x 1 x 0.2 + 1 x 1 x 0.1 = 0.8
Exemplo 1
Segundo o modelo probabilista, especifique a lista de 
documentos retornados para a consulta: t1 t2 t3.
20
t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 1 0 0
d5 1 1 1
d6 1 1 0
d7 0 1 0
q 1 1 1
Exemplo 1
Consulta: t1 t2 t3, Primeira interação (peso = IDF)
Resposta: d5, d3, d1, d6, [d2, d4]
21
t1 t2 t3 Sim
d1 1 0 1 0,51
d2 1 0 0 0,15
d3 0 1 1 0,61
d4 1 0 0 0,15
d5 1 1 1 0,76
d6 1 1 0 0,39
d7 0 1 0 0,24
q 1 1 1
n 5 4 3
peso 0,15 0,24 0,37
t1 t2 t3
IDF 0,15 0,24 0,37
Similaridade(q, d1) = 1 x 1 x 0.15 + 1 x 0 x 0.24 + 1 x 1 x 0.37 = 0.51
Exemplo 1
Consulta: t1 t2 t3 , segunda interação com d3 e 
d5 marcados como RELEVANTES
 No cálculo de peso para um termo, para evitar divisão por zero e 
log de número negativo subtraia 0,1 de r se r > 0 e some 1 a N.
22
t1 t2 t3 Rel
d1 1 0 1 0
d2 1 0 0 0
d3 0 1 1 1
d4 1 0 0 0
d5 1 1 1 1
d6 1 1 0 0
d7 0 1 0 0
q 1 1 1
n 5 4 3 R=2
r 0,9 1,9 1,9 N= 8
peso -0,42 1,55 1,93
     
42.0)38,0log(
51.4
71.1
log
)1.1()1.4(
9.19.0
log
)9.02()9.05(
9.05289.0
log
)()(
log1 






























rRrn
rnRNr
wt
Exemplo 1
Consulta: t1 t2 t3 , segunda interação com d3 e 
d5 marcados como RELEVANTES
 No cálculo de peso para um termo, para evitar divisão por zero e 
log de número negativo subtraia 0,1 de r se r > 0 e some 1 a N.
Resposta: d3, d5, d7, d1, d6
23
t1 t2 t3 Rel Sim
d1 1 0 1 0 1,51
d2 1 0 0 0 -0,42
d3 0 1 1 1 3,48
d4 1 0 0 0 -0,42
d5 1 1 1 1 3,05
d6 1 1 0 0 1,13
d7 0 1 0 0 1,55
q 1 1 1
n 5 4 3 R= 2
r 0,9 1,9 1,9 N= 8
peso -0,42 1,55 1,93
Similaridade(q, d1) = 1 x 1 x -0.42 + 1 x 0 x 1.55 + 1 x 1 x 1.93 = 1.51
Modelo Probabilista
Vantagens
 Trabalha com o conceito de probabilidade de relevância de 
documentos em relação à expressão de busca
 Ordena a lista de documentos: documentos ordenados em 
ordem decrescente de probabilidade de relevância
 Permite ao usuário selecionar os documentos relevantes e 
usa esta marcação para melhorar a ordenação dos 
resultados (relevance feedback), através da atribuição de 
pesos aos termos na busca
Desvantagens
 Assume independência entre os termos usados na indexação
 Assume que a distribuição dos termos de indexação nos 
documentos é uniforme => probabilidade de ocorrer é igual
 Todos os termos de indexação tem a mesma importância na 
descrição de um documento
24
Outros Modelos Probabilistas
Okapi BM25
 modelo não-binário com suporte a feedback 
de relavância.
 Criado para pesquisa em texto completo
 Leva em conta a frequência de termo e 
comprimento dos documentos
 As fórmulas de ponderação de termo BM25 têm 
sido usadas de forma bastante ampla e com 
bastante sucesso em uma variedade de coleções e 
tarefas de pesquisa.
25
Outros Modelos Probabilistas
Okapi BM25
 Detalhes em: 
 https://nlp.stanford.edu/IR-book/html/htmledition/okapi-bm25-
a-non-binary-model-1.html
 Jones, Karen Spärck; Walker, S.; Robertson , S. 
E. A probabilistic model of information retrieval: 
Development and comparative experiments. 
Information Processing and Management 36 
(6): 779-808, 809-840, 2000.
 Robertson, S. E.; Zaragoza, H. The Probabilistic 
Relevance Framework: BM25 and Beyond. 
Foundations and Trends in Information 
Retrieval, Vol. 3, No. 4 (2009) 333–389.
26
Open source Search Engines
suportando Okapi BM25
Lemur https://www.lemurproject.org/
Lucene http://lucene.apache.org/
 https://opensourceconnections.com/blog/2015/10/16/bm25-the-next-generation-of-lucene-relevation/
MG4J http://mg4j.di.unimi.it/
Terrier http://terrier.org/
Zettair http://www.seg.rmit.edu.au/zettair/
Xapian https://xapian.org/
Wumpus http://www.wumpus-search.org/
OKAPI-PACK
http://www.staff.city.ac.uk/~andym/OKAPI-PACK/
27
28
1) Para o exemplo 1, utilizando o modelo 
probabilista, qual o resultado das buscas na 
primeira interação: 
 a) t2 t3
 b) t2
2) Levando em conta que os documentos d5 
e d6 são marcados como relevantes pelo 
usuário, recalcule a lista de resultados para 
cada consulta da questão anterior (segunda 
interação).
Exercícios
29
1) Para o exemplo 1, utilizando o modelo 
probabilista, qual o resultado das buscas: 
 a) t2 t3
 Resposta: [d3,d5],d1,[d6,d7]
Exercícios
t1 t2 t3 Sim
d1 1 0 1 0,37
d2 1 0 0 0,00
d3 0 1 1 0,61
d4 1 0 0 0,00
d5 1 1 1 0,61
d6 1 1 0 0,24
d7 0 1 0 0,24
q 0 1 1
n 5 4 3
peso 0,15 0,24 0,37
t1 t2 t3
IDF 0,15 0,24 0,37
30
2) Levando em conta que os documentos d5 e d6 são 
marcados como relevantes pelo usuário, recalcule a lista de 
resultados para cada consulta da questão anterior.
 a) t2 t3
 Resposta: [d3,d5],[d6,d7],d1
Exercícios
t1 t2 t3 Rel Sim
d1 1 0 1 0 0,18
d2 1 0 0 0 0,00
d3 0 1 1 0 1,73
d4 1 0 0 0 0,00
d5 1 1 1 1 1,73
d6 1 1 0 1 1,55
d7 0 1 0 0 1,55
q 0 1 1
n 5 4 3 R= 2
r 1,9 1,9 0,9 N= 8
peso 1,25 1,55 0,18
31
1) Para o exemplo 1, utilizando o modelo 
probabilista, qual o resultado das buscas: 
 b) t2
 Resposta: [d3,d5,d6,d7]
Exercícios
t1 t2 t3 Sim
d1 1 0 1 0,00
d2 1 0 0 0,00
d3 0 1 1 0,24
d4 1 0 0 0,00
d5 1 1 1 0,24
d6 1 1 0 0,24
d7 0 1 0 0,24
q 0 1 0
n 5 4 3
peso 0,15 0,24 0,37
t1 t2 t3
IDF 0,15 0,24 0,37
32
2) Levando em conta que os documentos d5 e d6 são 
marcados como relevantes pelo usuário, recalcule a lista de 
resultados para cada consulta da questão anterior
 b) t2
 Resposta: [d3,d5,d6,d7]
Exercícios
t1 t2 t3 Rel Sim
d1 1 0 1 0 0,00
d2 1 0 0 0 0,00
d3 0 1 1 0 1,55
d4 1 0 0 0 0,00
d5 1 1 1 1 1,55
d6 1 1 0 1 1,55
d7 0 1 0 0 1,55
q 0 1 0
n 5 4 3 R= 2
r 1,9 1,9 0,9 N= 8
peso 1,25 1,55 0,18
Indexação e
Construção de Índice
Renato Fernandes Corrêa
Indexação de documentos
Consiste de três passos:
1. Definição do vocabulário de indexação
2. Indexação - atribuição de termos de indexação a 
cada documento
3. Construção do índice – construção da estrutura de 
dados do índice
2
1.Vocabulário de Indexação
Definição: 
 Conjunto de termos usados para indexar e recuperar 
documentos de uma base ou corpus
Pode ser definido manualmente por especialistas 
humanos => vocabulário de indexação manual
 Vocabulário controlado, tesauro,...
 Refletem diretamente os assuntos ou conceitos dos 
documentos
Pode ser definido automaticamente pelo sistema 
de RI (após operadores de texto) => vocabulário 
de indexação automático
3
Definido pela linguagem de indexação adotada e 
processo intelectual de indexação.
No uso de linguagem de indexação controlada, os 
termos vem de uma linguagem documentária como:
 Lista de cabeçalho de assuntos 
 Lista simples de termos sem hierarquia
 Taxonomia 
 Lista de termos organizados com hierarquia
 Tesauro
 Hierarquia de termos com relações associativas
 Ontologia
 Hierarquia de assuntos organizados em classes e com relações 
todo-parte e associativas específicas e explícitas
Vocabulário de Indexação
Manual
4
Consiste basicamente no conjunto de 
termos que aparecem no texto completo dos 
documentos ou metadados dos documentos 
após aplicação de operadores de texto. 
Sem utilização de vocabulário 
controlado - usa a linguagem natural 
como linguagem de indexação.
Com uso de vocabulário controlado - usa 
linguagem controlada como linguagem 
de indexação.
Vocabulário de Indexação
Automático
5
6
Visão Geral da definição de 
vocabulário de indexação
7
Linguagem Natural
• Compreende os idiomas ou líguas criadas pelos seres
humanos para fins de comunicação.
• Exemplo:
– Português do Brasil
– Inglês dos EUA
• Todo documento é redigido em linguagem
natural. Por mais que possuam termos técnicos
específicos de uma área ou especialidade do 
conhecimento humano.
8
Linguagem Documentária (LD)
• A linguagem documentária compreende o conjunto de 
regras, símbolos e termos previamente estabelecidos, 
formando uma linguagem artificial para a indicação
do conteúdo temático dos documentos.
– Metalinguagem que utiliza uma construção simbólica com a finalidade
de ser instrumento de conversão de uma linguagem em outra.
– Linguagem de indexação é uma especialização de uma LD, sendo uma
linguagem artificial utilizada para registro ou indicação dos temas
contidos nos documentos, dotada de vocabulário controlado e regida por
uma sintaxe própria.
• Exemplos: tesauros, taxonomias, listas de cabeçalhode assunto, sistemas de 
classificação.
9
Linguagem Documentária (LD)
• Objetivos:
– Garantir uma melhor recuperação da informação;
– Controlar o vocabulário:
• Controle da terminologia de áreas do conhecimento por meio do 
estabelecimento de um conceito/interpretação definido aos termos de 
acordo com as necessidades de uso do sistema;
• Uniformização do uso de linguagens especializadas;
– Representação padronizada do conteúdo e do conhecimento;
– Mediar e promover interação entre usuário e conteúdo;
– Fornecer uma versão extremamente econômica dos textos 
originais, através do destaque de assuntos considerados 
principais nos documentos.
10
Comparação: Linguagem Natural versus
Linguagem Documentária
• Linguagem Documentária
– São linguagens artificiais;
– São instrumentos de 
comunicação;
– São especializadas;
– São estabelecidas em 
poucos anos por um 
número reduzido de 
pessoas;
• Linguagem Natural
– São linguagens naturais;
– São instrumentos de 
comunicação;
– São gerais;
– São estabelecidas e 
adaptadas através de 
longos períodos de tempo 
e por muitas pessoas
11
Comparação: Linguagem Natural versus
Linguagem Documentária
• Linguagem Documentária
– Devem ser aceitas pelos 
usuários;
– São mais eficientes que as 
LN nas operações de 
recuperação da 
informação;
– Não aceitam 
ambiguidades. Não 
comportam polissemias e 
se esforçam por evitar as 
sinonímias;
• Linguagem Natural
– São naturalmente aceitas 
pelos usuários;
– São menos eficientes que 
as LD nas operações de 
recuperação da 
informação;
– Aceitam ambiguidades. A 
sinonímia e a polissemia 
são fenômenos naturais 
das LN
12
Exercício
1) Qual a finalidade ou função das linguagens de indexação?
2) Quais os tipos de linguagens de indexação presentes nos 
SRIs?
3) Cite uma vantagem e uma desvantagem do uso de linguagem 
documentária para recuperação da informação?
13
2. Indexação
• É o processo de atribuição de termos ou códigos 
de indexação a um documento na qual serão úteis 
posteriormente na recuperação da informação.
• O processo de indexação consiste na tradução de 
um documento em termos documentários, isto é, 
em descritores, cabeçalhos de assunto, termos-
chave, que têm por função expressar o conteúdo 
do documento (Cintra, 1983).
14
Indexação no contexto da Recuperação de 
Informação
15
Processo de Indexação
• Segundo Baranow(1983), a indexação é vista como 
um processo analítico decomposto em duas etapas:
– Descrição:refere-se a identificação, seleção e análise dos 
conceitos ou assuntos que representam o conteúdo - o 
indexador precisa fazer uma leitura analítica do documento 
e extrair conceitos em linguagem natural;
– Representação:refere-se a representação desses conceitos 
através de descritores (termos) compatíveis com os do 
sistema de recuperação - o indexador precisa identificar e 
selecionar termos de indexação que representem de forma 
fidedigna os conceitos tratados no conteúdo do documento, 
presentes em uma linguagem de indexação.
16
Processo de Indexação
Linguagem
de IndexaçãoConceitos
17
Indexação
• Algumas considerações importantes durante a 
realização do processo de indexação:
– Identificar tópicos dentro do texto que venham de encontro 
às necessidades dos usuários (Garantia de uso);
– Produzir cabeçalhos com mesma terminologia do 
documento levando em conta sinônimos ou termos 
equivalentes (Garantia literária);
• Por exemplo, indexação apropriada de:
– para um biólogo: Aedes aegypti; Aedes (Stegomyia) aegypti;
Culex aegypti; Culex excitans; Culex taeniatus.
– Para uma pessoa comum: Mosquito da Dengue; Pernilongo rajado
18
Dimensões da indexação
• Exaustividade:
– Representação exaustiva do conteúdo temático;
– Tipos:
• Exaustiva(mais termos);
• Seletiva (menos termos);
• Exemplo:
– Prédios históricos, ponto turístico,
praça, Recife, Recife Antigo, 
Marco Zero.
19
Dimensões da indexação
• Especificidade:
– Termo mais específico que o abrange totalmente;
• Exemplos:
– Recife, Recife Antigo, Marco Zero.
20
Indexação
• A seleção desse termos de indexação pode 
ser por
– Indexação manual (ou Intelectual)
• Realizado por um especialista
• Ex. um bibliotecário em sistema de bibliotecas
– Indexação Automática 
• Os termos são automaticamente extraídos do texto 
do documento por softwares específicos
• Ex. mecanismos de busca na Web
Vantagens:
 É possível ter uma visão panorâmica dos assuntos dos documentos 
que compõem a base 
 É possível direcionar melhor a busca realizada pelo usuário
 Aumenta a precisão na busca
Desvantagens:
 Cada documento é indexado por um humano (processo lento)
 Nem sempre é possível construir uma boa estrutura de assuntos
 O usuário pode realizar buscas com termos que não aparecem no 
vocabulário controlado
Indexação Manual
21
Vantagens:
 Maior cobertura de termos
 Maior velocidade no processo de indexação
Desvantagens
 Pode gerar baixa precisão
Indexação Automática
22
23
Exercício
1) Em que consiste o processo de indexação de documentos?
2) Qual o impacto das dimensões da indexação na recuperação 
dos documentos?
3) Cite uma vantagem e desvantagem do uso da indexação 
automática?
24
Indexação Automática
• Lista de termos do documento pode ser 
reduzida através do uso de operadores de 
texto, investigados na área de pesquisa 
denominada Processamento de Linguagem 
Natural.
• Cada fase de operação de texto pode utilizar 
diferentes técnicas na sua implementação
• Cada sistema de RI implementa uma ou 
mais dessas fases
– A escolha depende do tipo de sistema desejado
Processamento de Linguagem Natural
• O que é?
– Conjunto de técnicas computacionais para a análise 
de textos com o propósito de simular o 
processamento humano da língua.
• Quais são as abordagens?
– Abordagem estatística – de menor custo e adaptáveis a 
diversas línguas
– Abordagem linguística – específicos de cada língua
• Razões para aplicar em RI?
– Documentos e expressões de busca são enunciados 
em linguagem natural. 25
Processamento de Linguagem Natural
• Principais usos em RI:
– Indexação automática
• Normalização de variações linguísticas
– Normalização morfológica ou Conflação de termos 
(radicalização, lematização)
– Normalização léxico-semântica de termos através das relações 
semânticas de sinonímia, hiponímia, hiperonímia
• Identificação de termos compostos
– Sintagmas nominais, termos complexos, unidades lexicais 
complexas, expressões multi-palavras
• Resolução de ambiguidade
– Sintática (causa estrutural) ou semântica (causa lexical –
homonímia, polissemia)
26
27
Operadores de texto
• O objetivo é chegar à representação 
computacional do documento, a ser 
armazenada em estrutura de índice para 
fins de recuperação.
“Se o desonesto soubesse a 
vantagem de ser honesto, 
ele seria honesto ao menos 
por desonestidade.”
Sócrates
Doc original
desonesto / soubesse /
vantagem / honesto /
seria / honesto /
menos/desonestidade/
socrates
honesto 2
desonesto 1
soubesse 1
vantagem 1
seria 1
menos 1
desonestidade 1
socrates 1
Operações de Texto
Representação
Doc : www.filosofia.com Doc : www.filosofia.com
Doc : www.filosofia.com
28
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completoTermos ou 
palavras-chave
29
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
Termos ou 
palavras-chave
30
Análise Léxica
• Identificação de cada palavra e conversão 
de caracteres
“Se o desonesto soubesse a 
vantagem de ser honesto, ele seria 
honesto ao menos por 
desonestidade.”
Sócrates
Doc original
se/o/desonesto/
soubesse /a/vantagem/
de/ser/honesto/ele/
seria/honesto/ao/menos/
por/desonestidade/
socrates/
Análise Léxica
Doc : www.filosofia.com Doc : www.filosofia.com
31
Operações sobre o texto
Análise léxica
• Entrada
– O texto original
• uma cadeia de caracteres
• Objetivo
– Converter o texto original em uma lista de palavras
– Identificando as palavras que ocorrem no texto
• Procedimento padrão 
– Utilizar espaços como sendo separadores de palavras
– Tratar pontuação, hífens, dígitos, e letras maiúsculas e 
minúsculas
• Cada caso pode requerer tratamentos diferenciados
32
Operações sobre o texto
Análise léxica
• Delimitação do início e fim das palavras:
– Espaço em branco, tabulações, enters
– Pontuação e hífens: . , ! ? : ; -
– Caracteres numéricos
• Eliminação de dígitos 
– Geralmente, dígitos são removidos por serem 
vagos
• Não terem uma semântica associada quando 
aparecem isolados
– Ex. 1910 (ano, peso, tamanho???)
33
Operações sobre o texto
Análise léxica
• Substituição de letras maiúsculas
– Objetivo principal
• Tornar a representação das palavras ou termos 
homogênea
• Facilitar a recuperação do documento a partir de 
consultas
• Exceções 
– Carneiro
• Animal ou nome próprio?
– Banco – instituição financeira
– banco - assento
34
Operações sobre o texto
Análise léxica
• Como visto, existem diversas exceções a 
tratar
– Isso depende da aplicação, do domínio do 
sistema, etc...
• Sugestão
– Preparar lista de exceções e tratar caso a caso
• Engenhos de busca
– Geralmente, não eliminam nada
• Funcionam em todos os domínios...
– Indexam o texto completo com sua pontuação, 
dígitos, etc...
35
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
Termos ou 
palavras-chave
36
Eliminação de Palavras Vazias de significado
• Elimina palavras de uma lista (geralmente 
palavras muito frequentes na coleção ou 
conectivos)
se/o/desonesto/
soubesse /a/vantagem/
de/ser/honesto/ele/
seria/honesto/ao/menos/
por/desonestidade/
socrates/
Análise Léxica
desonesto / soubesse /
vantagem / honesto /
honesto / menos/
desonestidade/
socrates
Eliminar stopwords
Doc : www.filosofia.com Doc : www.filosofia.com
37
Operações sobre o texto
Eliminação de stopwords
• Algumas palavras não são bons 
discriminadores 
– Palavras muito freqüentes na base de documentos
– Palavras sem semântica associada
• artigos, preposições, conjunções, pronomes, alguns 
advérbios e adjetivos
• Aqui também há exceções a considerar
– Na extração de termos compostos ou grupos 
nominais, podemos precisar manter algumas 
dessas palavras
• Recuperação de informação
38
Operações sobre o texto
Eliminação de stopwords
• Vantagens
– Diminuir a representação do texto
– Melhorar a ordenação na recuperação
• Tf-idf
• Desvantagens
– Diminuição da cobertura na recuperação
– Ex., “ser ou não ser”
• Somente o termo “ser” será usado na indexação 
documento
• Mais uma razão para os engenhos de busca 
utilizarem representação do texto completo
39
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
Termos ou 
palavras-chave
40
Radicalização
• Utiliza um software que reduz a palavra a 
uma aproximação do radical removendo 
sufixos
desonesto / soubesse /
vantagem / honesto /
honesto / menos/
desonestidade/
socrates
Eliminar stopwords
desonest / soub /
vantag / honest /
honest /
men/desonest/
socrat
Radicalização
Doc : www.filosofia.com Doc : www.filosofia.com
41
Operações sobre o texto
Radicalização (Stemming)
• Problema
– Freqüentemente, o usuário especifica uma palavra na 
consulta, mas apenas uma variação dessa palavra aparece 
nos documentos relevantes
– Ex., plural, gênero, gerúndio, verbos flexionados, 
aumentativo... 
• Objetivo dessa operação:
– Substituir a palavra por seu radical (stem)
• Porção da palavra que resta após a remoção de prefixos e 
sufixos
– Possibilitar casamento entre variações de uma mesma 
palavra
• Ex.: engenheiro, engenharia,...
42
Operações sobre o texto
Stemming
• Snowball
– Uma linguagem para processamento de strings 
especifica para criar algoritmos de stemming
para RI
– http://snowball.tartarus.org/
– Veja algoritmo disponível para Português em 
• http://snowball.tartarus.org/algorithms/portuguese/st
emmer.html
• O site também traz exemplo de stoplist para 
Português
43
Stemming
Exemplo do Snowball para Português
word stem
quilo
quilométricas
quilométricos
quilômetro
quilômetros
quilos
química
químicas
químico
químicos
quimioterapia
quimioterápicos
=> 
quil 
quilométr
quilométr
quilômetr
quilômetr
quil
químic
químic
químic
químic
quimioterap
quimioteráp
44
Operações sobre o texto
Radicalização
• Vantagens
– Diminui a dispersão terminológica
– Permite o casamento das variações de uma 
palavra entre si.
• Desvantagens
– Pode gerar redução demais (over stemming) ou 
redução de menos (under stemming) para certas 
palavras o que leva a um erro no casamento.
– Se aplica a todas as palavras do texto, incluindo 
nomes próprios e siglas.
45
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
Termos ou 
palavras-chave
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
46
Identificação de Grupos Nominais
• Utiliza um software que extrai os 
substantivos e termos compostos formados 
por substantivos do texto.
– Exemplos: recuperação da informação, 
indexação automática.
se/o/desonesto/
soubesse /a/vantagem/
de/ser/honesto/ele/
seria/honesto/ao/menos/
por/desonestidade/
socrates/
Análise Léxica
desonesto / vantagem / 
honesto / honesto 
/desonestidade/ 
socrates/
Detecção de grupos nominais
Doc : www.filosofia.com Doc : www.filosofia.com
47
Operações sobre o texto
Identificação de Grupos Nominais
• Objetivo
– Identificar grupos nominais (termos compostos) para indexar o 
documento
• Ex., Recuperação de Informação, Inteligência Artificial
• Procedimentos
– Selecionar substantivos do texto, eliminando sistematicamente 
palavras de outras classes gramaticais
• Usando uma stoplist ou
• usando um etiquetador morfossintático (part-of-speech tagger) 
para determinar a classe das palavras e/ou
• usando um thesaurus da língua ou do domínio 
– Agrupar substantivos para formar termos compostos
48
Operações sobre o texto
Identificação de Grupos Nominais
• Como agrupar substantivos para formar termos compostos– Considerando os grupos nominais identificados pelo tagger
– Considerando a distância entre os termos no texto
• Número de palavras entre os dois substantivos
– Ex., Recuperação de Informação 
» Apenas uma palavra (de)
– Extraindo esses termos de um tesauro do domínio
• Pode conter um vocabulário controlado de termos em vez de 
palavras isoladas
49
Operações sobre o texto
Identificação de Grupos Nominais
• Vantagens
– Grupos nominais carregam a maior parte da semântica 
de um texto
– O significado de um grupo nominal é mais preciso que 
as palavras tomadas isoladamente, diminuindo a 
ambiguidade, sinonímia e polissemia dos termos.
• Desvantagens
– Depende da taxa de acerto dos taggers, que é superior a 
90%, mas não é 100%.
– O agrupamento de substantivos também pode gerar 
erros.
– Um grupo nominal identificado não necessariamente é 
palavra-chave do documento.
50
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
Termos ou 
palavras-chave
51
Operações sobre o texto
Uso de Vocabulário Controlado
• Objetivo
– Identificar termos normalizados que representam conceitos 
para indexar o documento
• Ex., Indexação, Recuperação de Informação, Inteligência 
Artificial
• Procedimentos
– Registrar a ocorrência e posição de ocorrência de termos ou 
variações linguísticas de termos do tesauro no documento
– Selecionar termos candidatos com base na ocorrência de termos e 
nas relações entre termos do tesauro
52
Vocabulário Controlado
• Linguagens documentárias podem ser utilizadas para
orientar a atribuição de termos a documentos no 
processo de indexação manual ou automática.
• Contribuem para Indexação automática por atribuição:
– A ocorrência de variações linguísticas dos termos do 
vocabulário controlado ou dos termos não autorizados
equivalentes (Relações USE e UF) no documento.
– A ocorrência de variações linguísticas de um termo mais
específico no documento (Relações TG e TE)
• A relação de termo relacionado (TR) tem sido mais
explorada na expansão de termos na consulta, por ter
natureza contextual.
53
Operações sobre o texto
Vocabulário controlado
• Vantagens
– Termos de especialidade encontrados no texto são 
candidatos a palavras-chave
– O significado de um termo é mais preciso que as 
palavras tomadas isoladamente, diminuindo a 
ambiguidade, sinonímia e polissemia.
• Desvantagens
– Depende do vocabulário controlado.
– Depende do casamento entre os termos do vocabulário 
com as expressões em linguagem natural do 
documento.
– Um termo que ocorre em um documento não 
necessariamente é palavra-chave do mesmo.
54
Exercício
1) Sobre o processamento dos textos (operações sobre o texto), 
tomando a frase “Na conexão dos saberes e práticas está o 
aprendizado, fruto de um processo de aprendizagem contínua.”:
a) mostre o resultado de cada uma das operações de 
processamento: 
– análise léxica (extrair palavras, transformá-las em minúsculo, remover 
pontuação)
– remoção de stopword (remover na, dos, e, está, o, de, um),
– radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua). 
b) A ordem destas operações sobre o texto pode ser alterada? 
Justifique.
55
Resolução do Exercício
1) “Na conexão dos saberes e práticas está o aprendizado, fruto 
de um processo de aprendizagem contínua.”:
a) 
– análise léxica (extrair palavras, transformá-las em minúsculo, remover 
pontuação): “na conexão dos saberes e práticas está o aprendizado fruto 
de um processo de aprendizagem contínua”
– remoção de stopword (remover na, dos, e, está, o, de, um): “conexão 
saberes práticas aprendizado fruto processo aprendizagem contínua”
– radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua): 
“conex saber prátic aprendiz frut process aprendiz contín”
b) Não. A análise léxica deve ser sempre a primeira pois identifica as palavras, 
a remoção de stopword a segunda pois compara palavras e radicalização a 
última por alterar a forma como as palavras serão representadas no sistema.
3. Construção da Estrutura de dados do índice
Arquivo de índices invertidos 
 é um “mecanismo” para acelerar a busca em uma base 
de documentos já indexados
 Armazena a representação computacional de cada 
documento (visão lógica do documento)
Estrutura de um arquivo invertido
 Vocabulário
 Termos em ordem alfabética (geralmente palavras isoladas ou 
unitermos)
 Ocorrências de cada termo
 Documentos onde o termo aparece, sua posição no texto, 
freqüência, etc…
56
Arquivos Invertidos 
Listas de Ocorrência
Para cada ocorrência armazena-se informações que 
dependem do tipo de consulta permitida pelo sistema
 Não armazena as não ocorrências
Exemplos de listas de ocorrência: 
 para a consulta booleana e probabilista, é necessário 
armazenar apenas a lista de documentos onde o termo 
aparece
 para consultas no modelo espaço vetorial, a ocorrência 
deve armazenar a frequência do termo nos documentos
 para consultas por proximidade, a ocorrência deve 
armazenar a posição dos termos nos documentos
57
Arquivos Invertidos - Exemplo 1
Considere os seguintes documentos:
Realize a Análise léxica, elimine as stopwords e 
construa o arquivo invertido para os documentos
Ciência da 
Informação
Doc A:
Dados, 
Informação e 
Conhecimento
Doc B:
Informação 
em Ciência e 
Tecnologia
Doc C:
Bancos de 
Dados
Doc D:
Ciência e 
Conhecimento
Doc E:
Ciência da 
Computação
Doc F:
58
Arquivos Invertidos 
Exemplo 1
A
B
C
D
E 
F
Ciência da Informação
Dados, Informação e Conhecimento
Informação em Ciência e Tecnologia
Bancos de Dados 
Ciência e Conhecimento
Ciência da Computação
Documento Texto
stopwords
da
e
em
de 59
Arquivo Invertido
Exemplo 1 - Modelo Booleano e Probabilista
Ciência da Informação
Dados, Informação e Conhecimento
Informação em Ciência e Tecnologia
Bancos de Dados 
Ciência e Conhecimento
Ciência da Computação
Documento Texto
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
D
A, C, E, F
F
B, E
B, D
A, B, C
C
DocsNo
Vocabulário
Listas de documentos
onde termo aparece
Arquivo InvertidoA
B
C
D
E 
F
60
Arquivo Invertido
Exemplo 1 - Modelo Espaço Vetorial (TF)
Ciência da Informação
Dados, Informação e Conhecimento
Informação em Ciência e Tecnologia
Bancos de Dados 
Ciência e Conhecimento
Ciência da Computação
Documento Texto
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
D(1)
A(1), C(1), E(1), F(1)
F(1)
B(1), E(1)
B(1), D(1)
A(1), B(1), C(1)
C(1)
DocsNo
Vocabulário
Listas de documentos
onde termo aparece
Arquivo Invertido
A
B
C
D
E 
F
61
Arquivo Invertido
Exemplo 1 - Busca por Proximidade
Ciência da Informação
Dados, Informação e Conhecimento
Informação em Ciência e Tecnologia
Bancos de Dados 
Ciência e Conhecimento
Ciência da Computação
Documento Texto
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
(D,1)
(A,1),(C,3), (E,1),(F,1)
(F,3)
(B,4), (E,3)
(B,1), (D,3)
(A,3), (B,2), (C,1)
(C,5)
DocsNo
Vocabulário
Listas de documentos
onde termo aparece
Arquivo Invertido
A
B
C
D
E 
F
62
63
Exercício
2) Resolva as seguintes consultas utilizando o 
índice invertidodo Exemplo 1:
a) Pelo modelo booleano: ciência AND informação
b) Pelo modelo probabilista: ciência informação
c) Pelo modelo vetorial: ciência informação
64
Exercício
2) Resolva as seguintes consultas utilizando o 
índice invertido do Exemplo 1:
a) Pelo modelo booleano: ciência AND informação
– ciência: A, C, E, F
– Informação: A, B, C
– A resposta é a intersecção
dos conjutos {A,C}
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
D
A, C, E, F
F
B, E
B, D
A, B, C
C
DocsNo
Arquivo Invertido
65
Exercício
2) Resolva as seguintes consultas utilizando o 
índice invertido do Exemplo 1:
b) Pelo modelo probabilista: ciência informação
– IDF
• ciência: log(6/4)=0,18
• informação: log(6/3)=0,30
– Resposta:
• [A,C]: 0,18+0,30=0,48
• B: 0,30
• [E,F]: 0,18
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
D
A, C, E, F
F
B, E
B, D
A, B, C
C
DocsNo
Arquivo Invertido
66
Exercício
2) Resolva as seguintes consultas utilizando o 
índice invertido do Exemplo 1:
c) Pelo modelo vetorial:
ciência informação
– Usando TF como peso:
• =1 para as palavras em q
• Norma de q: raiz(12+12)=1,4
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
D(1)
A(1), C(1), E(1), F(1)
F(1)
B(1), E(1)
B(1), D(1)
A(1), B(1), C(1)
C(1)
DocsNo
Arquivo Invertido
Norma
A: raiz(12+12)=1,4
C: raiz(12+12+12)=1,7
E: raiz(12+12)=1,4
F: raiz(12+12)=1,4
B: raiz(12+12+12)=1,7
Produto
A: 1x1+1x1=2
C: 1x1+1x1=2
E:1x1=1
F:1x1=1
B:1x1=1
Cosseno(d,q)
A: = 2/(1,4*1,4)=2/2=1,0
C: =2/(1,4*1,7)=2/2,4=0,8
E: =1/(1,4*1,4)=1/2=0,5
F: =1/(1,4*1,4)=1/2=0,5
B: =1/(1,4*1,7)=1/2,4=0,4
67
Ferramentas para construir índices de SRI
• Lucene (http://lucene.apache.org/core/)
– Biblioteca de código escrita em programação
JAVA para construção e busca em índices
invertidos
• SOLR (http://lucene.apache.org/solr/ )
– Implementação de servidor de busca baseado em
LUCENE
• Luke (https://github.com/DmitryKey/luke)
– Visualizador de índice criado através de Lucene.
68
Referências
• (BAEZA-YATES, RIBEIRO-NETO, 2013)
– Seções 5.6, 8.2
• (FERNEDA, 2012)
– Capítulo 7 e 12
1
Recuperação de Informação
Avaliação de Desempenho de 
Sistemas de Recuperação de Informação
Renato Fernandes Corrêa
2
Para que avaliar?
Existem muitos modelos de RI, mas qual é o 
melhor?
Qual a melhor escolha para: 
 Seleção de termos (stopword, stemming…)
 Definição de pesos (TF, TF-IDF,…)
 Função de Ranking (co-seno, correlação…)
Quantos itens da lista de resultados o usuário 
deverá consultar para ainda encontrar algum 
documento relevante?
3
Como avaliar?
Todo software pode ser avaliado quanto a 
corretude ou eficácia através da comparação da 
saída do programa com a saída esperada para 
valores de entrada predeterminados.
SRI
Entrada de dados
Saída de dados
• Corpus
• Consulta
• Lista de documentos
recuperados
• Lista de 
documentos 
relevantes
Julgamentos
de Relevância
Por Especialistas
4
Avaliação de Sistemas de RI 
Dificuldades
Eficácia do SRI está relacionada à relevância
dos itens recuperados
Relevância, do ponto de vista do usuário, é:
 Subjetiva: 
 depende de um julgamento específico do usuário
 Dependente do contexto: 
 relaciona-se às necessidades atuais do usuário
 Cognitiva: 
 depende da percepção e comportamento humano
 Dinâmica: 
 muda com o decorrer do tempo
5
Metodologia de Avaliação de 
Sistemas de RI 
1. Selecione com um corpus de documentos 
chamado também de coleção de 
referência
2. Defina um conjunto de consultas para 
esse corpus
3. Use um ou mais especialistas humanos 
para exaustivamente categorizar 
(etiquetar, marcar) os documentos 
relevantes para cada consulta
Geralmente assume relevância binária
4. Calcular métricas de avaliação do SRI
6
Metodologia de Avaliação de 
Sistemas de RI 
Metodologia de Avaliação
Vantagens:
 Pode ser adotada para avaliar qualquer SRI
Desvantagens:
 Não leva em conta ordenação dos 
documentos na lista de documentos 
retornados
 Depende do julgamento de relevância dos 
documentos da coleção em relação a cada 
expressão de busca.
 Processo lento, caro e subjetivo.
7
8
Precisão
 Habilidade de recuperar somente itens 
relevantes (unicidade)
Revocação ou Cobertura
 Habilidade de recuperar todos os itens 
relevantes (completude)
Medidas de Avaliação de 
Sistemas de RI 
9
relevantes documentos de total Número
srecuperado relevantes documentos de Número
 Revocação 
srecuperado documentos de total Número
srecuperado relevantes documentos de Número
 Precisão 
Documentos 
relevantes
Documentos 
recuperados
Coleção de
documentos
Não
recuperados
e relevantes
Não recuperados
e irrelevantes
recuperados
e relevantes
recuperados e 
irrelevantes
Relevantes Irrelevantes
Não recuperados
Recuperados
Medidas de Avaliação
Exemplos:
10
Dados:
• Uma coleção de 5 documentos, D1 a D5
• Uma consulta Q1
• Julgamento de relevância de cada documento para a 
consulta Q1
• Existem 3 documentos relevantes para Q1
• Os documentos retornados por um SRI para a consulta 
Q1
Exemplo 1:
11
Documento Retornado Relevante
D1 SIM SIM
D2 NÃO SIM
D3 SIM SIM
D4 NÃO NÃO
D5 SIM NÃO
Revocação = 2/3 = 0,667 ou 66,7%
Precisão = 2/3 = 0,667 ou 66,7%
Exemplo 2: buscando maior 
precisão
12
Documento Retornado Relevante
D1 SIM SIM
D2 NÃO SIM
D3 NÃO SIM
D4 NÃO NÃO
D5 NÃO NÃO
Revocação = 1/3 = 0,333 ou 33,3%
Precisão = 1/1 = 1,0 ou 100%
Exemplo 3 : buscando maior 
Revocação
13
Documento Retornado Relevante
D1 SIM SIM
D2 SIM SIM
D3 SIM SIM
D4 SIM NÃO
D5 SIM NÃO
Revocação = 3/3 = 1,0 ou 100%
Precisão = 3/5 = 0,6 ou 60%
Exemplo 4: o ideal
14
Documento Retornado Relevante
D1 SIM SIM
D2 SIM SIM
D3 SIM SIM
D4 NÃO NÃO
D5 NÃO NÃO
Revocação = 3/3 = 1,0 ou 100%
Precisão = 3/3 = 1,0 ou 100%
15
Conflito entre Revocação e Precisão
10
1
Revocação
P
re
ci
sã
o
Ideal
Retorna documentos relevantes
mas esquece muitos outros relevantes
Retorna todos os
documentos relevantes
mas inclui muitos não
relevantes 
Conflito entre Revocação e 
precisão
A exaustividade e a especificidade na 
indexação são os dois fatores mais 
importantes que governam a Revocação e a 
precisão;
 A exaustividade aumenta a Revocação e diminui a 
precisão, enquanto que uma maior especificidade 
leva à menor Revocação e maior precisão;
Em síntese, o desempenho de um sistema de 
recuperação de informação é avaliado 
principalmente pelas medidas de Revocação e 
precisão. 16
Exercício: busca por carta antiga
Calcule Precisão e Revocação
17
Retornado
Relevante
18
Combinando Precisão e Revocação
F-Measure
Medida de desempenho que considera tanto 
a Revocação como precisão
Média harmônica da Revocação (Cobertura) e
Precisão:
Vantagem de usar a média harmônica em 
relação à média aritmética:
 Ambas as medidas precisam ser altas para a 
média harmônica ser alta
PC
CP
PC
F
11
22




19
E-Measure 
F-Measure parametrizado
Variação da F-measure que permite associar 
ênfase na precisão sobre a Revocação:
Valor de  controla conflito:
  = 1: Peso igual para precisão e Revocação (E=F).
  > 1: Mais peso para a precisão
  < 1: Mais peso para a Revocação
PC
CP
PC
E
1
2
2
2
2
)1()1(
