Buscar

Aula05 IndexacaoeConstrucaodeIndice

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 68 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 68 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 68 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Indexação e
Construção de Índice
Renato Fernandes Corrêa
Indexação de documentos
Consiste de três passos:
1. Definição do vocabulário de indexação
2. Indexação - atribuição de termos de indexação a 
cada documento
3. Construção do índice – construção da estrutura de 
dados do índice
2
1.Vocabulário de Indexação
Definição: 
 Conjunto de termos usados para indexar e recuperar 
documentos de uma base ou corpus
Pode ser definido manualmente por especialistas 
humanos => vocabulário de indexação manual
 Vocabulário controlado, tesauro,...
 Refletem diretamente os assuntos ou conceitos dos 
documentos
Pode ser definido automaticamente pelo sistema 
de RI (após operadores de texto) => vocabulário 
de indexação automático
3
Definido pela linguagem de indexação adotada e 
processo intelectual de indexação.
No uso de linguagem de indexação controlada, os 
termos vem de uma linguagem documentária como:
 Lista de cabeçalho de assuntos 
 Lista simples de termos sem hierarquia
 Taxonomia 
 Lista de termos organizados com hierarquia
 Tesauro
 Hierarquia de termos com relações associativas
 Ontologia
 Hierarquia de assuntos organizados em classes e com relações 
todo-parte e associativas específicas e explícitas
Vocabulário de Indexação
Manual
4
Consiste basicamente no conjunto de 
termos que aparecem no texto completo dos 
documentos ou metadados dos documentos 
após aplicação de operadores de texto. 
Sem utilização de vocabulário 
controlado - usa a linguagem natural 
como linguagem de indexação.
Com uso de vocabulário controlado - usa 
linguagem controlada como linguagem 
de indexação.
Vocabulário de Indexação
Automático
5
6
Visão Geral da definição de 
vocabulário de indexação
7
Linguagem Natural
• Compreende os idiomas ou líguas criadas pelos seres
humanos para fins de comunicação.
• Exemplo:
– Português do Brasil
– Inglês dos EUA
• Todo documento é redigido em linguagem
natural. Por mais que possuam termos técnicos
específicos de uma área ou especialidade do 
conhecimento humano.
8
Linguagem Documentária (LD)
• A linguagem documentária compreende o conjunto de 
regras, símbolos e termos previamente estabelecidos, 
formando uma linguagem artificial para a indicação
do conteúdo temático dos documentos.
– Metalinguagem que utiliza uma construção simbólica com a finalidade
de ser instrumento de conversão de uma linguagem em outra.
– Linguagem de indexação é uma especialização de uma LD, sendo uma
linguagem artificial utilizada para registro ou indicação dos temas
contidos nos documentos, dotada de vocabulário controlado e regida por
uma sintaxe própria.
• Exemplos: tesauros, taxonomias, listas de cabeçalho de assunto, sistemas de 
classificação.
9
Linguagem Documentária (LD)
• Objetivos:
– Garantir uma melhor recuperação da informação;
– Controlar o vocabulário:
• Controle da terminologia de áreas do conhecimento por meio do 
estabelecimento de um conceito/interpretação definido aos termos de 
acordo com as necessidades de uso do sistema;
• Uniformização do uso de linguagens especializadas;
– Representação padronizada do conteúdo e do conhecimento;
– Mediar e promover interação entre usuário e conteúdo;
– Fornecer uma versão extremamente econômica dos textos 
originais, através do destaque de assuntos considerados 
principais nos documentos.
10
Comparação: Linguagem Natural versus
Linguagem Documentária
• Linguagem Documentária
– São linguagens artificiais;
– São instrumentos de 
comunicação;
– São especializadas;
– São estabelecidas em 
poucos anos por um 
número reduzido de 
pessoas;
• Linguagem Natural
– São linguagens naturais;
– São instrumentos de 
comunicação;
– São gerais;
– São estabelecidas e 
adaptadas através de 
longos períodos de tempo 
e por muitas pessoas
11
Comparação: Linguagem Natural versus
Linguagem Documentária
• Linguagem Documentária
– Devem ser aceitas pelos 
usuários;
– São mais eficientes que as 
LN nas operações de 
recuperação da 
informação;
– Não aceitam 
ambiguidades. Não 
comportam polissemias e 
se esforçam por evitar as 
sinonímias;
• Linguagem Natural
– São naturalmente aceitas 
pelos usuários;
– São menos eficientes que 
as LD nas operações de 
recuperação da 
informação;
– Aceitam ambiguidades. A 
sinonímia e a polissemia 
são fenômenos naturais 
das LN
12
Exercício
1) Qual a finalidade ou função das linguagens de indexação?
2) Quais os tipos de linguagens de indexação presentes nos 
SRIs?
3) Cite uma vantagem e uma desvantagem do uso de linguagem 
documentária para recuperação da informação?
13
2. Indexação
• É o processo de atribuição de termos ou códigos 
de indexação a um documento na qual serão úteis 
posteriormente na recuperação da informação.
• O processo de indexação consiste na tradução de 
um documento em termos documentários, isto é, 
em descritores, cabeçalhos de assunto, termos-
chave, que têm por função expressar o conteúdo 
do documento (Cintra, 1983).
14
Indexação no contexto da Recuperação de 
Informação
15
Processo de Indexação
• Segundo Baranow(1983), a indexação é vista como 
um processo analítico decomposto em duas etapas:
– Descrição:refere-se a identificação, seleção e análise dos 
conceitos ou assuntos que representam o conteúdo - o 
indexador precisa fazer uma leitura analítica do documento 
e extrair conceitos em linguagem natural;
– Representação:refere-se a representação desses conceitos 
através de descritores (termos) compatíveis com os do 
sistema de recuperação - o indexador precisa identificar e 
selecionar termos de indexação que representem de forma 
fidedigna os conceitos tratados no conteúdo do documento, 
presentes em uma linguagem de indexação.
16
Processo de Indexação
Linguagem
de IndexaçãoConceitos
17
Indexação
• Algumas considerações importantes durante a 
realização do processo de indexação:
– Identificar tópicos dentro do texto que venham de encontro 
às necessidades dos usuários (Garantia de uso);
– Produzir cabeçalhos com mesma terminologia do 
documento levando em conta sinônimos ou termos 
equivalentes (Garantia literária);
• Por exemplo, indexação apropriada de:
– para um biólogo: Aedes aegypti; Aedes (Stegomyia) aegypti;
Culex aegypti; Culex excitans; Culex taeniatus.
– Para uma pessoa comum: Mosquito da Dengue; Pernilongo rajado
18
Dimensões da indexação
• Exaustividade:
– Representação exaustiva do conteúdo temático;
– Tipos:
• Exaustiva(mais termos);
• Seletiva (menos termos);
• Exemplo:
– Prédios históricos, ponto turístico,
praça, Recife, Recife Antigo, 
Marco Zero.
19
Dimensões da indexação
• Especificidade:
– Termo mais específico que o abrange totalmente;
• Exemplos:
– Recife, Recife Antigo, Marco Zero.
20
Indexação
• A seleção desse termos de indexação pode 
ser por
– Indexação manual (ou Intelectual)
• Realizado por um especialista
• Ex. um bibliotecário em sistema de bibliotecas
– Indexação Automática 
• Os termos são automaticamente extraídos do texto 
do documento por softwares específicos
• Ex. mecanismos de busca na Web
Vantagens:
 É possível ter uma visão panorâmica dos assuntos dos documentos 
que compõem a base 
 É possível direcionar melhor a busca realizada pelo usuário
 Aumenta a precisão na busca
Desvantagens:
 Cada documento é indexado por um humano (processo lento)
 Nem sempre é possível construir uma boa estrutura de assuntos
 O usuário pode realizar buscas com termos que não aparecemno 
vocabulário controlado
Indexação Manual
21
Vantagens:
 Maior cobertura de termos
 Maior velocidade no processo de indexação
Desvantagens
 Pode gerar baixa precisão
Indexação Automática
22
23
Exercício
1) Em que consiste o processo de indexação de documentos?
2) Qual o impacto das dimensões da indexação na recuperação 
dos documentos?
3) Cite uma vantagem e desvantagem do uso da indexação 
automática?
24
Indexação Automática
• Lista de termos do documento pode ser 
reduzida através do uso de operadores de 
texto, investigados na área de pesquisa 
denominada Processamento de Linguagem 
Natural.
• Cada fase de operação de texto pode utilizar 
diferentes técnicas na sua implementação
• Cada sistema de RI implementa uma ou 
mais dessas fases
– A escolha depende do tipo de sistema desejado
Processamento de Linguagem Natural
• O que é?
– Conjunto de técnicas computacionais para a análise 
de textos com o propósito de simular o 
processamento humano da língua.
• Quais são as abordagens?
– Abordagem estatística – de menor custo e adaptáveis a 
diversas línguas
– Abordagem linguística – específicos de cada língua
• Razões para aplicar em RI?
– Documentos e expressões de busca são enunciados 
em linguagem natural. 25
Processamento de Linguagem Natural
• Principais usos em RI:
– Indexação automática
• Normalização de variações linguísticas
– Normalização morfológica ou Conflação de termos 
(radicalização, lematização)
– Normalização léxico-semântica de termos através das relações 
semânticas de sinonímia, hiponímia, hiperonímia
• Identificação de termos compostos
– Sintagmas nominais, termos complexos, unidades lexicais 
complexas, expressões multi-palavras
• Resolução de ambiguidade
– Sintática (causa estrutural) ou semântica (causa lexical –
homonímia, polissemia)
26
27
Operadores de texto
• O objetivo é chegar à representação 
computacional do documento, a ser 
armazenada em estrutura de índice para 
fins de recuperação.
“Se o desonesto soubesse a 
vantagem de ser honesto, 
ele seria honesto ao menos 
por desonestidade.”
Sócrates
Doc original
desonesto / soubesse /
vantagem / honesto /
seria / honesto /
menos/desonestidade/
socrates
honesto 2
desonesto 1
soubesse 1
vantagem 1
seria 1
menos 1
desonestidade 1
socrates 1
Operações de Texto
Representação
Doc : www.filosofia.com Doc : www.filosofia.com
Doc : www.filosofia.com
28
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
Termos ou 
palavras-chave
29
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
Termos ou 
palavras-chave
30
Análise Léxica
• Identificação de cada palavra e conversão 
de caracteres
“Se o desonesto soubesse a 
vantagem de ser honesto, ele seria 
honesto ao menos por 
desonestidade.”
Sócrates
Doc original
se/o/desonesto/
soubesse /a/vantagem/
de/ser/honesto/ele/
seria/honesto/ao/menos/
por/desonestidade/
socrates/
Análise Léxica
Doc : www.filosofia.com Doc : www.filosofia.com
31
Operações sobre o texto
Análise léxica
• Entrada
– O texto original
• uma cadeia de caracteres
• Objetivo
– Converter o texto original em uma lista de palavras
– Identificando as palavras que ocorrem no texto
• Procedimento padrão 
– Utilizar espaços como sendo separadores de palavras
– Tratar pontuação, hífens, dígitos, e letras maiúsculas e 
minúsculas
• Cada caso pode requerer tratamentos diferenciados
32
Operações sobre o texto
Análise léxica
• Delimitação do início e fim das palavras:
– Espaço em branco, tabulações, enters
– Pontuação e hífens: . , ! ? : ; -
– Caracteres numéricos
• Eliminação de dígitos 
– Geralmente, dígitos são removidos por serem 
vagos
• Não terem uma semântica associada quando 
aparecem isolados
– Ex. 1910 (ano, peso, tamanho???)
33
Operações sobre o texto
Análise léxica
• Substituição de letras maiúsculas
– Objetivo principal
• Tornar a representação das palavras ou termos 
homogênea
• Facilitar a recuperação do documento a partir de 
consultas
• Exceções 
– Carneiro
• Animal ou nome próprio?
– Banco – instituição financeira
– banco - assento
34
Operações sobre o texto
Análise léxica
• Como visto, existem diversas exceções a 
tratar
– Isso depende da aplicação, do domínio do 
sistema, etc...
• Sugestão
– Preparar lista de exceções e tratar caso a caso
• Engenhos de busca
– Geralmente, não eliminam nada
• Funcionam em todos os domínios...
– Indexam o texto completo com sua pontuação, 
dígitos, etc...
35
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
Termos ou 
palavras-chave
36
Eliminação de Palavras Vazias de significado
• Elimina palavras de uma lista (geralmente 
palavras muito frequentes na coleção ou 
conectivos)
se/o/desonesto/
soubesse /a/vantagem/
de/ser/honesto/ele/
seria/honesto/ao/menos/
por/desonestidade/
socrates/
Análise Léxica
desonesto / soubesse /
vantagem / honesto /
honesto / menos/
desonestidade/
socrates
Eliminar stopwords
Doc : www.filosofia.com Doc : www.filosofia.com
37
Operações sobre o texto
Eliminação de stopwords
• Algumas palavras não são bons 
discriminadores 
– Palavras muito freqüentes na base de documentos
– Palavras sem semântica associada
• artigos, preposições, conjunções, pronomes, alguns 
advérbios e adjetivos
• Aqui também há exceções a considerar
– Na extração de termos compostos ou grupos 
nominais, podemos precisar manter algumas 
dessas palavras
• Recuperação de informação
38
Operações sobre o texto
Eliminação de stopwords
• Vantagens
– Diminuir a representação do texto
– Melhorar a ordenação na recuperação
• Tf-idf
• Desvantagens
– Diminuição da cobertura na recuperação
– Ex., “ser ou não ser”
• Somente o termo “ser” será usado na indexação 
documento
• Mais uma razão para os engenhos de busca 
utilizarem representação do texto completo
39
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
Termos ou 
palavras-chave
40
Radicalização
• Utiliza um software que reduz a palavra a 
uma aproximação do radical removendo 
sufixos
desonesto / soubesse /
vantagem / honesto /
honesto / menos/
desonestidade/
socrates
Eliminar stopwords
desonest / soub /
vantag / honest /
honest /
men/desonest/
socrat
Radicalização
Doc : www.filosofia.com Doc : www.filosofia.com
41
Operações sobre o texto
Radicalização (Stemming)
• Problema
– Freqüentemente, o usuário especifica uma palavra na 
consulta, mas apenas uma variação dessa palavra aparece 
nos documentos relevantes
– Ex., plural, gênero, gerúndio, verbos flexionados, 
aumentativo... 
• Objetivo dessa operação:
– Substituir a palavra por seu radical (stem)
• Porção da palavra que resta após a remoção de prefixose 
sufixos
– Possibilitar casamento entre variações de uma mesma 
palavra
• Ex.: engenheiro, engenharia,...
42
Operações sobre o texto
Stemming
• Snowball
– Uma linguagem para processamento de strings 
especifica para criar algoritmos de stemming
para RI
– http://snowball.tartarus.org/
– Veja algoritmo disponível para Português em 
• http://snowball.tartarus.org/algorithms/portuguese/st
emmer.html
• O site também traz exemplo de stoplist para 
Português
43
Stemming
Exemplo do Snowball para Português
word stem
quilo
quilométricas
quilométricos
quilômetro
quilômetros
quilos
química
químicas
químico
químicos
quimioterapia
quimioterápicos
=> 
quil 
quilométr
quilométr
quilômetr
quilômetr
quil
químic
químic
químic
químic
quimioterap
quimioteráp
44
Operações sobre o texto
Radicalização
• Vantagens
– Diminui a dispersão terminológica
– Permite o casamento das variações de uma 
palavra entre si.
• Desvantagens
– Pode gerar redução demais (over stemming) ou 
redução de menos (under stemming) para certas 
palavras o que leva a um erro no casamento.
– Se aplica a todas as palavras do texto, incluindo 
nomes próprios e siglas.
45
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
Termos ou 
palavras-chave
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
46
Identificação de Grupos Nominais
• Utiliza um software que extrai os 
substantivos e termos compostos formados 
por substantivos do texto.
– Exemplos: recuperação da informação, 
indexação automática.
se/o/desonesto/
soubesse /a/vantagem/
de/ser/honesto/ele/
seria/honesto/ao/menos/
por/desonestidade/
socrates/
Análise Léxica
desonesto / vantagem / 
honesto / honesto 
/desonestidade/ 
socrates/
Detecção de grupos nominais
Doc : www.filosofia.com Doc : www.filosofia.com
47
Operações sobre o texto
Identificação de Grupos Nominais
• Objetivo
– Identificar grupos nominais (termos compostos) para indexar o 
documento
• Ex., Recuperação de Informação, Inteligência Artificial
• Procedimentos
– Selecionar substantivos do texto, eliminando sistematicamente 
palavras de outras classes gramaticais
• Usando uma stoplist ou
• usando um etiquetador morfossintático (part-of-speech tagger) 
para determinar a classe das palavras e/ou
• usando um thesaurus da língua ou do domínio 
– Agrupar substantivos para formar termos compostos
48
Operações sobre o texto
Identificação de Grupos Nominais
• Como agrupar substantivos para formar termos compostos
– Considerando os grupos nominais identificados pelo tagger
– Considerando a distância entre os termos no texto
• Número de palavras entre os dois substantivos
– Ex., Recuperação de Informação 
» Apenas uma palavra (de)
– Extraindo esses termos de um tesauro do domínio
• Pode conter um vocabulário controlado de termos em vez de 
palavras isoladas
49
Operações sobre o texto
Identificação de Grupos Nominais
• Vantagens
– Grupos nominais carregam a maior parte da semântica 
de um texto
– O significado de um grupo nominal é mais preciso que 
as palavras tomadas isoladamente, diminuindo a 
ambiguidade, sinonímia e polissemia dos termos.
• Desvantagens
– Depende da taxa de acerto dos taggers, que é superior a 
90%, mas não é 100%.
– O agrupamento de substantivos também pode gerar 
erros.
– Um grupo nominal identificado não necessariamente é 
palavra-chave do documento.
50
Preparação dos documentos 
Operadores de texto
documento
Análise
Léxica
Eliminar 
stopwords
Grupos 
nominais
Radicalização
Vocabulário 
controlado
• Operadores reduzem 
progressivamente a visão 
lógica do documento
Texto 
completo
Termos ou 
palavras-chave
51
Operações sobre o texto
Uso de Vocabulário Controlado
• Objetivo
– Identificar termos normalizados que representam conceitos 
para indexar o documento
• Ex., Indexação, Recuperação de Informação, Inteligência 
Artificial
• Procedimentos
– Registrar a ocorrência e posição de ocorrência de termos ou 
variações linguísticas de termos do tesauro no documento
– Selecionar termos candidatos com base na ocorrência de termos e 
nas relações entre termos do tesauro
52
Vocabulário Controlado
• Linguagens documentárias podem ser utilizadas para
orientar a atribuição de termos a documentos no 
processo de indexação manual ou automática.
• Contribuem para Indexação automática por atribuição:
– A ocorrência de variações linguísticas dos termos do 
vocabulário controlado ou dos termos não autorizados
equivalentes (Relações USE e UF) no documento.
– A ocorrência de variações linguísticas de um termo mais
específico no documento (Relações TG e TE)
• A relação de termo relacionado (TR) tem sido mais
explorada na expansão de termos na consulta, por ter
natureza contextual.
53
Operações sobre o texto
Vocabulário controlado
• Vantagens
– Termos de especialidade encontrados no texto são 
candidatos a palavras-chave
– O significado de um termo é mais preciso que as 
palavras tomadas isoladamente, diminuindo a 
ambiguidade, sinonímia e polissemia.
• Desvantagens
– Depende do vocabulário controlado.
– Depende do casamento entre os termos do vocabulário 
com as expressões em linguagem natural do 
documento.
– Um termo que ocorre em um documento não 
necessariamente é palavra-chave do mesmo.
54
Exercício
1) Sobre o processamento dos textos (operações sobre o texto), 
tomando a frase “Na conexão dos saberes e práticas está o 
aprendizado, fruto de um processo de aprendizagem contínua.”:
a) mostre o resultado de cada uma das operações de 
processamento: 
– análise léxica (extrair palavras, transformá-las em minúsculo, remover 
pontuação)
– remoção de stopword (remover na, dos, e, está, o, de, um),
– radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua). 
b) A ordem destas operações sobre o texto pode ser alterada? 
Justifique.
55
Resolução do Exercício
1) “Na conexão dos saberes e práticas está o aprendizado, fruto 
de um processo de aprendizagem contínua.”:
a) 
– análise léxica (extrair palavras, transformá-las em minúsculo, remover 
pontuação): “na conexão dos saberes e práticas está o aprendizado fruto 
de um processo de aprendizagem contínua”
– remoção de stopword (remover na, dos, e, está, o, de, um): “conexão 
saberes práticas aprendizado fruto processo aprendizagem contínua”
– radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua): 
“conex saber prátic aprendiz frut process aprendiz contín”
b) Não. A análise léxica deve ser sempre a primeira pois identifica as palavras, 
a remoção de stopword a segunda pois compara palavras e radicalização a 
última por alterar a forma como as palavras serão representadas no sistema.
3. Construção da Estrutura de dados do índice
Arquivo de índices invertidos 
 é um “mecanismo” para acelerar a busca em uma base 
de documentos já indexados
 Armazena a representação computacional de cada 
documento (visão lógica do documento)
Estrutura de um arquivo invertido
 Vocabulário
 Termos em ordem alfabética (geralmente palavras isoladas ou 
unitermos)
 Ocorrências de cada termo
 Documentos onde o termo aparece, sua posição no texto, 
freqüência, etc…
56
Arquivos Invertidos 
Listas de Ocorrência
Para cada ocorrência armazena-se informações que 
dependem do tipo de consulta permitida pelo sistema
 Não armazena as não ocorrências
Exemplosde listas de ocorrência: 
 para a consulta booleana e probabilista, é necessário 
armazenar apenas a lista de documentos onde o termo 
aparece
 para consultas no modelo espaço vetorial, a ocorrência 
deve armazenar a frequência do termo nos documentos
 para consultas por proximidade, a ocorrência deve 
armazenar a posição dos termos nos documentos
57
Arquivos Invertidos - Exemplo 1
Considere os seguintes documentos:
Realize a Análise léxica, elimine as stopwords e 
construa o arquivo invertido para os documentos
Ciência da 
Informação
Doc A:
Dados, 
Informação e 
Conhecimento
Doc B:
Informação 
em Ciência e 
Tecnologia
Doc C:
Bancos de 
Dados
Doc D:
Ciência e 
Conhecimento
Doc E:
Ciência da 
Computação
Doc F:
58
Arquivos Invertidos 
Exemplo 1
A
B
C
D
E 
F
Ciência da Informação
Dados, Informação e Conhecimento
Informação em Ciência e Tecnologia
Bancos de Dados 
Ciência e Conhecimento
Ciência da Computação
Documento Texto
stopwords
da
e
em
de 59
Arquivo Invertido
Exemplo 1 - Modelo Booleano e Probabilista
Ciência da Informação
Dados, Informação e Conhecimento
Informação em Ciência e Tecnologia
Bancos de Dados 
Ciência e Conhecimento
Ciência da Computação
Documento Texto
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
D
A, C, E, F
F
B, E
B, D
A, B, C
C
DocsNo
Vocabulário
Listas de documentos
onde termo aparece
Arquivo InvertidoA
B
C
D
E 
F
60
Arquivo Invertido
Exemplo 1 - Modelo Espaço Vetorial (TF)
Ciência da Informação
Dados, Informação e Conhecimento
Informação em Ciência e Tecnologia
Bancos de Dados 
Ciência e Conhecimento
Ciência da Computação
Documento Texto
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
D(1)
A(1), C(1), E(1), F(1)
F(1)
B(1), E(1)
B(1), D(1)
A(1), B(1), C(1)
C(1)
DocsNo
Vocabulário
Listas de documentos
onde termo aparece
Arquivo Invertido
A
B
C
D
E 
F
61
Arquivo Invertido
Exemplo 1 - Busca por Proximidade
Ciência da Informação
Dados, Informação e Conhecimento
Informação em Ciência e Tecnologia
Bancos de Dados 
Ciência e Conhecimento
Ciência da Computação
Documento Texto
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
(D,1)
(A,1),(C,3), (E,1),(F,1)
(F,3)
(B,4), (E,3)
(B,1), (D,3)
(A,3), (B,2), (C,1)
(C,5)
DocsNo
Vocabulário
Listas de documentos
onde termo aparece
Arquivo Invertido
A
B
C
D
E 
F
62
63
Exercício
2) Resolva as seguintes consultas utilizando o 
índice invertido do Exemplo 1:
a) Pelo modelo booleano: ciência AND informação
b) Pelo modelo probabilista: ciência informação
c) Pelo modelo vetorial: ciência informação
64
Exercício
2) Resolva as seguintes consultas utilizando o 
índice invertido do Exemplo 1:
a) Pelo modelo booleano: ciência AND informação
– ciência: A, C, E, F
– Informação: A, B, C
– A resposta é a intersecção
dos conjutos {A,C}
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
D
A, C, E, F
F
B, E
B, D
A, B, C
C
DocsNo
Arquivo Invertido
65
Exercício
2) Resolva as seguintes consultas utilizando o 
índice invertido do Exemplo 1:
b) Pelo modelo probabilista: ciência informação
– IDF
• ciência: log(6/4)=0,18
• informação: log(6/3)=0,30
– Resposta:
• [A,C]: 0,18+0,30=0,48
• B: 0,30
• [E,F]: 0,18
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
D
A, C, E, F
F
B, E
B, D
A, B, C
C
DocsNo
Arquivo Invertido
66
Exercício
2) Resolva as seguintes consultas utilizando o 
índice invertido do Exemplo 1:
c) Pelo modelo vetorial:
ciência informação
– Usando TF como peso:
• =1 para as palavras em q
• Norma de q: raiz(12+12)=1,4
1
2
3
4
5
6
7
bancos
ciência
computação
conhecimento
dados
informação
tecnologia
Termo
D(1)
A(1), C(1), E(1), F(1)
F(1)
B(1), E(1)
B(1), D(1)
A(1), B(1), C(1)
C(1)
DocsNo
Arquivo Invertido
Norma
A: raiz(12+12)=1,4
C: raiz(12+12+12)=1,7
E: raiz(12+12)=1,4
F: raiz(12+12)=1,4
B: raiz(12+12+12)=1,7
Produto
A: 1x1+1x1=2
C: 1x1+1x1=2
E:1x1=1
F:1x1=1
B:1x1=1
Cosseno(d,q)
A: = 2/(1,4*1,4)=2/2=1,0
C: =2/(1,4*1,7)=2/2,4=0,8
E: =1/(1,4*1,4)=1/2=0,5
F: =1/(1,4*1,4)=1/2=0,5
B: =1/(1,4*1,7)=1/2,4=0,4
67
Ferramentas para construir índices de SRI
• Lucene (http://lucene.apache.org/core/)
– Biblioteca de código escrita em programação
JAVA para construção e busca em índices
invertidos
• SOLR (http://lucene.apache.org/solr/ )
– Implementação de servidor de busca baseado em
LUCENE
• Luke (https://github.com/DmitryKey/luke)
– Visualizador de índice criado através de Lucene.
68
Referências
• (BAEZA-YATES, RIBEIRO-NETO, 2013)
– Seções 5.6, 8.2
• (FERNEDA, 2012)
– Capítulo 7 e 12

Outros materiais