Baixe o app para aproveitar ainda mais
Prévia do material em texto
Indexação e Construção de Índice Renato Fernandes Corrêa Indexação de documentos Consiste de três passos: 1. Definição do vocabulário de indexação 2. Indexação - atribuição de termos de indexação a cada documento 3. Construção do índice – construção da estrutura de dados do índice 2 1.Vocabulário de Indexação Definição: Conjunto de termos usados para indexar e recuperar documentos de uma base ou corpus Pode ser definido manualmente por especialistas humanos => vocabulário de indexação manual Vocabulário controlado, tesauro,... Refletem diretamente os assuntos ou conceitos dos documentos Pode ser definido automaticamente pelo sistema de RI (após operadores de texto) => vocabulário de indexação automático 3 Definido pela linguagem de indexação adotada e processo intelectual de indexação. No uso de linguagem de indexação controlada, os termos vem de uma linguagem documentária como: Lista de cabeçalho de assuntos Lista simples de termos sem hierarquia Taxonomia Lista de termos organizados com hierarquia Tesauro Hierarquia de termos com relações associativas Ontologia Hierarquia de assuntos organizados em classes e com relações todo-parte e associativas específicas e explícitas Vocabulário de Indexação Manual 4 Consiste basicamente no conjunto de termos que aparecem no texto completo dos documentos ou metadados dos documentos após aplicação de operadores de texto. Sem utilização de vocabulário controlado - usa a linguagem natural como linguagem de indexação. Com uso de vocabulário controlado - usa linguagem controlada como linguagem de indexação. Vocabulário de Indexação Automático 5 6 Visão Geral da definição de vocabulário de indexação 7 Linguagem Natural • Compreende os idiomas ou líguas criadas pelos seres humanos para fins de comunicação. • Exemplo: – Português do Brasil – Inglês dos EUA • Todo documento é redigido em linguagem natural. Por mais que possuam termos técnicos específicos de uma área ou especialidade do conhecimento humano. 8 Linguagem Documentária (LD) • A linguagem documentária compreende o conjunto de regras, símbolos e termos previamente estabelecidos, formando uma linguagem artificial para a indicação do conteúdo temático dos documentos. – Metalinguagem que utiliza uma construção simbólica com a finalidade de ser instrumento de conversão de uma linguagem em outra. – Linguagem de indexação é uma especialização de uma LD, sendo uma linguagem artificial utilizada para registro ou indicação dos temas contidos nos documentos, dotada de vocabulário controlado e regida por uma sintaxe própria. • Exemplos: tesauros, taxonomias, listas de cabeçalho de assunto, sistemas de classificação. 9 Linguagem Documentária (LD) • Objetivos: – Garantir uma melhor recuperação da informação; – Controlar o vocabulário: • Controle da terminologia de áreas do conhecimento por meio do estabelecimento de um conceito/interpretação definido aos termos de acordo com as necessidades de uso do sistema; • Uniformização do uso de linguagens especializadas; – Representação padronizada do conteúdo e do conhecimento; – Mediar e promover interação entre usuário e conteúdo; – Fornecer uma versão extremamente econômica dos textos originais, através do destaque de assuntos considerados principais nos documentos. 10 Comparação: Linguagem Natural versus Linguagem Documentária • Linguagem Documentária – São linguagens artificiais; – São instrumentos de comunicação; – São especializadas; – São estabelecidas em poucos anos por um número reduzido de pessoas; • Linguagem Natural – São linguagens naturais; – São instrumentos de comunicação; – São gerais; – São estabelecidas e adaptadas através de longos períodos de tempo e por muitas pessoas 11 Comparação: Linguagem Natural versus Linguagem Documentária • Linguagem Documentária – Devem ser aceitas pelos usuários; – São mais eficientes que as LN nas operações de recuperação da informação; – Não aceitam ambiguidades. Não comportam polissemias e se esforçam por evitar as sinonímias; • Linguagem Natural – São naturalmente aceitas pelos usuários; – São menos eficientes que as LD nas operações de recuperação da informação; – Aceitam ambiguidades. A sinonímia e a polissemia são fenômenos naturais das LN 12 Exercício 1) Qual a finalidade ou função das linguagens de indexação? 2) Quais os tipos de linguagens de indexação presentes nos SRIs? 3) Cite uma vantagem e uma desvantagem do uso de linguagem documentária para recuperação da informação? 13 2. Indexação • É o processo de atribuição de termos ou códigos de indexação a um documento na qual serão úteis posteriormente na recuperação da informação. • O processo de indexação consiste na tradução de um documento em termos documentários, isto é, em descritores, cabeçalhos de assunto, termos- chave, que têm por função expressar o conteúdo do documento (Cintra, 1983). 14 Indexação no contexto da Recuperação de Informação 15 Processo de Indexação • Segundo Baranow(1983), a indexação é vista como um processo analítico decomposto em duas etapas: – Descrição:refere-se a identificação, seleção e análise dos conceitos ou assuntos que representam o conteúdo - o indexador precisa fazer uma leitura analítica do documento e extrair conceitos em linguagem natural; – Representação:refere-se a representação desses conceitos através de descritores (termos) compatíveis com os do sistema de recuperação - o indexador precisa identificar e selecionar termos de indexação que representem de forma fidedigna os conceitos tratados no conteúdo do documento, presentes em uma linguagem de indexação. 16 Processo de Indexação Linguagem de IndexaçãoConceitos 17 Indexação • Algumas considerações importantes durante a realização do processo de indexação: – Identificar tópicos dentro do texto que venham de encontro às necessidades dos usuários (Garantia de uso); – Produzir cabeçalhos com mesma terminologia do documento levando em conta sinônimos ou termos equivalentes (Garantia literária); • Por exemplo, indexação apropriada de: – para um biólogo: Aedes aegypti; Aedes (Stegomyia) aegypti; Culex aegypti; Culex excitans; Culex taeniatus. – Para uma pessoa comum: Mosquito da Dengue; Pernilongo rajado 18 Dimensões da indexação • Exaustividade: – Representação exaustiva do conteúdo temático; – Tipos: • Exaustiva(mais termos); • Seletiva (menos termos); • Exemplo: – Prédios históricos, ponto turístico, praça, Recife, Recife Antigo, Marco Zero. 19 Dimensões da indexação • Especificidade: – Termo mais específico que o abrange totalmente; • Exemplos: – Recife, Recife Antigo, Marco Zero. 20 Indexação • A seleção desse termos de indexação pode ser por – Indexação manual (ou Intelectual) • Realizado por um especialista • Ex. um bibliotecário em sistema de bibliotecas – Indexação Automática • Os termos são automaticamente extraídos do texto do documento por softwares específicos • Ex. mecanismos de busca na Web Vantagens: É possível ter uma visão panorâmica dos assuntos dos documentos que compõem a base É possível direcionar melhor a busca realizada pelo usuário Aumenta a precisão na busca Desvantagens: Cada documento é indexado por um humano (processo lento) Nem sempre é possível construir uma boa estrutura de assuntos O usuário pode realizar buscas com termos que não aparecemno vocabulário controlado Indexação Manual 21 Vantagens: Maior cobertura de termos Maior velocidade no processo de indexação Desvantagens Pode gerar baixa precisão Indexação Automática 22 23 Exercício 1) Em que consiste o processo de indexação de documentos? 2) Qual o impacto das dimensões da indexação na recuperação dos documentos? 3) Cite uma vantagem e desvantagem do uso da indexação automática? 24 Indexação Automática • Lista de termos do documento pode ser reduzida através do uso de operadores de texto, investigados na área de pesquisa denominada Processamento de Linguagem Natural. • Cada fase de operação de texto pode utilizar diferentes técnicas na sua implementação • Cada sistema de RI implementa uma ou mais dessas fases – A escolha depende do tipo de sistema desejado Processamento de Linguagem Natural • O que é? – Conjunto de técnicas computacionais para a análise de textos com o propósito de simular o processamento humano da língua. • Quais são as abordagens? – Abordagem estatística – de menor custo e adaptáveis a diversas línguas – Abordagem linguística – específicos de cada língua • Razões para aplicar em RI? – Documentos e expressões de busca são enunciados em linguagem natural. 25 Processamento de Linguagem Natural • Principais usos em RI: – Indexação automática • Normalização de variações linguísticas – Normalização morfológica ou Conflação de termos (radicalização, lematização) – Normalização léxico-semântica de termos através das relações semânticas de sinonímia, hiponímia, hiperonímia • Identificação de termos compostos – Sintagmas nominais, termos complexos, unidades lexicais complexas, expressões multi-palavras • Resolução de ambiguidade – Sintática (causa estrutural) ou semântica (causa lexical – homonímia, polissemia) 26 27 Operadores de texto • O objetivo é chegar à representação computacional do documento, a ser armazenada em estrutura de índice para fins de recuperação. “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1 Operações de Texto Representação Doc : www.filosofia.com Doc : www.filosofia.com Doc : www.filosofia.com 28 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave 29 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave 30 Análise Léxica • Identificação de cada palavra e conversão de caracteres “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica Doc : www.filosofia.com Doc : www.filosofia.com 31 Operações sobre o texto Análise léxica • Entrada – O texto original • uma cadeia de caracteres • Objetivo – Converter o texto original em uma lista de palavras – Identificando as palavras que ocorrem no texto • Procedimento padrão – Utilizar espaços como sendo separadores de palavras – Tratar pontuação, hífens, dígitos, e letras maiúsculas e minúsculas • Cada caso pode requerer tratamentos diferenciados 32 Operações sobre o texto Análise léxica • Delimitação do início e fim das palavras: – Espaço em branco, tabulações, enters – Pontuação e hífens: . , ! ? : ; - – Caracteres numéricos • Eliminação de dígitos – Geralmente, dígitos são removidos por serem vagos • Não terem uma semântica associada quando aparecem isolados – Ex. 1910 (ano, peso, tamanho???) 33 Operações sobre o texto Análise léxica • Substituição de letras maiúsculas – Objetivo principal • Tornar a representação das palavras ou termos homogênea • Facilitar a recuperação do documento a partir de consultas • Exceções – Carneiro • Animal ou nome próprio? – Banco – instituição financeira – banco - assento 34 Operações sobre o texto Análise léxica • Como visto, existem diversas exceções a tratar – Isso depende da aplicação, do domínio do sistema, etc... • Sugestão – Preparar lista de exceções e tratar caso a caso • Engenhos de busca – Geralmente, não eliminam nada • Funcionam em todos os domínios... – Indexam o texto completo com sua pontuação, dígitos, etc... 35 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave 36 Eliminação de Palavras Vazias de significado • Elimina palavras de uma lista (geralmente palavras muito frequentes na coleção ou conectivos) se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords Doc : www.filosofia.com Doc : www.filosofia.com 37 Operações sobre o texto Eliminação de stopwords • Algumas palavras não são bons discriminadores – Palavras muito freqüentes na base de documentos – Palavras sem semântica associada • artigos, preposições, conjunções, pronomes, alguns advérbios e adjetivos • Aqui também há exceções a considerar – Na extração de termos compostos ou grupos nominais, podemos precisar manter algumas dessas palavras • Recuperação de informação 38 Operações sobre o texto Eliminação de stopwords • Vantagens – Diminuir a representação do texto – Melhorar a ordenação na recuperação • Tf-idf • Desvantagens – Diminuição da cobertura na recuperação – Ex., “ser ou não ser” • Somente o termo “ser” será usado na indexação documento • Mais uma razão para os engenhos de busca utilizarem representação do texto completo 39 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave 40 Radicalização • Utiliza um software que reduz a palavra a uma aproximação do radical removendo sufixos desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords desonest / soub / vantag / honest / honest / men/desonest/ socrat Radicalização Doc : www.filosofia.com Doc : www.filosofia.com 41 Operações sobre o texto Radicalização (Stemming) • Problema – Freqüentemente, o usuário especifica uma palavra na consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes – Ex., plural, gênero, gerúndio, verbos flexionados, aumentativo... • Objetivo dessa operação: – Substituir a palavra por seu radical (stem) • Porção da palavra que resta após a remoção de prefixose sufixos – Possibilitar casamento entre variações de uma mesma palavra • Ex.: engenheiro, engenharia,... 42 Operações sobre o texto Stemming • Snowball – Uma linguagem para processamento de strings especifica para criar algoritmos de stemming para RI – http://snowball.tartarus.org/ – Veja algoritmo disponível para Português em • http://snowball.tartarus.org/algorithms/portuguese/st emmer.html • O site também traz exemplo de stoplist para Português 43 Stemming Exemplo do Snowball para Português word stem quilo quilométricas quilométricos quilômetro quilômetros quilos química químicas químico químicos quimioterapia quimioterápicos => quil quilométr quilométr quilômetr quilômetr quil químic químic químic químic quimioterap quimioteráp 44 Operações sobre o texto Radicalização • Vantagens – Diminui a dispersão terminológica – Permite o casamento das variações de uma palavra entre si. • Desvantagens – Pode gerar redução demais (over stemming) ou redução de menos (under stemming) para certas palavras o que leva a um erro no casamento. – Se aplica a todas as palavras do texto, incluindo nomes próprios e siglas. 45 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado Termos ou palavras-chave • Operadores reduzem progressivamente a visão lógica do documento Texto completo 46 Identificação de Grupos Nominais • Utiliza um software que extrai os substantivos e termos compostos formados por substantivos do texto. – Exemplos: recuperação da informação, indexação automática. se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / vantagem / honesto / honesto /desonestidade/ socrates/ Detecção de grupos nominais Doc : www.filosofia.com Doc : www.filosofia.com 47 Operações sobre o texto Identificação de Grupos Nominais • Objetivo – Identificar grupos nominais (termos compostos) para indexar o documento • Ex., Recuperação de Informação, Inteligência Artificial • Procedimentos – Selecionar substantivos do texto, eliminando sistematicamente palavras de outras classes gramaticais • Usando uma stoplist ou • usando um etiquetador morfossintático (part-of-speech tagger) para determinar a classe das palavras e/ou • usando um thesaurus da língua ou do domínio – Agrupar substantivos para formar termos compostos 48 Operações sobre o texto Identificação de Grupos Nominais • Como agrupar substantivos para formar termos compostos – Considerando os grupos nominais identificados pelo tagger – Considerando a distância entre os termos no texto • Número de palavras entre os dois substantivos – Ex., Recuperação de Informação » Apenas uma palavra (de) – Extraindo esses termos de um tesauro do domínio • Pode conter um vocabulário controlado de termos em vez de palavras isoladas 49 Operações sobre o texto Identificação de Grupos Nominais • Vantagens – Grupos nominais carregam a maior parte da semântica de um texto – O significado de um grupo nominal é mais preciso que as palavras tomadas isoladamente, diminuindo a ambiguidade, sinonímia e polissemia dos termos. • Desvantagens – Depende da taxa de acerto dos taggers, que é superior a 90%, mas não é 100%. – O agrupamento de substantivos também pode gerar erros. – Um grupo nominal identificado não necessariamente é palavra-chave do documento. 50 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave 51 Operações sobre o texto Uso de Vocabulário Controlado • Objetivo – Identificar termos normalizados que representam conceitos para indexar o documento • Ex., Indexação, Recuperação de Informação, Inteligência Artificial • Procedimentos – Registrar a ocorrência e posição de ocorrência de termos ou variações linguísticas de termos do tesauro no documento – Selecionar termos candidatos com base na ocorrência de termos e nas relações entre termos do tesauro 52 Vocabulário Controlado • Linguagens documentárias podem ser utilizadas para orientar a atribuição de termos a documentos no processo de indexação manual ou automática. • Contribuem para Indexação automática por atribuição: – A ocorrência de variações linguísticas dos termos do vocabulário controlado ou dos termos não autorizados equivalentes (Relações USE e UF) no documento. – A ocorrência de variações linguísticas de um termo mais específico no documento (Relações TG e TE) • A relação de termo relacionado (TR) tem sido mais explorada na expansão de termos na consulta, por ter natureza contextual. 53 Operações sobre o texto Vocabulário controlado • Vantagens – Termos de especialidade encontrados no texto são candidatos a palavras-chave – O significado de um termo é mais preciso que as palavras tomadas isoladamente, diminuindo a ambiguidade, sinonímia e polissemia. • Desvantagens – Depende do vocabulário controlado. – Depende do casamento entre os termos do vocabulário com as expressões em linguagem natural do documento. – Um termo que ocorre em um documento não necessariamente é palavra-chave do mesmo. 54 Exercício 1) Sobre o processamento dos textos (operações sobre o texto), tomando a frase “Na conexão dos saberes e práticas está o aprendizado, fruto de um processo de aprendizagem contínua.”: a) mostre o resultado de cada uma das operações de processamento: – análise léxica (extrair palavras, transformá-las em minúsculo, remover pontuação) – remoção de stopword (remover na, dos, e, está, o, de, um), – radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua). b) A ordem destas operações sobre o texto pode ser alterada? Justifique. 55 Resolução do Exercício 1) “Na conexão dos saberes e práticas está o aprendizado, fruto de um processo de aprendizagem contínua.”: a) – análise léxica (extrair palavras, transformá-las em minúsculo, remover pontuação): “na conexão dos saberes e práticas está o aprendizado fruto de um processo de aprendizagem contínua” – remoção de stopword (remover na, dos, e, está, o, de, um): “conexão saberes práticas aprendizado fruto processo aprendizagem contínua” – radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua): “conex saber prátic aprendiz frut process aprendiz contín” b) Não. A análise léxica deve ser sempre a primeira pois identifica as palavras, a remoção de stopword a segunda pois compara palavras e radicalização a última por alterar a forma como as palavras serão representadas no sistema. 3. Construção da Estrutura de dados do índice Arquivo de índices invertidos é um “mecanismo” para acelerar a busca em uma base de documentos já indexados Armazena a representação computacional de cada documento (visão lógica do documento) Estrutura de um arquivo invertido Vocabulário Termos em ordem alfabética (geralmente palavras isoladas ou unitermos) Ocorrências de cada termo Documentos onde o termo aparece, sua posição no texto, freqüência, etc… 56 Arquivos Invertidos Listas de Ocorrência Para cada ocorrência armazena-se informações que dependem do tipo de consulta permitida pelo sistema Não armazena as não ocorrências Exemplosde listas de ocorrência: para a consulta booleana e probabilista, é necessário armazenar apenas a lista de documentos onde o termo aparece para consultas no modelo espaço vetorial, a ocorrência deve armazenar a frequência do termo nos documentos para consultas por proximidade, a ocorrência deve armazenar a posição dos termos nos documentos 57 Arquivos Invertidos - Exemplo 1 Considere os seguintes documentos: Realize a Análise léxica, elimine as stopwords e construa o arquivo invertido para os documentos Ciência da Informação Doc A: Dados, Informação e Conhecimento Doc B: Informação em Ciência e Tecnologia Doc C: Bancos de Dados Doc D: Ciência e Conhecimento Doc E: Ciência da Computação Doc F: 58 Arquivos Invertidos Exemplo 1 A B C D E F Ciência da Informação Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto stopwords da e em de 59 Arquivo Invertido Exemplo 1 - Modelo Booleano e Probabilista Ciência da Informação Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D A, C, E, F F B, E B, D A, B, C C DocsNo Vocabulário Listas de documentos onde termo aparece Arquivo InvertidoA B C D E F 60 Arquivo Invertido Exemplo 1 - Modelo Espaço Vetorial (TF) Ciência da Informação Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D(1) A(1), C(1), E(1), F(1) F(1) B(1), E(1) B(1), D(1) A(1), B(1), C(1) C(1) DocsNo Vocabulário Listas de documentos onde termo aparece Arquivo Invertido A B C D E F 61 Arquivo Invertido Exemplo 1 - Busca por Proximidade Ciência da Informação Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo (D,1) (A,1),(C,3), (E,1),(F,1) (F,3) (B,4), (E,3) (B,1), (D,3) (A,3), (B,2), (C,1) (C,5) DocsNo Vocabulário Listas de documentos onde termo aparece Arquivo Invertido A B C D E F 62 63 Exercício 2) Resolva as seguintes consultas utilizando o índice invertido do Exemplo 1: a) Pelo modelo booleano: ciência AND informação b) Pelo modelo probabilista: ciência informação c) Pelo modelo vetorial: ciência informação 64 Exercício 2) Resolva as seguintes consultas utilizando o índice invertido do Exemplo 1: a) Pelo modelo booleano: ciência AND informação – ciência: A, C, E, F – Informação: A, B, C – A resposta é a intersecção dos conjutos {A,C} 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D A, C, E, F F B, E B, D A, B, C C DocsNo Arquivo Invertido 65 Exercício 2) Resolva as seguintes consultas utilizando o índice invertido do Exemplo 1: b) Pelo modelo probabilista: ciência informação – IDF • ciência: log(6/4)=0,18 • informação: log(6/3)=0,30 – Resposta: • [A,C]: 0,18+0,30=0,48 • B: 0,30 • [E,F]: 0,18 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D A, C, E, F F B, E B, D A, B, C C DocsNo Arquivo Invertido 66 Exercício 2) Resolva as seguintes consultas utilizando o índice invertido do Exemplo 1: c) Pelo modelo vetorial: ciência informação – Usando TF como peso: • =1 para as palavras em q • Norma de q: raiz(12+12)=1,4 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D(1) A(1), C(1), E(1), F(1) F(1) B(1), E(1) B(1), D(1) A(1), B(1), C(1) C(1) DocsNo Arquivo Invertido Norma A: raiz(12+12)=1,4 C: raiz(12+12+12)=1,7 E: raiz(12+12)=1,4 F: raiz(12+12)=1,4 B: raiz(12+12+12)=1,7 Produto A: 1x1+1x1=2 C: 1x1+1x1=2 E:1x1=1 F:1x1=1 B:1x1=1 Cosseno(d,q) A: = 2/(1,4*1,4)=2/2=1,0 C: =2/(1,4*1,7)=2/2,4=0,8 E: =1/(1,4*1,4)=1/2=0,5 F: =1/(1,4*1,4)=1/2=0,5 B: =1/(1,4*1,7)=1/2,4=0,4 67 Ferramentas para construir índices de SRI • Lucene (http://lucene.apache.org/core/) – Biblioteca de código escrita em programação JAVA para construção e busca em índices invertidos • SOLR (http://lucene.apache.org/solr/ ) – Implementação de servidor de busca baseado em LUCENE • Luke (https://github.com/DmitryKey/luke) – Visualizador de índice criado através de Lucene. 68 Referências • (BAEZA-YATES, RIBEIRO-NETO, 2013) – Seções 5.6, 8.2 • (FERNEDA, 2012) – Capítulo 7 e 12
Compartilhar