Baixe o app para aproveitar ainda mais
Prévia do material em texto
DCI-UFPE 1 Introdução à Recuperação da Informação (RI) Renato Fernandes Corrêa Recuperação da Informação 2 Roteiro Problemas\Contexto\Motivação Definições Sistema de Recuperação de Informação (SRI) Exemplos de SRI Interface de SRI 3 Problemas\Contexto Problema de RI: Necessidade de condensar e organizar a informação de acordo com necessidades e objetivos para recuperação posterior.(OTLET, 1934) “A tarefa massiva de tornar mais acessível, um acervo crescente de conhecimento“. (VANNEVAR BUSH, 1945) 4 Problemas\Contexto Problemas na RI: Explosão informacional – acervo crescente de documentos informativos. Sobrecarga de informação – muitos documentos retornados como resultado de uma busca. 5 Contexto\Motivação Motivações: Importância estratégica da informação e do conhecimento Informação como recurso estratégico para profissionais, empresas, governos, sociedades, etc. 6 Contexto\Motivação Motivações: Documentos digitais de conteúdo processável por computador (desde 1980) Web como repositório mundial de informação digital (desde 1990) 7 Exercícios Descreva o problema de pesquisa da área de recuperação de informação. Descreva os dois problemas presentes no processo de recuperação de informação. Cite motivos para pesquisar o processo de recuperação de informação. 8 Definição Calvin MOOERS (1951) cunhou a área de pesquisa (ou disciplina) denominada recuperação de informação (do inglês information retrieval), destacando que ela: "engloba os aspectos intelectuais da descrição de informações e suas especificidades para a busca, além de quaisquer sistemas, técnicas ou máquinas empregados para o desempenho da operação.“ 9 Definição “Certamente, a recuperação da informação não foi a única responsável pelo desenvolvimento da CI [Ciência da Informação], mas pode ser considerada como principal; ao longo do tempo, a CI ultrapassou a recuperação da informação, mas os problemas principais tiveram sua origem aí e ainda constituem seu núcleo.” SARACEVIC (1991) 10 Definição Buckland(1991) define informação “como coisa” como: aquilo que é visto como informativo, pontencial para o processo de informar, expresso, descrito ou representado em algum modo físico. Físico não é mais aplicável atualmente, mas sim modo lógico (manipulável e legível por computador), dada a natureza lógica, abstrata e numérica da informação digital. Este é o sentido de informação que os Sistemas de Recuperação de Informação (SRI) podem lidar diretamente. 11 Definição Recuperação de Informação é uma área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação Com objetivo principal de facilitar o acesso a documentos (itens de informação) relevantes à necessidade de informação do usuário Geralmente representada através de expressões de busca (consultas baseadas em palavras-chaves) 12 Recuperação de Informação O processo de recuperação de informação é uma tarefa típica onde: Dados Um corpus de documentos e Uma expressão de busca do usuário O objetivo é encontrar Um conjunto (ordenado) de documentos que são relevantes para a consulta 13Processso de RI: Elementos de um Sistemas de RI Sistema de RIExpressão de busca Corpus de documentos Documentos ordenados 1. Doc1 2. Doc2 3. Doc3 . . Usuário 1° 2° 4° 3º 14 Sistemas de RI Um sistema de recuperação de informação (SRI) pode ser visto como a parte do sistema de informação responsável pelo armazenamento ordenado dos documentos em base de dados, e sua posterior recuperação para responder a expressão de busca do usuário. Etapas principais na construção do SRI: Aquisição (seleção) dos documentos Preparação dos documentos Indexação dos documentos Armazenamento Recuperação Busca (casamento com a representação da expressão de busca do usuário) Ordenamento dos documentos recuperados (do inglês ranking) 15 Exercícios Defina a área de pesquisa recuperação de informação. Defina o processo de recuperação de informação. Defina o que é um sistema de recuperação de informação. Buscando caracterizar o google como um sistema de recuperação de informação, especifique: a) corpus; b) usuários; c) expressão de busca d) resultado da busca. 16Exemplos de Sistemas de Recuperação de Informação Catálogo em linha de acesso público Mecanismos de busca Serviços de busca em linha Sistemas de gerenciamento de documentos Sistemas de Filtragem de Informação Sistemas de Comércio Eletrônico Sistemas de fluxo de vídeo/áudio Catálogo em linha de acesso público (OPAC) Sistemas que recuperam informação em bases de dados catalográficos de bibliotecas. Exemplo: 18 Mecanismos de Busca Web Consulta Resposta Base de Índices Engenho de Busca Usuário Spider Indexador Representação dos Docs Servidor de Consultas Aquisição Pré-ProcessadorDocs Recuperador Ordenador 2 1 34 Motor de Indexação Browser Serviços de busca em linha Sistemas que recuperam informação em bases de dados bibliográficos ou de texto completo. Exemplos: Sistemas de gerenciamento de documentos Sistemas que gerenciam versões e recuperam informação em um corpus de documentos digitais. Exemplos: Softwares Proprietários da IBM (FileNet), Xerox(DocuShare), Microsoft (SharePoint) e Oracle. Softwares Livres Alfresco KnowledgeTree Main//Pyrus DMS Nuxeo OpenKM Archivista Sistemas de Filtragem de Informação Sistemas que filtram a informação recuperada de acordo com o interesse do usuário Servidor News Artigos Indexados Usuário Perfil do usuário Engenho de Busca Internet 22 Sistemas de Extração de Informação Sistemas capazes de extrair de documentos relevantes apenas a informação requerida A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs. Sistema de EI BD Nome: End.: Fone: Fax: Preços: Template Página de Hotel A tarefa do usuário Diante do SRI o usuário pode realizar duas tarefas: Busca ou Recuperação (do inglês Retrieval) Navegação (do inglês Browsing) Dependendo da tarefa a ser realizada pelo usuário, um modelo computacional de recuperação de informação deve ser empregado na construção do SRI. Tarefas do usuário: Navegação Navegação Embrapa - Infoteca MTTD-UFPE Tarefas do usuário: Recuperação (Busca) 27 Interface de SRI: Recursos de Busca Autocompletar 28 Interface de SRI: Recursos de Busca Motivos para uso do Autocompletar (sugestão de busca): Os usuários da web estão familiarizados com o autocompletar no endereço na barra dos navegadores Reduz o número de letras digitadas permitindo uma entrada rápida da consulta Previne erros de digitação Fornece um retorno ao usuário sobre a validade da consulta digitada Revela assuntos existentes no índice que casam com o que o usuário está digitando Requisito: lista de expressões de busca 29 Interface de SRI: Recursos de Busca Hit Highlights 30 Interface de SRI: Recursos de Busca Motivos para uso de Hit Highlights (destaque de ocorrência): Explica para o usuário porque o documento foi retornado como resultado da busca Permite visualizar no extrato do conteúdo do documento (snippet) trechos que contém os termos buscados mais próximosou em maior frequência. Requisito: o índice deve guardar a posição de ocorrência das palavras ou de suas representações (radical, lemma). 31 Interface de SRI: Recursos de Busca Outros recursos de busca: Você quis dizer? (Did you mean?) – útil na formulação da consulta, permitindo correção de erros ortográficos na consulta Operadores lógicos booleanos: AND, OR, NOT, ANDNOT. Operadores de obrigatoriedade de ocorrência (+,-) Operadores de busca em campo, geralmente através de formulário ou escritos no formato nomedocampo: expressão de busca 32 Interface de SRI: Recursos de Busca Outros recursos de busca: Operador de busca por radical (*) – útil na formulação da consulta, permitindo casamento com variações sintáticas de um radical de palavra que denota o mesmo conceito. Operador de caracter coringa (?) Operador de busca por frase (“”) – útil na formulação da consulta, permitindo casamento com uma sequência de palavras que definem um conceito ou contexto. Operador de proximidade de palavras (NEAR, ADJ, WITH) 33Interface de SRI: Recursos de filtragem Busca Facetada 34Interface de SRI: Recursos de filtragem Motivos para uso da Busca Facetada: Fornece meios para os usuários navegarem pelo catálogo, ou discriminarem os resultados de busca através de facetas (categorias) Encoraja a exploração do catálogo de forma rápida através da seleção de facetas Requisito: Categorias definidas e catalogadas no momento da indexação dos documentos 35 Exercício Escolha um SRI de uma base de dados científica e descreva: A. URL B. corpus C. usuários D. Resultado da busca E. Recursos de busca F. Recursos de filtragem 36 Referências FERNEDA, E. Introdução aos Modelos Computacionais de Recuperação de Informação. Rio de Janeiro: Editora Ciência Moderna Ltda. 2012. Capítulos 1 e 2 BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação de informação: conceitos e tecnologia das máquinas de busca. 2. ed. Porto Alegre: Bookman, 2013 SARACEVIC, T. Ciência da informação: origem, evolução e relações. Perspec. Ci. Inf., Belo Horizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996 1 Recuperação de Informação Modelos de Recuperação de Documentos Modelo Booleano Renato Fernandes Corrêa 22 Sistemas de RI (SRI) Um sistema de recuperação de informação pode ser visto como a parte do sistema de informação responsável pelo armazenamento ordenado dos documentos em base de dados, e sua posterior recuperação para responder a consulta do usuário. Todo SRI adota um modelo computacional de recuperação de informação que determina o modo de operação do sistema. 3 Como funciona os Sistemas de Recuperação de Informação? Usuário Necessidade de Informação Função de busca Documentos RepresentaçãoRepresentação Consulta Modelos de Recuperação de Informação Sistema de Recuperação de Informação Resultado Armazenamento do Índice Casamento, Ordenação Modelos de Recuperação de Informação Os SRIs adotam modelos de recuperação de informação que definem principalmente: A representação dos documentos A visão lógica dos documentos, sua representação no sistema A representação das expressões de busca dos usuários A visão lógica da expressão de busca ou consulta, sua representação no sistema A função de busca: como as duas representações são comparadas, e como ordenar os documentos que casam (a lista de resultado). Além do modo de operação os modelos definem a eficiência e eficácia dos SRIs. 5 Modelos de Recuperação de Informação Existe uma distinção entre: A tarefa do usuário Recuperação ou browsing A visão lógica dos documentos e consulta sua representação no sistema Podem ser categorizados quanto aos fundamentos teóricos/históricos dos modelos de recuperação de informação: Clássico, estruturado, navegação Tarefas e Modelos de Recuperação de Informação Listas não-sobrepostas Nós proximais Modelos Estruturados Recuperação: Adhoc Filtragem Browsing T A R E F A D O u S U Á R I O Modelos Clássicos Booleano Espaço vetorial Probabilista Teoria dos conjuntos Fuzzy Booleano estendido Probabilista Redes de inferência Redes de crença Algebrico E. V. generalizado Semântica Latente Redes Neurais Browsing Plano Estruturado Hipertextual 7 Modelos Clássicos de Recuperação de Documentos Veremos os seguintes modelos: Modelo Booleano Modelo Espaço Vetorial Modelo Probabilista Para cada modelo, veremos: A representação do documento A representação da consulta A função de busca 8 Exercícios O que o modelo computacional de recuperação de informação define nos sistemas de recuperação de informação? Quais as tarefas típicas que o usuário pode realizar através da interface de um sistema de recuperação de informação na especificação de uma expressão de busca? 9 Modelo Booleano Representação do documento Dado o conjunto de termos representativos para o corpus em questão (Vocabulário do Sistema) V = {t1, t2,...,tn} Os documentos são representados como conjunto de termos de indexação atribuídos intelectualmente ou automaticamente. Os conjuntos são representados como vetores de pesos binários de tamanho n Cada posição no vetor corresponde a um termo usado na indexação dos documentos da base Cada valor indica apenas se determinado termo está ou não representando assunto do documento Exemplo Por exemplo: V={t1,t2,t3} d1 = {1 ,0 ,1} Ao documento d1 foram atribuídos os termos de indexação t1 e t3, e não foi atribuído o termo de indexação t2. O valor 1 representa VERDADEIRO, e 0 representa FALSO. Um método automático muito utilizado para representar o conteúdo textual de documentos consiste em considerar cada palavra isoladamente ou seu radical como assunto. Este método de representação é conhecido como modelo sacola de palavras, do inglês bag-of-words. 10 t1 t3 d1 d1 t1 t2 t3 Exemplo Para um conjunto de 7 documentos, e um vocabulário do sistema de 3 termos de indexação podemos ter os documentos representados através da seguinte matriz binária. 11 t1 t2 t3 d1 1 0 1 d2 1 0 0 d3 0 1 1 d4 0 0 1 d5 1 1 1 d6 1 1 0 d7 0 1 0 12 Modelo Booleano Representação da consulta Consulta: Expressão booleana: A consulta é expressa utilizando termos de indexação conectados por operadores lógicos booleanos: E; OU; NÃO. Termos ou palavras conectados por: AND, OR, NOT Parentêses podem ser utilizados para mudar a precedência de resolução da consulta. A consulta expressa que se deseja um conjunto de documentos cuja representação satisfazem às restrições lógicas da expressão de busca, isto é que fazem a expressão booleana assumir o valor VERDADEIRO. Exemplo 13 d1 d2 d3 d4 d5 d6 d7 t1 t2 t3 t1 t2 t3 d1 1 0 1 d2 1 0 0 d3 0 1 1 d4 0 0 1 d5 1 1 1 d6 1 1 0 d7 0 1 0 Exemplos de consultas booleanas: t1 AND t2 t1 OR t2 t1 AND NOT t2 14 Operadores booleanos Exemplo 15 d1 d2 d3 d4 d5 d6 d7 Brasil Olimpíada Sidney Brasil Olimpíada SidneyConsulta q : Documento d5 : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney 2000 ... Brasil AND Olimpíada AND Sidney Brasil 1 Olimpíada 1 Sidney 1 Representação de q Representação de d5 Todos os termos Qualquer dos termos 16 Função de busca Relevância “binária”: O documento é consideradorelevante se e somente se seu “casamento” com a consulta é verdadeiro, isto é se o valor verdade da consulta se torna verdadeiro para aquele documento. Não é possível ordenar os documentos recuperados Exemplo de consulta Consulta: t1 AND t2 AND t3 Documentos apresentados ao usuário t1 t2 t3 Corpus de Documentos Exemplo Diagrama de Venn 17 d1 d2 d3 d4 d5 d6 d7 t1 t2 t3 t1 t2 t3 d1 1 0 1 d2 1 0 0 d3 0 1 1 d4 0 0 1 d5 1 1 1 d6 1 1 0 d7 0 1 0 Exemplos de aplicação da função de busca booleana: t1 AND t2 -> R: d5, d6 t1 OR t2 -> R: d1, d2, d3, d5, d6, d7 t1 AND NOT t2 -> R: d1, d2 * Observação: Resultados (R) em qualquer ordem. Consultas booleanas: t1 AND t2 t1 OR t1 AND NOT t2 Exemplo Tabela Verdade 18 t1 t2 t3 t1 AND t2 t1 OR t2 NOT t2 t1 AND NOT t2 d1 1 0 1 0 1 1 1 d2 1 0 0 0 1 1 1 d3 0 1 1 0 1 0 0 d4 0 0 1 0 0 1 0 d5 1 1 1 1 1 0 0 d6 1 1 0 1 1 0 0 d7 0 1 0 0 1 0 0 Exemplos de aplicação da função de busca booleana: t1 AND t2 -> R: d5, d6 t1 OR t2 -> R: d1, d2, d3, d5, d6, d7 t1 AND NOT t2 -> R: d1, d2 * Observação: Resultados (R) em qualquer ordem. 19 Modelo Booleano Operadores de proximidade Úteis para predizer a adjacência de palavras ou frases que podem aparecer no texto dos documentos relevantes. Podem especificar condições relacionadas a: Distância dos termos no texto t1 NEAR/3 t2 (o termo t1 aparece com no máximo 3 palavras de distância que t2, não importando a ordem) t1 ADJ/5 t2 (o termo t1 seguido de t2 separados por no máximo 5 palavras) Posição dos termos no texto t1 WITH t2 (mesmo parágrafo) t1 SAME t2 (mesma sentença) t1 ADJ t2 (t1 seguido de t2), ou “t1 t2” 20 Modelo Booleano Vantagens Modelo simples baseado em teoria bem fundamentada Fácil de entender e implementar em computador Desvantagens Não permite casamento parcial entre consulta e documento Não permite ordenação dos documentos recuperados A necessidade de informação do usuário deve ser expressa em termos de uma expressão booleana Nem todo usuário é capaz disso Todos os termos de indexação são independentes e têm o mesmo peso na descrição dos assuntos de um documento. 21 Exercícios 1) Para o exemplo, utilizando o modelo booleano, qual o resultado das buscas: a) t2 AND t3 b) t2 OR t3 C) t2 AND NOT t3 2) Escreva em português o tipo de documento retornado pelas expressões de busca abaixo: a) documento OR informação b) recuperação AND (documento OR informação) c) recuperação AND informação AND web d) recuperação AND informação AND NOT imagem Exercícios 3) Acesse Scielo: http://www.scielo.br/scielo.php?script=sci_home&lng=pt&nrm=iso Acesse Pesquisa de artigos Recuperar documentos que possua o termo indexação automática em algum dos campos descritivos dos artigos. 22 23 Referências Slides do Prof. Berthier Ribeiro Neto FERNEDA, E. Introdução aos Modelos Computacionais de Recuperação de Informação. Rio de Janeiro: Editora Ciência Moderna Ltda. 2012. 24 1 Recuperação de Informação Modelos de Recuperação de Documentos Modelo Espaço Vetorial Renato Fernandes Corrêa 2Modelo Espaço Vetorial Representação do documento Associa pesos positivos não-binários aos termos nos documentos Os documentos são representados como vetores onde os termos são eixos que definem o espaço vetorial multidimensional de termos. Olimpíada Brasil Sidney d0.2 0.5 0.3 Documento d : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney 2000 ... Brasil 0.5 Olimpíada 0.3 Sidney 0.2 Representação de d 3Modelo Espaço Vetorial Representação da consulta A expressão de busca consiste de palavras separadas por espaço em branco Associa pesos positivos não-binários aos termos na expressão de busca A consulta é representada como vetor onde os termos são eixos que definem o espaço vetorial multidimensional de termos. Olimpíada Brasil Sidney d0.2 0.50.3 q Brasil Olimpíada SidneyConsulta q : Brasil 0.4 Olimpíada 0.3 Sidney 0.3 Representação de q 4 Modelo Espaço Vetorial Representação do documento e da consulta Dado o conjunto de termos representativos para o corpus em questão V = {t1, t2, t3, ...,tn} cada termo é um eixo de um espaço vetorial Consultas (q) e documentos (d) são representados como vetores nesse espaço n-dimensional de termos Olimpíada Brasil Sidney d0.2 0.50.3 q Brasil Olimpíada SidneyConsulta q : Documento d : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney 2000 ... Brasil 0.4 Olimpíada 0.3 Sidney 0.3 Brasil 0.5 Olimpíada 0.3 Sidney 0.2 Representação de q Representação de d 5Modelo Espaço Vetorial Representação do documento e da consulta Este modelo pode utilizar diferentes fórmulas para calcular os pesos dos vetores Freqüência de ocorrência do termo no documento TF-IDF (mais usado) Essa escolha depende de quem constrói o SRI, e não do modelo Espaço Vetorial 6 Modelo Espaço Vetorial Função de Busca O modelo ordena os documentos recuperados de acordo com sua similaridade em relação à consulta Similaridade pode ser medida pelo cosseno do ângulo entre q e d Existem outras medidas de similaridade usadas com o modelo EV, porém o cosseno é a mais usada K2 K1 d q Similaridade(q,d) = cos() 7 Este modelo pode utilizar diferentes fórmulas para calcular a medida de similaridade entre consulta e documentos Cosseno (mais usado) Jaccard, Coeficiente de Pearson, etc... Essa escolha depende de quem constrói o SRI, e não do modelo Espaço Vetorial Modelo Espaço Vetorial Função de Busca 8Modelo Espaço Vetorial Função de Busca A associação de pesos positivos não-binários aos termos nos documentos e na expressão de busca juntamente com o cálculo de uma função similaridade entre os vetores permite o casamento parcial entre consulta e documento Os pesos são usados para calcular um “grau de similaridade” entre consulta e documento O usuário recebe um conjunto ordenado de documentos como resposta à sua consulta Mais interessante do que apenas uma lista desordenada ou sem ordem significativa. 9 Similaridade pode ser medida pelo cosseno do ângulo entre q e d função inversamente relacionada ao ângulo entre os documentos Quanto menor é o ângulo entre os documentos, maior o cosseno E maior é a similaridade entre d e q Varia entre 0 e 1 Independe do tamanho do vetor Considera apenas sua direção Modelo Espaço Vetorial Função de Busca 10 Função de Busca Cosseno Exemplo: n i i n i i n i ii dq dq sim 1 2 1 2 1 )()( )( 97.0 36.0 35.0 38.034.0 35.0 (0.2) (0.3) (0.5)(0.3) (0.3) (0.4) .200.3 .300.3 .500.4 222222 sim dq dq sim Olimpíada Brasil Sidney d0.2 0.5 0.3 - q Brasil Olimpíada SidneyConsulta q : Documento d : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney 2000 ... Brasil 0.4 Olimpíada 0.3 Sidney 0.3 Brasil 0.5 Olimpíada 0.3 Sidney 0.2 Representação de q Representação de d 0.3 - 11 Função de Busca 0.35 .200.3 .300.3 .500.4 dq dq dq dqdqsim ),cos(),( Brasil 0.4 Olimpíada 0.3 Sidney 0.3 Brasil 0.5 Olimpíada 0.3 Sidney 0.2 Representaçãode q Representação de d Brasil Olimpíada Sidney Norma q dj Cos d 0,5 0,3 0,2 0,62 0,35 0,97 q 0,4 0,3 0,3 0,58 58.034.0(0.3) (0.3) (0.4) 222 q 97.0 36.0 35.0 58.062.0 35.0 cos dq dq 62.038.0(0.2) (0.3) (0.5) 222 d Exemplo 1 Espaço Vetorial usando Cosseno com pesos binários t1 t2 t3 Norma q dj Cos d1 1 0 1 1,41 2 0,82 d2 1 0 0 1,00 1 0,58 d3 0 1 1 1,41 2 0,82 d4 1 0 0 1,00 1 0,58 d5 1 1 1 1,73 3 1,00 d6 1 1 0 1,41 2 0,82 d7 0 1 0 1,00 1 0,58 q 1 1 1 1,73 Consulta q: t1 t2 t3 Modelo Booleano só permite retornar como resultado: d5 (todos os termos); ou todos os documentos sem ordem (qualquer dos termos). Resultado: d5, [d1, d3, d6], [d2, d4, d7] d1 d2 d3d4 d5 d6 d7 t1 t2 t3 Exemplo 2 Espaço Vetorial usando cosseno, usando frequência de ocorrência como peso das palavras t1 t2 t3 Norma q dj Cos d1 2 0 1 2,24 3 0,77 d2 1 0 0 1,00 1 0,58 d3 0 1 3 3,16 4 0,73 d4 2 0 0 2,00 2 0,58 d5 1 2 4 4,58 7 0,88 d6 1 2 0 2,24 3 0,77 d7 0 5 0 5,00 5 0,58 q 1 1 1 1,73 Consulta q: t1 t2 t3 Pesos calculados pelo próprio sistema de RI Resultado: d5, [d1, d6], d3, [d2, d4,d7] 14 Modelo Espaço Vetorial Cálculo dos Pesos Uma possibilidade é utilizar como peso a frequência de ocorrência do termo (TF) no documento e na consulta “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1 Operações de Texto Representação Doc : www.filosofia.com Doc : www.filosofia.com Doc : www.filosofia.com 15 Modelo Espaço Vetorial Cálculo dos Pesos Método TF-IDF leva em consideração Freqüência do termo no documento Term Frequency (TF) Quanto maior, mais relevante é o termo para descrever o documento Inverso da freqüência do termo nos documentos da coleção Inverse Document Frequency (IDF) Termo que aparece em muitos documentos não é útil para distinguir relevância Peso associado ao termo varia entre zero e um e tenta balancear esses dois fatores 16 Definições dj: documento; ki:termo freqi,j: freqüência do termo ki no documento dj ni: número de documentos que contêm termo ki N: número total de documentos do corpus maxl freql,j : a freqüência do termo mais freqüente no documento TF: IDF: Modelo Espaço Vetorial Cálculo dos Pesos com TF-IDF N ni idfi= log Inverso da freqüência do termo nos documentos do corpus freqi,j maxl freql,j tfi,j= Freqüência (normalizada) do termo no documento 17 Exemplo de TF freqi,j: freqüência do termo ki no documento dj maxl freql,j = 2 Modelo Espaço Vetorial Cálculo dos Pesos com TF-IDF honesto 2 – 1.0 desonesto 1 – 0.5 soubesse 1 – 0.5 vantagem 1 – 0.5 seria 1 – 0.5 menos 1 – 0.5 desonestidade 1 – 0.5 socrates 1 – 0.5 Termo freq - tf freqi,j maxl freql,j tfi,j= Por exemplo: tfhonesto,j = 1.0 18 Exemplo de IDF ni: freqüência do termo ki na coleção N: número de documentos na coleção Suponha: que a palavra honesto apareça em seis documentos na coleção que a coleção tenha 32 documentos no total Modelo Espaço Vetorial Cálculo dos Pesos com TF-IDF 32 6 idfhonesto= log = 0.73 N ni idfi= log 19 Modelo Espaço Vetorial Cálculo dos Pesos com TF-IDF wi,j = tfi,j x idfi freqi,j maxl freql,j wi,j = N ni x log Para o exemplo: whonesto,j = tfhonesto,j x idfhonesto = 1.0 X 0.73 = 0.73 20 Definição do peso nos documentos: wi,j: peso associado ao termo ti no documento dj wi,j = tfi,j X idfi Para definição dos pesos dos termos nas consultas, Baeza-Yates e Ribeiro-Neto sugerem: Modelo Espaço Vetorial Cálculo dos Pesos com TF-IDF N ni X log 0.5 freqi,q maxl freql,q wi,j = 0.5 + 21 Modelo Espaço Vetorial Vantagens Permite casamento parcial dos documentos com a consulta Ordena documentos de acordo com o grau de similaridade com a consulta Consultas e documentos são representados de forma homogênea pelo sistema Desvantagens: Assim como o modelo booleano assume independência entre os termos usados na indexação q1: professor ; q2: professores Resultados das consultas q1 e q2 são diferentes É menos intuitivo que o modelo booleano. Mecanismos de Busca na Web 22 Todos adotam uma variação do modelo espaço vetorial Google https://www.google.com.br/about/company/history/ http://www.google.com/intl/pt-BR/insidesearch/ http://www.google.com/intl/pt-BR/insidesearch/howsearchworks/crawling- indexing.html http://static.googleusercontent.com/media/www.google.com/pt-BR//intl/pt- BR/insidesearch/howsearchworks/assets/searchInfographic.pdf Bing Yahoo 23 Exercícios 1) Construa a lista de documentos retornados utilizando o modelo espaço vetorial para o exemplo 2 para as consulta: t1 t2 2) Faça o cálculo dos pesos das palavras utilizando o método TF-IDF para os documentos e consulta do exemplo 2. Calcule o cosseno e descreva a ordem dos resultados retornados pela busca. Exercícios 3) Acesse o Google Acadêmico: https://scholar.google.com.br/ Recuperar documentos que possua o termo indexação automática em algum dos campos descritivos dos artigos ou no texto completo. Então, observe e descreva como está ordenado os resultados da busca. 24 Resolução t1 t2 t3 Norma q dj Cos d1 2 0 1 2,24 2 0,63 d2 1 0 0 1,00 1 0,71 d3 0 1 3 3,16 1 0,22 d4 2 0 0 2,00 2 0,71 d5 1 2 4 4,58 3 0,46 d6 1 2 0 2,24 3 0,95 d7 0 5 0 5,00 5 0,71 q 1 1 0 1,41 Pesos dos termos na consulta calculados pelo Sistema de RI Resultado: d6, [d2,d4,d7], d1,d5,d3 1) Consulta: t1 t2 Resolução 2) Primeiro Passo – cálculo de TF e IDF 26 TF t1 t2 t3 d1 1,00 0,00 0,50 d2 1,00 0,00 0,00 d3 0,00 0,33 1,00 d4 1,00 0,00 0,00 d5 0,25 0,50 1,00 d6 0,50 1,00 0,00 d7 0,00 1,00 0,00 q 1,00 1,00 1,00 t1 t2 t3 IDF 0,15 0,24 0,37 t1 t2 t3 d1 2 0 1 d2 1 0 0 d3 0 1 3 d4 2 0 0 d5 1 2 4 d6 1 2 0 d7 0 5 0 q 1 1 1 Resolução 2) Segundo Passo – Calculo do TFIDF 27 TFIDF t1 t2 t3 d1 0,15 0,00 0,18 d2 0,15 0,00 0,00 d3 0,00 0,08 0,37 d4 0,15 0,00 0,00 d5 0,04 0,12 0,37 d6 0,07 0,24 0,00 d7 0,00 0,24 0,00 q 0,15 0,24 0,37 TF t1 t2 t3 d1 1,00 0,00 0,50 d2 1,00 0,00 0,00 d3 0,00 0,33 1,00 d4 1,00 0,00 0,00 d5 0,25 0,50 1,00 d6 0,50 1,00 0,00 d7 0,00 1,00 0,00 q 1,00 1,00 1,00 t1 t2 t3 IDF 0,15 0,24 0,37 Resolução 2) Terceiro Passo – Cálculo do Cosseno Resultado: d5,d3,d1,d6,d7,[d2,d4] 28 TFIDF t1 t2 t3 Norma q dj Cos d1 0,15 0,00 0,18 0,23 0,09 0,82 d2 0,15 0,00 0,00 0,15 0,02 0,31 d3 0,00 0,08 0,37 0,38 0,16 0,89 d4 0,15 0,00 0,00 0,15 0,02 0,31 d5 0,04 0,12 0,37 0,39 0,17 0,94 d6 0,07 0,24 0,00 0,25 0,07 0,59 d7 0,00 0,24 0,00 0,24 0,06 0,52 q 0,15 0,24 0,37 0,46 Resolução 3) Google Acadêmico: Busca por: indexação automática 29 Referências FERNEDA, E. Introdução aos Modelos Computacionais de Recuperação de Informação. Rio de Janeiro: Editora Ciência Moderna Ltda. 2012. 30 1 Recuperação da Informação Modelos de Recuperação de Informação: Modelo Probabilista Renato Fernandes Correa 2 Modelo Probabilista Objetivo Trata o problema de RI usando um arcabouço probabilístico Idéia fundamental Dada uma consulta, existe um conjunto de documentos quecontém exatamente os documentos relevantes para o usuário O conjunto resposta ideal O Modelo estima a probabilidade dos documentos pertencerem ao conjunto ideal 3 Modelo Probabilista Como o conjunto ideal não é conhecido, as probabilidades são estimadas usando um conjunto inicial de documentos avaliados pelo usuário Um conjunto inicial de documentos é recuperado através de uma consulta O usuário inspeciona esses documentos e determina aqueles que são relevantes e não-relevantes O Modelo usa essa informação para tentar caracterizar o conjunto ideal de forma probabilística: modificando as probabilidades de cada termo de indexação estar presente nos documentos do conjunto ideal, e depois calculando a probabilidade dos documentos em função dos termos. 4 Modelo Probabilista Exemplo de interface de um SRI probabilista Modelo Probabilista Quais termos de indexação distingue os documentos relevantes dos demais documentos do corpus? As características dos documentos não são conhecidas no momento da primeira busca. O usuário tenta adivinhar as características dos documentos no conjunto ideal por meio da formulação de uma expressão de busca, gerando uma primeira descrição probabilística desse conjunto. É possível gradativamente melhorar os resultados (o conjunto de documentos recuperados) por meio de interações com o usuário onde o mesmo marca os documentos retornados relevantes, o que reflete no incremento das probabilidades dos termos de indexação presentes na consulta e nos documentos marcados. 5 Modelo Probabilista Proposto inicialmente por Maron e Kuhns (1960) Veremos a variação do modelo proposto por Robertson e Jones (1976), denominado Binary Independence Retrieval. Dado um corpus e uma expressão de busca, o conjunto de documentos pode ser divido em 4 subconjuntos distintos: O ideal é que o cojunto de recuperados (Rec) contenha todos e apenas os documentos relevantes para o usuário (Rel) 6 7 Representação do documento Dado o conjunto de n termos representativos para o corpus em questão (Vocabulário do Sistema) V = {t1, t2,...,tn} Os documentos são representados como vetores de pesos binários de tamanho n Cada posição no vetor corresponde a um termo usado na indexação dos documentos da base Cada valor indica se o termo está ou não presente no documento Representação do documento Por exemplo: documento d1 contém os termos t1 e t3, e não contém o termo t2 8 t1 t2 t3 d1 1 0 1 d2 1 0 0 d3 0 1 1 d4 1 0 0 d5 1 1 1 d6 1 1 0 d7 0 1 0 9 Representação da Consulta A expressão de busca informada pelo usuário consiste em um conjunto de termos separados por espaço em branco A Consulta (q) é representada como um conjunto de termos também associados a pesos binários. A consulta é representada pelo sistema como um vetor binário de termos de indexação Exemplo: dada a consulta q: t1 t3 t1 t2 t3 q 1 0 1 10 Representação dos documentos e da Consulta t1 t2 t3 d1 1 0 1 d2 1 0 0 d3 0 1 1 d4 1 0 0 d5 1 1 1 d6 1 1 0 d7 0 1 0 q 1 0 1 11 Função de Busca Seja Rel o conjunto de documentos relevantes considerando uma consulta q R é um subconjunto da base de documentos Seja ~Rel o complemento de R ou seja, documentos não-relevantes para a consulta q 12 Função de Busca Como calcular a similaridade entre consulta e documento? Seja P(dj|Rel) a probabilidade de que dj seja selecionado entre os documentos relevantes Seja P(dj|~Rel) a probabilidade de que dj seja selecionado entre os documentos não-relevantes Sim(dj,q) ~ O resultado da consulta é o conjunto de documentos ordenados que maximiza a razão entre a probabilidade do documento estar no conjunto de relevantes e a probabilidade do documento estar no conjunto de irrelevantes P(dj|Rel) P(dj|~Rel) 13 Função de busca Probabilidades estimadas para cada termo de indexação a partir dos conjuntos Rel e ~Rel marcados manualmente pelo usuário (corpus etiquetado ou marcado) P(ti | Rel) = Número de documentos de Rel que contêm o termo ti dividido pelo número total de documentos de Rel P(ti | ~Rel) = Número de documentos de ~Rel que contêm o termo ti dividido pelo número total de documentos de ~Rel 14 Função de Busca Exemplo: Consulta q: Recuperação Informação • Conjunto Rel (10 documentos) - t1: Recuperação – 9 docs - t2: Informação – 6 docs • Conjunto ~Rel (10 documentos) - t1: Recuperação – 2 docs - t2: Informação – 4 docs P(t1|Rel) = 0.9 P(t2|Rel) = 0.6 P(t1|~Rel) = 0.2 P(t2|~Rel) = 0.4 • Documentos que contêm ambos os termos são provavelmente os mais relevantes • Documentos que contêm apenas o termo “Recuperação” são mais relevantes que os que contêm apenas o termo “Informação” 15 Função de busca P(ti | Rel) indica a probabilidade do termo ti estar presente entre os documentos relevantes Valor alto aumenta a probabilidade de relevância de documentos que contêm o termo ti P(ti|~Rel) indica a probabilidade do termo ti estar presente nos documentos não-relevantes Valor alto diminui a probabilidade de relevância de documentos que contêm o termo ti Se dj contém um termo ti que aparece com muita freqüência em Rel e pouca freqüência em ~Rel então dj é provavelmente relevante Função de Busca Estimando as probabilidades por meio de contagens Dados: t termos presentes na consulta e no documento N documentos na coleção n documentos contendo o termo ti R documentos marcados como relevantes r documentos relevantes contendo o termo ti 16 Função de busca A similaridade entre documento e consulta pode ser expressa por: Na busca inicial pode ser utilizada a simplificação: 17 Função de busca Portanto, a similaridade entre documentos e consulta pode então ser calculada para os t termos da consulta utilizando a fórmula Onde wik é o peso de cada termo, sendo: Na primeira interação Nas demais interações (com feedback de relevância) 18 t i iiik dqwdqsim 1 )(),( n N IDFw ii log0 )()( log rRrn rnRNr wik Exemplo 19 d1 d2 d3 d4 d5 d6 d7 Brasil Olimpíada Sidney Brasil Olimpíada SidneyConsulta q : Documento d5 : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney 2000 ... Brasil 1 Olimpíada 1 Sidney 1 Brasil 1 Olimpíada 1 Sidney 1 Representação de q Representação de d5 Brasil 0.5 Olimpíada 0.2 Sidney 0.1 Peso dos termos Similaridade(q, d5) = 1 x 1 x 0.5 + 1 x 1 x 0.2 + 1 x 1 x 0.1 = 0.8 Exemplo 1 Segundo o modelo probabilista, especifique a lista de documentos retornados para a consulta: t1 t2 t3. 20 t1 t2 t3 d1 1 0 1 d2 1 0 0 d3 0 1 1 d4 1 0 0 d5 1 1 1 d6 1 1 0 d7 0 1 0 q 1 1 1 Exemplo 1 Consulta: t1 t2 t3, Primeira interação (peso = IDF) Resposta: d5, d3, d1, d6, [d2, d4] 21 t1 t2 t3 Sim d1 1 0 1 0,51 d2 1 0 0 0,15 d3 0 1 1 0,61 d4 1 0 0 0,15 d5 1 1 1 0,76 d6 1 1 0 0,39 d7 0 1 0 0,24 q 1 1 1 n 5 4 3 peso 0,15 0,24 0,37 t1 t2 t3 IDF 0,15 0,24 0,37 Similaridade(q, d1) = 1 x 1 x 0.15 + 1 x 0 x 0.24 + 1 x 1 x 0.37 = 0.51 Exemplo 1 Consulta: t1 t2 t3 , segunda interação com d3 e d5 marcados como RELEVANTES No cálculo de peso para um termo, para evitar divisão por zero e log de número negativo subtraia 0,1 de r se r > 0 e some 1 a N. 22 t1 t2 t3 Rel d1 1 0 1 0 d2 1 0 0 0 d3 0 1 1 1 d4 1 0 0 0 d5 1 1 1 1 d6 1 1 0 0 d7 0 1 0 0 q 1 1 1 n 5 4 3 R=2 r 0,9 1,9 1,9 N= 8 peso -0,42 1,55 1,93 42.0)38,0log( 51.4 71.1 log )1.1()1.4( 9.19.0 log )9.02()9.05( 9.05289.0 log )()( log1 rRrn rnRNr wt Exemplo 1 Consulta: t1 t2 t3 , segunda interação com d3 e d5 marcados como RELEVANTES No cálculo de peso para um termo, para evitar divisão por zero e log de número negativo subtraia 0,1 de r se r > 0 e some 1 a N. Resposta: d3, d5, d7, d1, d6 23 t1 t2 t3 Rel Sim d1 1 0 1 0 1,51 d2 1 0 0 0 -0,42 d3 0 1 1 1 3,48 d4 1 0 0 0 -0,42 d5 1 1 1 1 3,05 d6 1 1 0 0 1,13 d7 0 1 0 0 1,55 q 1 1 1 n 5 4 3 R= 2 r 0,9 1,9 1,9 N= 8 peso -0,42 1,55 1,93 Similaridade(q, d1) = 1 x 1 x -0.42 + 1 x 0 x 1.55 + 1 x 1 x 1.93 = 1.51 Modelo Probabilista Vantagens Trabalha com o conceito de probabilidade de relevância de documentos em relação à expressão de busca Ordena a lista de documentos: documentos ordenados em ordem decrescente de probabilidade de relevância Permite ao usuário selecionar os documentos relevantes e usa esta marcação para melhorar a ordenação dos resultados (relevance feedback), através da atribuição de pesos aos termos na busca Desvantagens Assume independência entre os termos usados na indexação Assume que a distribuição dos termos de indexação nos documentos é uniforme => probabilidade de ocorrer é igual Todos os termos de indexação tem a mesma importância na descrição de um documento 24 Outros Modelos Probabilistas Okapi BM25 modelo não-binário com suporte a feedback de relavância. Criado para pesquisa em texto completo Leva em conta a frequência de termo e comprimento dos documentos As fórmulas de ponderação de termo BM25 têm sido usadas de forma bastante ampla e com bastante sucesso em uma variedade de coleções e tarefas de pesquisa. 25 Outros Modelos Probabilistas Okapi BM25 Detalhes em: https://nlp.stanford.edu/IR-book/html/htmledition/okapi-bm25- a-non-binary-model-1.html Jones, Karen Spärck; Walker, S.; Robertson , S. E. A probabilistic model of information retrieval: Development and comparative experiments. Information Processing and Management 36 (6): 779-808, 809-840, 2000. Robertson, S. E.; Zaragoza, H. The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends in Information Retrieval, Vol. 3, No. 4 (2009) 333–389. 26 Open source Search Engines suportando Okapi BM25 Lemur https://www.lemurproject.org/ Lucene http://lucene.apache.org/ https://opensourceconnections.com/blog/2015/10/16/bm25-the-next-generation-of-lucene-relevation/ MG4J http://mg4j.di.unimi.it/ Terrier http://terrier.org/ Zettair http://www.seg.rmit.edu.au/zettair/ Xapian https://xapian.org/ Wumpus http://www.wumpus-search.org/ OKAPI-PACK http://www.staff.city.ac.uk/~andym/OKAPI-PACK/ 27 28 1) Para o exemplo 1, utilizando o modelo probabilista, qual o resultado das buscas na primeira interação: a) t2 t3 b) t2 2) Levando em conta que os documentos d5 e d6 são marcados como relevantes pelo usuário, recalcule a lista de resultados para cada consulta da questão anterior (segunda interação). Exercícios 29 1) Para o exemplo 1, utilizando o modelo probabilista, qual o resultado das buscas: a) t2 t3 Resposta: [d3,d5],d1,[d6,d7] Exercícios t1 t2 t3 Sim d1 1 0 1 0,37 d2 1 0 0 0,00 d3 0 1 1 0,61 d4 1 0 0 0,00 d5 1 1 1 0,61 d6 1 1 0 0,24 d7 0 1 0 0,24 q 0 1 1 n 5 4 3 peso 0,15 0,24 0,37 t1 t2 t3 IDF 0,15 0,24 0,37 30 2) Levando em conta que os documentos d5 e d6 são marcados como relevantes pelo usuário, recalcule a lista de resultados para cada consulta da questão anterior. a) t2 t3 Resposta: [d3,d5],[d6,d7],d1 Exercícios t1 t2 t3 Rel Sim d1 1 0 1 0 0,18 d2 1 0 0 0 0,00 d3 0 1 1 0 1,73 d4 1 0 0 0 0,00 d5 1 1 1 1 1,73 d6 1 1 0 1 1,55 d7 0 1 0 0 1,55 q 0 1 1 n 5 4 3 R= 2 r 1,9 1,9 0,9 N= 8 peso 1,25 1,55 0,18 31 1) Para o exemplo 1, utilizando o modelo probabilista, qual o resultado das buscas: b) t2 Resposta: [d3,d5,d6,d7] Exercícios t1 t2 t3 Sim d1 1 0 1 0,00 d2 1 0 0 0,00 d3 0 1 1 0,24 d4 1 0 0 0,00 d5 1 1 1 0,24 d6 1 1 0 0,24 d7 0 1 0 0,24 q 0 1 0 n 5 4 3 peso 0,15 0,24 0,37 t1 t2 t3 IDF 0,15 0,24 0,37 32 2) Levando em conta que os documentos d5 e d6 são marcados como relevantes pelo usuário, recalcule a lista de resultados para cada consulta da questão anterior b) t2 Resposta: [d3,d5,d6,d7] Exercícios t1 t2 t3 Rel Sim d1 1 0 1 0 0,00 d2 1 0 0 0 0,00 d3 0 1 1 0 1,55 d4 1 0 0 0 0,00 d5 1 1 1 1 1,55 d6 1 1 0 1 1,55 d7 0 1 0 0 1,55 q 0 1 0 n 5 4 3 R= 2 r 1,9 1,9 0,9 N= 8 peso 1,25 1,55 0,18 Indexação e Construção de Índice Renato Fernandes Corrêa Indexação de documentos Consiste de três passos: 1. Definição do vocabulário de indexação 2. Indexação - atribuição de termos de indexação a cada documento 3. Construção do índice – construção da estrutura de dados do índice 2 1.Vocabulário de Indexação Definição: Conjunto de termos usados para indexar e recuperar documentos de uma base ou corpus Pode ser definido manualmente por especialistas humanos => vocabulário de indexação manual Vocabulário controlado, tesauro,... Refletem diretamente os assuntos ou conceitos dos documentos Pode ser definido automaticamente pelo sistema de RI (após operadores de texto) => vocabulário de indexação automático 3 Definido pela linguagem de indexação adotada e processo intelectual de indexação. No uso de linguagem de indexação controlada, os termos vem de uma linguagem documentária como: Lista de cabeçalho de assuntos Lista simples de termos sem hierarquia Taxonomia Lista de termos organizados com hierarquia Tesauro Hierarquia de termos com relações associativas Ontologia Hierarquia de assuntos organizados em classes e com relações todo-parte e associativas específicas e explícitas Vocabulário de Indexação Manual 4 Consiste basicamente no conjunto de termos que aparecem no texto completo dos documentos ou metadados dos documentos após aplicação de operadores de texto. Sem utilização de vocabulário controlado - usa a linguagem natural como linguagem de indexação. Com uso de vocabulário controlado - usa linguagem controlada como linguagem de indexação. Vocabulário de Indexação Automático 5 6 Visão Geral da definição de vocabulário de indexação 7 Linguagem Natural • Compreende os idiomas ou líguas criadas pelos seres humanos para fins de comunicação. • Exemplo: – Português do Brasil – Inglês dos EUA • Todo documento é redigido em linguagem natural. Por mais que possuam termos técnicos específicos de uma área ou especialidade do conhecimento humano. 8 Linguagem Documentária (LD) • A linguagem documentária compreende o conjunto de regras, símbolos e termos previamente estabelecidos, formando uma linguagem artificial para a indicação do conteúdo temático dos documentos. – Metalinguagem que utiliza uma construção simbólica com a finalidade de ser instrumento de conversão de uma linguagem em outra. – Linguagem de indexação é uma especialização de uma LD, sendo uma linguagem artificial utilizada para registro ou indicação dos temas contidos nos documentos, dotada de vocabulário controlado e regida por uma sintaxe própria. • Exemplos: tesauros, taxonomias, listas de cabeçalhode assunto, sistemas de classificação. 9 Linguagem Documentária (LD) • Objetivos: – Garantir uma melhor recuperação da informação; – Controlar o vocabulário: • Controle da terminologia de áreas do conhecimento por meio do estabelecimento de um conceito/interpretação definido aos termos de acordo com as necessidades de uso do sistema; • Uniformização do uso de linguagens especializadas; – Representação padronizada do conteúdo e do conhecimento; – Mediar e promover interação entre usuário e conteúdo; – Fornecer uma versão extremamente econômica dos textos originais, através do destaque de assuntos considerados principais nos documentos. 10 Comparação: Linguagem Natural versus Linguagem Documentária • Linguagem Documentária – São linguagens artificiais; – São instrumentos de comunicação; – São especializadas; – São estabelecidas em poucos anos por um número reduzido de pessoas; • Linguagem Natural – São linguagens naturais; – São instrumentos de comunicação; – São gerais; – São estabelecidas e adaptadas através de longos períodos de tempo e por muitas pessoas 11 Comparação: Linguagem Natural versus Linguagem Documentária • Linguagem Documentária – Devem ser aceitas pelos usuários; – São mais eficientes que as LN nas operações de recuperação da informação; – Não aceitam ambiguidades. Não comportam polissemias e se esforçam por evitar as sinonímias; • Linguagem Natural – São naturalmente aceitas pelos usuários; – São menos eficientes que as LD nas operações de recuperação da informação; – Aceitam ambiguidades. A sinonímia e a polissemia são fenômenos naturais das LN 12 Exercício 1) Qual a finalidade ou função das linguagens de indexação? 2) Quais os tipos de linguagens de indexação presentes nos SRIs? 3) Cite uma vantagem e uma desvantagem do uso de linguagem documentária para recuperação da informação? 13 2. Indexação • É o processo de atribuição de termos ou códigos de indexação a um documento na qual serão úteis posteriormente na recuperação da informação. • O processo de indexação consiste na tradução de um documento em termos documentários, isto é, em descritores, cabeçalhos de assunto, termos- chave, que têm por função expressar o conteúdo do documento (Cintra, 1983). 14 Indexação no contexto da Recuperação de Informação 15 Processo de Indexação • Segundo Baranow(1983), a indexação é vista como um processo analítico decomposto em duas etapas: – Descrição:refere-se a identificação, seleção e análise dos conceitos ou assuntos que representam o conteúdo - o indexador precisa fazer uma leitura analítica do documento e extrair conceitos em linguagem natural; – Representação:refere-se a representação desses conceitos através de descritores (termos) compatíveis com os do sistema de recuperação - o indexador precisa identificar e selecionar termos de indexação que representem de forma fidedigna os conceitos tratados no conteúdo do documento, presentes em uma linguagem de indexação. 16 Processo de Indexação Linguagem de IndexaçãoConceitos 17 Indexação • Algumas considerações importantes durante a realização do processo de indexação: – Identificar tópicos dentro do texto que venham de encontro às necessidades dos usuários (Garantia de uso); – Produzir cabeçalhos com mesma terminologia do documento levando em conta sinônimos ou termos equivalentes (Garantia literária); • Por exemplo, indexação apropriada de: – para um biólogo: Aedes aegypti; Aedes (Stegomyia) aegypti; Culex aegypti; Culex excitans; Culex taeniatus. – Para uma pessoa comum: Mosquito da Dengue; Pernilongo rajado 18 Dimensões da indexação • Exaustividade: – Representação exaustiva do conteúdo temático; – Tipos: • Exaustiva(mais termos); • Seletiva (menos termos); • Exemplo: – Prédios históricos, ponto turístico, praça, Recife, Recife Antigo, Marco Zero. 19 Dimensões da indexação • Especificidade: – Termo mais específico que o abrange totalmente; • Exemplos: – Recife, Recife Antigo, Marco Zero. 20 Indexação • A seleção desse termos de indexação pode ser por – Indexação manual (ou Intelectual) • Realizado por um especialista • Ex. um bibliotecário em sistema de bibliotecas – Indexação Automática • Os termos são automaticamente extraídos do texto do documento por softwares específicos • Ex. mecanismos de busca na Web Vantagens: É possível ter uma visão panorâmica dos assuntos dos documentos que compõem a base É possível direcionar melhor a busca realizada pelo usuário Aumenta a precisão na busca Desvantagens: Cada documento é indexado por um humano (processo lento) Nem sempre é possível construir uma boa estrutura de assuntos O usuário pode realizar buscas com termos que não aparecem no vocabulário controlado Indexação Manual 21 Vantagens: Maior cobertura de termos Maior velocidade no processo de indexação Desvantagens Pode gerar baixa precisão Indexação Automática 22 23 Exercício 1) Em que consiste o processo de indexação de documentos? 2) Qual o impacto das dimensões da indexação na recuperação dos documentos? 3) Cite uma vantagem e desvantagem do uso da indexação automática? 24 Indexação Automática • Lista de termos do documento pode ser reduzida através do uso de operadores de texto, investigados na área de pesquisa denominada Processamento de Linguagem Natural. • Cada fase de operação de texto pode utilizar diferentes técnicas na sua implementação • Cada sistema de RI implementa uma ou mais dessas fases – A escolha depende do tipo de sistema desejado Processamento de Linguagem Natural • O que é? – Conjunto de técnicas computacionais para a análise de textos com o propósito de simular o processamento humano da língua. • Quais são as abordagens? – Abordagem estatística – de menor custo e adaptáveis a diversas línguas – Abordagem linguística – específicos de cada língua • Razões para aplicar em RI? – Documentos e expressões de busca são enunciados em linguagem natural. 25 Processamento de Linguagem Natural • Principais usos em RI: – Indexação automática • Normalização de variações linguísticas – Normalização morfológica ou Conflação de termos (radicalização, lematização) – Normalização léxico-semântica de termos através das relações semânticas de sinonímia, hiponímia, hiperonímia • Identificação de termos compostos – Sintagmas nominais, termos complexos, unidades lexicais complexas, expressões multi-palavras • Resolução de ambiguidade – Sintática (causa estrutural) ou semântica (causa lexical – homonímia, polissemia) 26 27 Operadores de texto • O objetivo é chegar à representação computacional do documento, a ser armazenada em estrutura de índice para fins de recuperação. “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1 Operações de Texto Representação Doc : www.filosofia.com Doc : www.filosofia.com Doc : www.filosofia.com 28 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completoTermos ou palavras-chave 29 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave 30 Análise Léxica • Identificação de cada palavra e conversão de caracteres “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica Doc : www.filosofia.com Doc : www.filosofia.com 31 Operações sobre o texto Análise léxica • Entrada – O texto original • uma cadeia de caracteres • Objetivo – Converter o texto original em uma lista de palavras – Identificando as palavras que ocorrem no texto • Procedimento padrão – Utilizar espaços como sendo separadores de palavras – Tratar pontuação, hífens, dígitos, e letras maiúsculas e minúsculas • Cada caso pode requerer tratamentos diferenciados 32 Operações sobre o texto Análise léxica • Delimitação do início e fim das palavras: – Espaço em branco, tabulações, enters – Pontuação e hífens: . , ! ? : ; - – Caracteres numéricos • Eliminação de dígitos – Geralmente, dígitos são removidos por serem vagos • Não terem uma semântica associada quando aparecem isolados – Ex. 1910 (ano, peso, tamanho???) 33 Operações sobre o texto Análise léxica • Substituição de letras maiúsculas – Objetivo principal • Tornar a representação das palavras ou termos homogênea • Facilitar a recuperação do documento a partir de consultas • Exceções – Carneiro • Animal ou nome próprio? – Banco – instituição financeira – banco - assento 34 Operações sobre o texto Análise léxica • Como visto, existem diversas exceções a tratar – Isso depende da aplicação, do domínio do sistema, etc... • Sugestão – Preparar lista de exceções e tratar caso a caso • Engenhos de busca – Geralmente, não eliminam nada • Funcionam em todos os domínios... – Indexam o texto completo com sua pontuação, dígitos, etc... 35 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave 36 Eliminação de Palavras Vazias de significado • Elimina palavras de uma lista (geralmente palavras muito frequentes na coleção ou conectivos) se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords Doc : www.filosofia.com Doc : www.filosofia.com 37 Operações sobre o texto Eliminação de stopwords • Algumas palavras não são bons discriminadores – Palavras muito freqüentes na base de documentos – Palavras sem semântica associada • artigos, preposições, conjunções, pronomes, alguns advérbios e adjetivos • Aqui também há exceções a considerar – Na extração de termos compostos ou grupos nominais, podemos precisar manter algumas dessas palavras • Recuperação de informação 38 Operações sobre o texto Eliminação de stopwords • Vantagens – Diminuir a representação do texto – Melhorar a ordenação na recuperação • Tf-idf • Desvantagens – Diminuição da cobertura na recuperação – Ex., “ser ou não ser” • Somente o termo “ser” será usado na indexação documento • Mais uma razão para os engenhos de busca utilizarem representação do texto completo 39 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave 40 Radicalização • Utiliza um software que reduz a palavra a uma aproximação do radical removendo sufixos desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords desonest / soub / vantag / honest / honest / men/desonest/ socrat Radicalização Doc : www.filosofia.com Doc : www.filosofia.com 41 Operações sobre o texto Radicalização (Stemming) • Problema – Freqüentemente, o usuário especifica uma palavra na consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes – Ex., plural, gênero, gerúndio, verbos flexionados, aumentativo... • Objetivo dessa operação: – Substituir a palavra por seu radical (stem) • Porção da palavra que resta após a remoção de prefixos e sufixos – Possibilitar casamento entre variações de uma mesma palavra • Ex.: engenheiro, engenharia,... 42 Operações sobre o texto Stemming • Snowball – Uma linguagem para processamento de strings especifica para criar algoritmos de stemming para RI – http://snowball.tartarus.org/ – Veja algoritmo disponível para Português em • http://snowball.tartarus.org/algorithms/portuguese/st emmer.html • O site também traz exemplo de stoplist para Português 43 Stemming Exemplo do Snowball para Português word stem quilo quilométricas quilométricos quilômetro quilômetros quilos química químicas químico químicos quimioterapia quimioterápicos => quil quilométr quilométr quilômetr quilômetr quil químic químic químic químic quimioterap quimioteráp 44 Operações sobre o texto Radicalização • Vantagens – Diminui a dispersão terminológica – Permite o casamento das variações de uma palavra entre si. • Desvantagens – Pode gerar redução demais (over stemming) ou redução de menos (under stemming) para certas palavras o que leva a um erro no casamento. – Se aplica a todas as palavras do texto, incluindo nomes próprios e siglas. 45 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado Termos ou palavras-chave • Operadores reduzem progressivamente a visão lógica do documento Texto completo 46 Identificação de Grupos Nominais • Utiliza um software que extrai os substantivos e termos compostos formados por substantivos do texto. – Exemplos: recuperação da informação, indexação automática. se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / vantagem / honesto / honesto /desonestidade/ socrates/ Detecção de grupos nominais Doc : www.filosofia.com Doc : www.filosofia.com 47 Operações sobre o texto Identificação de Grupos Nominais • Objetivo – Identificar grupos nominais (termos compostos) para indexar o documento • Ex., Recuperação de Informação, Inteligência Artificial • Procedimentos – Selecionar substantivos do texto, eliminando sistematicamente palavras de outras classes gramaticais • Usando uma stoplist ou • usando um etiquetador morfossintático (part-of-speech tagger) para determinar a classe das palavras e/ou • usando um thesaurus da língua ou do domínio – Agrupar substantivos para formar termos compostos 48 Operações sobre o texto Identificação de Grupos Nominais • Como agrupar substantivos para formar termos compostos– Considerando os grupos nominais identificados pelo tagger – Considerando a distância entre os termos no texto • Número de palavras entre os dois substantivos – Ex., Recuperação de Informação » Apenas uma palavra (de) – Extraindo esses termos de um tesauro do domínio • Pode conter um vocabulário controlado de termos em vez de palavras isoladas 49 Operações sobre o texto Identificação de Grupos Nominais • Vantagens – Grupos nominais carregam a maior parte da semântica de um texto – O significado de um grupo nominal é mais preciso que as palavras tomadas isoladamente, diminuindo a ambiguidade, sinonímia e polissemia dos termos. • Desvantagens – Depende da taxa de acerto dos taggers, que é superior a 90%, mas não é 100%. – O agrupamento de substantivos também pode gerar erros. – Um grupo nominal identificado não necessariamente é palavra-chave do documento. 50 Preparação dos documentos Operadores de texto documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave 51 Operações sobre o texto Uso de Vocabulário Controlado • Objetivo – Identificar termos normalizados que representam conceitos para indexar o documento • Ex., Indexação, Recuperação de Informação, Inteligência Artificial • Procedimentos – Registrar a ocorrência e posição de ocorrência de termos ou variações linguísticas de termos do tesauro no documento – Selecionar termos candidatos com base na ocorrência de termos e nas relações entre termos do tesauro 52 Vocabulário Controlado • Linguagens documentárias podem ser utilizadas para orientar a atribuição de termos a documentos no processo de indexação manual ou automática. • Contribuem para Indexação automática por atribuição: – A ocorrência de variações linguísticas dos termos do vocabulário controlado ou dos termos não autorizados equivalentes (Relações USE e UF) no documento. – A ocorrência de variações linguísticas de um termo mais específico no documento (Relações TG e TE) • A relação de termo relacionado (TR) tem sido mais explorada na expansão de termos na consulta, por ter natureza contextual. 53 Operações sobre o texto Vocabulário controlado • Vantagens – Termos de especialidade encontrados no texto são candidatos a palavras-chave – O significado de um termo é mais preciso que as palavras tomadas isoladamente, diminuindo a ambiguidade, sinonímia e polissemia. • Desvantagens – Depende do vocabulário controlado. – Depende do casamento entre os termos do vocabulário com as expressões em linguagem natural do documento. – Um termo que ocorre em um documento não necessariamente é palavra-chave do mesmo. 54 Exercício 1) Sobre o processamento dos textos (operações sobre o texto), tomando a frase “Na conexão dos saberes e práticas está o aprendizado, fruto de um processo de aprendizagem contínua.”: a) mostre o resultado de cada uma das operações de processamento: – análise léxica (extrair palavras, transformá-las em minúsculo, remover pontuação) – remoção de stopword (remover na, dos, e, está, o, de, um), – radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua). b) A ordem destas operações sobre o texto pode ser alterada? Justifique. 55 Resolução do Exercício 1) “Na conexão dos saberes e práticas está o aprendizado, fruto de um processo de aprendizagem contínua.”: a) – análise léxica (extrair palavras, transformá-las em minúsculo, remover pontuação): “na conexão dos saberes e práticas está o aprendizado fruto de um processo de aprendizagem contínua” – remoção de stopword (remover na, dos, e, está, o, de, um): “conexão saberes práticas aprendizado fruto processo aprendizagem contínua” – radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua): “conex saber prátic aprendiz frut process aprendiz contín” b) Não. A análise léxica deve ser sempre a primeira pois identifica as palavras, a remoção de stopword a segunda pois compara palavras e radicalização a última por alterar a forma como as palavras serão representadas no sistema. 3. Construção da Estrutura de dados do índice Arquivo de índices invertidos é um “mecanismo” para acelerar a busca em uma base de documentos já indexados Armazena a representação computacional de cada documento (visão lógica do documento) Estrutura de um arquivo invertido Vocabulário Termos em ordem alfabética (geralmente palavras isoladas ou unitermos) Ocorrências de cada termo Documentos onde o termo aparece, sua posição no texto, freqüência, etc… 56 Arquivos Invertidos Listas de Ocorrência Para cada ocorrência armazena-se informações que dependem do tipo de consulta permitida pelo sistema Não armazena as não ocorrências Exemplos de listas de ocorrência: para a consulta booleana e probabilista, é necessário armazenar apenas a lista de documentos onde o termo aparece para consultas no modelo espaço vetorial, a ocorrência deve armazenar a frequência do termo nos documentos para consultas por proximidade, a ocorrência deve armazenar a posição dos termos nos documentos 57 Arquivos Invertidos - Exemplo 1 Considere os seguintes documentos: Realize a Análise léxica, elimine as stopwords e construa o arquivo invertido para os documentos Ciência da Informação Doc A: Dados, Informação e Conhecimento Doc B: Informação em Ciência e Tecnologia Doc C: Bancos de Dados Doc D: Ciência e Conhecimento Doc E: Ciência da Computação Doc F: 58 Arquivos Invertidos Exemplo 1 A B C D E F Ciência da Informação Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto stopwords da e em de 59 Arquivo Invertido Exemplo 1 - Modelo Booleano e Probabilista Ciência da Informação Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D A, C, E, F F B, E B, D A, B, C C DocsNo Vocabulário Listas de documentos onde termo aparece Arquivo InvertidoA B C D E F 60 Arquivo Invertido Exemplo 1 - Modelo Espaço Vetorial (TF) Ciência da Informação Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D(1) A(1), C(1), E(1), F(1) F(1) B(1), E(1) B(1), D(1) A(1), B(1), C(1) C(1) DocsNo Vocabulário Listas de documentos onde termo aparece Arquivo Invertido A B C D E F 61 Arquivo Invertido Exemplo 1 - Busca por Proximidade Ciência da Informação Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo (D,1) (A,1),(C,3), (E,1),(F,1) (F,3) (B,4), (E,3) (B,1), (D,3) (A,3), (B,2), (C,1) (C,5) DocsNo Vocabulário Listas de documentos onde termo aparece Arquivo Invertido A B C D E F 62 63 Exercício 2) Resolva as seguintes consultas utilizando o índice invertidodo Exemplo 1: a) Pelo modelo booleano: ciência AND informação b) Pelo modelo probabilista: ciência informação c) Pelo modelo vetorial: ciência informação 64 Exercício 2) Resolva as seguintes consultas utilizando o índice invertido do Exemplo 1: a) Pelo modelo booleano: ciência AND informação – ciência: A, C, E, F – Informação: A, B, C – A resposta é a intersecção dos conjutos {A,C} 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D A, C, E, F F B, E B, D A, B, C C DocsNo Arquivo Invertido 65 Exercício 2) Resolva as seguintes consultas utilizando o índice invertido do Exemplo 1: b) Pelo modelo probabilista: ciência informação – IDF • ciência: log(6/4)=0,18 • informação: log(6/3)=0,30 – Resposta: • [A,C]: 0,18+0,30=0,48 • B: 0,30 • [E,F]: 0,18 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D A, C, E, F F B, E B, D A, B, C C DocsNo Arquivo Invertido 66 Exercício 2) Resolva as seguintes consultas utilizando o índice invertido do Exemplo 1: c) Pelo modelo vetorial: ciência informação – Usando TF como peso: • =1 para as palavras em q • Norma de q: raiz(12+12)=1,4 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D(1) A(1), C(1), E(1), F(1) F(1) B(1), E(1) B(1), D(1) A(1), B(1), C(1) C(1) DocsNo Arquivo Invertido Norma A: raiz(12+12)=1,4 C: raiz(12+12+12)=1,7 E: raiz(12+12)=1,4 F: raiz(12+12)=1,4 B: raiz(12+12+12)=1,7 Produto A: 1x1+1x1=2 C: 1x1+1x1=2 E:1x1=1 F:1x1=1 B:1x1=1 Cosseno(d,q) A: = 2/(1,4*1,4)=2/2=1,0 C: =2/(1,4*1,7)=2/2,4=0,8 E: =1/(1,4*1,4)=1/2=0,5 F: =1/(1,4*1,4)=1/2=0,5 B: =1/(1,4*1,7)=1/2,4=0,4 67 Ferramentas para construir índices de SRI • Lucene (http://lucene.apache.org/core/) – Biblioteca de código escrita em programação JAVA para construção e busca em índices invertidos • SOLR (http://lucene.apache.org/solr/ ) – Implementação de servidor de busca baseado em LUCENE • Luke (https://github.com/DmitryKey/luke) – Visualizador de índice criado através de Lucene. 68 Referências • (BAEZA-YATES, RIBEIRO-NETO, 2013) – Seções 5.6, 8.2 • (FERNEDA, 2012) – Capítulo 7 e 12 1 Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 2 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha para: Seleção de termos (stopword, stemming…) Definição de pesos (TF, TF-IDF,…) Função de Ranking (co-seno, correlação…) Quantos itens da lista de resultados o usuário deverá consultar para ainda encontrar algum documento relevante? 3 Como avaliar? Todo software pode ser avaliado quanto a corretude ou eficácia através da comparação da saída do programa com a saída esperada para valores de entrada predeterminados. SRI Entrada de dados Saída de dados • Corpus • Consulta • Lista de documentos recuperados • Lista de documentos relevantes Julgamentos de Relevância Por Especialistas 4 Avaliação de Sistemas de RI Dificuldades Eficácia do SRI está relacionada à relevância dos itens recuperados Relevância, do ponto de vista do usuário, é: Subjetiva: depende de um julgamento específico do usuário Dependente do contexto: relaciona-se às necessidades atuais do usuário Cognitiva: depende da percepção e comportamento humano Dinâmica: muda com o decorrer do tempo 5 Metodologia de Avaliação de Sistemas de RI 1. Selecione com um corpus de documentos chamado também de coleção de referência 2. Defina um conjunto de consultas para esse corpus 3. Use um ou mais especialistas humanos para exaustivamente categorizar (etiquetar, marcar) os documentos relevantes para cada consulta Geralmente assume relevância binária 4. Calcular métricas de avaliação do SRI 6 Metodologia de Avaliação de Sistemas de RI Metodologia de Avaliação Vantagens: Pode ser adotada para avaliar qualquer SRI Desvantagens: Não leva em conta ordenação dos documentos na lista de documentos retornados Depende do julgamento de relevância dos documentos da coleção em relação a cada expressão de busca. Processo lento, caro e subjetivo. 7 8 Precisão Habilidade de recuperar somente itens relevantes (unicidade) Revocação ou Cobertura Habilidade de recuperar todos os itens relevantes (completude) Medidas de Avaliação de Sistemas de RI 9 relevantes documentos de total Número srecuperado relevantes documentos de Número Revocação srecuperado documentos de total Número srecuperado relevantes documentos de Número Precisão Documentos relevantes Documentos recuperados Coleção de documentos Não recuperados e relevantes Não recuperados e irrelevantes recuperados e relevantes recuperados e irrelevantes Relevantes Irrelevantes Não recuperados Recuperados Medidas de Avaliação Exemplos: 10 Dados: • Uma coleção de 5 documentos, D1 a D5 • Uma consulta Q1 • Julgamento de relevância de cada documento para a consulta Q1 • Existem 3 documentos relevantes para Q1 • Os documentos retornados por um SRI para a consulta Q1 Exemplo 1: 11 Documento Retornado Relevante D1 SIM SIM D2 NÃO SIM D3 SIM SIM D4 NÃO NÃO D5 SIM NÃO Revocação = 2/3 = 0,667 ou 66,7% Precisão = 2/3 = 0,667 ou 66,7% Exemplo 2: buscando maior precisão 12 Documento Retornado Relevante D1 SIM SIM D2 NÃO SIM D3 NÃO SIM D4 NÃO NÃO D5 NÃO NÃO Revocação = 1/3 = 0,333 ou 33,3% Precisão = 1/1 = 1,0 ou 100% Exemplo 3 : buscando maior Revocação 13 Documento Retornado Relevante D1 SIM SIM D2 SIM SIM D3 SIM SIM D4 SIM NÃO D5 SIM NÃO Revocação = 3/3 = 1,0 ou 100% Precisão = 3/5 = 0,6 ou 60% Exemplo 4: o ideal 14 Documento Retornado Relevante D1 SIM SIM D2 SIM SIM D3 SIM SIM D4 NÃO NÃO D5 NÃO NÃO Revocação = 3/3 = 1,0 ou 100% Precisão = 3/3 = 1,0 ou 100% 15 Conflito entre Revocação e Precisão 10 1 Revocação P re ci sã o Ideal Retorna documentos relevantes mas esquece muitos outros relevantes Retorna todos os documentos relevantes mas inclui muitos não relevantes Conflito entre Revocação e precisão A exaustividade e a especificidade na indexação são os dois fatores mais importantes que governam a Revocação e a precisão; A exaustividade aumenta a Revocação e diminui a precisão, enquanto que uma maior especificidade leva à menor Revocação e maior precisão; Em síntese, o desempenho de um sistema de recuperação de informação é avaliado principalmente pelas medidas de Revocação e precisão. 16 Exercício: busca por carta antiga Calcule Precisão e Revocação 17 Retornado Relevante 18 Combinando Precisão e Revocação F-Measure Medida de desempenho que considera tanto a Revocação como precisão Média harmônica da Revocação (Cobertura) e Precisão: Vantagem de usar a média harmônica em relação à média aritmética: Ambas as medidas precisam ser altas para a média harmônica ser alta PC CP PC F 11 22 19 E-Measure F-Measure parametrizado Variação da F-measure que permite associar ênfase na precisão sobre a Revocação: Valor de controla conflito: = 1: Peso igual para precisão e Revocação (E=F). > 1: Mais peso para a precisão < 1: Mais peso para a Revocação PC CP PC E 1 2 2 2 2 )1()1(
Compartilhar