Baixe o app para aproveitar ainda mais
Prévia do material em texto
F. W. Lancaster Indexação e resumos Teoria e prática Segunda edição revista e atualizada Lancaster, F. W. 1933- Indexação e resumos : teoria e prática / F. W. Lancaster ; tradução de Antonio Agenor Briquet de Lemos. – 2 ed. Ver. atual. – Brasília, DF : Briquet de Lemos / Livros, 2004. Título original: Indexing and adstracting in theory and practice. Bibliografia ISBN 85-85637-24-2 1. Indexação. 2. Resumos – Redação. I. Título. Desde sua primeira edição em 1991, este livro encontrou excelente acolhida entre os profissionais da informação. Sua tradução brasileira inaugurou as atividades editoriais de Briquet de Lemos / Livros, em 1993. Esta terceira edição, cujo original foi publicado nos EUA em 2003, foi inteiramente revista e atualizada, tendo sido incluídos dois novos capítulos: sobre bases de dados de imagens e sons, e indexação na internet. Trata-se de texto que alcançou a categoria de clássico na matéria e que é recomendado praticamente em todos os cursos de biblioteconomia e ciência da informação. Além disso, sua utilidade é incontestável para profissionais que, entre outras atividades, trabalhem na produção e manutenção de bases de dados, construção de portais na internet, intranets e em programas de gestão do conhecimento. A parte sobre resumos reveste-se de particular interesse não apenas para produtores de bases de dados, mas também para editores de periódicos científicos. F. W. Lancaster é professor emérito da Graduate School of Library and Information Science da University of Illinois (EUA). Reconhecido internacionalmente como um dos maiores expoentes da biblioteconomia e ciência da informação, teve a primeira edição desta obra premiadas, em 1992, pela American Society for Information Science, como o melhor livro de ciência da informação. Premiação que voltou a ser concedida a três outros títulos de sua autoria. 2 Como referenciar os capítulos do livro? LANCASTER, F. W. Título do capítulo. In: ________. Indexação e resumos: teoria e prática. Brasília, DF: Briquet de Lemos/Livros, 2004. Cap. Número do capítulo, p. Página inicial-Página final. OBS.: preencha todos os campos (basta dar um clique em cima de cada um) com os dados necessários e copie depois todo o modelo de referência acima e cole no local desejado. Páginas inicial e final de cada capítulo no livro original impresso de onde se extraiu o texto Divisões Capítulo Título Página Inicial Página Final Parte 1 Teoria, princípios e aplicações 1 Introdução 1 5 2 Princípios da indexação 6 23 3 A prática da indexação 24 49 4 Índices pré-coordenados 50 67 5 Coerência da indexação 68 82 6 Qualidade da indexação 83 99 7 Resumos: tipos e funções 100 112 8 A redação do resumo 113 134 9 Aspectos da avaliação 135 157 10 Métodos adotados em serviços impressos de indexação e resumos 158 185 11 Como melhorar a indexação 186 198 12 Da indexação e redação de resumos de obras de ficção 199 213 13 Bases de dados de imagens e sons 214 248 14 Buscas em textos 249 283 15 Indexação automática, redação automática de resumos e processos afins 284 338 16 A indexação e a internet 339 357 17 O futuro da indexação e redação de resumos 358 368 Parte 2 Prática 18 Exercícios de indexação 369 382 19 Exercícios de redação de resumos 383 391 Apêndices 1 Síntese de princípios de redação de resumos 392 393 2 Análise de conteúdo modular 394 396 3 Sumário Prefácio ..................................................................................................................... 6 Agradecimentos .......................................................................................................... 7 Uma nota sobre terminologia (e a redescoberta da roda) ............................................... 8 Lista de figuras ......................................................................................................... 11 Parte 1 – Teoria, princípios e aplicações ...................................................................... 14 Capítulo 1 - Introdução ........................................................................................... 14 Capítulo 2 – Princípios da indexação ........................................................................ 17 Extensão do registro ..................................................................................................................... 17 Etapas da indexação de assuntos ................................................................................................... 18 Atinência ..................................................................................................................................... 21 Tradução ..................................................................................................................................... 24 Vocabulários controlados ............................................................................................................... 25 Indexação como classificação ........................................................................................................ 25 Especificidade do vocabulário ........................................................................................................ 26 Capítulo 3 – A prática da indexação ......................................................................... 28 Exaustividade da indexação ........................................................................................................... 30 Princípio da especificidade ............................................................................................................. 34 Outras diretrizes ........................................................................................................................... 35 Índices pós-coordenados ............................................................................................................... 36 Instrumentos auxiliares da indexação ............................................................................................. 37 Capítulo 4 – Índices pré-coordenados ...................................................................... 46 Classificação em índices de assuntos .............................................................................................. 52 Nível de coordenação .................................................................................................................... 56 Índices de final de livro ................................................................................................................. 57 Índices pré-coordenados versus índices pós-coordenados ................................................................ 57 Capítulo 5 – Coerência da indexação ........................................................................ 58 Fatores que influem na coerência .................................................................................................. 59 Coerência na análise conceitual versus coerência na tradução .......................................................... 63 Capítulo 6 – Qualidade da indexação ....................................................................... 67 Como reconhecer uma’ boa’ indexação ........................................................................................... 69 Fatores que influem na qualidade da indexação .............................................................................. 70 A qualidade está relacionada à coerência? ...................................................................................... 72 A utilidade dos estudos de coerência .............................................................................................. 73 A qualidade medida com o emprego de um padrão ......................................................................... 74 Capítulo 7 – Resumos: tipos e funções .....................................................................78 Finalidade dos resumos ................................................................................................................. 80 Resumos modulares ..................................................................................................................... 82 Minirresumos ............................................................................................................................... 85 Resumos telegráficos .................................................................................................................... 85 Capítulo 8 – A redação do resumo ........................................................................... 86 Conteúdo e formato ...................................................................................................................... 87 Resumidores ................................................................................................................................ 91 Qualidade e coerência na redação de resumos ................................................................................ 92 Questões de compatibilidade ......................................................................................................... 95 O boletim interno ......................................................................................................................... 96 Inclinação para um assunto ........................................................................................................... 99 Capítulo 9 – Aspectos da avaliação ........................................................................ 100 4 Cobertura .................................................................................................................................. 100 Recuperabilidade ........................................................................................................................ 106 Previsibilidade ............................................................................................................................ 109 Atualidade ................................................................................................................................. 111 Normas ..................................................................................................................................... 112 Outros aspectos concernentes à avaliação .................................................................................... 112 Capítulo 10 – Métodos adotados em serviços impressos de indexação e resumos ...... 114 Índices alfabético-específicos ....................................................................................................... 114 Índices classificados ................................................................................................................... 118 Outros índices ............................................................................................................................ 124 Índices de citações ..................................................................................................................... 131 Conclusão .................................................................................................................................. 134 Capítulo 11 – Como melhorar a indexação .............................................................. 137 Indexação ponderada ................................................................................................................. 137 Elos entre termos ....................................................................................................................... 138 Indicadores de função ................................................................................................................ 139 Subcabeçalhos ........................................................................................................................... 143 Dispositivos da linguagem de indexação ....................................................................................... 144 Capítulo 12 – Da indexação e redação de resumos de obras de ficção ...................... 146 A ficção em particular ................................................................................................................. 148 Redação de resumos .................................................................................................................. 152 Capítulo 13 – Bases de dados de imagens e sons .................................................... 156 Indexação de imagens ................................................................................................................ 156 Abordagens baseadas no conteúdo .............................................................................................. 159 Imagens na Rede Mundial ........................................................................................................... 164 Resumos de imagens .................................................................................................................. 165 Atributos da imagem .................................................................................................................. 166 Com base em conceitos ou em conteúdo? .................................................................................... 168 Metadados e vocabulários de indexação ....................................................................................... 170 Bases de dados de sons .............................................................................................................. 170 Recuperação de música .............................................................................................................. 173 Sistemas multimídias .................................................................................................................. 174 Conclusões ................................................................................................................................ 176 Capítulo 14 – Buscas em textos ............................................................................. 178 Um pouco de história .................................................................................................................. 178 Recursos auxiliares de busca ....................................................................................................... 180 Linguagem natural versus vocabulário controlado: algumas considerações gerais ............................. 180 Revisão de estudos afins: antes de 1980 ...................................................................................... 184 Revisão de estudos afins: a partir de 1980 .................................................................................... 189 Sistemas híbridos ....................................................................................................................... 191 O vocabulário pôs-controlado ...................................................................................................... 192 Abordagens atuais ...................................................................................................................... 194 O que foi concretizado?............................................................................................................... 195 Perguntas e respostas ................................................................................................................. 197 Descoberta de conhecimento ....................................................................................................... 197 Conclusões ................................................................................................................................ 198 Capítulo 15 – Indexação automática, redação automática de resumos e processos afins ..........................................................................................................................199 Indexação por extração automática ............................................................................................. 200 Indexação por atribuição automática ............................................................................................ 202 Estudos anteriores sobre indexação ............................................................................................. 202 Outras formas de classificação ..................................................................................................... 204 Redação automática de resumos.................................................................................................. 208 Operações ‘automáticas’ de recuperação ...................................................................................... 212 Abordagens atuais ...................................................................................................................... 214 5 Conclusões ................................................................................................................................ 227 Capítulo 16 – A indexação e a internet ................................................................... 232 Serviços de busca na Rede .......................................................................................................... 232 Recursos de recuperação ............................................................................................................ 233 Metadados ................................................................................................................................. 236 Resumos na Rede ....................................................................................................................... 238 Spamming de índice e outras trapaças ......................................................................................... 239 Vinculação de hipertexto/hipermídia ............................................................................................. 240 Classificação na internet .............................................................................................................. 241 Portais ....................................................................................................................................... 242 Capítulo 17 – O futuro da indexação e redação de resumos ..................................... 244 Abordagens profissionais ............................................................................................................. 246 Abordagens alternativas .............................................................................................................. 247 Abordagens automáticas ............................................................................................................. 248 Conclusão .................................................................................................................................. 248 Parte 2 – Prática ..................................................................................................... 250 Capítulo 18 – Exercícios de indexação .................................................................... 250 Itens a serem indexados ............................................................................................................. 250 Indexação e explicações do autor ................................................................................................ 253 Capítulo 19 – Exercícios de redação de resumos ..................................................... 259 PARTE 1 .................................................................................................................................... 259 Resumos deste autor .................................................................................................................. 259 PARTE 2 .................................................................................................................................... 261 Resumos ................................................................................................................................... 261 Comentários deste autor ............................................................................................................. 263 Apêndice 1 – Síntese de princípios de redação de resumos ...................................... 265 Princípios gerais ......................................................................................................................... 265 Princípios relativos ao conteúdo ................................................................................................... 265 Apêndice 2 – Análise de conteúdo modular com módulos temáticos ......................... 267 Entradas de índice ...................................................................................................................... 268 6 Prefácio A primeira edição desta obra, que recebeu o prêmio de melhor livro do ano sobre ciência da informação, outorgado pela American Society for Information Science, foi publicada em 1991; a segunda foi lançada em 1998. Ambas foram bem-recebidas pelos críticos, e o livro tem sido amplamente utilizado como texto didático na América do Norte, no Reino Unido e em outros países. Entre 1991 e 1998 este campo passou por mudanças notáveis, o que suscitou a necessidade de novos capítulos, principalmente sobre a internet e a indexação e elaboração de resumos para bases de dados de imagens e sons. As mudanças verificadas a partir de 1998 foram menos marcantes. No entanto, ocorreram avanços que definiam a necessidade de uma terceira edição. Todo o texto foi atualizado, embora os capítulos iniciais, que tratam mais de princípios básicos, permaneçam bem similares aos da segunda edição. Em compensação, alguns dos capítulos finais foram substancial ou completamente reescritos. Refiro-me aos capítulos 13-17 que tratam, respectivamente, de bases de dados de imagens e sons, buscas em textos, indexação automática e atividades afins, indexação e a internet, e o futuro da indexação e da redação de resumos. Não alterei muitas das figuras porque acho que as que foram utilizadas na segunda edição ainda continuam totalmente válidas para ilustrar os aspectos que desejo mostrar. Isso é ainda mais verdadeiro no que tange ao capítulo 10, sobre serviços impressos de indexação e resumos. Embora pudesse ter atualizado as páginas apresentadas como amostras, pareceu-me bastante desnecessário fazê-lo. Embora a indexação e redação de resumos fossem antigamente tidas como processos que somente interessavam a bibliotecas e a algumas editoras, sua relevância e utilidade são reconhecidas hoje em dia de modo muito mais amplo, pois, obviamente, encontram aplicação em todos os tipos de recursos de informação em formato digital. Assim, esta edição, embora continue sendo destinada fundamentalmente ao uso como texto didático em escolas de biblioteconomia e ciência da informação (e programas afins), ainda se reveste de interesse para um público muito maior: produtores de bases de dados de todos os tipos, bem como aquelas pessoas interessadas em outras áreas, como o projeto de intranets, desenvolvimento de portais, sistemas de gerenciamento da informação, e gestão do conhecimento em geral. Acho que devo dizer algo acerca das fontes citadas. O autor de uma recensão da primeira edição criticou-me por continuar citando fontes ‘antigas’. Apesar de ter feito um esforço para atualizar por completo as fontes citadas (até o começo de 2003), não tenho por que me desculpar por continuar citando material antigo e até muito antigo. Para mim é inconcebível que um livro sobre este assunto deixe de citar (por exemplo) Cutter (1876) e Ranganathan (década de 1930). Ademais, muitas pessoas que hoje escrevem sobre esses temas parecem não ter interesse nem conhecer as primeiras contribuições feitas a este campo. Acredito que seja importante,principalmente para os estudantes, compreender como este campo se desenvolveu e reconhecer que muitas das idéias atualmente apresentadas como novas podem ser encontradas, de fato, na literatura de trinta ou mais anos passados, em forma um tanto similar. Do mesmo que nas edições anteriores, esta não procura lidar com os índices de livros isolados, que aparecem no final dos livros impressos. Trata-se de assunto bem estudado em outras obras escritas por pessoas com muito mais experiência do que eu nessa área específica. Esta edição deve ainda ser vista como um texto de natureza introdutória. Embora creia que os capítulos 1-12 sejam bastante abrangentes, já sobre os temas focalizados nos capítulos 13-15 foram escritos livros completos, de modo que esses capítulos, em particular, devem ser lidos como introduções a esses temas. F.W. LANCASTER Urbana, Illinois (EUA) Março de 2003 7 Agradecimentos Encontra-se consignada nas legendas das figuras a permissão para utilização de várias figuras de diferentes fontes. Além disso, quero agradecer a: Elsevier Science pela permissão para citar alguns trechos extensos de textos publicados em Information Processing and Management; OCLC Inc. pela permissão para reproduzir longas passagens de um artigo de O’Neill et al. (2001); John Wiley and Sons pela permissão para citar vários trechos extensos de material publicado no Journal of the American Society for Information Science and Technology (e seus antecessores); Information Today Inc. (<www.infotoday.com> pela permissão para reproduzir extensas citações de Rock (2001), de EContent e de Online; IBM pela permissão para reproduzir uma longa citação do IBM Systems Journal; Thomas Craven pela permissão para reproduzir citações de vários de seus artigos; Getty Research Institute por extensas citações de Layne (2002); IOS Press pela permissão de reproduzir urna extensa citação de Nielsen (1997); e ACM Publications pela permissão de fazer citação de Wactlar et al. (2002). Os termos e definições extraídos da iso 5963:1985 são reproduzidos com a permissão da International Organization for Standardization (ISO). Esta norma pode ser obtida junto a qualquer membro da 150 e no sítio na Rede da secretaria central da ISO no seguinte endereço: <www.iso.org>. O detentor do direito autoral é a ISO. Por fim, quero agradecer a várias pessoas por sua ajuda nesta edição: Bella Weinberg por ter me chamado a atenção para algumas fontes que, de outra forma, me teriam passado despercebidas; Bryan Heidorn por ter lido um primeiro rascunho do capítulo 13; Susanne Humphrey e Lou Knecht por atualizarem as informações de que dispunha acerca da National Library of Medicine; June Silvester, do Center for Aero Space Information; Chandra Prabha pelas informações do OCLC; o pessoal da Library and Information Science Library da University of Illinois (e especialmente Sandy Wolf), por sua paciente ajuda na localização de material para mim, e Kathy Painter pelo seu trabalho, tradicionalmente excelente, de colocar a revisão do texto em formato eletrônico. F.W. LANCASTER Urbana, Illinois Abril de 2003 8 Uma nota sobre terminologia (e a redescoberta da roda) Tenho trabalhado em bibliotecas ou em torno delas há muitos anos. Durante grande parte desse tempo estive envolvido, de uma ou outra forma, com a análise de assuntos. Em 1957, comecei a trabalhar redigindo resumos, que abrangiam uma ampla gama de material científico e tecnológico, para um boletim de resumos para a indústria, tarefa que exigia também um nível minucioso de indexação temática dos itens resumidos. Em 1958, assumi o trabalho de editor desse boletim. Anteriormente tivera experiência com a classificação de livros numa biblioteca pública, além de redigir anotações, sobre características locais, a serern incluídas nas fichas catalográficas (na década de 1950 a catalogação cooperativa ou centralizada ainda não era a norma). Por volta de 1961 estava envolvido no campo da ‘recuperação da informação’, e publiquei meu primeiro artigo em 1963 e o primeiro livro em 1968. Em outras palavras, tem sido muito longa minha participação nas áreas de análise temática/recuperação da informação, presenciei inúmeras mudanças e conheci muitos dos principais atores deste palco em particular. Até o final da década de 1940 e começo da década de 1950, o campo que hoje lembramos como ‘recuperação da informação’ era domínio quase exclusivo da profissão de bibliotecário. A realização de duas importantes conferências internacionais, além do reconhecimento de que os computadores poderiam aportar uma contribuição importante ao problema da recuperação da informação, tornaram o campo mais atraente e para ele acorreram pesquisadores de muitas outras áreas. Ao longo de um período de mais de 50 anos, as contribuições à bibliografia sobre recuperação da informação tiveram origem em praticamente todos os campos acadêmicos, inclusive matemática, ciência da computação, psicologia, estatística, direito e medicina (informática médica). Embora rostos novos e novos enfoques sejam sempre bem-vindos, é lamentável que muitos dos que hoje trabalham neste campo não tenham nenhuma formação prévia e, por isso, nenhum alicerce sólido sobre o qual construir. O maior problema é causado pelo fato de que muitos dos que atualmente trabalham com recuperação da informação parecem completamente ignorantes do fato de que outros processos diferentes dos totalmente automáticos foram aplicados, com algum sucesso, à recuperação da informação durante mais de 100 anos, e que de fato existe uma bibliografia sobre recuperação da informação além daquela da comunidade de informática. Exemplo gritante encontra-se em Agosti et al. (1995), que definem as ‘etapas da indexação’ como “extração de termos [term extractionl, remoção de termos proibidos- [stop- terni remova], fusão [conflation] e ponderação [weighting]”. Muitas idéias surgidas hoje possuem claros antecedentes na literatura de 30 ou 40 anos atrás, mas esses trabalhos pioneiros são completamente desconhecidos para os pesquisadores atuais. Um caso pertinente é a pesquisa sobre mapas visuais ou ‘navegadores’ [browsers] para facilitar a navegação em sistemas de hipermídia (por exemplo, Fowler et al., 1996; Zizi, 1996) que é basicamente uma redescoberta dos ‘mapas semânticos’ [semanhic roadmaps] de Doyle (1961). O campo da recuperação de imagens parece ser o pior de todos em matéria de reinventar a roda. Por exemplo, um artigo de Schreiber et al. (2001) descreve um esquema para indexação de fotografias (denominam-no ‘anotação fotográfica baseada na ontologia’ [ontology-based photo annotation], que se baseia essencialmente num conjunto bastante simples de facetas. Parece que acreditam que a análise de facetas surgiu com eles ou, pelo menos, com Outros que trabalham na mesma área. Ironicamente, o trabalho deles foi publicado num periódico dedicado a ‘sistemas inteligentes’. Os cientistas da computação que escrevem sobre recuperação da informação parecem reconhecer e citar somente Outros cientistas da computação que escrevem sobre recuperação da informação. Exemplo óbvio é o reconhecimento e a citação quase unânimes de Salton como a autoridade em medidas de revocação e precisão na avaliação de atividades de recuperação da informação. Gerard Salton, por mais importante que tenha sido no campo da recuperação da informação, com a maior certeza não foi o introdutor dessas medidas, que, de fato, remontam à década de 1950. Esse fenômeno de redescobrimento foi salientado por Holmes (2001), ele próprio um cientista da computação, que nos faz lembrar a advertência feita por George Santayana para quem aqueles que não podem recordar o passado estão condenados a repeti-lo. Holmes, partindo disso, acrescenta: [...] o que pensamos que sejam inovações muitas vezes são meras repetições [...] nossa profissão pode desenvolver-se de modo mais rápido e melhor por meio de inovações cumulativas, construindosobre os alicerces de seu passado ao invés de ignorá-lo (p. 144). Ele afirma que, em particular, as obras de Vannevar Bush e Hans Peter Luhn, que datam de 40 ou 60 anos, contêm idéias que desde então são reinventadas. Minha pior experiência com esse problema específico ocorreu há vários anos, quando deparei com um artigo escrito por um cientista europeu, essencialmente um matemático, acerca de assunto sobre o qual eu 9 publicara anteriormente. Quando escrevi para mostrar que ele deixara de citar meu trabalho anterior, e diversos outros de autoria de outros pesquisadores, ele contestou, folgadamente, para dizer que nunca pesquisava na literatura, a não ser que estivesse escrevendo um artigo de revisão! Que espécie de não- ciência egoísta é essa? Outro resultado da multiplicidade de profissões que agora contribuem para a literatura de análise temática/recuperação da informação está na substituição, sem necessidade, da terminologia, apropriada e reconhecida, da profissão bibliotecária. Exemplo óbvio é ‘metadados’. O Oxford English Dictionary (em linha) registra 1968 como o ano do aparecimento dessa palavra. Na época foi usada para designar dados que descreviam conjuntos de dados (numéricos ou estatísticos). Desde então tornou-se praticamente um substituto para ‘descrição bibliográfica’, denominação esta perfeitamente razoável, com a qual convivíamos há muitos e muitos anos e que é aceita em normas internacionais. Alguém, é claro, poderia argumentar que ‘bibliográfico’ aplica-se apenas a livros. Sua extensão, porém, a outras formas documentárias (como em ‘base de dados bibliográficos’ e ‘referência bibliográfica’) convive conosco há muito tempo. Alguns autores, com certeza, chamaram atenção para o mesmo problema. Milstead e Feldman (1999), por exemplo, argumentam convincentemente: Quer o chamemos de catalogação. indexação ou metadados. o conceito é familiar aos profissionais da informação. Agora, o mundo eletrônico por fim o descobriu. Faz alguns anos, somente uns poucos filósofos haviam ouvido falarem ‘metadados’. Hoje em dia, é difícil encontrar uma publicação sobre recursos eletrônicos que ignore essa palavra. [...] Como o personagem que passou toda a vida escrevendo prosa sem saber que o fazia,* os bibliotecários e indexadores vêm há séculos produzindo e normalizando metadados. Ignorando este legado, uma imensa variedade de outros atores ingressaram recentemente nesse campo, e muitos deles não têm qualquer idéia de que alguém mais antes deles já tenha ‘estado ali, feito aquilo’. Sistemas diferentes estão sendo desenvolvidos para tipos diferentes e às vezes os mesmos de informação, disso resultando uma atmosfera caótica de normas conflitantes (p. 25). Não obstante, parecem dispostas a aceitar a nova terminologia. Pessoas de nosso próprio campo, que certamente deveriam saber mais (e ser mais responsáveis), colaboram com essa situação. Por exemplo, Greenberg (2003) nos diz que a geração de metadados por seres humanos ocorre quando uma pessoa, como um criador profissional de metadados ou um fornecedor de conteúdo, produz metadados. Para ela ‘criador profissional de metadados’ é o ‘catalogador’ ou ‘indexador’, conforme admite depois em seu artigo (embora ela também inclua ‘web inaster’ nesta categoria). Fiquei profundamente chocado (e de modo algum satisfeito) ao saber que gastei vários anos de minha vida como criador profissional de metadados, se bem que inocente disso. Muitos que escrevem sobre recuperação de imagens usam o termo ‘anotação’ para designar a atribuição de rótulos de texto, como palavras-chave, que identificam o que a imagem representa, o que, evidentemente, e’’ indexação’. Isso é duas vezes lamentável porque ‘anotação’ [annotation], há muitos anos, é empregada para designar o que é, fundamentalmente, um resumo muito sucinto (que aparecia antigamente em fichas de catálogos). Liu e Li (2002) mencionam termos de indexação atribuídos a videoclipes como ‘etiquetas de anotação’ [atinotation tags]. Parece que elas constituem uma ‘descrição semântica’ [semantic description] e são obtidas por meio de ‘extração semântica’ [semantic extraction] que, provavelmente, significa identificação do assunto tratado. Parte dessa confusão terminológica se deve a desleixo no trabalho editorial. Faz pouco deparei com um artigo em que a palavra ‘indexation’, que estava até no título, era usada como sinônimo de ‘indexing’. O vocábulo ‘indexation’ realmente existe na língua inglesa, mas empregado apenas em contexto econômico (por exemplo, em relação a certas variáveis, como aumento ou redução de salários e juros às mesmas taxas do índicé de custo de vida); quase com certeza não é sinônimo de ‘indexing’. Os autores, neste caso, têm uma desculpa porque são franceses (‘indexation’ é o equivalente francês de ‘indexing’), mas não há desculpa para os editores de um periódico em língua inglesa se permitirem tal incorreção. Aguardo agora que a palavra ‘indexation’ venha a substituir ‘indexing’ na literatura de ciência da computação. Santini (2002), outro cientista da computação, conclamou seus colegas de profissão a ser mais responsáveis no uso da linguagem. E adverte que: O irrefreável uso incorreto da linguagem em informática ameaça levar nossa profissão a se isolar da sociedade e tornar incompreensíveis nossas realizações (p. 128). Santini concorda com o ponto que venho tentando expor: Outras palavras fazem mais sentido, mas estão sendo inexplicavelmente abandonadas em favor de vocábulos menos apropriados (p. 126). * Monsieur Jourdan, personagem de Le bourgeois gentilhomme, de Moliêre. (N.T.) 10 Dentre os termos que ele destaca para serem desprezados estão ‘data warehouse’ [armazém de dados] e ‘data inart’ [mercado de dados] em vez de ‘data- base’ [base de dados]. Uma palavra que enfrento cena dificuldade em aceitar é ‘inining’ [mineração] (como em data inining, text mining, speech inining ou Web mining [mineração de dados, mineração de texto, mineração de fala ou mineração da Rede], que é amiúde usada como sinônimo de ‘knowledge discovery’ [descoberta de conhecimento]. Meu pai passou muitos anos da vida numa mina de carvão do norte da Inglaterra, trabalhando como cavouqueiro. Eram longas horas de trabalho, e durante a maior parte do ano só lhe era possível ver a luz do dia uma vez por semana. Muitas vezes, cavoucava o carvão num ‘veio molhado’, deitado na água, de costas ou de lado, numa galeria de teto muito baixo. Não tenho certeza de que esse tipo de extração trabalhosa, na semi-escuridão, seja a analogia que os ‘data miners’ [mineradores de dados] queiram realmente usar. Minha maior queixa, porém, é o fato de o substantivo 'classiflcation’ haver sido praticamente substituído por (pasme-se!) ‘taxonomy’ (pasme-se duas vezes!!), ‘ontology’ ou até (pasme-se três vezes!!!) ‘taxonoinized set of terms’ [conjunto taxonomizado de termos]. A maneira como estes termos são definidos em artigos recentes mostra claramente que são empregados como sinônimos de ‘classification scheme’ [esquema de classificação]. Característico disso é um artigo de Hovy (2003) que define: [...] uma ontologia simplesmente como um conjunto taxonomizado de termos, que variam desde termos muito gerais na parte superior [...] até termos muito especializados na parte inferior (p. 48). A ‘ontologia’ de Hovy toma-se uma ‘coiwept hierarchy’ [hierarquia de conceitos] em Meng et al. (2002), que a definem como “um grande número de conceitos organizados em múltiplos níveis, de modo que os conceitos em níveis superiores possuem significados mais amplos do que os de níveis inferiores”. Quando fiz o curso de biblioteconomia, zilhões de anos atrás, essas definições teriam sido definições exatas, embora muito simplistas, de classificação hierárquica. Soergel (1999) também execrou a substituição de ‘classificação’ por ‘ontologia’ e o fez com muita propriedade: Uma classificação, qualquerque seja seu nome, continua sendo uma classificação. O emprego de termo diferente é sintomático da falta de comunicação entre as comunidades científicas. Ignora-se amplamente o vasto corpo de conhecimentos, que se desenvolveu em torno das classificações bibliográficas e mais geralmente da ciência da informação, sobre a estrutura das classificações e as maneiras de representá-las, bem como o imenso capital intelectual consubstanciado em muitos esquemas de classificação e tesauros. Sistemas grandes e úteis vêm sendo construídos com mais esforço do que seria necessário. Exemplos são o cyc ontology (<www.cyc.com/cyc2- l/intro-public.html>), cuja apresentação poderia ser bastante melhorada, ou wordNct (<cogsci.princeton.edu/—wn> ou <www.notredame.ac.jplcgi-bin/wn.cgi>), uni sistema maravilhoso cuja construção teria lucrado com a aplicação da experiência com a construção de tesauros e cuja hierarquia (de conceitos) synset deveria ser tornada mais facilmente acessível com o emprego de métodos clássicos de representação de classificação. Outro exemplo é o ANSI Ad Hoc Group on Ontology SLandards (<wwwksl.stanford.cdu/onto_std/index,html>), que parece não contar entre seus membros com nenhum cientista da informação interessado em classificação (p. 1120). A ‘classificação’ como atividade também está sendo substituida na literatura de ciência da informação pela ‘categorização’ (como em ‘categorização de textos’), mas isso, apesar de aborrecer, não parece ser tão escandaloso. Alguns termos da nova terminologia são superficialmente atraentes. Fui razoavelmente receptivo ao vocábulo ‘summarization’ [sumarização] (porque poderia ser usado para abarcar ‘abstracting’ [redação de resumos], ‘extracting’ [extratação] e até mesmo ‘annotation’ [anotação]) até que descobri que um livro importante sobre o assunto (Endres-Niggemeyer, 1998) inclui a indexação temática como uma forma de sumarização. Embora um conjunto de termos de indexação possa, de fato, funcionar como uma espécie de resumo do conteúdo, a sumarização não é, com certeza, o principal objetivo da indexação. Neste livro, sempre que possível, ative-me à terminologia antiga. Por razões de clareza, usei alguns poucos termos novos, como metadados, mas o fiz com relutância. 11 Lista de figuras Figura 1 – A função da elaboração de índices e resumos no quadro mais amplo da recuperação da informação ......................................................................................................................................... 15 Figura 2 – O problema da recuperação de itens pertinentes de uma base de dados .................................. 15 Figura 3 – Efeito da extensão do registro sobre a recuperabilidade .......................................................... 18 Figura 4 – Exemplo de um documento indexado segundo diferentes pontos de vista ................................ 19 Figura 5 – Análise conceitual traduzida em três vocabulários controlados ................................................. 27 Figura 6 – As duas dimensões da indexação de um documento ............................................................... 31 Figura 7 – Rendimentos decrescentes na indexação ............................................................................... 33 Figura 8 – Sistema de recuperação da informação representado como uma matriz ................................... 38 Figura 9 – Formulário de indexação utilizado antigamente pela National Library of Medicine ...................... 39 Figura 10 – Formulário característico da indexação de Mooers ................................................................ 40 Figura 11 – Parte de vocabulário especializado sobre computadores digitais utilizado pelo U. S. Patent and Trademark Office ................................................................................................................................ 41 Figura 12 – Seção do microtesauro do Air Pollution Technical Information Center ..................................... 42 Figura 13 – Tela de etiquetas no DCMS ................................................................................................. 43 Figura 14 – Registro de indexação pronto no DCMS ............................................................................... 44 Figura 15 – Exemplo de entradas de Medical subject headings – annoted alphabetic list (2003) ................. 44 Figura 16 – Exemplo de entradas de Tumor key, um vocabulário de entradas especializado antigamente utilizado pela National Library of Medicine ............................................................................................. 45 Figura 17 – Entradas de um índice SLIC ................................................................................................ 47 Figura 18 – Entradas de índice baseado na alternação sistemática (modelo da Excerpta Medica) ............... 48 Figura 19 – Exemplo de entradas de um índice KWIC ............................................................................. 49 Figura 20 – Amostra das entradas de um índice KWOC .......................................................................... 50 Figura 21 – Formato alternativo de um índice KWOC usado no Diabetes-Related Literature Index, suplemento de Diabetes, volume 12, 1960. ........................................................................................... 51 Figura 22 – Exemplo de entradas do British Technology lndex ................................................................ 55 Figura 23 – Sistema de relações de Farradane ....................................................................................... 56 Figura 24 – Termos (04 - J) atribuídos ao mesmo documento por cinco indexadores diferentes (a - e) ....... 58 Figura 25 – Possíveis fatores que influem na coerência da indexação....................................................... 59 Figura 26 – Relação entre coerência e quantidade de termos atribuídos ................................................... 60 Figura 27 – Efeito da quantidade de termos atribuídos sobre a coerência do indexador (dois indexadores) . 61 Figura 28 – Dois enfoques diferentes na indexação de um artigo intitulado .............................................. 64 Figura 29 – Dois enfoques diferentes na indexação de um artigo intitulado .............................................. 64 Figura 30 – Dois enfoques diferentes na indexação de um artigo intitulado .............................................. 65 Figura 31 – Dois enfoques diferentes na indexação de um artigo intitulado .............................................. 65 Figura 32 – Diferenças na análise conceitual de um artigo intitulado ........................................................ 66 Figura 33 – Fatores que influem nos resultados de uma busca numa base de dados ................................. 68 Figura 34 – Exemplo da perda de um item importante por causa de mera omissão do indexador ............... 69 Figura 35 – Fatores que podem afetar a qualidade da indexação ............................................................. 70 Figura 36 – Coerência do indexador relacionada aos interesses dos usuários ............................................ 72 Figura 37 – ‘Padrão’ de indexação para um artigo médico, mostrando escores relativos à atribuição de vários tipos de termos ................................................................................................................................... 75 Figura 38 – Escores de dois indexadores em comparação com o padrão da figura 37 ................................ 75 Figura 39 – Resumo indicativo ............................................................................................................. 78 Figura 40 – Resumo informativo ........................................................................................................... 79 Figura 41 – Exemplo de um resumo crítico ............................................................................................80 Figura 42 – Gabarito para um resumo estruturado ................................................................................. 81 Figura 43 – Resumo em ‘diagrama de bloco’ de um artigo hipotético junto com um resumo ‘convencional’ para comparação ................................................................................................................................ 82 Figura 44 – Resumos modulares ........................................................................................................... 83 Figura 45 – Entradas de índices modulares ............................................................................................ 83 Figura 46, Parte 1 – Comparação de minirresumo, resumo de autor e resumos publicados em Chemical Abstracts e Biological Abstracts (ver a parte 2 da figura) ........................................................................ 84 Figura 46, Parte 2 ............................................................................................................................... 84 Figura 47 – Princípios para redação de resumos, do Defense Documentation Center (1968) ...................... 87 Figura 48 – Exemplo de resumo altamente formatado ............................................................................ 89 12 Figura 49 – Informações essenciais de que necessitam os clínicos para avaliar a relevância e a qualidade de artigos e, portanto, para sua inclusão em resumos estruturados ............................................................. 89 Figura 50 – Fundamentos da redação de resumos ................................................................................. 91 Figura 51 – Resultados hipotéticos de um teste de previsibilidade de relevância ....................................... 92 Figura 52 – Regras, destinadas a resumidores, concernentes às características de recuperabilidade dos resumos ............................................................................................................................................. 98 Figura 53 – Crescimento da literatura científica sobre AIDS, 1982-1987 (Fonte: MEDLINE) ...................... 103 Figura 54 – Literatura sobre AIDS: cobertura por idioma, 1982-1987 (Fonte: MEDLINE).......................... 103 Figura 55 – Literatura sobre AIDS: cobertura por país, 1982-1987 (Fonte: MEDLINE) ............................. 103 Figura 56 – Número de periódicos que publicam artigos sobre AIDS, 1982-1987 (Fonte: MEDLINE) ......... 103 Figura 57 – Dispersão da literatura de periódicos sobre AIDS em 1987 (Fonte: MEDLINE) ....................... 104 Figura 58 – Gráfico da dispersão da literatura sobre AIDS .................................................................... 105 Figura 59 – Periódicos científicos que publicaram a maioria dos artigos sobre AIOS, 1982-1987 (Fonte: MEDLINE) ........................................................................................................................................ 105 Figura 60 – Exemplo hipotético da distribuição de itens sobre ‘supercondutores’ sob termos num índice impresso .......................................................................................................................................... 107 Figura 61 – Distribuição de itens sobre imunologia celular no porco sob termos no Index Medicus ........... 108 Figura 62 – Dispersão de itens sob termos de indexação ...................................................................... 108 Figura 63 – Exemplo de entradas do Cumulated Index Medicus (1996) .................................................. 115 Figura 64 – Exemplo de entradas do Medical subject headings (1996) ................................................... 116 Figura 65 – Exemplo de entradas da estrutura hierárquica (Tree structures) do Medical subject headings (1996) ............................................................................................................................................. 117 Figura 66 – Exemplo de entradas do índice de autores do Cumulated Index Medicus .............................. 117 Figura 67 – Exemplo de entradas do Applied Science and Technology Index, 1986 ................................. 118 Figura 68 – Exemplo de entradas do volume anual do Engineering Index (1993) .................................... 119 Figura 69 – Exemplo de entradas do índice de assuntos do Engineering Index (1993) ............................. 120 Figura 70 – Exemplo de entradas do Library and Information Science Abstracts (antes de 1993) ............. 121 Figura 71 – Exemplos de entradas do índice de assuntos do Library and Information Science Abstracts (antes de 1993) .......................................................................................................................................... 122 Figura 72 – Categorias de assuntos usadas pelo Library and Information Science Abstracts (1997) .......... 123 Figura 73 – Exemplo de entradas do Library and Information Science Abstracts ..................................... 124 Figura 74 – Exemplo de entradas do índice de assuntos do Library and Information Science Abstracts ..... 125 Figura 75 – Exemplo de entradas do índice de assuntos do Chemical Abstracts ...................................... 126 Figura 76 – Exemplo de entradas do índice de palavras-chave do Chemical Abstracts ............................. 127 Figura 77 – Exemplo de entradas do índice de fórmulas do Chemical Abstracts ...................................... 128 Figura 78 – Exemplo de resumos de Sociology of Education Abstracts ................................................... 129 Figura 79 – Exemplo de entradas de índice do Sociology of Education Abstracts ..................................... 129 Figura 80 – Exemplo de entradas do índice de assuntos do Epilepsy Abstracts ....................................... 130 Figura 81 – Diferenças na apresentação de referências entre o British Technology Index (BTI) e o Current Technology Index (CTI) de um item sobre cadinhos [ladles] para fornos a arco elétrico [arc furnaces] na produção de aço [steel] ..................................................................................................................... 130 Figura 82 – Exemplo de entradas PRECIS do British Education lndex ..................................................... 131 Figura 83 – Exemplo de entradas do Social Sciences Citation lndex ....................................................... 132 Figura 84 – Exemplo de entrada do índice de fontes do Social Sciences Citation Index ............................ 132 Figura 85 – Exemplo de entrada do índice de assuntos Permuterm do Social Sciences Citation Index ....... 133 Figura 86 – Exemplo de página do Current Contents ............................................................................ 134 Figura 87 – Exemplo de entradas do índice de palavras-chave do Current Contents ................................ 135 Figura 88 – O sistema de indicadores de função do EJC ....................................................................... 140 Figura 89 – Infixos semânticos do sistema da Western Reserve University ............................................. 141 Figura 90 – Indicadores de função do sistema da Western Reserve University utilizados na indexação da literatura de metalurgia ..................................................................................................................... 142 Figura 91 – Resumo telegráfico armazenado em formato eletrônico ...................................................... 142 Figura 92 – Os dispositivos de precisão criam classes menores; os dispositivos de revocação criam classes maiores. ........................................................................................................................................... 145 Figura 93 – Exemplo de entrada da base de dados de ficção Book House .............................................. 150 Figura 94 – Exemplode um romance indexado com o emprego do método de Pejtersen ......................... 150 Figura 95 – Duas sinopses possíveis de As aventuras de Pedro, o Coelho, de Beatrix Potter .................... 153 Figura 96 – Exemplo de uma entrada de Masterplots II (1986) ............................................................. 154 Figura 97 – Estruturas lingüísticas para orientar a anotação e indexação de ficção .................................. 155 Figura 98 – Principais níveis de abstração na base de dados de um museu de arte ................................. 157 13 Figura 99 – Exemplo do registro catalográfico de uma pintura .............................................................. 158 Figura 100 – Consulta formulada a uma base de dados meteorológicos. A consulta pede um complexo sistema de baixa pressão sobre a Nova Zelândia com sistemas de alta pressão a leste e oeste ................ 161 Figura 101 – Dois mapas meteorológicos recuperados em resposta à consulta da figura 100 ................... 162 Figura 102 – Consulta incremental numa base de dados de imagens ..................................................... 163 Figura 103 – Comparação entre resumo e indexação com vocabulário controlado ................................... 183 Figura 104 – Os prós e contras do texto livre versus vocabulário controlado ........................................... 184 Figura 105 – Exemplo de entrada da base de dados TERM ................................................................... 193 Figura 106 – Os problemas fundamentais da recuperação da informação ............................................... 200 Figura 107 – Exemplo de entradas de tesauro extraídas por métodos automáticos ................................. 207 Figura 108 – Ligações de citações/referências ..................................................................................... 208 Figura 109 – Exemplo de um auto-resumo de Luhn (Luhn 1958) ........................................................... 210 Figura 110 – Exemplo de extrato produzido pelo sistema ADAM de redação automática de resumos ........ 211 Figura 111 – Mapa de relações textuais baseado em Salton et al. (1997) ............................................... 213 Figura 112 – Busca inicial numa base de dados de um serviço de atendimento a clientes ........................ 226 Figura 113 – Pesquisa por mais informação em base de dados de serviço de atendimento a clientes ........ 227 Figura 114 – Casos com ordenação mais alta selecionados com base em consulta crítica e respostas dos clientes às perguntas ......................................................................................................................... 228 Figura 115 – Resumo de caso com a ação recomendada ao cliente ....................................................... 228 14 Parte 1 – Teoria, princípios e aplicações Capítulo 1 - Introdução O propósito principal da elaboração de índices e resumos é construir representações de documentos publicados numa forma que se preste a sua inclusão em algum tipo de base de dados. Essa base de dados de representações pode ser impressa (como numa publicação de indexação/resumos; por exemplo, o Chemical Abstracts ou o Engineering lndex), em formato eletrônico (quando a base de dados muitas vezes será o equivalente aproximado de um serviço impresso), ou em fichas (como num catálogo convencional de biblioteca). A função das operações de indexar / resumir, no âmbito maior das atividades de recuperação da informação, acha-se esquematizada na figura 1. Em primeiro lugar, o produtor da base de dados seleciona da população de documentos recém-publicados aqueles que atendam a certos critérios para sua inclusão na base de dados. O mais óbvio desses critérios é o assunto de que trata o documento. Outros critérios, no entanto, como o tipo de documento, a língua em que se acha escrito, ou sua origem, também são importantes. No caso das bases de dados que lidam principalmente com artigos de periódicos, os critérios de seleção comumente estarão centrados no periódico e não no artigo; ou seja, alguns periódicos serão incluídos e outros não (embora alguns periódicos sejam indexados em sua inteireza e outros o sejam de forma seletiva). A cobertura proporcionada por muitas bases de dados é, em grande medida, determinada por razões de custo-eficácia. Particularmente no caso de bases de dados que abranjam um campo altamente especializado, elas somente incluirão aqueles periódicos que publicam prioritariamente artigos sobre os assuntos de interesse. Os itens selecionados para inclusão na base de dados serão ‘descritos’ de várias formas. Os processos de catalogação descritiva (que não aparecem na figura 1) identificam autores, títulos, fontes, e outros elementos bibliográficos; os processos de indexação identificam o assunto de que trata o documento; e o resumo serve para sintetizar; o conteúdo do item. Os termos utilizados na indexação serão com freqüência extraídos de algum tipo de vocabulário controlado, como um tesauro (o ‘vocabulário do sistema’ da figura 1), mas, em vez disso, podem ser termos ‘livres’ (por exemplo, extraídos do próprio documento).* Estas atividades de descrição criam representações dos documentos numa forma que se presta para sua inclusão na base de dados. Os próprios documentos normalmente serão destinados a um tipo diferente de base de dados (o acervo de documentos) como é o caso das estantes de uma biblioteca. Os membros da comunidade a ser atendida utilizarão a base de dados, fundamentalmente, para satisfazer a diferentes necessidades de informação. Para lograr isso, devem converter uma necessidade de informação em algum tipo de ‘estratégia de busca’, a qual pode ser tão simples quanto a escolha de um único termo para consultar um índice impresso ou um catálogo em fichas, ou exigir a combinação de muitos termos numa estratégia mais elaborada e complexa, empregada para consultar uma base de dados mantida localmente ou conectada em linha a alguma rede de computadores. O que se almeja, evidentemente, ao fazer uma busca numa base de dados, é encontrar documentos que sejam úteis para satisfazer a uma necessidade de informação, e evitar a recuperação de itens inúteis. ‘Relevante’ e ‘pertinente’ são termos freqüentemente empregados para se referir a itens ‘úteis’, e foram definidos de diferentes formas. Há muito desacordo sobre o que realmente significam ‘relevância’ e ‘pertinência’ (Lancaster e Warner, 1993). Neste livro considerarei como sinônimas as expressões ‘útil’, ‘pertinente’ e ‘relevante para uma necessidade de informação’. Ou seja, um documento pertinente (útil) é aquele que contribui para satisfazer a uma necessidade de informação. O problema da recuperação da informação está representado graficamente na figura 2. O retângulo inteiro representa uma base de dados e os itens que contém. Os itens com sinal de adição (+) são aqueles que um consulente hipotético consideraria úteis para atender a uma necessidade de informação atual, e os itens com sinal de subtração (-) são aqueles que não consideraria úteis. Para qualquer necessidade específica de informação haverá muito mais itens - do que itens +. Na realidade, se se desenhasse o diagrama ‘em escala’, seria quase certo que os onze itens úteis estariam acompanhados de toda uma muralha de itens inúteis. O problema está em recuperar tantos itens úteis quantos for possível, e o menor número possível de itens inúteis. * Os termos utilizados podem, genericamente, ser designados como ‘termos de indexação’, embora, muitas vezes, seja também empregada a palavra ‘descritores’, em particular quando nós estamos referindo a termos de um tesauro. Neste livro, ambas as expressões são usadas de modo l:l(uivaknlc. 15 Figura 1 – A função da elaboração de índices e resumos no quadro mais amplo da recuperação da informação Figura 2 – O problemada recuperação de itens pertinentes de uma base de dados O menor dos dois retângulos internos da figura 2 representa os resultados de uma busca realizada na base de dados, que recuperou 57 itens, seis dos quais foram úteis e 51 inúteis. A relação entre itens úteis e o total de itens recuperados (6/57 ou cerca de 10% neste caso) é comumente denominada coeficiente de precisão. O índice empregado habitualmente para expressar a extensão com que todos os itens úteis são encontrados é o coeficiente de revocação. No presente exemplo, o coeficiente de revocação é de 6/11 ou cerca de 54%. Nessa situação, provavelmente seria preciso, para melhorar a revocação, fazer uma busca mais genérica. Essa busca é representada pelo maior dos dois retângulos internos. Ao fazer a busca de modo mais genérico, aumentou-se a revocação para 8/11 (73%), mas a precisão caiu ainda mais para 8/112, ou cerca de 7%. Uma característica lamentável, inerente à recuperação da informação, é que uma melhoria da revocação em geral implica perda de precisão e vice-versa. A figura 2 sugere outro fenômeno. Talvez fosse possível fazer uma busca suficientemente genérica para localizar todos os itens úteis (isto é, alcançar 100% de revocação); entretanto a precisão seria provavelmente inaceitável. Ademais, quanto maior for a base de dados, menos aceitável será uma baixa 16 precisão. Embora o usuário esteja disposto a examinar, por hipótese, 57 itens, a fim de encontrar seis que lhe sejam úteis, talvez se sinta muito menos inclinado a examinar 570 resumos para encontrar 60 que sejam úteis. Em bases de dados muito grandes torna-se, portanto, progressivamente mais difícil alcançar um nível de revocação aceitável com um nível de precisão satisfatório, uma situação que chegou a um ponto crítico quando se procura informação na internet. Neste livro emprego o termo revocação [recall] para designar a capacidade de recuperar documentos úteis, e precisão para designar a capacidade de evitar documentos inúteis. Existem outras medidas do desempenho para buscas realizadas em bases de dados (ver, por exemplo, Robertson, 1969), algumas das quais são matematicamente mais exatas, porém a revocação e a precisão compõem o quadro geral e ainda parecem ser as medidas óbvias a serem utilizadas para expressar os resultados de qualquer busca que simplesmente divida uma base de dados em duas partes (recuperados e não recuperados).* A figura 1 deixa evidente que são muitos os fatores que determinam se uma busca numa base de dados é ou não bem sucedida. Entre tais fatores encontra-se a cobertura da base de dados, sua política de indexação, sua prática de indexação, sua política e prática de redação de resumos, a qualidade do vocabulário empregado na indexação, a qualidade das estratégias de busca, e assim por diante. Este livro não enceta qualquer esforço no sentido de tratar de todos esses fatores (ainda que todos estejam inter-relacionados), mas se concentra nas atividades importantes de descrição do documento ou, pelo menos, aquelas que dizem respeito ao conteúdo dos documentos. Em princípio, a base de dados representada na figura 1 poderia ser a totalidade do conteúdo da Rede Mundial (World Wide Web) (doravante denominada simplesmente a Rede). No entanto, o diagrama não representa a situação da Rede tão bem quanto representa bases de dados, como o catálogo de uma biblioteca universitária ou uma base de dados de registros bibliográficos de a11igos de periódicos, como a base de dados MEDLINE da National Library of Medicine. Uma vez que qualquer organização ou qualquer pessoa pode criar uma página na Rede, não está em causa nenhum processo de seleção real. Ademais, embora os sítios da Rede possam incluir algum tipo de dado descritivo sobre seu conteúdo (normalmente denominados’ metadados’; ver a nota que precede imediatamente este capítulo), muitos não o’ fazem, e os dados descritivos são parte integrante das próprias páginas da Rede, não se encontrando numa base de dados separada. Além do que, a indexação e a elaboração de resumos de conteúdos da Rede por seres humanos constituem mais a exceção do que a regra, de modo que a maior parte das buscas ali feitas ocorre no texto integral dos sítios acessados por determinado mecanismo de busca. Nos casos em que são realizadas operações de indexação ou resumo, o provável é que sejam efetuadas ‘automaticamente’ por meio de várias etapas de processamento informatizado. Esses procedimentos automáticos, junto com as buscas em textos completos e o caso específico da Rede, são tratados nos capítulos finais deste livro. Embora a figura 1 não corresponda exatamente à situação encontrada na Rede, a figura 2, sim. Isto é, o problema de busca mostrado ali é igualmente pertinente às buscas feitas na Rede, exceto que multiplicada por ordens de grandeza. * Uma busca que classifique os resultados em ordem de ‘relevância provável’ exige uma medida um tanto diferente, a qual, com efeito, compara a classificação [ranking] obtida com uma classificação ideal. 17 Capítulo 2 – Princípios da indexação Embora o título deste livro se refira à ‘indexação’, seu alcance limita-se, de fato, à indexação de assuntos e redação de resumos. A indexação de assuntos e a redação de resumos são atividades intimamente relacionadas, pois ambas implicam a preparação de uma representação do conteúdo temático dos documentos. O resumidor redige uma descrição narrativa ou síntese do documento, e o indexador descreve seu conteúdo ao empregar um ou vários termos de indexação, comumente selecionados de algum tipo de vocabulário controlado. O principal objetivo do resumo é indicar de que trata o documento ou sintetizar seu conteúdo. Um grupo de termos de indexação serve ao mesmo propósito. Por exemplo, o seguinte conjunto de termos proporciona uma idéia bastante razoável sobre os assuntos tratados num relatório hipotético: Centros de Informação Compartilhamento de Recursos Catálogos Coletivos Catalogação Cooperativa Redes em Linha Empréstimos entre Bibliotecas Em certo sentido, essa lista de termos pode ser vista como uma espécie de minirresumo. Serviria a tal propósito se todos os termos fossem reunidos num índice publicado, copiados pela impressora ou mostrados na tela para representar um item recuperado numa base de dados, como resultado de uma busca em linha. De modo mais evidente, os termos atribuídos pelo indexador servem como pontos de acesso mediante os quais um item é localizado e recuperado, durante uma busca por assunto num índice publicado ou numa base de dados eletrônica.* Assim, num índice impresso, convém que se possa encontrar o item hipotético mencionado anteriormente sob qualquer um dos seis termos. Num sistema de recuperação informatizado, evidentemente, seria natural encontrá-lo sob qualquer um desses termos ou, de fato, sob qualquer combinação deles. A diferença entre indexação e redação de resumos está se tornando cada vez mais difusa. Por um lado, uma lista de termos de indexação pode ser copiada pela impressora ou mostrada na tela de modo a constituir um minirresumo. Por outro lado, o texto de resumos pode ser armazenado num sistema informatizado de modo a permitir a realização de buscas por meio da combinação de palavras que ocorram nos textos. Esses resumos podem ser utilizados no lugar de termos de indexação, permitindo o acesso aos itens, ou complementar os pontos de acesso proporcionados pelos termos de indexação. Em certa medida isso modifica a função do resumidor, que deve agora preocupar-se não só em redigir uma descrição clara e de boa qualidade do conteúdo do documento, mas também em criar um registro que seja uma representação eficaz para fins de recuperação. Se a indexação e a redação de resumos fossem consideradas como atividades inteiramente complementares, a natureza da atividade de indexação sofreria algum tipo de mudança. Por exemplo, o indexador se concentrariana atribuição de termos que complementassem os pontos de acesso existentes no resumo. Tal complementaridade, porém, deve ser inteiramente reconhecida e compreendida pelo usuário da base de dados. Do contrário, um conjunto de termos de indexação isolados daria uma imagem bastante equivocada do conteúdo de um item. Extensão do registro Uma das propriedades mais importantes de uma representação de conteúdo temático é sua extensão. O efeito da extensão do registro acha-se exemplificado na figura 3. No lado esquerdo da figura, encontram- se várias representações do conteúdo de um artigo de periódico na forma de texto narrativo; no lado direito, estão duas representações na forma de listas de termos de indexação. O título contém uma indicação geral sobre aquilo de que trata o artigo. O resumo breve oferece mais detalhes, indicando que o artigo apresenta resultados da pesquisa e identificando as principais questões analisadas. O resumo ampliado vai mais além, identificando todas as questões focalizadas na pesquisa e informando sobre o tamanho da amostra utilizada no estudo. * Outros autores empregam terminologia diferente para designar a indexação e os termos de indexação sem que isso altere de modo relevante o significado adotado neste livro. Por exemplo, Anderson (1985) vê os termos como ‘indicadores’ de conteúdo; indexação como “o processo de indicar o conteúdo e características afins de um documento”. O’Connor (1996) prefere o termo ‘apontamento’ [pointing]: os termos de indexação são apontadores; indexação é a tarefa de atribuir apontadores úteis a fontes de informação. 18 Quanto mais informações são apresentadas, mais claramente a representação revela o alcance do artigo, tornando-se mais provável que venha a indicar para o leitor se esse artigo satisfaz ou não a uma necessidade de informação. Por exemplo, alguém talvez esteja à procura de artigos que mencionem as atitudes norte-americanas em relação a vários líderes árabes. O título não traz indicação alguma de que esse tópico específico seja analisado, e o resumo breve, ao focalizar outros tópicos, sugere que talvez isso não aconteça. É somente o resumo ampliado que mostra que o artigo inclui informações sobre esse assunto. Também, quanto maior a representação, mais pontos de acesso ela proporciona. Se as palavras do título fossem os únicos pontos de acesso, esse item provavelmente não seria localizado em muitas buscas para as quais poderia ser considerado uma resposta válida. À medida que se aumenta a extensão da representação também se aumenta a recuperabilidade do item. É provável que somente com o resumo ampliado fosse possível recuperar esse item durante uma busca de informações sobre as atitudes norte- americanas em face dos líderes árabes. Título Pesquisa nacional de opinião pública sobre as atitudes norte- americanas a respeito do Oriente Médio Resumo (breve) Uma pesquisa realizada por telefone em 1985 apresenta opiniões sobre tópicos como: a ajuda norte-americana a Israel e ao Egito; se os EUA devem tomar o partido de Israel, das nações árabes, ou de nenhum destes; se a OLP deve participar de uma conferência de paz; e se um Estado palestino independente é um pré-requisito para a paz. Resumo (ampliado) Em 1985 foram feitas entrevistas por telefone com uma amostra probabilística de 655 norte-americanos. Obtiveram-se respostas às seguintes questões: o estabelecimento de um Estado palestino é essencial para a paz; deve ser reduzida a ajuda norte-americana a Israel e ao Egito; os EUA devem participar de uma conferência de paz que inclua a OLP; os EUA não devem favorecer nem Israel nem as nações árabes, mas, sim, manter relações amistosas com eles? Também se expressaram opiniões sobre os principais líderes do Oriente Médio (Hussein, Arafat, Peres, Mubarak, Fahd, Assad), especialmente seus esforços pela paz, e se os entrevistados achavam que possuíam ou não informações suficientes sobre os diversos grupos nacionais da região. Indexação (seletiva) OPINIÃO PÚBLICA PESQUISAS POR TELEFONE ESTADOS UNIDOS ATITUDES ORIENTE MÉDIO Indexação (exaustiva) OPINIÃO PÚBLICA PESQUISAS POR TELEFONE ESTADOS UNIDOS ATITUDES ORIENTE MÉDIO ISRAEL EGITO NAÇÕES ÁRABES ORGANIZAÇÃO PARA A LIBERTAÇÃO DA PALESTINA CONFERÊNCIAS DE PAZ PAZ ESTADO PALESTINO AJUDA EXTERNIA LÍDERES POLÍTICOS Figura 3 – Efeito da extensão do registro sobre a recuperabilidade A mesma situação aplica-se à indexação. A indexação seletiva, que inclua apenas cinco termos, apresenta uma indicação muito geral daquilo de que trata o artigo (aproximadamente equivalente, neste caso, ao título) e um nível de acesso muito limitado. A indexação mais exaustiva proporciona uma indicação muito melhor do assunto específico de que trata o artigo, bem como possibilita muito mais pontos de acesso. Etapas da indexação de assuntos A indexação de assuntos envolve duas etapas principais: 1. Análise conceitual, e 2. Tradução. Intelectualmente são etapas totalmente distintas, embora nem sempre sejam diferençadas com clareza e possam, de fato, ocorrer de modo simultâneo. A análise conceitual, em primeiro lugar, implica decidir do que trata um documento - isto é, qual o seu assunto. Os termos que aparecem na lista à direita, na figura 3, representam a análise conceitual de um artigo feita por este autor aquilo que, segundo sua opinião, constituía o assunto do artigo. Esta afirmativa sobre análise conceitual está bastante simplificada. A indexação de assuntos é normalmente feita visando a atender às necessidades de determinada clientela - os usuários de um centro de informação ou de uma publicação específica. Uma indexação de assuntos eficiente implica que se tome 19 uma decisão não somente quanto ao que é tratado num documento, mas também por que ele se reveste de provável interesse para determinado grupo de usuários. Em outras palavras, não há um conjunto ‘correto’ de termos de indexação para documento algum. A mesma publicação será indexada de modo bastante diferente em diferentes centros de informação, e deve ser indexada de modo diferente, se os grupos de usuários estiverem interessados no documento por diferentes razões.* O indexador, então, deve formular várias perguntas sobre um documento: 1. De que trata? 2. Por que foi incorporado a nosso acervo? 3. Quais de seus aspectos serão de interesse para nossos usuários? Esta situação acha-se bem exemplificada na figura 4. Esse exemplo hipotético refere-se a relatório publicado pela National Aeronautics and Space Administration (NASA) a respeito de um vôo espacial tripulado. Ao incorporar esse relatório à sua própria base de dados, a NASA provavelmente estará interessada em todas as suas facetas e o indexará exaustivamente, procurando abranger todos os seus aspectos, talvez em nível razoavelmente genérico. Uma parte do relatório refere-se ao traje usado pelos astronautas, mencionando alguns compostos novos de borracha sintética empregados em partes desse traje. Isto faz com que o relatório seja interessante para uma fábrica de borracha. Ao ser incorporado ao acervo de documentos dessa fábrica, o relatório será indexado, porém, de modo bastante diferente. Serão usados termos altamente específicos para indexar os compostos novos, e o termo genérico TRAJES ESPACIAIS talvez seja empregado para indicar determinada aplicação para esses compostos. Uma empresa metalúrgica poderá interessar-se pelo mesmo relatório por um motivo diferente: ele menciona uma nova técnica de soldagem desenvolvida para unir certas ligas na construção do veículo espacial. Neste caso, será indexado sob os termos relativos a soldagem, os termos apropriados para metais e talvez o termo de aplicação genérica VEÍCULOS ESPACIAIS. A fábrica de borracha indexa o relatório de forma muito diferente daquela adotada pela empresa metalúrgica, e nenhum desses conjuntos de termos se assemelha à lista mais
Compartilhar