Buscar

Indexação e resumos: teoria e prática (F. W. Lancaster)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 268 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 268 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 268 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

F. W. Lancaster 
 
Indexação e resumos 
Teoria e prática 
 
 
Segunda edição revista e atualizada 
 
 
Lancaster, F. W. 1933- 
Indexação e resumos : teoria e prática / F. W. Lancaster ; 
tradução de Antonio Agenor Briquet de Lemos. – 2 ed. Ver. atual. – 
Brasília, DF : Briquet de Lemos / Livros, 2004. 
 
Título original: Indexing and adstracting in theory and practice. 
Bibliografia 
 
ISBN 85-85637-24-2 
 
1. Indexação. 2. Resumos – Redação. I. Título. 
 
 
Desde sua primeira edição em 1991, este livro encontrou excelente acolhida entre os profissionais da 
informação. Sua tradução brasileira inaugurou as atividades editoriais de Briquet de Lemos / Livros, em 
1993. Esta terceira edição, cujo original foi publicado nos EUA em 2003, foi inteiramente revista e 
atualizada, tendo sido incluídos dois novos capítulos: sobre bases de dados de imagens e sons, e indexação 
na internet. 
Trata-se de texto que alcançou a categoria de clássico na matéria e que é recomendado praticamente 
em todos os cursos de biblioteconomia e ciência da informação. Além disso, sua utilidade é incontestável 
para profissionais que, entre outras atividades, trabalhem na produção e manutenção de bases de dados, 
construção de portais na internet, intranets e em programas de gestão do conhecimento. A parte sobre 
resumos reveste-se de particular interesse não apenas para produtores de bases de dados, mas também 
para editores de periódicos científicos. 
 
F. W. Lancaster é professor emérito da Graduate School of Library and Information Science da 
University of Illinois (EUA). Reconhecido internacionalmente como um dos maiores expoentes da 
biblioteconomia e ciência da informação, teve a primeira edição desta obra premiadas, em 1992, pela 
American Society for Information Science, como o melhor livro de ciência da informação. Premiação que 
voltou a ser concedida a três outros títulos de sua autoria. 
 
 2 
Como referenciar os capítulos do livro? 
 
LANCASTER, F. W. Título do capítulo. In: ________. Indexação e resumos: teoria e prática. 
Brasília, DF: Briquet de Lemos/Livros, 2004. Cap. Número do capítulo, p. Página inicial-Página final. 
 
OBS.: preencha todos os campos (basta dar um clique em cima de cada um) com os dados 
necessários e copie depois todo o modelo de referência acima e cole no local desejado. 
 
Páginas inicial e final de cada capítulo no livro original impresso de onde se extraiu o texto 
 
Divisões Capítulo Título 
Página 
Inicial 
Página 
Final 
Parte 1 
Teoria, 
princípios 
e 
aplicações 
1 Introdução 1 5 
2 Princípios da indexação 6 23 
3 A prática da indexação 24 49 
4 Índices pré-coordenados 50 67 
5 Coerência da indexação 68 82 
6 Qualidade da indexação 83 99 
7 Resumos: tipos e funções 100 112 
8 A redação do resumo 113 134 
9 Aspectos da avaliação 135 157 
10 Métodos adotados em serviços impressos de indexação e resumos 158 185 
11 Como melhorar a indexação 186 198 
12 Da indexação e redação de resumos de obras de ficção 199 213 
13 Bases de dados de imagens e sons 214 248 
14 Buscas em textos 249 283 
15 
Indexação automática, redação automática de resumos e processos 
afins 
284 338 
16 A indexação e a internet 339 357 
17 O futuro da indexação e redação de resumos 358 368 
Parte 2 
Prática 
18 Exercícios de indexação 369 382 
19 Exercícios de redação de resumos 383 391 
Apêndices 
1 Síntese de princípios de redação de resumos 392 393 
2 Análise de conteúdo modular 394 396 
 
 
 3 
Sumário 
 
 
Prefácio ....................................................................................................................... 6 
Agradecimentos ........................................................................................................... 7 
Uma nota sobre terminologia (e a redescoberta da roda) ................................................ 8 
Lista de figuras .......................................................................................................... 11 
Parte 1 – Teoria, princípios e aplicações ...................................................................... 14 
Capítulo 1 - Introdução ............................................................................................ 14 
Capítulo 2 – Princípios da indexação ......................................................................... 17 
Extensão do registro ....................................................................................................................... 17 
Etapas da indexação de assuntos .................................................................................................... 18 
Atinência ........................................................................................................................................ 21 
Tradução ....................................................................................................................................... 24 
Vocabulários controlados ................................................................................................................ 25 
Indexação como classificação .......................................................................................................... 25 
Especificidade do vocabulário .......................................................................................................... 26 
Capítulo 3 – A prática da indexação .......................................................................... 28 
Exaustividade da indexação ............................................................................................................ 30 
Princípio da especificidade .............................................................................................................. 34 
Outras diretrizes ............................................................................................................................. 35 
Índices pós-coordenados ................................................................................................................ 36 
Instrumentos auxiliares da indexação .............................................................................................. 37 
Capítulo 4 – Índices pré-coordenados ....................................................................... 46 
Classificação em índices de assuntos ............................................................................................... 52 
Nível de coordenação ..................................................................................................................... 56 
Índices de final de livro ................................................................................................................... 57 
Índices pré-coordenados versus índices pós-coordenados ................................................................. 57 
Capítulo 5 – Coerência da indexação ......................................................................... 58 
Fatores que influem na coerência .................................................................................................... 59 
Coerência na análise conceitual versus coerência na tradução ........................................................... 63 
Capítulo 6 – Qualidade da indexação ........................................................................ 67 
Como reconhecer uma’ boa’ indexação ............................................................................................ 69 
Fatores que influem na qualidade da indexação ............................................................................... 70 
A qualidade está relacionada à coerência? ....................................................................................... 72 
A utilidade dos estudos de coerência ...............................................................................................73 
A qualidade medida com o emprego de um padrão .......................................................................... 74 
Capítulo 7 – Resumos: tipos e funções ...................................................................... 78 
Finalidade dos resumos................................................................................................................... 80 
Resumos modulares ....................................................................................................................... 82 
Minirresumos ................................................................................................................................. 85 
Resumos telegráficos ...................................................................................................................... 85 
Capítulo 8 – A redação do resumo ............................................................................ 86 
Conteúdo e formato........................................................................................................................ 87 
Resumidores .................................................................................................................................. 91 
Qualidade e coerência na redação de resumos ................................................................................. 92 
Questões de compatibilidade ........................................................................................................... 95 
O boletim interno ........................................................................................................................... 96 
Inclinação para um assunto ............................................................................................................ 99 
Capítulo 9 – Aspectos da avaliação ..........................................................................100 
 4 
Cobertura .................................................................................................................................... 100 
Recuperabilidade .......................................................................................................................... 106 
Previsibilidade .............................................................................................................................. 109 
Atualidade.................................................................................................................................... 111 
Normas ........................................................................................................................................ 112 
Outros aspectos concernentes à avaliação ..................................................................................... 112 
Capítulo 10 – Métodos adotados em serviços impressos de indexação e resumos .......114 
Índices alfabético-específicos ........................................................................................................ 114 
Índices classificados ..................................................................................................................... 118 
Outros índices .............................................................................................................................. 124 
Índices de citações ....................................................................................................................... 131 
Conclusão .................................................................................................................................... 134 
Capítulo 11 – Como melhorar a indexação ...............................................................137 
Indexação ponderada ................................................................................................................... 137 
Elos entre termos ......................................................................................................................... 138 
Indicadores de função .................................................................................................................. 139 
Subcabeçalhos ............................................................................................................................. 143 
Dispositivos da linguagem de indexação ........................................................................................ 144 
Capítulo 12 – Da indexação e redação de resumos de obras de ficção .......................146 
A ficção em particular ................................................................................................................... 148 
Redação de resumos .................................................................................................................... 152 
Capítulo 13 – Bases de dados de imagens e sons .....................................................156 
Indexação de imagens .................................................................................................................. 156 
Abordagens baseadas no conteúdo................................................................................................ 159 
Imagens na Rede Mundial ............................................................................................................. 164 
Resumos de imagens .................................................................................................................... 165 
Atributos da imagem .................................................................................................................... 166 
Com base em conceitos ou em conteúdo? ...................................................................................... 168 
Metadados e vocabulários de indexação ......................................................................................... 170 
Bases de dados de sons ................................................................................................................ 170 
Recuperação de música ................................................................................................................ 173 
Sistemas multimídias .................................................................................................................... 174 
Conclusões ................................................................................................................................... 176 
Capítulo 14 – Buscas em textos ...............................................................................178 
Um pouco de história .................................................................................................................... 178 
Recursos auxiliares de busca ......................................................................................................... 180 
Linguagem natural versus vocabulário controlado: algumas considerações gerais ............................. 180 
Revisão de estudos afins: antes de 1980........................................................................................ 184 
Revisão de estudos afins: a partir de 1980 ..................................................................................... 189 
Sistemas híbridos ......................................................................................................................... 191 
O vocabulário pôs-controlado ........................................................................................................ 192 
Abordagens atuais ........................................................................................................................ 194 
O que foi concretizado? ................................................................................................................ 195 
Perguntas e respostas .................................................................................................................. 197 
Descoberta de conhecimento ........................................................................................................197 
Conclusões ................................................................................................................................... 198 
Capítulo 15 – Indexação automática, redação automática de resumos e processos afins
 .............................................................................................................................199 
Indexação por extração automática ............................................................................................... 200 
Indexação por atribuição automática ............................................................................................. 202 
Estudos anteriores sobre indexação ............................................................................................... 202 
Outras formas de classificação ...................................................................................................... 204 
Redação automática de resumos ................................................................................................... 208 
Operações ‘automáticas’ de recuperação ........................................................................................ 212 
Abordagens atuais ........................................................................................................................ 214 
 5 
Conclusões ................................................................................................................................... 227 
Capítulo 16 – A indexação e a internet .....................................................................232 
Serviços de busca na Rede ............................................................................................................ 232 
Recursos de recuperação .............................................................................................................. 233 
Metadados ................................................................................................................................... 236 
Resumos na Rede ......................................................................................................................... 238 
Spamming de índice e outras trapaças ........................................................................................... 239 
Vinculação de hipertexto/hipermídia .............................................................................................. 240 
Classificação na internet ............................................................................................................... 241 
Portais ......................................................................................................................................... 242 
Capítulo 17 – O futuro da indexação e redação de resumos ......................................244 
Abordagens profissionais .............................................................................................................. 246 
Abordagens alternativas ................................................................................................................ 247 
Abordagens automáticas ............................................................................................................... 248 
Conclusão .................................................................................................................................... 248 
Parte 2 – Prática .......................................................................................................250 
Capítulo 18 – Exercícios de indexação ......................................................................250 
Itens a serem indexados ............................................................................................................... 250 
Indexação e explicações do autor .................................................................................................. 253 
Capítulo 19 – Exercícios de redação de resumos .......................................................259 
PARTE 1 ...................................................................................................................................... 259 
Resumos deste autor .................................................................................................................... 259 
PARTE 2 ...................................................................................................................................... 261 
Resumos ...................................................................................................................................... 261 
Comentários deste autor ............................................................................................................... 263 
Apêndice 1 – Síntese de princípios de redação de resumos .......................................265 
Princípios gerais ........................................................................................................................... 265 
Princípios relativos ao conteúdo..................................................................................................... 265 
Apêndice 2 – Análise de conteúdo modular com módulos temáticos ..........................267 
Entradas de índice ........................................................................................................................ 268 
 
 
 6 
Prefácio 
 
A primeira edição desta obra, que recebeu o prêmio de melhor livro do ano sobre ciência da 
informação, outorgado pela American Society for Information Science, foi publicada em 1991; a segunda foi 
lançada em 1998. Ambas foram bem-recebidas pelos críticos, e o livro tem sido amplamente utilizado como 
texto didático na América do Norte, no Reino Unido e em outros países. 
Entre 1991 e 1998 este campo passou por mudanças notáveis, o que suscitou a necessidade de novos 
capítulos, principalmente sobre a internet e a indexação e elaboração de resumos para bases de dados de 
imagens e sons. As mudanças verificadas a partir de 1998 foram menos marcantes. No entanto, ocorreram 
avanços que definiam a necessidade de uma terceira edição. 
Todo o texto foi atualizado, embora os capítulos iniciais, que tratam mais de princípios básicos, 
permaneçam bem similares aos da segunda edição. Em compensação, alguns dos capítulos finais foram 
substancial ou completamente reescritos. Refiro-me aos capítulos 13-17 que tratam, respectivamente, de 
bases de dados de imagens e sons, buscas em textos, indexação automática e atividades afins, indexação e 
a internet, e o futuro da indexação e da redação de resumos. 
Não alterei muitas das figuras porque acho que as que foram utilizadas na segunda edição ainda 
continuam totalmente válidas para ilustrar os aspectos que desejo mostrar. Isso é ainda mais verdadeiro no 
que tange ao capítulo 10, sobre serviços impressos de indexação e resumos. Embora pudesse ter atualizado 
as páginas apresentadas como amostras, pareceu-me bastante desnecessário fazê-lo. 
Embora a indexação e redação de resumos fossem antigamente tidas como processos que somente 
interessavam a bibliotecas e a algumas editoras, sua relevância e utilidade são reconhecidas hoje em dia de 
modo muito mais amplo, pois, obviamente, encontram aplicação em todos os tipos de recursos de 
informação em formato digital. Assim, esta edição, embora continue sendo destinada fundamentalmente ao 
uso como texto didático em escolas de biblioteconomia e ciência da informação (e programas afins), ainda 
se reveste de interesse para um público muito maior: produtores de bases de dados de todos os tipos, bem 
como aquelas pessoas interessadas em outras áreas, como o projeto de intranets, desenvolvimento de 
portais, sistemas de gerenciamento da informação, e gestão do conhecimento em geral. 
Acho que devo dizer algo acerca das fontes citadas. O autor de uma recensão da primeira edição 
criticou-me porcontinuar citando fontes ‘antigas’. Apesar de ter feito um esforço para atualizar por completo 
as fontes citadas (até o começo de 2003), não tenho por que me desculpar por continuar citando material 
antigo e até muito antigo. Para mim é inconcebível que um livro sobre este assunto deixe de citar (por 
exemplo) Cutter (1876) e Ranganathan (década de 1930). Ademais, muitas pessoas que hoje escrevem 
sobre esses temas parecem não ter interesse nem conhecer as primeiras contribuições feitas a este campo. 
Acredito que seja importante, principalmente para os estudantes, compreender como este campo se 
desenvolveu e reconhecer que muitas das idéias atualmente apresentadas como novas podem ser 
encontradas, de fato, na literatura de trinta ou mais anos passados, em forma um tanto similar. 
Do mesmo que nas edições anteriores, esta não procura lidar com os índices de livros isolados, que 
aparecem no final dos livros impressos. Trata-se de assunto bem estudado em outras obras escritas por 
pessoas com muito mais experiência do que eu nessa área específica. 
Esta edição deve ainda ser vista como um texto de natureza introdutória. Embora creia que os 
capítulos 1-12 sejam bastante abrangentes, já sobre os temas focalizados nos capítulos 13-15 foram escritos 
livros completos, de modo que esses capítulos, em particular, devem ser lidos como introduções a esses 
temas. 
 
 
F.W. LANCASTER 
Urbana, Illinois (EUA) 
Março de 2003 
 
 7 
Agradecimentos 
 
Encontra-se consignada nas legendas das figuras a permissão para utilização de várias figuras de 
diferentes fontes. Além disso, quero agradecer a: Elsevier Science pela permissão para citar alguns trechos 
extensos de textos publicados em Information Processing and Management; OCLC Inc. pela permissão para 
reproduzir longas passagens de um artigo de O’Neill et al. (2001); John Wiley and Sons pela permissão para 
citar vários trechos extensos de material publicado no Journal of the American Society for Information 
Science and Technology (e seus antecessores); Information Today Inc. (<www.infotoday.com> pela 
permissão para reproduzir extensas citações de Rock (2001), de EContent e de Online; IBM pela permissão 
para reproduzir uma longa citação do IBM Systems Journal; Thomas Craven pela permissão para reproduzir 
citações de vários de seus artigos; Getty Research Institute por extensas citações de Layne (2002); IOS 
Press pela permissão de reproduzir urna extensa citação de Nielsen (1997); e ACM Publications pela 
permissão de fazer citação de Wactlar et al. (2002). 
Os termos e definições extraídos da iso 5963:1985 são reproduzidos com a permissão da International 
Organization for Standardization (ISO). Esta norma pode ser obtida junto a qualquer membro da 150 e no 
sítio na Rede da secretaria central da ISO no seguinte endereço: <www.iso.org>. O detentor do direito 
autoral é a ISO. 
Por fim, quero agradecer a várias pessoas por sua ajuda nesta edição: Bella Weinberg por ter me 
chamado a atenção para algumas fontes que, de outra forma, me teriam passado despercebidas; Bryan 
Heidorn por ter lido um primeiro rascunho do capítulo 13; Susanne Humphrey e Lou Knecht por atualizarem 
as informações de que dispunha acerca da National Library of Medicine; June Silvester, do Center for Aero 
Space Information; Chandra Prabha pelas informações do OCLC; o pessoal da Library and Information 
Science Library da University of Illinois (e especialmente Sandy Wolf), por sua paciente ajuda na localização 
de material para mim, e Kathy Painter pelo seu trabalho, tradicionalmente excelente, de colocar a revisão do 
texto em formato eletrônico. 
 
 
F.W. LANCASTER 
Urbana, Illinois 
Abril de 2003 
 
 8 
Uma nota sobre terminologia (e a redescoberta da roda) 
 
Tenho trabalhado em bibliotecas ou em torno delas há muitos anos. Durante grande parte desse tempo 
estive envolvido, de uma ou outra forma, com a análise de assuntos. Em 1957, comecei a trabalhar 
redigindo resumos, que abrangiam uma ampla gama de material científico e tecnológico, para um boletim de 
resumos para a indústria, tarefa que exigia também um nível minucioso de indexação temática dos itens 
resumidos. Em 1958, assumi o trabalho de editor desse boletim. Anteriormente tivera experiência com a 
classificação de livros numa biblioteca pública, além de redigir anotações, sobre características locais, a 
serern incluídas nas fichas catalográficas (na década de 1950 a catalogação cooperativa ou centralizada 
ainda não era a norma). Por volta de 1961 estava envolvido no campo da ‘recuperação da informação’, e 
publiquei meu primeiro artigo em 1963 e o primeiro livro em 1968. 
Em outras palavras, tem sido muito longa minha participação nas áreas de análise 
temática/recuperação da informação, presenciei inúmeras mudanças e conheci muitos dos principais atores 
deste palco em particular. 
Até o final da década de 1940 e começo da década de 1950, o campo que hoje lembramos como 
‘recuperação da informação’ era domínio quase exclusivo da profissão de bibliotecário. A realização de duas 
importantes conferências internacionais, além do reconhecimento de que os computadores poderiam aportar 
uma contribuição importante ao problema da recuperação da informação, tornaram o campo mais atraente e 
para ele acorreram pesquisadores de muitas outras áreas. 
Ao longo de um período de mais de 50 anos, as contribuições à bibliografia sobre recuperação da 
informação tiveram origem em praticamente todos os campos acadêmicos, inclusive matemática, ciência da 
computação, psicologia, estatística, direito e medicina (informática médica). 
Embora rostos novos e novos enfoques sejam sempre bem-vindos, é lamentável que muitos dos que 
hoje trabalham neste campo não tenham nenhuma formação prévia e, por isso, nenhum alicerce sólido 
sobre o qual construir. O maior problema é causado pelo fato de que muitos dos que atualmente trabalham 
com recuperação da informação parecem completamente ignorantes do fato de que outros processos 
diferentes dos totalmente automáticos foram aplicados, com algum sucesso, à recuperação da informação 
durante mais de 100 anos, e que de fato existe uma bibliografia sobre recuperação da informação além 
daquela da comunidade de informática. Exemplo gritante encontra-se em Agosti et al. (1995), que definem 
as ‘etapas da indexação’ como “extração de termos [term extractionl, remoção de termos proibidos- [stop-
terni remova], fusão [conflation] e ponderação [weighting]”. 
Muitas idéias surgidas hoje possuem claros antecedentes na literatura de 30 ou 40 anos atrás, mas 
esses trabalhos pioneiros são completamente desconhecidos para os pesquisadores atuais. Um caso 
pertinente é a pesquisa sobre mapas visuais ou ‘navegadores’ [browsers] para facilitar a navegação em 
sistemas de hipermídia (por exemplo, Fowler et al., 1996; Zizi, 1996) que é basicamente uma redescoberta 
dos ‘mapas semânticos’ [semanhic roadmaps] de Doyle (1961). 
O campo da recuperação de imagens parece ser o pior de todos em matéria de reinventar a roda. Por 
exemplo, um artigo de Schreiber et al. (2001) descreve um esquema para indexação de fotografias 
(denominam-no ‘anotação fotográfica baseada na ontologia’ [ontology-based photo annotation], que se 
baseia essencialmente num conjunto bastante simples de facetas. Parece que acreditam que a análise de 
facetas surgiu com eles ou, pelo menos, com Outros que trabalham na mesma área. Ironicamente, o 
trabalho deles foi publicado num periódico dedicado a ‘sistemas inteligentes’. 
Os cientistas da computação que escrevem sobre recuperação da informação parecem reconhecer e 
citar somente Outros cientistas da computação que escrevem sobre recuperação da informação. Exemplo 
óbvio é o reconhecimento e a citação quase unânimes de Salton como a autoridade em medidas de 
revocação e precisãona avaliação de atividades de recuperação da informação. Gerard Salton, por mais 
importante que tenha sido no campo da recuperação da informação, com a maior certeza não foi o 
introdutor dessas medidas, que, de fato, remontam à década de 1950. 
Esse fenômeno de redescobrimento foi salientado por Holmes (2001), ele próprio um cientista da 
computação, que nos faz lembrar a advertência feita por George Santayana para quem aqueles que não 
podem recordar o passado estão condenados a repeti-lo. Holmes, partindo disso, acrescenta: 
[...] o que pensamos que sejam inovações muitas vezes são meras repetições [...] nossa profissão pode 
desenvolver-se de modo mais rápido e melhor por meio de inovações cumulativas, construindo sobre os 
alicerces de seu passado ao invés de ignorá-lo (p. 144). 
 
Ele afirma que, em particular, as obras de Vannevar Bush e Hans Peter Luhn, que datam de 40 ou 60 
anos, contêm idéias que desde então são reinventadas. 
Minha pior experiência com esse problema específico ocorreu há vários anos, quando deparei com um 
artigo escrito por um cientista europeu, essencialmente um matemático, acerca de assunto sobre o qual eu 
 9 
publicara anteriormente. Quando escrevi para mostrar que ele deixara de citar meu trabalho anterior, e 
diversos outros de autoria de outros pesquisadores, ele contestou, folgadamente, para dizer que nunca 
pesquisava na literatura, a não ser que estivesse escrevendo um artigo de revisão! Que espécie de não-
ciência egoísta é essa? 
Outro resultado da multiplicidade de profissões que agora contribuem para a literatura de análise 
temática/recuperação da informação está na substituição, sem necessidade, da terminologia, apropriada e 
reconhecida, da profissão bibliotecária. Exemplo óbvio é ‘metadados’. O Oxford English Dictionary (em linha) 
registra 1968 como o ano do aparecimento dessa palavra. Na época foi usada para designar dados que 
descreviam conjuntos de dados (numéricos ou estatísticos). Desde então tornou-se praticamente um 
substituto para ‘descrição bibliográfica’, denominação esta perfeitamente razoável, com a qual convivíamos 
há muitos e muitos anos e que é aceita em normas internacionais. Alguém, é claro, poderia argumentar que 
‘bibliográfico’ aplica-se apenas a livros. Sua extensão, porém, a outras formas documentárias (como em 
‘base de dados bibliográficos’ e ‘referência bibliográfica’) convive conosco há muito tempo. 
Alguns autores, com certeza, chamaram atenção para o mesmo problema. Milstead e Feldman (1999), 
por exemplo, argumentam convincentemente: 
Quer o chamemos de catalogação. indexação ou metadados. o conceito é familiar aos profissionais da 
informação. Agora, o mundo eletrônico por fim o descobriu. Faz alguns anos, somente uns poucos 
filósofos haviam ouvido falarem ‘metadados’. Hoje em dia, é difícil encontrar uma publicação sobre 
recursos eletrônicos que ignore essa palavra. [...] Como o personagem que passou toda a vida escrevendo 
prosa sem saber que o fazia,* os bibliotecários e indexadores vêm há séculos produzindo e normalizando 
metadados. Ignorando este legado, uma imensa variedade de outros atores ingressaram recentemente 
nesse campo, e muitos deles não têm qualquer idéia de que alguém mais antes deles já tenha ‘estado ali, 
feito aquilo’. Sistemas diferentes estão sendo desenvolvidos para tipos diferentes e às vezes os mesmos 
de informação, disso resultando uma atmosfera caótica de normas conflitantes (p. 25). 
 
Não obstante, parecem dispostas a aceitar a nova terminologia. 
Pessoas de nosso próprio campo, que certamente deveriam saber mais (e ser mais responsáveis), 
colaboram com essa situação. Por exemplo, Greenberg (2003) nos diz que a geração de metadados por 
seres humanos ocorre quando uma pessoa, como um criador profissional de metadados ou um fornecedor 
de conteúdo, produz metadados. Para ela ‘criador profissional de metadados’ é o ‘catalogador’ ou 
‘indexador’, conforme admite depois em seu artigo (embora ela também inclua ‘web inaster’ nesta 
categoria). Fiquei profundamente chocado (e de modo algum satisfeito) ao saber que gastei vários anos de 
minha vida como criador profissional de metadados, se bem que inocente disso. 
Muitos que escrevem sobre recuperação de imagens usam o termo ‘anotação’ para designar a 
atribuição de rótulos de texto, como palavras-chave, que identificam o que a imagem representa, o que, 
evidentemente, e’’ indexação’. Isso é duas vezes lamentável porque ‘anotação’ [annotation], há muitos anos, 
é empregada para designar o que é, fundamentalmente, um resumo muito sucinto (que aparecia 
antigamente em fichas de catálogos). Liu e Li (2002) mencionam termos de indexação atribuídos a 
videoclipes como ‘etiquetas de anotação’ [atinotation tags]. Parece que elas constituem uma ‘descrição 
semântica’ [semantic description] e são obtidas por meio de ‘extração semântica’ [semantic extraction] que, 
provavelmente, significa identificação do assunto tratado. 
Parte dessa confusão terminológica se deve a desleixo no trabalho editorial. Faz pouco deparei com 
um artigo em que a palavra ‘indexation’, que estava até no título, era usada como sinônimo de ‘indexing’. O 
vocábulo ‘indexation’ realmente existe na língua inglesa, mas empregado apenas em contexto econômico 
(por exemplo, em relação a certas variáveis, como aumento ou redução de salários e juros às mesmas taxas 
do índicé de custo de vida); quase com certeza não é sinônimo de ‘indexing’. Os autores, neste caso, têm 
uma desculpa porque são franceses (‘indexation’ é o equivalente francês de ‘indexing’), mas não há desculpa 
para os editores de um periódico em língua inglesa se permitirem tal incorreção. Aguardo agora que a 
palavra ‘indexation’ venha a substituir ‘indexing’ na literatura de ciência da computação. 
Santini (2002), outro cientista da computação, conclamou seus colegas de profissão a ser mais 
responsáveis no uso da linguagem. E adverte que: 
O irrefreável uso incorreto da linguagem em informática ameaça levar nossa profissão a se isolar da 
sociedade e tornar incompreensíveis nossas realizações (p. 128). 
 
Santini concorda com o ponto que venho tentando expor: 
Outras palavras fazem mais sentido, mas estão sendo inexplicavelmente abandonadas em favor de 
vocábulos menos apropriados (p. 126). 
 
 
* Monsieur Jourdan, personagem de Le bourgeois gentilhomme, de Moliêre. (N.T.) 
 10 
Dentre os termos que ele destaca para serem desprezados estão ‘data warehouse’ [armazém de 
dados] e ‘data inart’ [mercado de dados] em vez de ‘data- base’ [base de dados]. 
Uma palavra que enfrento cena dificuldade em aceitar é ‘inining’ [mineração] (como em data inining, 
text mining, speech inining ou Web mining [mineração de dados, mineração de texto, mineração de fala ou 
mineração da Rede], que é amiúde usada como sinônimo de ‘knowledge discovery’ [descoberta de 
conhecimento]. Meu pai passou muitos anos da vida numa mina de carvão do norte da Inglaterra, 
trabalhando como cavouqueiro. Eram longas horas de trabalho, e durante a maior parte do ano só lhe era 
possível ver a luz do dia uma vez por semana. Muitas vezes, cavoucava o carvão num ‘veio molhado’, 
deitado na água, de costas ou de lado, numa galeria de teto muito baixo. Não tenho certeza de que esse 
tipo de extração trabalhosa, na semi-escuridão, seja a analogia que os ‘data miners’ [mineradores de dados] 
queiram realmente usar. 
Minha maior queixa, porém, é o fato de o substantivo 'classiflcation’ haver sido praticamente 
substituído por (pasme-se!) ‘taxonomy’ (pasme-se duas vezes!!), ‘ontology’ ou até (pasme-se três vezes!!!) 
‘taxonoinized set of terms’ [conjunto taxonomizado de termos]. A maneira como estes termos são definidos 
em artigos recentes mostra claramente que são empregados como sinônimos de ‘classification scheme’ 
[esquema declassificação]. Característico disso é um artigo de Hovy (2003) que define: 
[...] uma ontologia simplesmente como um conjunto taxonomizado de termos, que variam desde termos 
muito gerais na parte superior [...] até termos muito especializados na parte inferior (p. 48). 
 
A ‘ontologia’ de Hovy toma-se uma ‘coiwept hierarchy’ [hierarquia de conceitos] em Meng et al. 
(2002), que a definem como “um grande número de conceitos organizados em múltiplos níveis, de modo 
que os conceitos em níveis superiores possuem significados mais amplos do que os de níveis inferiores”. 
Quando fiz o curso de biblioteconomia, zilhões de anos atrás, essas definições teriam sido definições exatas, 
embora muito simplistas, de classificação hierárquica. 
Soergel (1999) também execrou a substituição de ‘classificação’ por ‘ontologia’ e o fez com muita 
propriedade: 
Uma classificação, qualquer que seja seu nome, continua sendo uma classificação. O emprego de termo 
diferente é sintomático da falta de comunicação entre as comunidades científicas. Ignora-se amplamente 
o vasto corpo de conhecimentos, que se desenvolveu em torno das classificações bibliográficas e mais 
geralmente da ciência da informação, sobre a estrutura das classificações e as maneiras de representá-las, 
bem como o imenso capital intelectual consubstanciado em muitos esquemas de classificação e tesauros. 
Sistemas grandes e úteis vêm sendo construídos com mais esforço do que seria necessário. Exemplos são 
o cyc ontology (<www.cyc.com/cyc2- l/intro-public.html>), cuja apresentação poderia ser bastante 
melhorada, ou wordNct (<cogsci.princeton.edu/—wn> ou <www.notredame.ac.jplcgi-bin/wn.cgi>), uni 
sistema maravilhoso cuja construção teria lucrado com a aplicação da experiência com a construção de 
tesauros e cuja hierarquia (de conceitos) synset deveria ser tornada mais facilmente acessível com o 
emprego de métodos clássicos de representação de classificação. Outro exemplo é o ANSI Ad Hoc Group 
on Ontology SLandards (<wwwksl.stanford.cdu/onto_std/index,html>), que parece não contar entre seus 
membros com nenhum cientista da informação interessado em classificação (p. 1120). 
 
A ‘classificação’ como atividade também está sendo substituida na literatura de ciência da informação 
pela ‘categorização’ (como em ‘categorização de textos’), mas isso, apesar de aborrecer, não parece ser tão 
escandaloso. 
Alguns termos da nova terminologia são superficialmente atraentes. Fui razoavelmente receptivo ao 
vocábulo ‘summarization’ [sumarização] (porque poderia ser usado para abarcar ‘abstracting’ [redação de 
resumos], ‘extracting’ [extratação] e até mesmo ‘annotation’ [anotação]) até que descobri que um livro 
importante sobre o assunto (Endres-Niggemeyer, 1998) inclui a indexação temática como uma forma de 
sumarização. Embora um conjunto de termos de indexação possa, de fato, funcionar como uma espécie de 
resumo do conteúdo, a sumarização não é, com certeza, o principal objetivo da indexação. 
Neste livro, sempre que possível, ative-me à terminologia antiga. Por razões de clareza, usei alguns 
poucos termos novos, como metadados, mas o fiz com relutância. 
 
 11 
Lista de figuras 
 
Figura 1 – A função da elaboração de índices e resumos no quadro mais amplo da recuperação da 
informação ........................................................................................................................................... 15 
Figura 2 – O problema da recuperação de itens pertinentes de uma base de dados .................................. 15 
Figura 3 – Efeito da extensão do registro sobre a recuperabilidade .......................................................... 18 
Figura 4 – Exemplo de um documento indexado segundo diferentes pontos de vista ................................. 19 
Figura 5 – Análise conceitual traduzida em três vocabulários controlados ................................................. 27 
Figura 6 – As duas dimensões da indexação de um documento ............................................................... 31 
Figura 7 – Rendimentos decrescentes na indexação ................................................................................ 33 
Figura 8 – Sistema de recuperação da informação representado como uma matriz ................................... 38 
Figura 9 – Formulário de indexação utilizado antigamente pela National Library of Medicine ...................... 39 
Figura 10 – Formulário característico da indexação de Mooers ................................................................. 40 
Figura 11 – Parte de vocabulário especializado sobre computadores digitais utilizado pelo U. S. Patent and 
Trademark Office .................................................................................................................................. 41 
Figura 12 – Seção do microtesauro do Air Pollution Technical Information Center ..................................... 42 
Figura 13 – Tela de etiquetas no DCMS .................................................................................................. 43 
Figura 14 – Registro de indexação pronto no DCMS ................................................................................ 44 
Figura 15 – Exemplo de entradas de Medical subject headings – annoted alphabetic list (2003) ................. 44 
Figura 16 – Exemplo de entradas de Tumor key, um vocabulário de entradas especializado antigamente 
utilizado pela National Library of Medicine .............................................................................................. 45 
Figura 17 – Entradas de um índice SLIC ................................................................................................. 47 
Figura 18 – Entradas de índice baseado na alternação sistemática (modelo da Excerpta Medica) ............... 48 
Figura 19 – Exemplo de entradas de um índice KWIC .............................................................................. 49 
Figura 20 – Amostra das entradas de um índice KWOC ............................................................................ 50 
Figura 21 – Formato alternativo de um índice KWOC usado no Diabetes-Related Literature Index, 
suplemento de Diabetes, volume 12, 1960. ............................................................................................ 51 
Figura 22 – Exemplo de entradas do British Technology lndex ................................................................. 55 
Figura 23 – Sistema de relações de Farradane ........................................................................................ 56 
Figura 24 – Termos (04 - J) atribuídos ao mesmo documento por cinco indexadores diferentes (a - e) ....... 58 
Figura 25 – Possíveis fatores que influem na coerência da indexação ....................................................... 59 
Figura 26 – Relação entre coerência e quantidade de termos atribuídos ................................................... 60 
Figura 27 – Efeito da quantidade de termos atribuídos sobre a coerência do indexador (dois indexadores) . 61 
Figura 28 – Dois enfoques diferentes na indexação de um artigo intitulado ............................................... 64 
Figura 29 – Dois enfoques diferentes na indexação de um artigo intitulado ............................................... 64 
Figura 30 – Dois enfoques diferentes na indexação de um artigo intitulado ............................................... 65 
Figura 31 – Dois enfoques diferentes na indexação de um artigo intitulado ............................................... 65 
Figura 32 – Diferenças na análise conceitual de um artigo intitulado ........................................................ 66 
Figura 33 – Fatores que influem nos resultados de uma busca numa base de dados ................................. 68 
Figura 34 – Exemplo da perda de um item importante por causa de mera omissão do indexador ............... 69 
Figura 35 – Fatoresque podem afetar a qualidade da indexação ............................................................. 70 
Figura 36 – Coerência do indexador relacionada aos interesses dos usuários ............................................ 72 
Figura 37 – ‘Padrão’ de indexação para um artigo médico, mostrando escores relativos à atribuição de vários 
tipos de termos ..................................................................................................................................... 75 
Figura 38 – Escores de dois indexadores em comparação com o padrão da figura 37 ................................ 75 
Figura 39 – Resumo indicativo ............................................................................................................... 78 
Figura 40 – Resumo informativo............................................................................................................. 79 
Figura 41 – Exemplo de um resumo crítico ............................................................................................. 80 
Figura 42 – Gabarito para um resumo estruturado .................................................................................. 81 
Figura 43 – Resumo em ‘diagrama de bloco’ de um artigo hipotético junto com um resumo ‘convencional’ 
para comparação .................................................................................................................................. 82 
Figura 44 – Resumos modulares ............................................................................................................ 83 
Figura 45 – Entradas de índices modulares ............................................................................................. 83 
Figura 46, Parte 1 – Comparação de minirresumo, resumo de autor e resumos publicados em Chemical 
Abstracts e Biological Abstracts (ver a parte 2 da figura) ......................................................................... 84 
Figura 46, Parte 2 ................................................................................................................................. 84 
Figura 47 – Princípios para redação de resumos, do Defense Documentation Center (1968) ...................... 87 
Figura 48 – Exemplo de resumo altamente formatado ............................................................................. 89 
 12 
Figura 49 – Informações essenciais de que necessitam os clínicos para avaliar a relevância e a qualidade de 
artigos e, portanto, para sua inclusão em resumos estruturados .............................................................. 89 
Figura 50 – Fundamentos da redação de resumos ................................................................................... 91 
Figura 51 – Resultados hipotéticos de um teste de previsibilidade de relevância........................................ 92 
Figura 52 – Regras, destinadas a resumidores, concernentes às características de recuperabilidade dos 
resumos ............................................................................................................................................... 98 
Figura 53 – Crescimento da literatura científica sobre AIDS, 1982-1987 (Fonte: MEDLINE) ...................... 103 
Figura 54 – Literatura sobre AIDS: cobertura por idioma, 1982-1987 (Fonte: MEDLINE) .......................... 103 
Figura 55 – Literatura sobre AIDS: cobertura por país, 1982-1987 (Fonte: MEDLINE).............................. 103 
Figura 56 – Número de periódicos que publicam artigos sobre AIDS, 1982-1987 (Fonte: MEDLINE) ......... 103 
Figura 57 – Dispersão da literatura de periódicos sobre AIDS em 1987 (Fonte: MEDLINE) ....................... 104 
Figura 58 – Gráfico da dispersão da literatura sobre AIDS ..................................................................... 105 
Figura 59 – Periódicos científicos que publicaram a maioria dos artigos sobre AIOS, 1982-1987 (Fonte: 
MEDLINE) ........................................................................................................................................... 105 
Figura 60 – Exemplo hipotético da distribuição de itens sobre ‘supercondutores’ sob termos num índice 
impresso ............................................................................................................................................ 107 
Figura 61 – Distribuição de itens sobre imunologia celular no porco sob termos no Index Medicus ........... 108 
Figura 62 – Dispersão de itens sob termos de indexação ....................................................................... 108 
Figura 63 – Exemplo de entradas do Cumulated Index Medicus (1996) .................................................. 115 
Figura 64 – Exemplo de entradas do Medical subject headings (1996) .................................................... 116 
Figura 65 – Exemplo de entradas da estrutura hierárquica (Tree structures) do Medical subject headings 
(1996) ................................................................................................................................................ 117 
Figura 66 – Exemplo de entradas do índice de autores do Cumulated Index Medicus .............................. 117 
Figura 67 – Exemplo de entradas do Applied Science and Technology Index, 1986 ................................. 118 
Figura 68 – Exemplo de entradas do volume anual do Engineering Index (1993) .................................... 119 
Figura 69 – Exemplo de entradas do índice de assuntos do Engineering Index (1993) ............................. 120 
Figura 70 – Exemplo de entradas do Library and Information Science Abstracts (antes de 1993) ............. 121 
Figura 71 – Exemplos de entradas do índice de assuntos do Library and Information Science Abstracts (antes 
de 1993) ............................................................................................................................................ 122 
Figura 72 – Categorias de assuntos usadas pelo Library and Information Science Abstracts (1997) .......... 123 
Figura 73 – Exemplo de entradas do Library and Information Science Abstracts ...................................... 124 
Figura 74 – Exemplo de entradas do índice de assuntos do Library and Information Science Abstracts ..... 125 
Figura 75 – Exemplo de entradas do índice de assuntos do Chemical Abstracts ....................................... 126 
Figura 76 – Exemplo de entradas do índice de palavras-chave do Chemical Abstracts.............................. 127 
Figura 77 – Exemplo de entradas do índice de fórmulas do Chemical Abstracts ....................................... 128 
Figura 78 – Exemplo de resumos de Sociology of Education Abstracts .................................................... 129 
Figura 79 – Exemplo de entradas de índice do Sociology of Education Abstracts ..................................... 129 
Figura 80 – Exemplo de entradas do índice de assuntos do Epilepsy Abstracts ........................................ 130 
Figura 81 – Diferenças na apresentação de referências entre o British Technology Index (BTI) e o Current 
Technology Index (CTI) de um item sobre cadinhos [ladles] para fornos a arco elétrico [arc furnaces] na 
produção de aço [steel] ....................................................................................................................... 130 
Figura 82 – Exemplo de entradas PRECIS do British Education lndex ...................................................... 131 
Figura 83 – Exemplo de entradas do Social Sciences Citation lndex ........................................................ 132 
Figura 84 – Exemplo de entrada do índice de fontes do Social Sciences Citation Index ............................ 132 
Figura 85 – Exemplo de entrada do índice de assuntos Permuterm do Social Sciences Citation Index ....... 133 
Figura 86 – Exemplo de página do Current Contents ............................................................................. 134 
Figura87 – Exemplo de entradas do índice de palavras-chave do Current Contents ................................ 135 
Figura 88 – O sistema de indicadores de função do EJC ........................................................................ 140 
Figura 89 – Infixos semânticos do sistema da Western Reserve University .............................................. 141 
Figura 90 – Indicadores de função do sistema da Western Reserve University utilizados na indexação da 
literatura de metalurgia ....................................................................................................................... 142 
Figura 91 – Resumo telegráfico armazenado em formato eletrônico ....................................................... 142 
Figura 92 – Os dispositivos de precisão criam classes menores; os dispositivos de revocação criam classes 
maiores. ............................................................................................................................................. 145 
Figura 93 – Exemplo de entrada da base de dados de ficção Book House ............................................... 150 
Figura 94 – Exemplo de um romance indexado com o emprego do método de Pejtersen ......................... 150 
Figura 95 – Duas sinopses possíveis de As aventuras de Pedro, o Coelho, de Beatrix Potter .................... 153 
Figura 96 – Exemplo de uma entrada de Masterplots II (1986) .............................................................. 154 
Figura 97 – Estruturas lingüísticas para orientar a anotação e indexação de ficção .................................. 155 
Figura 98 – Principais níveis de abstração na base de dados de um museu de arte ................................. 157 
 13 
Figura 99 – Exemplo do registro catalográfico de uma pintura ............................................................... 158 
Figura 100 – Consulta formulada a uma base de dados meteorológicos. A consulta pede um complexo 
sistema de baixa pressão sobre a Nova Zelândia com sistemas de alta pressão a leste e oeste ................ 161 
Figura 101 – Dois mapas meteorológicos recuperados em resposta à consulta da figura 100 ................... 162 
Figura 102 – Consulta incremental numa base de dados de imagens ...................................................... 163 
Figura 103 – Comparação entre resumo e indexação com vocabulário controlado ................................... 183 
Figura 104 – Os prós e contras do texto livre versus vocabulário controlado ........................................... 184 
Figura 105 – Exemplo de entrada da base de dados TERM .................................................................... 193 
Figura 106 – Os problemas fundamentais da recuperação da informação ............................................... 200 
Figura 107 – Exemplo de entradas de tesauro extraídas por métodos automáticos .................................. 207 
Figura 108 – Ligações de citações/referências ....................................................................................... 208 
Figura 109 – Exemplo de um auto-resumo de Luhn (Luhn 1958) ........................................................... 210 
Figura 110 – Exemplo de extrato produzido pelo sistema ADAM de redação automática de resumos ........ 211 
Figura 111 – Mapa de relações textuais baseado em Salton et al. (1997) ............................................... 213 
Figura 112 – Busca inicial numa base de dados de um serviço de atendimento a clientes ........................ 226 
Figura 113 – Pesquisa por mais informação em base de dados de serviço de atendimento a clientes ....... 227 
Figura 114 – Casos com ordenação mais alta selecionados com base em consulta crítica e respostas dos 
clientes às perguntas ........................................................................................................................... 228 
Figura 115 – Resumo de caso com a ação recomendada ao cliente ........................................................ 228 
 
 
 
 14 
Parte 1 – Teoria, princípios e aplicações 
 
 
Capítulo 1 - Introdução 
 
O propósito principal da elaboração de índices e resumos é construir representações de documentos 
publicados numa forma que se preste a sua inclusão em algum tipo de base de dados. Essa base de dados 
de representações pode ser impressa (como numa publicação de indexação/resumos; por exemplo, o 
Chemical Abstracts ou o Engineering lndex), em formato eletrônico (quando a base de dados muitas vezes 
será o equivalente aproximado de um serviço impresso), ou em fichas (como num catálogo convencional de 
biblioteca). 
A função das operações de indexar / resumir, no âmbito maior das atividades de recuperação da 
informação, acha-se esquematizada na figura 1. Em primeiro lugar, o produtor da base de dados seleciona 
da população de documentos recém-publicados aqueles que atendam a certos critérios para sua inclusão na 
base de dados. O mais óbvio desses critérios é o assunto de que trata o documento. Outros critérios, no 
entanto, como o tipo de documento, a língua em que se acha escrito, ou sua origem, também são 
importantes. No caso das bases de dados que lidam principalmente com artigos de periódicos, os critérios de 
seleção comumente estarão centrados no periódico e não no artigo; ou seja, alguns periódicos serão 
incluídos e outros não (embora alguns periódicos sejam indexados em sua inteireza e outros o sejam de 
forma seletiva). A cobertura proporcionada por muitas bases de dados é, em grande medida, determinada 
por razões de custo-eficácia. Particularmente no caso de bases de dados que abranjam um campo altamente 
especializado, elas somente incluirão aqueles periódicos que publicam prioritariamente artigos sobre os 
assuntos de interesse. 
Os itens selecionados para inclusão na base de dados serão ‘descritos’ de várias formas. Os processos 
de catalogação descritiva (que não aparecem na figura 1) identificam autores, títulos, fontes, e outros 
elementos bibliográficos; os processos de indexação identificam o assunto de que trata o documento; e o 
resumo serve para sintetizar; o conteúdo do item. Os termos utilizados na indexação serão com freqüência 
extraídos de algum tipo de vocabulário controlado, como um tesauro (o ‘vocabulário do sistema’ da figura 
1), mas, em vez disso, podem ser termos ‘livres’ (por exemplo, extraídos do próprio documento).* 
Estas atividades de descrição criam representações dos documentos numa forma que se presta para 
sua inclusão na base de dados. Os próprios documentos normalmente serão destinados a um tipo diferente 
de base de dados (o acervo de documentos) como é o caso das estantes de uma biblioteca. 
Os membros da comunidade a ser atendida utilizarão a base de dados, fundamentalmente, para 
satisfazer a diferentes necessidades de informação. Para lograr isso, devem converter uma necessidade de 
informação em algum tipo de ‘estratégia de busca’, a qual pode ser tão simples quanto a escolha de um 
único termo para consultar um índice impresso ou um catálogo em fichas, ou exigir a combinação de muitos 
termos numa estratégia mais elaborada e complexa, empregada para consultar uma base de dados mantida 
localmente ou conectada em linha a alguma rede de computadores. 
O que se almeja, evidentemente, ao fazer uma busca numa base de dados, é encontrar documentos 
que sejam úteis para satisfazer a uma necessidade de informação, e evitar a recuperação de itens inúteis. 
‘Relevante’ e ‘pertinente’ são termos freqüentemente empregados para se referir a itens ‘úteis’, e foram 
definidos de diferentes formas. Há muito desacordo sobre o que realmente significam ‘relevância’ e 
‘pertinência’ (Lancaster e Warner, 1993). Neste livro considerarei como sinônimas as expressões ‘útil’, 
‘pertinente’ e ‘relevante para uma necessidade de informação’. Ou seja, um documento pertinente (útil) é 
aquele que contribuipara satisfazer a uma necessidade de informação. 
O problema da recuperação da informação está representado graficamente na figura 2. O retângulo 
inteiro representa uma base de dados e os itens que contém. Os itens com sinal de adição (+) são aqueles 
que um consulente hipotético consideraria úteis para atender a uma necessidade de informação atual, e os 
itens com sinal de subtração (-) são aqueles que não consideraria úteis. Para qualquer necessidade 
específica de informação haverá muito mais itens - do que itens +. Na realidade, se se desenhasse o 
diagrama ‘em escala’, seria quase certo que os onze itens úteis estariam acompanhados de toda uma 
muralha de itens inúteis. O problema está em recuperar tantos itens úteis quantos for possível, e o menor 
número possível de itens inúteis. 
 
 
* Os termos utilizados podem, genericamente, ser designados como ‘termos de indexação’, embora, muitas vezes, seja também 
empregada a palavra ‘descritores’, em particular quando nós estamos referindo a termos de um tesauro. Neste livro, ambas as 
expressões são usadas de modo l:l(uivaknlc. 
 15 
 
Figura 1 – A função da elaboração de índices e resumos no quadro mais amplo da 
recuperação da informação 
 
 
Figura 2 – O problema da recuperação de itens pertinentes de uma base de dados 
 
O menor dos dois retângulos internos da figura 2 representa os resultados de uma busca realizada na 
base de dados, que recuperou 57 itens, seis dos quais foram úteis e 51 inúteis. A relação entre itens úteis e 
o total de itens recuperados (6/57 ou cerca de 10% neste caso) é comumente denominada coeficiente de 
precisão. O índice empregado habitualmente para expressar a extensão com que todos os itens úteis são 
encontrados é o coeficiente de revocação. No presente exemplo, o coeficiente de revocação é de 6/11 ou 
cerca de 54%. 
Nessa situação, provavelmente seria preciso, para melhorar a revocação, fazer uma busca mais 
genérica. Essa busca é representada pelo maior dos dois retângulos internos. Ao fazer a busca de modo 
mais genérico, aumentou-se a revocação para 8/11 (73%), mas a precisão caiu ainda mais para 8/112, ou 
cerca de 7%. Uma característica lamentável, inerente à recuperação da informação, é que uma melhoria da 
revocação em geral implica perda de precisão e vice-versa. 
A figura 2 sugere outro fenômeno. Talvez fosse possível fazer uma busca suficientemente genérica 
para localizar todos os itens úteis (isto é, alcançar 100% de revocação); entretanto a precisão seria 
provavelmente inaceitável. Ademais, quanto maior for a base de dados, menos aceitável será uma baixa 
 16 
precisão. Embora o usuário esteja disposto a examinar, por hipótese, 57 itens, a fim de encontrar seis que 
lhe sejam úteis, talvez se sinta muito menos inclinado a examinar 570 resumos para encontrar 60 que sejam 
úteis. Em bases de dados muito grandes torna-se, portanto, progressivamente mais difícil alcançar um nível 
de revocação aceitável com um nível de precisão satisfatório, uma situação que chegou a um ponto crítico 
quando se procura informação na internet. 
Neste livro emprego o termo revocação [recall] para designar a capacidade de recuperar documentos 
úteis, e precisão para designar a capacidade de evitar documentos inúteis. Existem outras medidas do 
desempenho para buscas realizadas em bases de dados (ver, por exemplo, Robertson, 1969), algumas das 
quais são matematicamente mais exatas, porém a revocação e a precisão compõem o quadro geral e ainda 
parecem ser as medidas óbvias a serem utilizadas para expressar os resultados de qualquer busca que 
simplesmente divida uma base de dados em duas partes (recuperados e não recuperados).* A figura 1 deixa 
evidente que são muitos os fatores que determinam se uma busca numa base de dados é ou não bem 
sucedida. Entre tais fatores encontra-se a cobertura da base de dados, sua política de indexação, sua prática 
de indexação, sua política e prática de redação de resumos, a qualidade do vocabulário empregado na 
indexação, a qualidade das estratégias de busca, e assim por diante. Este livro não enceta qualquer esforço 
no sentido de tratar de todos esses fatores (ainda que todos estejam inter-relacionados), mas se concentra 
nas atividades importantes de descrição do documento ou, pelo menos, aquelas que dizem respeito ao 
conteúdo dos documentos. 
Em princípio, a base de dados representada na figura 1 poderia ser a totalidade do conteúdo da Rede 
Mundial (World Wide Web) (doravante denominada simplesmente a Rede). No entanto, o diagrama não 
representa a situação da Rede tão bem quanto representa bases de dados, como o catálogo de uma 
biblioteca universitária ou uma base de dados de registros bibliográficos de a11igos de periódicos, como a 
base de dados MEDLINE da National Library of Medicine. Uma vez que qualquer organização ou qualquer 
pessoa pode criar uma página na Rede, não está em causa nenhum processo de seleção real. Ademais, 
embora os sítios da Rede possam incluir algum tipo de dado descritivo sobre seu conteúdo (normalmente 
denominados’ metadados’; ver a nota que precede imediatamente este capítulo), muitos não o’ fazem, e os 
dados descritivos são parte integrante das próprias páginas da Rede, não se encontrando numa base de 
dados separada. Além do que, a indexação e a elaboração de resumos de conteúdos da Rede por seres 
humanos constituem mais a exceção do que a regra, de modo que a maior parte das buscas ali feitas ocorre 
no texto integral dos sítios acessados por determinado mecanismo de busca. Nos casos em que são 
realizadas operações de indexação ou resumo, o provável é que sejam efetuadas ‘automaticamente’ por 
meio de várias etapas de processamento informatizado. Esses procedimentos automáticos, junto com as 
buscas em textos completos e o caso específico da Rede, são tratados nos capítulos finais deste livro. 
Embora a figura 1 não corresponda exatamente à situação encontrada na Rede, a figura 2, sim. Isto é, o 
problema de busca mostrado ali é igualmente pertinente às buscas feitas na Rede, exceto que multiplicada 
por ordens de grandeza. 
 
 
* Uma busca que classifique os resultados em ordem de ‘relevância provável’ exige uma medida um tanto diferente, a qual, com efeito, 
compara a classificação [ranking] obtida com uma classificação ideal. 
 17 
Capítulo 2 – Princípios da indexação 
 
Embora o título deste livro se refira à ‘indexação’, seu alcance limita-se, de fato, à indexação de 
assuntos e redação de resumos. A indexação de assuntos e a redação de resumos são atividades 
intimamente relacionadas, pois ambas implicam a preparação de uma representação do conteúdo temático 
dos documentos. O resumidor redige uma descrição narrativa ou síntese do documento, e o indexador 
descreve seu conteúdo ao empregar um ou vários termos de indexação, comumente selecionados de algum 
tipo de vocabulário controlado. 
O principal objetivo do resumo é indicar de que trata o documento ou sintetizar seu conteúdo. Um 
grupo de termos de indexação serve ao mesmo propósito. Por exemplo, o seguinte conjunto de termos 
proporciona uma idéia bastante razoável sobre os assuntos tratados num relatório hipotético: 
Centros de Informação 
Compartilhamento de Recursos 
Catálogos Coletivos 
Catalogação Cooperativa 
Redes em Linha 
Empréstimos entre Bibliotecas 
 
Em certo sentido, essa lista de termos pode ser vista como uma espécie de minirresumo. Serviria a tal 
propósito se todos os termos fossem reunidos num índice publicado, copiados pela impressora ou mostrados 
na tela para representar um item recuperado numa base de dados, como resultado de uma busca em linha. 
De modo mais evidente, os termos atribuídos pelo indexador servem como pontos de acesso 
medianteos quais um item é localizado e recuperado, durante uma busca por assunto num índice publicado 
ou numa base de dados eletrônica.* Assim, num índice impresso, convém que se possa encontrar o item 
hipotético mencionado anteriormente sob qualquer um dos seis termos. Num sistema de recuperação 
informatizado, evidentemente, seria natural encontrá-lo sob qualquer um desses termos ou, de fato, sob 
qualquer combinação deles. 
A diferença entre indexação e redação de resumos está se tornando cada vez mais difusa. Por um 
lado, uma lista de termos de indexação pode ser copiada pela impressora ou mostrada na tela de modo a 
constituir um minirresumo. Por outro lado, o texto de resumos pode ser armazenado num sistema 
informatizado de modo a permitir a realização de buscas por meio da combinação de palavras que ocorram 
nos textos. Esses resumos podem ser utilizados no lugar de termos de indexação, permitindo o acesso aos 
itens, ou complementar os pontos de acesso proporcionados pelos termos de indexação. Em certa medida 
isso modifica a função do resumidor, que deve agora preocupar-se não só em redigir uma descrição clara e 
de boa qualidade do conteúdo do documento, mas também em criar um registro que seja uma 
representação eficaz para fins de recuperação. 
Se a indexação e a redação de resumos fossem consideradas como atividades inteiramente 
complementares, a natureza da atividade de indexação sofreria algum tipo de mudança. Por exemplo, o 
indexador se concentraria na atribuição de termos que complementassem os pontos de acesso existentes no 
resumo. Tal complementaridade, porém, deve ser inteiramente reconhecida e compreendida pelo usuário da 
base de dados. Do contrário, um conjunto de termos de indexação isolados daria uma imagem bastante 
equivocada do conteúdo de um item. 
 
Extensão do registro 
Uma das propriedades mais importantes de uma representação de conteúdo temático é sua extensão. 
O efeito da extensão do registro acha-se exemplificado na figura 3. No lado esquerdo da figura, encontram-
se várias representações do conteúdo de um artigo de periódico na forma de texto narrativo; no lado direito, 
estão duas representações na forma de listas de termos de indexação. 
O título contém uma indicação geral sobre aquilo de que trata o artigo. O resumo breve oferece mais 
detalhes, indicando que o artigo apresenta resultados da pesquisa e identificando as principais questões 
analisadas. O resumo ampliado vai mais além, identificando todas as questões focalizadas na pesquisa e 
informando sobre o tamanho da amostra utilizada no estudo. 
 
* Outros autores empregam terminologia diferente para designar a indexação e os termos de indexação sem que isso altere de modo 
relevante o significado adotado neste livro. Por exemplo, Anderson (1985) vê os termos como ‘indicadores’ de conteúdo; indexação 
como “o processo de indicar o conteúdo e características afins de um documento”. O’Connor (1996) prefere o termo ‘apontamento’ 
[pointing]: os termos de indexação são apontadores; indexação é a tarefa de atribuir apontadores úteis a fontes de informação. 
 18 
Quanto mais informações são apresentadas, mais claramente a representação revela o alcance do 
artigo, tornando-se mais provável que venha a indicar para o leitor se esse artigo satisfaz ou não a uma 
necessidade de informação. Por exemplo, alguém talvez esteja à procura de artigos que mencionem as 
atitudes norte-americanas em relação a vários líderes árabes. O título não traz indicação alguma de que esse 
tópico específico seja analisado, e o resumo breve, ao focalizar outros tópicos, sugere que talvez isso não 
aconteça. É somente o resumo ampliado que mostra que o artigo inclui informações sobre esse assunto. 
Também, quanto maior a representação, mais pontos de acesso ela proporciona. Se as palavras do 
título fossem os únicos pontos de acesso, esse item provavelmente não seria localizado em muitas buscas 
para as quais poderia ser considerado uma resposta válida. À medida que se aumenta a extensão da 
representação também se aumenta a recuperabilidade do item. É provável que somente com o resumo 
ampliado fosse possível recuperar esse item durante uma busca de informações sobre as atitudes norte-
americanas em face dos líderes árabes. 
 
Título 
Pesquisa nacional de opinião pública sobre as atitudes norte-
americanas a respeito do Oriente Médio 
 
Resumo (breve) 
Uma pesquisa realizada por telefone em 1985 apresenta 
opiniões sobre tópicos como: a ajuda norte-americana a Israel e 
ao Egito; se os EUA devem tomar o partido de Israel, das 
nações árabes, ou de nenhum destes; se a OLP deve participar 
de uma conferência de paz; e se um Estado palestino 
independente é um pré-requisito para a paz. 
 
 
Resumo (ampliado) 
Em 1985 foram feitas entrevistas por telefone com uma 
amostra probabilística de 655 norte-americanos. Obtiveram-se 
respostas às seguintes questões: o estabelecimento de um 
Estado palestino é essencial para a paz; deve ser reduzida a 
ajuda norte-americana a Israel e ao Egito; os EUA devem 
participar de uma conferência de paz que inclua a OLP; os EUA 
não devem favorecer nem Israel nem as nações árabes, mas, 
sim, manter relações amistosas com eles? Também se 
expressaram opiniões sobre os principais líderes do Oriente 
Médio (Hussein, Arafat, Peres, Mubarak, Fahd, Assad), 
especialmente seus esforços pela paz, e se os entrevistados 
achavam que possuíam ou não informações suficientes sobre os 
diversos grupos nacionais da região. 
 
Indexação (seletiva) 
OPINIÃO PÚBLICA 
PESQUISAS POR TELEFONE 
ESTADOS UNIDOS 
ATITUDES 
ORIENTE MÉDIO 
 
Indexação (exaustiva) 
OPINIÃO PÚBLICA 
PESQUISAS POR TELEFONE 
ESTADOS UNIDOS 
ATITUDES 
ORIENTE MÉDIO 
ISRAEL 
EGITO 
NAÇÕES ÁRABES 
ORGANIZAÇÃO PARA A LIBERTAÇÃO DA PALESTINA 
CONFERÊNCIAS DE PAZ 
PAZ 
ESTADO PALESTINO 
AJUDA EXTERNIA 
LÍDERES POLÍTICOS 
 
Figura 3 – Efeito da extensão do registro sobre a recuperabilidade 
 
A mesma situação aplica-se à indexação. A indexação seletiva, que inclua apenas cinco termos, 
apresenta uma indicação muito geral daquilo de que trata o artigo (aproximadamente equivalente, neste 
caso, ao título) e um nível de acesso muito limitado. A indexação mais exaustiva proporciona uma indicação 
muito melhor do assunto específico de que trata o artigo, bem como possibilita muito mais pontos de 
acesso. 
 
Etapas da indexação de assuntos 
A indexação de assuntos envolve duas etapas principais: 
1. Análise conceitual, e 
2. Tradução. 
 
Intelectualmente são etapas totalmente distintas, embora nem sempre sejam diferençadas com 
clareza e possam, de fato, ocorrer de modo simultâneo. 
A análise conceitual, em primeiro lugar, implica decidir do que trata um documento - isto é, qual o seu 
assunto. Os termos que aparecem na lista à direita, na figura 3, representam a análise conceitual de um 
artigo feita por este autor aquilo que, segundo sua opinião, constituía o assunto do artigo. 
Esta afirmativa sobre análise conceitual está bastante simplificada. A indexação de assuntos é 
normalmente feita visando a atender às necessidades de determinada clientela - os usuários de um centro 
de informação ou de uma publicação específica. Uma indexação de assuntos eficiente implica que se tome 
 19 
uma decisão não somente quanto ao que é tratado num documento, mas também por que ele se reveste de 
provável interesse para determinado grupo de usuários. Em outras palavras, não há um conjunto ‘correto’ 
de termos de indexação para documento algum. A mesma publicação será indexada de modo bastante 
diferente em diferentes centros de informação, e deve ser indexada de modo diferente, se os grupos de 
usuários estiverem interessados no documento por diferentes razões.* 
O indexador, então, deve formular várias

Outros materiais