LIVRO - Indexacao e resumos - teoria e pratica (F W Lancaster)

•

UFSC

everaldo veiga furtado furtado

10/02/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 268 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 268 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 268 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Catalogação Descritiva

129 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

F. W. Lancaster

Indexação e resumos
Teoria e prática

Segunda edição revista e atualizada

Lancaster, F. W. 1933-
Indexação e resumos : teoria e prática / F. W. Lancaster ;
tradução de Antonio Agenor Briquet de Lemos. – 2 ed. Ver. atual. –
Brasília, DF : Briquet de Lemos / Livros, 2004.

Título original: Indexing and adstracting in theory and practice.
Bibliografia

ISBN 85-85637-24-2

1. Indexação. 2. Resumos – Redação. I. Título.

Desde sua primeira edição em 1991, este livro encontrou excelente acolhida entre os profissionais da
informação. Sua tradução brasileira inaugurou as atividades editoriais de Briquet de Lemos / Livros, em
1993. Esta terceira edição, cujo original foi publicado nos EUA em 2003, foi inteiramente revista e
atualizada, tendo sido incluídos dois novos capítulos: sobre bases de dados de imagens e sons, e indexação
na internet.
Trata-se de texto que alcançou a categoria de clássico na matéria e que é recomendado praticamente
em todos os cursos de biblioteconomia e ciência da informação. Além disso, sua utilidade é incontestável
para profissionais que, entre outras atividades, trabalhem na produção e manutenção de bases de dados,
construção de portais na internet, intranets e em programas de gestão do conhecimento. A parte sobre
resumos reveste-se de particular interesse não apenas para produtores de bases de dados, mas também
para editores de periódicos científicos.

F. W. Lancaster é professor emérito da Graduate School of Library and Information Science da
University of Illinois (EUA). Reconhecido internacionalmente como um dos maiores expoentes da
biblioteconomia e ciência da informação, teve a primeira edição desta obra premiadas, em 1992, pela
American Society for Information Science, como o melhor livro de ciência da informação. Premiação que
voltou a ser concedida a três outros títulos de sua autoria.

2
Como referenciar os capítulos do livro?

LANCASTER, F. W. Título do capítulo. In: ________. Indexação e resumos: teoria e prática.
Brasília, DF: Briquet de Lemos/Livros, 2004. Cap. Número do capítulo, p. Página inicial-Página final.

OBS.: preencha todos os campos (basta dar um clique em cima de cada um) com os dados
necessários e copie depois todo o modelo de referência acima e cole no local desejado.

Páginas inicial e final de cada capítulo no livro original impresso de onde se extraiu o texto

Divisões Capítulo Título Página Inicial
Página
Final
Parte 1
Teoria,
princípios
e
aplicações
1 Introdução 1 5
2 Princípios da indexação 6 23
3 A prática da indexação 24 49
4 Índices pré-coordenados 50 67
5 Coerência da indexação 68 82
6 Qualidade da indexação 83 99
7 Resumos: tipos e funções 100 112
8 A redação do resumo 113 134
9 Aspectos da avaliação 135 157
10 Métodos adotados em serviços impressos de indexação e resumos 158 185
11 Como melhorar a indexação 186 198
12 Da indexação e redação de resumos de obras de ficção 199 213
13 Bases de dados de imagens e sons 214 248
14 Buscas em textos 249 283
15 Indexação automática, redação automática de resumos e processos afins 284 338
16 A indexação e a internet 339 357
17 O futuro da indexação e redação de resumos 358 368
Parte 2
Prática
18 Exercícios de indexação 369 382
19 Exercícios de redação de resumos 383 391
Apêndices
1 Síntese de princípios de redação de resumos 392 393
2 Análise de conteúdo modular 394 396

3
Sumário

Prefácio ..................................................................................................................... 6
Agradecimentos .......................................................................................................... 7
Uma nota sobre terminologia (e a redescoberta da roda) ............................................... 8
Lista de figuras ......................................................................................................... 11
Parte 1 – Teoria, princípios e aplicações ...................................................................... 14
Capítulo 1 - Introdução ........................................................................................... 14
Capítulo 2 – Princípios da indexação ........................................................................ 17
Extensão do registro ..................................................................................................................... 17
Etapas da indexação de assuntos ................................................................................................... 18
Atinência ..................................................................................................................................... 21
Tradução ..................................................................................................................................... 24
Vocabulários controlados ............................................................................................................... 25
Indexação como classificação ........................................................................................................ 25
Especificidade do vocabulário ........................................................................................................ 26
Capítulo 3 – A prática da indexação ......................................................................... 28
Exaustividade da indexação ........................................................................................................... 30
Princípio da especificidade ............................................................................................................. 34
Outras diretrizes ........................................................................................................................... 35
Índices pós-coordenados ............................................................................................................... 36
Instrumentos auxiliares da indexação ............................................................................................. 37
Capítulo 4 – Índices pré-coordenados ...................................................................... 46
Classificação em índices de assuntos .............................................................................................. 52
Nível de coordenação .................................................................................................................... 56
Índices de final de livro ................................................................................................................. 57
Índices pré-coordenados versus índices pós-coordenados ................................................................ 57
Capítulo 5 – Coerência da indexação ........................................................................ 58
Fatores que influem na coerência .................................................................................................. 59
Coerência na análise conceitual versus coerência na tradução .......................................................... 63
Capítulo 6 – Qualidade da indexação ....................................................................... 67
Como reconhecer uma’ boa’ indexação ........................................................................................... 69
Fatores que influem na qualidade da indexação .............................................................................. 70
A qualidade está relacionada à coerência? ...................................................................................... 72
A utilidade dos estudos de coerência .............................................................................................. 73
A qualidade medida com o emprego de um padrão ......................................................................... 74
Capítulo 7 – Resumos: tipos e funções .....................................................................78
Finalidade dos resumos ................................................................................................................. 80
Resumos modulares ..................................................................................................................... 82
Minirresumos ............................................................................................................................... 85
Resumos telegráficos .................................................................................................................... 85
Capítulo 8 – A redação do resumo ........................................................................... 86
Conteúdo e formato ...................................................................................................................... 87
Resumidores ................................................................................................................................ 91
Qualidade e coerência na redação de resumos ................................................................................ 92
Questões de compatibilidade ......................................................................................................... 95
O boletim interno ......................................................................................................................... 96
Inclinação para um assunto ........................................................................................................... 99
Capítulo 9 – Aspectos da avaliação ........................................................................ 100
4
Cobertura .................................................................................................................................. 100
Recuperabilidade ........................................................................................................................ 106
Previsibilidade ............................................................................................................................ 109
Atualidade ................................................................................................................................. 111
Normas ..................................................................................................................................... 112
Outros aspectos concernentes à avaliação .................................................................................... 112
Capítulo 10 – Métodos adotados em serviços impressos de indexação e resumos ...... 114
Índices alfabético-específicos ....................................................................................................... 114
Índices classificados ................................................................................................................... 118
Outros índices ............................................................................................................................ 124
Índices de citações ..................................................................................................................... 131
Conclusão .................................................................................................................................. 134
Capítulo 11 – Como melhorar a indexação .............................................................. 137
Indexação ponderada ................................................................................................................. 137
Elos entre termos ....................................................................................................................... 138
Indicadores de função ................................................................................................................ 139
Subcabeçalhos ........................................................................................................................... 143
Dispositivos da linguagem de indexação ....................................................................................... 144
Capítulo 12 – Da indexação e redação de resumos de obras de ficção ...................... 146
A ficção em particular ................................................................................................................. 148
Redação de resumos .................................................................................................................. 152
Capítulo 13 – Bases de dados de imagens e sons .................................................... 156
Indexação de imagens ................................................................................................................ 156
Abordagens baseadas no conteúdo .............................................................................................. 159
Imagens na Rede Mundial ........................................................................................................... 164
Resumos de imagens .................................................................................................................. 165
Atributos da imagem .................................................................................................................. 166
Com base em conceitos ou em conteúdo? .................................................................................... 168
Metadados e vocabulários de indexação ....................................................................................... 170
Bases de dados de sons .............................................................................................................. 170
Recuperação de música .............................................................................................................. 173
Sistemas multimídias .................................................................................................................. 174
Conclusões ................................................................................................................................ 176
Capítulo 14 – Buscas em textos ............................................................................. 178
Um pouco de história .................................................................................................................. 178
Recursos auxiliares de busca ....................................................................................................... 180
Linguagem natural versus vocabulário controlado: algumas considerações gerais ............................. 180
Revisão de estudos afins: antes de 1980 ...................................................................................... 184
Revisão de estudos afins: a partir de 1980 .................................................................................... 189
Sistemas híbridos ....................................................................................................................... 191
O vocabulário pôs-controlado ...................................................................................................... 192
Abordagens atuais ...................................................................................................................... 194
O que foi concretizado?............................................................................................................... 195
Perguntas e respostas ................................................................................................................. 197
Descoberta de conhecimento ....................................................................................................... 197
Conclusões ................................................................................................................................ 198
Capítulo 15 – Indexação automática, redação automática de resumos e processos afins
..........................................................................................................................199
Indexação por extração automática ............................................................................................. 200
Indexação por atribuição automática ............................................................................................ 202
Estudos anteriores sobre indexação ............................................................................................. 202
Outras formas de classificação ..................................................................................................... 204
Redação automática de resumos.................................................................................................. 208
Operações ‘automáticas’ de recuperação ...................................................................................... 212
Abordagens atuais ...................................................................................................................... 214
5
Conclusões ................................................................................................................................ 227
Capítulo 16 – A indexação e a internet ................................................................... 232
Serviços de busca na Rede .......................................................................................................... 232
Recursos de recuperação ............................................................................................................ 233
Metadados ................................................................................................................................. 236
Resumos na Rede ....................................................................................................................... 238
Spamming de índice e outras trapaças ......................................................................................... 239
Vinculação de hipertexto/hipermídia ............................................................................................. 240
Classificação na internet .............................................................................................................. 241
Portais ....................................................................................................................................... 242
Capítulo 17 – O futuro da indexação e redação de resumos ..................................... 244
Abordagens profissionais ............................................................................................................. 246
Abordagens alternativas .............................................................................................................. 247
Abordagens automáticas ............................................................................................................. 248
Conclusão .................................................................................................................................. 248
Parte 2 – Prática ..................................................................................................... 250
Capítulo 18 – Exercícios de indexação .................................................................... 250
Itens a serem indexados ............................................................................................................. 250
Indexação e explicações do autor ................................................................................................ 253
Capítulo 19 – Exercícios de redação de resumos ..................................................... 259
PARTE 1 .................................................................................................................................... 259
Resumos deste autor .................................................................................................................. 259
PARTE 2 .................................................................................................................................... 261
Resumos ................................................................................................................................... 261
Comentários deste autor ............................................................................................................. 263
Apêndice 1 – Síntese de princípios de redação de resumos ...................................... 265
Princípios gerais ......................................................................................................................... 265
Princípios relativos ao conteúdo ................................................................................................... 265
Apêndice 2 – Análise de conteúdo modular com módulos temáticos ......................... 267
Entradas de índice ...................................................................................................................... 268

6
Prefácio

A primeira edição desta obra, que recebeu o prêmio de melhor livro do ano sobre ciência da
informação, outorgado pela American Society for Information Science, foi publicada em 1991; a segunda foi
lançada em 1998. Ambas foram bem-recebidas pelos críticos, e o livro tem sido amplamente utilizado como
texto didático na América do Norte, no Reino Unido e em outros países.
Entre 1991 e 1998 este campo passou por mudanças notáveis, o que suscitou a necessidade de novos
capítulos, principalmente sobre a internet e a indexação e elaboração de resumos para bases de dados de
imagens e sons. As mudanças verificadas a partir de 1998 foram menos marcantes. No entanto, ocorreram
avanços que definiam a necessidade de uma terceira edição.
Todo o texto foi atualizado, embora os capítulos iniciais, que tratam mais de princípios básicos,
permaneçam bem similares aos da segunda edição. Em compensação, alguns dos capítulos finais foram
substancial ou completamente reescritos. Refiro-me aos capítulos 13-17 que tratam, respectivamente, de
bases de dados de imagens e sons, buscas em textos, indexação automática e atividades afins, indexação e
a internet, e o futuro da indexação e da redação de resumos.
Não alterei muitas das figuras porque acho que as que foram utilizadas na segunda edição ainda
continuam totalmente válidas para ilustrar os aspectos que desejo mostrar. Isso é ainda mais verdadeiro no
que tange ao capítulo 10, sobre serviços impressos de indexação e resumos. Embora pudesse ter atualizado
as páginas apresentadas como amostras, pareceu-me bastante desnecessário fazê-lo.
Embora a indexação e redação de resumos fossem antigamente tidas como processos que somente
interessavam a bibliotecas e a algumas editoras, sua relevância e utilidade são reconhecidas hoje em dia de
modo muito mais amplo, pois, obviamente, encontram aplicação em todos os tipos de recursos de
informação em formato digital. Assim, esta edição, embora continue sendo destinada fundamentalmente ao
uso como texto didático em escolas de biblioteconomia e ciência da informação (e programas afins), ainda
se reveste de interesse para um público muito maior: produtores de bases de dados de todos os tipos, bem
como aquelas pessoas interessadas em outras áreas, como o projeto de intranets, desenvolvimento de
portais, sistemas de gerenciamento da informação, e gestão do conhecimento em geral.
Acho que devo dizer algo acerca das fontes citadas. O autor de uma recensão da primeira edição
criticou-me por continuar citando fontes ‘antigas’. Apesar de ter feito um esforço para atualizar por completo
as fontes citadas (até o começo de 2003), não tenho por que me desculpar por continuar citando material
antigo e até muito antigo. Para mim é inconcebível que um livro sobre este assunto deixe de citar (por
exemplo) Cutter (1876) e Ranganathan (década de 1930). Ademais, muitas pessoas que hoje escrevem
sobre esses temas parecem não ter interesse nem conhecer as primeiras contribuições feitas a este campo.
Acredito que seja importante,principalmente para os estudantes, compreender como este campo se
desenvolveu e reconhecer que muitas das idéias atualmente apresentadas como novas podem ser
encontradas, de fato, na literatura de trinta ou mais anos passados, em forma um tanto similar.
Do mesmo que nas edições anteriores, esta não procura lidar com os índices de livros isolados, que
aparecem no final dos livros impressos. Trata-se de assunto bem estudado em outras obras escritas por
pessoas com muito mais experiência do que eu nessa área específica.
Esta edição deve ainda ser vista como um texto de natureza introdutória. Embora creia que os
capítulos 1-12 sejam bastante abrangentes, já sobre os temas focalizados nos capítulos 13-15 foram escritos
livros completos, de modo que esses capítulos, em particular, devem ser lidos como introduções a esses
temas.

F.W. LANCASTER
Urbana, Illinois (EUA)
Março de 2003

7
Agradecimentos

Encontra-se consignada nas legendas das figuras a permissão para utilização de várias figuras de
diferentes fontes. Além disso, quero agradecer a: Elsevier Science pela permissão para citar alguns trechos
extensos de textos publicados em Information Processing and Management; OCLC Inc. pela permissão para
reproduzir longas passagens de um artigo de O’Neill et al. (2001); John Wiley and Sons pela permissão para
citar vários trechos extensos de material publicado no Journal of the American Society for Information
Science and Technology (e seus antecessores); Information Today Inc. (<www.infotoday.com> pela
permissão para reproduzir extensas citações de Rock (2001), de EContent e de Online; IBM pela permissão
para reproduzir uma longa citação do IBM Systems Journal; Thomas Craven pela permissão para reproduzir
citações de vários de seus artigos; Getty Research Institute por extensas citações de Layne (2002); IOS
Press pela permissão de reproduzir urna extensa citação de Nielsen (1997); e ACM Publications pela
permissão de fazer citação de Wactlar et al. (2002).
Os termos e definições extraídos da iso 5963:1985 são reproduzidos com a permissão da International
Organization for Standardization (ISO). Esta norma pode ser obtida junto a qualquer membro da 150 e no
sítio na Rede da secretaria central da ISO no seguinte endereço: <www.iso.org>. O detentor do direito
autoral é a ISO.
Por fim, quero agradecer a várias pessoas por sua ajuda nesta edição: Bella Weinberg por ter me
chamado a atenção para algumas fontes que, de outra forma, me teriam passado despercebidas; Bryan
Heidorn por ter lido um primeiro rascunho do capítulo 13; Susanne Humphrey e Lou Knecht por atualizarem
as informações de que dispunha acerca da National Library of Medicine; June Silvester, do Center for Aero
Space Information; Chandra Prabha pelas informações do OCLC; o pessoal da Library and Information
Science Library da University of Illinois (e especialmente Sandy Wolf), por sua paciente ajuda na localização
de material para mim, e Kathy Painter pelo seu trabalho, tradicionalmente excelente, de colocar a revisão do
texto em formato eletrônico.

F.W. LANCASTER
Urbana, Illinois
Abril de 2003

8
Uma nota sobre terminologia (e a redescoberta da roda)

Tenho trabalhado em bibliotecas ou em torno delas há muitos anos. Durante grande parte desse tempo
estive envolvido, de uma ou outra forma, com a análise de assuntos. Em 1957, comecei a trabalhar
redigindo resumos, que abrangiam uma ampla gama de material científico e tecnológico, para um boletim de
resumos para a indústria, tarefa que exigia também um nível minucioso de indexação temática dos itens
resumidos. Em 1958, assumi o trabalho de editor desse boletim. Anteriormente tivera experiência com a
classificação de livros numa biblioteca pública, além de redigir anotações, sobre características locais, a
serern incluídas nas fichas catalográficas (na década de 1950 a catalogação cooperativa ou centralizada
ainda não era a norma). Por volta de 1961 estava envolvido no campo da ‘recuperação da informação’, e
publiquei meu primeiro artigo em 1963 e o primeiro livro em 1968.
Em outras palavras, tem sido muito longa minha participação nas áreas de análise
temática/recuperação da informação, presenciei inúmeras mudanças e conheci muitos dos principais atores
deste palco em particular.
Até o final da década de 1940 e começo da década de 1950, o campo que hoje lembramos como
‘recuperação da informação’ era domínio quase exclusivo da profissão de bibliotecário. A realização de duas
importantes conferências internacionais, além do reconhecimento de que os computadores poderiam aportar
uma contribuição importante ao problema da recuperação da informação, tornaram o campo mais atraente e
para ele acorreram pesquisadores de muitas outras áreas.
Ao longo de um período de mais de 50 anos, as contribuições à bibliografia sobre recuperação da
informação tiveram origem em praticamente todos os campos acadêmicos, inclusive matemática, ciência da
computação, psicologia, estatística, direito e medicina (informática médica).
Embora rostos novos e novos enfoques sejam sempre bem-vindos, é lamentável que muitos dos que
hoje trabalham neste campo não tenham nenhuma formação prévia e, por isso, nenhum alicerce sólido
sobre o qual construir. O maior problema é causado pelo fato de que muitos dos que atualmente trabalham
com recuperação da informação parecem completamente ignorantes do fato de que outros processos
diferentes dos totalmente automáticos foram aplicados, com algum sucesso, à recuperação da informação
durante mais de 100 anos, e que de fato existe uma bibliografia sobre recuperação da informação além
daquela da comunidade de informática. Exemplo gritante encontra-se em Agosti et al. (1995), que definem
as ‘etapas da indexação’ como “extração de termos [term extractionl, remoção de termos proibidos- [stop-
terni remova], fusão [conflation] e ponderação [weighting]”.
Muitas idéias surgidas hoje possuem claros antecedentes na literatura de 30 ou 40 anos atrás, mas
esses trabalhos pioneiros são completamente desconhecidos para os pesquisadores atuais. Um caso
pertinente é a pesquisa sobre mapas visuais ou ‘navegadores’ [browsers] para facilitar a navegação em
sistemas de hipermídia (por exemplo, Fowler et al., 1996; Zizi, 1996) que é basicamente uma redescoberta
dos ‘mapas semânticos’ [semanhic roadmaps] de Doyle (1961).
O campo da recuperação de imagens parece ser o pior de todos em matéria de reinventar a roda. Por
exemplo, um artigo de Schreiber et al. (2001) descreve um esquema para indexação de fotografias
(denominam-no ‘anotação fotográfica baseada na ontologia’ [ontology-based photo annotation], que se
baseia essencialmente num conjunto bastante simples de facetas. Parece que acreditam que a análise de
facetas surgiu com eles ou, pelo menos, com Outros que trabalham na mesma área. Ironicamente, o
trabalho deles foi publicado num periódico dedicado a ‘sistemas inteligentes’.
Os cientistas da computação que escrevem sobre recuperação da informação parecem reconhecer e
citar somente Outros cientistas da computação que escrevem sobre recuperação da informação. Exemplo
óbvio é o reconhecimento e a citação quase unânimes de Salton como a autoridade em medidas de
revocação e precisão na avaliação de atividades de recuperação da informação. Gerard Salton, por mais
importante que tenha sido no campo da recuperação da informação, com a maior certeza não foi o
introdutor dessas medidas, que, de fato, remontam à década de 1950.
Esse fenômeno de redescobrimento foi salientado por Holmes (2001), ele próprio um cientista da
computação, que nos faz lembrar a advertência feita por George Santayana para quem aqueles que não
podem recordar o passado estão condenados a repeti-lo. Holmes, partindo disso, acrescenta:
[...] o que pensamos que sejam inovações muitas vezes são meras repetições [...] nossa profissão pode
desenvolver-se de modo mais rápido e melhor por meio de inovações cumulativas, construindosobre os
alicerces de seu passado ao invés de ignorá-lo (p. 144).

Ele afirma que, em particular, as obras de Vannevar Bush e Hans Peter Luhn, que datam de 40 ou 60
anos, contêm idéias que desde então são reinventadas.
Minha pior experiência com esse problema específico ocorreu há vários anos, quando deparei com um
artigo escrito por um cientista europeu, essencialmente um matemático, acerca de assunto sobre o qual eu
9
publicara anteriormente. Quando escrevi para mostrar que ele deixara de citar meu trabalho anterior, e
diversos outros de autoria de outros pesquisadores, ele contestou, folgadamente, para dizer que nunca
pesquisava na literatura, a não ser que estivesse escrevendo um artigo de revisão! Que espécie de não-
ciência egoísta é essa?
Outro resultado da multiplicidade de profissões que agora contribuem para a literatura de análise
temática/recuperação da informação está na substituição, sem necessidade, da terminologia, apropriada e
reconhecida, da profissão bibliotecária. Exemplo óbvio é ‘metadados’. O Oxford English Dictionary (em linha)
registra 1968 como o ano do aparecimento dessa palavra. Na época foi usada para designar dados que
descreviam conjuntos de dados (numéricos ou estatísticos). Desde então tornou-se praticamente um
substituto para ‘descrição bibliográfica’, denominação esta perfeitamente razoável, com a qual convivíamos
há muitos e muitos anos e que é aceita em normas internacionais. Alguém, é claro, poderia argumentar que
‘bibliográfico’ aplica-se apenas a livros. Sua extensão, porém, a outras formas documentárias (como em
‘base de dados bibliográficos’ e ‘referência bibliográfica’) convive conosco há muito tempo.
Alguns autores, com certeza, chamaram atenção para o mesmo problema. Milstead e Feldman (1999),
por exemplo, argumentam convincentemente:
Quer o chamemos de catalogação. indexação ou metadados. o conceito é familiar aos profissionais da
informação. Agora, o mundo eletrônico por fim o descobriu. Faz alguns anos, somente uns poucos
filósofos haviam ouvido falarem ‘metadados’. Hoje em dia, é difícil encontrar uma publicação sobre
recursos eletrônicos que ignore essa palavra. [...] Como o personagem que passou toda a vida escrevendo
prosa sem saber que o fazia,* os bibliotecários e indexadores vêm há séculos produzindo e normalizando
metadados. Ignorando este legado, uma imensa variedade de outros atores ingressaram recentemente
nesse campo, e muitos deles não têm qualquer idéia de que alguém mais antes deles já tenha ‘estado ali,
feito aquilo’. Sistemas diferentes estão sendo desenvolvidos para tipos diferentes e às vezes os mesmos
de informação, disso resultando uma atmosfera caótica de normas conflitantes (p. 25).

Não obstante, parecem dispostas a aceitar a nova terminologia.
Pessoas de nosso próprio campo, que certamente deveriam saber mais (e ser mais responsáveis),
colaboram com essa situação. Por exemplo, Greenberg (2003) nos diz que a geração de metadados por
seres humanos ocorre quando uma pessoa, como um criador profissional de metadados ou um fornecedor
de conteúdo, produz metadados. Para ela ‘criador profissional de metadados’ é o ‘catalogador’ ou
‘indexador’, conforme admite depois em seu artigo (embora ela também inclua ‘web inaster’ nesta
categoria). Fiquei profundamente chocado (e de modo algum satisfeito) ao saber que gastei vários anos de
minha vida como criador profissional de metadados, se bem que inocente disso.
Muitos que escrevem sobre recuperação de imagens usam o termo ‘anotação’ para designar a
atribuição de rótulos de texto, como palavras-chave, que identificam o que a imagem representa, o que,
evidentemente, e’’ indexação’. Isso é duas vezes lamentável porque ‘anotação’ [annotation], há muitos anos,
é empregada para designar o que é, fundamentalmente, um resumo muito sucinto (que aparecia
antigamente em fichas de catálogos). Liu e Li (2002) mencionam termos de indexação atribuídos a
videoclipes como ‘etiquetas de anotação’ [atinotation tags]. Parece que elas constituem uma ‘descrição
semântica’ [semantic description] e são obtidas por meio de ‘extração semântica’ [semantic extraction] que,
provavelmente, significa identificação do assunto tratado.
Parte dessa confusão terminológica se deve a desleixo no trabalho editorial. Faz pouco deparei com
um artigo em que a palavra ‘indexation’, que estava até no título, era usada como sinônimo de ‘indexing’. O
vocábulo ‘indexation’ realmente existe na língua inglesa, mas empregado apenas em contexto econômico
(por exemplo, em relação a certas variáveis, como aumento ou redução de salários e juros às mesmas taxas
do índicé de custo de vida); quase com certeza não é sinônimo de ‘indexing’. Os autores, neste caso, têm
uma desculpa porque são franceses (‘indexation’ é o equivalente francês de ‘indexing’), mas não há desculpa
para os editores de um periódico em língua inglesa se permitirem tal incorreção. Aguardo agora que a
palavra ‘indexation’ venha a substituir ‘indexing’ na literatura de ciência da computação.
Santini (2002), outro cientista da computação, conclamou seus colegas de profissão a ser mais
responsáveis no uso da linguagem. E adverte que:
O irrefreável uso incorreto da linguagem em informática ameaça levar nossa profissão a se isolar da
sociedade e tornar incompreensíveis nossas realizações (p. 128).

Santini concorda com o ponto que venho tentando expor:
Outras palavras fazem mais sentido, mas estão sendo inexplicavelmente abandonadas em favor de
vocábulos menos apropriados (p. 126).

* Monsieur Jourdan, personagem de Le bourgeois gentilhomme, de Moliêre. (N.T.)
10
Dentre os termos que ele destaca para serem desprezados estão ‘data warehouse’ [armazém de
dados] e ‘data inart’ [mercado de dados] em vez de ‘data- base’ [base de dados].
Uma palavra que enfrento cena dificuldade em aceitar é ‘inining’ [mineração] (como em data inining,
text mining, speech inining ou Web mining [mineração de dados, mineração de texto, mineração de fala ou
mineração da Rede], que é amiúde usada como sinônimo de ‘knowledge discovery’ [descoberta de
conhecimento]. Meu pai passou muitos anos da vida numa mina de carvão do norte da Inglaterra,
trabalhando como cavouqueiro. Eram longas horas de trabalho, e durante a maior parte do ano só lhe era
possível ver a luz do dia uma vez por semana. Muitas vezes, cavoucava o carvão num ‘veio molhado’,
deitado na água, de costas ou de lado, numa galeria de teto muito baixo. Não tenho certeza de que esse
tipo de extração trabalhosa, na semi-escuridão, seja a analogia que os ‘data miners’ [mineradores de dados]
queiram realmente usar.
Minha maior queixa, porém, é o fato de o substantivo 'classiflcation’ haver sido praticamente
substituído por (pasme-se!) ‘taxonomy’ (pasme-se duas vezes!!), ‘ontology’ ou até (pasme-se três vezes!!!)
‘taxonoinized set of terms’ [conjunto taxonomizado de termos]. A maneira como estes termos são definidos
em artigos recentes mostra claramente que são empregados como sinônimos de ‘classification scheme’
[esquema de classificação]. Característico disso é um artigo de Hovy (2003) que define:
[...] uma ontologia simplesmente como um conjunto taxonomizado de termos, que variam desde termos
muito gerais na parte superior [...] até termos muito especializados na parte inferior (p. 48).

A ‘ontologia’ de Hovy toma-se uma ‘coiwept hierarchy’ [hierarquia de conceitos] em Meng et al.
(2002), que a definem como “um grande número de conceitos organizados em múltiplos níveis, de modo
que os conceitos em níveis superiores possuem significados mais amplos do que os de níveis inferiores”.
Quando fiz o curso de biblioteconomia, zilhões de anos atrás, essas definições teriam sido definições exatas,
embora muito simplistas, de classificação hierárquica.
Soergel (1999) também execrou a substituição de ‘classificação’ por ‘ontologia’ e o fez com muita
propriedade:
Uma classificação, qualquerque seja seu nome, continua sendo uma classificação. O emprego de termo
diferente é sintomático da falta de comunicação entre as comunidades científicas. Ignora-se amplamente
o vasto corpo de conhecimentos, que se desenvolveu em torno das classificações bibliográficas e mais
geralmente da ciência da informação, sobre a estrutura das classificações e as maneiras de representá-las,
bem como o imenso capital intelectual consubstanciado em muitos esquemas de classificação e tesauros.
Sistemas grandes e úteis vêm sendo construídos com mais esforço do que seria necessário. Exemplos são
o cyc ontology (<www.cyc.com/cyc2- l/intro-public.html>), cuja apresentação poderia ser bastante
melhorada, ou wordNct (<cogsci.princeton.edu/—wn> ou <www.notredame.ac.jplcgi-bin/wn.cgi>), uni
sistema maravilhoso cuja construção teria lucrado com a aplicação da experiência com a construção de
tesauros e cuja hierarquia (de conceitos) synset deveria ser tornada mais facilmente acessível com o
emprego de métodos clássicos de representação de classificação. Outro exemplo é o ANSI Ad Hoc Group
on Ontology SLandards (<wwwksl.stanford.cdu/onto_std/index,html>), que parece não contar entre seus
membros com nenhum cientista da informação interessado em classificação (p. 1120).

A ‘classificação’ como atividade também está sendo substituida na literatura de ciência da informação
pela ‘categorização’ (como em ‘categorização de textos’), mas isso, apesar de aborrecer, não parece ser tão
escandaloso.
Alguns termos da nova terminologia são superficialmente atraentes. Fui razoavelmente receptivo ao
vocábulo ‘summarization’ [sumarização] (porque poderia ser usado para abarcar ‘abstracting’ [redação de
resumos], ‘extracting’ [extratação] e até mesmo ‘annotation’ [anotação]) até que descobri que um livro
importante sobre o assunto (Endres-Niggemeyer, 1998) inclui a indexação temática como uma forma de
sumarização. Embora um conjunto de termos de indexação possa, de fato, funcionar como uma espécie de
resumo do conteúdo, a sumarização não é, com certeza, o principal objetivo da indexação.
Neste livro, sempre que possível, ative-me à terminologia antiga. Por razões de clareza, usei alguns
poucos termos novos, como metadados, mas o fiz com relutância.

11
Lista de figuras

Figura 1 – A função da elaboração de índices e resumos no quadro mais amplo da recuperação da
informação ......................................................................................................................................... 15
Figura 2 – O problema da recuperação de itens pertinentes de uma base de dados .................................. 15
Figura 3 – Efeito da extensão do registro sobre a recuperabilidade .......................................................... 18
Figura 4 – Exemplo de um documento indexado segundo diferentes pontos de vista ................................ 19
Figura 5 – Análise conceitual traduzida em três vocabulários controlados ................................................. 27
Figura 6 – As duas dimensões da indexação de um documento ............................................................... 31
Figura 7 – Rendimentos decrescentes na indexação ............................................................................... 33
Figura 8 – Sistema de recuperação da informação representado como uma matriz ................................... 38
Figura 9 – Formulário de indexação utilizado antigamente pela National Library of Medicine ...................... 39
Figura 10 – Formulário característico da indexação de Mooers ................................................................ 40
Figura 11 – Parte de vocabulário especializado sobre computadores digitais utilizado pelo U. S. Patent and
Trademark Office ................................................................................................................................ 41
Figura 12 – Seção do microtesauro do Air Pollution Technical Information Center ..................................... 42
Figura 13 – Tela de etiquetas no DCMS ................................................................................................. 43
Figura 14 – Registro de indexação pronto no DCMS ............................................................................... 44
Figura 15 – Exemplo de entradas de Medical subject headings – annoted alphabetic list (2003) ................. 44
Figura 16 – Exemplo de entradas de Tumor key, um vocabulário de entradas especializado antigamente
utilizado pela National Library of Medicine ............................................................................................. 45
Figura 17 – Entradas de um índice SLIC ................................................................................................ 47
Figura 18 – Entradas de índice baseado na alternação sistemática (modelo da Excerpta Medica) ............... 48
Figura 19 – Exemplo de entradas de um índice KWIC ............................................................................. 49
Figura 20 – Amostra das entradas de um índice KWOC .......................................................................... 50
Figura 21 – Formato alternativo de um índice KWOC usado no Diabetes-Related Literature Index,
suplemento de Diabetes, volume 12, 1960. ........................................................................................... 51
Figura 22 – Exemplo de entradas do British Technology lndex ................................................................ 55
Figura 23 – Sistema de relações de Farradane ....................................................................................... 56
Figura 24 – Termos (04 - J) atribuídos ao mesmo documento por cinco indexadores diferentes (a - e) ....... 58
Figura 25 – Possíveis fatores que influem na coerência da indexação....................................................... 59
Figura 26 – Relação entre coerência e quantidade de termos atribuídos ................................................... 60
Figura 27 – Efeito da quantidade de termos atribuídos sobre a coerência do indexador (dois indexadores) . 61
Figura 28 – Dois enfoques diferentes na indexação de um artigo intitulado .............................................. 64
Figura 29 – Dois enfoques diferentes na indexação de um artigo intitulado .............................................. 64
Figura 30 – Dois enfoques diferentes na indexação de um artigo intitulado .............................................. 65
Figura 31 – Dois enfoques diferentes na indexação de um artigo intitulado .............................................. 65
Figura 32 – Diferenças na análise conceitual de um artigo intitulado ........................................................ 66
Figura 33 – Fatores que influem nos resultados de uma busca numa base de dados ................................. 68
Figura 34 – Exemplo da perda de um item importante por causa de mera omissão do indexador ............... 69
Figura 35 – Fatores que podem afetar a qualidade da indexação ............................................................. 70
Figura 36 – Coerência do indexador relacionada aos interesses dos usuários ............................................ 72
Figura 37 – ‘Padrão’ de indexação para um artigo médico, mostrando escores relativos à atribuição de vários
tipos de termos ................................................................................................................................... 75
Figura 38 – Escores de dois indexadores em comparação com o padrão da figura 37 ................................ 75
Figura 39 – Resumo indicativo ............................................................................................................. 78
Figura 40 – Resumo informativo ........................................................................................................... 79
Figura 41 – Exemplo de um resumo crítico ............................................................................................80
Figura 42 – Gabarito para um resumo estruturado ................................................................................. 81
Figura 43 – Resumo em ‘diagrama de bloco’ de um artigo hipotético junto com um resumo ‘convencional’
para comparação ................................................................................................................................ 82
Figura 44 – Resumos modulares ........................................................................................................... 83
Figura 45 – Entradas de índices modulares ............................................................................................ 83
Figura 46, Parte 1 – Comparação de minirresumo, resumo de autor e resumos publicados em Chemical
Abstracts e Biological Abstracts (ver a parte 2 da figura) ........................................................................ 84
Figura 46, Parte 2 ............................................................................................................................... 84
Figura 47 – Princípios para redação de resumos, do Defense Documentation Center (1968) ...................... 87
Figura 48 – Exemplo de resumo altamente formatado ............................................................................ 89
12
Figura 49 – Informações essenciais de que necessitam os clínicos para avaliar a relevância e a qualidade de
artigos e, portanto, para sua inclusão em resumos estruturados ............................................................. 89
Figura 50 – Fundamentos da redação de resumos ................................................................................. 91
Figura 51 – Resultados hipotéticos de um teste de previsibilidade de relevância ....................................... 92
Figura 52 – Regras, destinadas a resumidores, concernentes às características de recuperabilidade dos
resumos ............................................................................................................................................. 98
Figura 53 – Crescimento da literatura científica sobre AIDS, 1982-1987 (Fonte: MEDLINE) ...................... 103
Figura 54 – Literatura sobre AIDS: cobertura por idioma, 1982-1987 (Fonte: MEDLINE).......................... 103
Figura 55 – Literatura sobre AIDS: cobertura por país, 1982-1987 (Fonte: MEDLINE) ............................. 103
Figura 56 – Número de periódicos que publicam artigos sobre AIDS, 1982-1987 (Fonte: MEDLINE) ......... 103
Figura 57 – Dispersão da literatura de periódicos sobre AIDS em 1987 (Fonte: MEDLINE) ....................... 104
Figura 58 – Gráfico da dispersão da literatura sobre AIDS .................................................................... 105
Figura 59 – Periódicos científicos que publicaram a maioria dos artigos sobre AIOS, 1982-1987 (Fonte:
MEDLINE) ........................................................................................................................................ 105
Figura 60 – Exemplo hipotético da distribuição de itens sobre ‘supercondutores’ sob termos num índice
impresso .......................................................................................................................................... 107
Figura 61 – Distribuição de itens sobre imunologia celular no porco sob termos no Index Medicus ........... 108
Figura 62 – Dispersão de itens sob termos de indexação ...................................................................... 108
Figura 63 – Exemplo de entradas do Cumulated Index Medicus (1996) .................................................. 115
Figura 64 – Exemplo de entradas do Medical subject headings (1996) ................................................... 116
Figura 65 – Exemplo de entradas da estrutura hierárquica (Tree structures) do Medical subject headings
(1996) ............................................................................................................................................. 117
Figura 66 – Exemplo de entradas do índice de autores do Cumulated Index Medicus .............................. 117
Figura 67 – Exemplo de entradas do Applied Science and Technology Index, 1986 ................................. 118
Figura 68 – Exemplo de entradas do volume anual do Engineering Index (1993) .................................... 119
Figura 69 – Exemplo de entradas do índice de assuntos do Engineering Index (1993) ............................. 120
Figura 70 – Exemplo de entradas do Library and Information Science Abstracts (antes de 1993) ............. 121
Figura 71 – Exemplos de entradas do índice de assuntos do Library and Information Science Abstracts (antes
de 1993) .......................................................................................................................................... 122
Figura 72 – Categorias de assuntos usadas pelo Library and Information Science Abstracts (1997) .......... 123
Figura 73 – Exemplo de entradas do Library and Information Science Abstracts ..................................... 124
Figura 74 – Exemplo de entradas do índice de assuntos do Library and Information Science Abstracts ..... 125
Figura 75 – Exemplo de entradas do índice de assuntos do Chemical Abstracts ...................................... 126
Figura 76 – Exemplo de entradas do índice de palavras-chave do Chemical Abstracts ............................. 127
Figura 77 – Exemplo de entradas do índice de fórmulas do Chemical Abstracts ...................................... 128
Figura 78 – Exemplo de resumos de Sociology of Education Abstracts ................................................... 129
Figura 79 – Exemplo de entradas de índice do Sociology of Education Abstracts ..................................... 129
Figura 80 – Exemplo de entradas do índice de assuntos do Epilepsy Abstracts ....................................... 130
Figura 81 – Diferenças na apresentação de referências entre o British Technology Index (BTI) e o Current
Technology Index (CTI) de um item sobre cadinhos [ladles] para fornos a arco elétrico [arc furnaces] na
produção de aço [steel] ..................................................................................................................... 130
Figura 82 – Exemplo de entradas PRECIS do British Education lndex ..................................................... 131
Figura 83 – Exemplo de entradas do Social Sciences Citation lndex ....................................................... 132
Figura 84 – Exemplo de entrada do índice de fontes do Social Sciences Citation Index ............................ 132
Figura 85 – Exemplo de entrada do índice de assuntos Permuterm do Social Sciences Citation Index ....... 133
Figura 86 – Exemplo de página do Current Contents ............................................................................ 134
Figura 87 – Exemplo de entradas do índice de palavras-chave do Current Contents ................................ 135
Figura 88 – O sistema de indicadores de função do EJC ....................................................................... 140
Figura 89 – Infixos semânticos do sistema da Western Reserve University ............................................. 141
Figura 90 – Indicadores de função do sistema da Western Reserve University utilizados na indexação da
literatura de metalurgia ..................................................................................................................... 142
Figura 91 – Resumo telegráfico armazenado em formato eletrônico ...................................................... 142
Figura 92 – Os dispositivos de precisão criam classes menores; os dispositivos de revocação criam classes
maiores. ........................................................................................................................................... 145
Figura 93 – Exemplo de entrada da base de dados de ficção Book House .............................................. 150
Figura 94 – Exemplode um romance indexado com o emprego do método de Pejtersen ......................... 150
Figura 95 – Duas sinopses possíveis de As aventuras de Pedro, o Coelho, de Beatrix Potter .................... 153
Figura 96 – Exemplo de uma entrada de Masterplots II (1986) ............................................................. 154
Figura 97 – Estruturas lingüísticas para orientar a anotação e indexação de ficção .................................. 155
Figura 98 – Principais níveis de abstração na base de dados de um museu de arte ................................. 157
13
Figura 99 – Exemplo do registro catalográfico de uma pintura .............................................................. 158
Figura 100 – Consulta formulada a uma base de dados meteorológicos. A consulta pede um complexo
sistema de baixa pressão sobre a Nova Zelândia com sistemas de alta pressão a leste e oeste ................ 161
Figura 101 – Dois mapas meteorológicos recuperados em resposta à consulta da figura 100 ................... 162
Figura 102 – Consulta incremental numa base de dados de imagens ..................................................... 163
Figura 103 – Comparação entre resumo e indexação com vocabulário controlado ................................... 183
Figura 104 – Os prós e contras do texto livre versus vocabulário controlado ........................................... 184
Figura 105 – Exemplo de entrada da base de dados TERM ................................................................... 193
Figura 106 – Os problemas fundamentais da recuperação da informação ............................................... 200
Figura 107 – Exemplo de entradas de tesauro extraídas por métodos automáticos ................................. 207
Figura 108 – Ligações de citações/referências ..................................................................................... 208
Figura 109 – Exemplo de um auto-resumo de Luhn (Luhn 1958) ........................................................... 210
Figura 110 – Exemplo de extrato produzido pelo sistema ADAM de redação automática de resumos ........ 211
Figura 111 – Mapa de relações textuais baseado em Salton et al. (1997) ............................................... 213
Figura 112 – Busca inicial numa base de dados de um serviço de atendimento a clientes ........................ 226
Figura 113 – Pesquisa por mais informação em base de dados de serviço de atendimento a clientes ........ 227
Figura 114 – Casos com ordenação mais alta selecionados com base em consulta crítica e respostas dos
clientes às perguntas ......................................................................................................................... 228
Figura 115 – Resumo de caso com a ação recomendada ao cliente ....................................................... 228

14
Parte 1 – Teoria, princípios e aplicações

Capítulo 1 - Introdução

O propósito principal da elaboração de índices e resumos é construir representações de documentos
publicados numa forma que se preste a sua inclusão em algum tipo de base de dados. Essa base de dados
de representações pode ser impressa (como numa publicação de indexação/resumos; por exemplo, o
Chemical Abstracts ou o Engineering lndex), em formato eletrônico (quando a base de dados muitas vezes
será o equivalente aproximado de um serviço impresso), ou em fichas (como num catálogo convencional de
biblioteca).
A função das operações de indexar / resumir, no âmbito maior das atividades de recuperação da
informação, acha-se esquematizada na figura 1. Em primeiro lugar, o produtor da base de dados seleciona
da população de documentos recém-publicados aqueles que atendam a certos critérios para sua inclusão na
base de dados. O mais óbvio desses critérios é o assunto de que trata o documento. Outros critérios, no
entanto, como o tipo de documento, a língua em que se acha escrito, ou sua origem, também são
importantes. No caso das bases de dados que lidam principalmente com artigos de periódicos, os critérios de
seleção comumente estarão centrados no periódico e não no artigo; ou seja, alguns periódicos serão
incluídos e outros não (embora alguns periódicos sejam indexados em sua inteireza e outros o sejam de
forma seletiva). A cobertura proporcionada por muitas bases de dados é, em grande medida, determinada
por razões de custo-eficácia. Particularmente no caso de bases de dados que abranjam um campo altamente
especializado, elas somente incluirão aqueles periódicos que publicam prioritariamente artigos sobre os
assuntos de interesse.
Os itens selecionados para inclusão na base de dados serão ‘descritos’ de várias formas. Os processos
de catalogação descritiva (que não aparecem na figura 1) identificam autores, títulos, fontes, e outros
elementos bibliográficos; os processos de indexação identificam o assunto de que trata o documento; e o
resumo serve para sintetizar; o conteúdo do item. Os termos utilizados na indexação serão com freqüência
extraídos de algum tipo de vocabulário controlado, como um tesauro (o ‘vocabulário do sistema’ da figura
1), mas, em vez disso, podem ser termos ‘livres’ (por exemplo, extraídos do próprio documento).*
Estas atividades de descrição criam representações dos documentos numa forma que se presta para
sua inclusão na base de dados. Os próprios documentos normalmente serão destinados a um tipo diferente
de base de dados (o acervo de documentos) como é o caso das estantes de uma biblioteca.
Os membros da comunidade a ser atendida utilizarão a base de dados, fundamentalmente, para
satisfazer a diferentes necessidades de informação. Para lograr isso, devem converter uma necessidade de
informação em algum tipo de ‘estratégia de busca’, a qual pode ser tão simples quanto a escolha de um
único termo para consultar um índice impresso ou um catálogo em fichas, ou exigir a combinação de muitos
termos numa estratégia mais elaborada e complexa, empregada para consultar uma base de dados mantida
localmente ou conectada em linha a alguma rede de computadores.
O que se almeja, evidentemente, ao fazer uma busca numa base de dados, é encontrar documentos
que sejam úteis para satisfazer a uma necessidade de informação, e evitar a recuperação de itens inúteis.
‘Relevante’ e ‘pertinente’ são termos freqüentemente empregados para se referir a itens ‘úteis’, e foram
definidos de diferentes formas. Há muito desacordo sobre o que realmente significam ‘relevância’ e
‘pertinência’ (Lancaster e Warner, 1993). Neste livro considerarei como sinônimas as expressões ‘útil’,
‘pertinente’ e ‘relevante para uma necessidade de informação’. Ou seja, um documento pertinente (útil) é
aquele que contribui para satisfazer a uma necessidade de informação.
O problema da recuperação da informação está representado graficamente na figura 2. O retângulo
inteiro representa uma base de dados e os itens que contém. Os itens com sinal de adição (+) são aqueles
que um consulente hipotético consideraria úteis para atender a uma necessidade de informação atual, e os
itens com sinal de subtração (-) são aqueles que não consideraria úteis. Para qualquer necessidade
específica de informação haverá muito mais itens - do que itens +. Na realidade, se se desenhasse o
diagrama ‘em escala’, seria quase certo que os onze itens úteis estariam acompanhados de toda uma
muralha de itens inúteis. O problema está em recuperar tantos itens úteis quantos for possível, e o menor
número possível de itens inúteis.

* Os termos utilizados podem, genericamente, ser designados como ‘termos de indexação’, embora, muitas vezes, seja também
empregada a palavra ‘descritores’, em particular quando nós estamos referindo a termos de um tesauro. Neste livro, ambas as
expressões são usadas de modo l:l(uivaknlc.
15

Figura 1 – A função da elaboração de índices e resumos no quadro mais amplo da
recuperação da informação

Figura 2 – O problemada recuperação de itens pertinentes de uma base de dados

O menor dos dois retângulos internos da figura 2 representa os resultados de uma busca realizada na
base de dados, que recuperou 57 itens, seis dos quais foram úteis e 51 inúteis. A relação entre itens úteis e
o total de itens recuperados (6/57 ou cerca de 10% neste caso) é comumente denominada coeficiente de
precisão. O índice empregado habitualmente para expressar a extensão com que todos os itens úteis são
encontrados é o coeficiente de revocação. No presente exemplo, o coeficiente de revocação é de 6/11 ou
cerca de 54%.
Nessa situação, provavelmente seria preciso, para melhorar a revocação, fazer uma busca mais
genérica. Essa busca é representada pelo maior dos dois retângulos internos. Ao fazer a busca de modo
mais genérico, aumentou-se a revocação para 8/11 (73%), mas a precisão caiu ainda mais para 8/112, ou
cerca de 7%. Uma característica lamentável, inerente à recuperação da informação, é que uma melhoria da
revocação em geral implica perda de precisão e vice-versa.
A figura 2 sugere outro fenômeno. Talvez fosse possível fazer uma busca suficientemente genérica
para localizar todos os itens úteis (isto é, alcançar 100% de revocação); entretanto a precisão seria
provavelmente inaceitável. Ademais, quanto maior for a base de dados, menos aceitável será uma baixa
16
precisão. Embora o usuário esteja disposto a examinar, por hipótese, 57 itens, a fim de encontrar seis que
lhe sejam úteis, talvez se sinta muito menos inclinado a examinar 570 resumos para encontrar 60 que sejam
úteis. Em bases de dados muito grandes torna-se, portanto, progressivamente mais difícil alcançar um nível
de revocação aceitável com um nível de precisão satisfatório, uma situação que chegou a um ponto crítico
quando se procura informação na internet.
Neste livro emprego o termo revocação [recall] para designar a capacidade de recuperar documentos
úteis, e precisão para designar a capacidade de evitar documentos inúteis. Existem outras medidas do
desempenho para buscas realizadas em bases de dados (ver, por exemplo, Robertson, 1969), algumas das
quais são matematicamente mais exatas, porém a revocação e a precisão compõem o quadro geral e ainda
parecem ser as medidas óbvias a serem utilizadas para expressar os resultados de qualquer busca que
simplesmente divida uma base de dados em duas partes (recuperados e não recuperados).* A figura 1 deixa
evidente que são muitos os fatores que determinam se uma busca numa base de dados é ou não bem
sucedida. Entre tais fatores encontra-se a cobertura da base de dados, sua política de indexação, sua prática
de indexação, sua política e prática de redação de resumos, a qualidade do vocabulário empregado na
indexação, a qualidade das estratégias de busca, e assim por diante. Este livro não enceta qualquer esforço
no sentido de tratar de todos esses fatores (ainda que todos estejam inter-relacionados), mas se concentra
nas atividades importantes de descrição do documento ou, pelo menos, aquelas que dizem respeito ao
conteúdo dos documentos.
Em princípio, a base de dados representada na figura 1 poderia ser a totalidade do conteúdo da Rede
Mundial (World Wide Web) (doravante denominada simplesmente a Rede). No entanto, o diagrama não
representa a situação da Rede tão bem quanto representa bases de dados, como o catálogo de uma
biblioteca universitária ou uma base de dados de registros bibliográficos de a11igos de periódicos, como a
base de dados MEDLINE da National Library of Medicine. Uma vez que qualquer organização ou qualquer
pessoa pode criar uma página na Rede, não está em causa nenhum processo de seleção real. Ademais,
embora os sítios da Rede possam incluir algum tipo de dado descritivo sobre seu conteúdo (normalmente
denominados’ metadados’; ver a nota que precede imediatamente este capítulo), muitos não o’ fazem, e os
dados descritivos são parte integrante das próprias páginas da Rede, não se encontrando numa base de
dados separada. Além do que, a indexação e a elaboração de resumos de conteúdos da Rede por seres
humanos constituem mais a exceção do que a regra, de modo que a maior parte das buscas ali feitas ocorre
no texto integral dos sítios acessados por determinado mecanismo de busca. Nos casos em que são
realizadas operações de indexação ou resumo, o provável é que sejam efetuadas ‘automaticamente’ por
meio de várias etapas de processamento informatizado. Esses procedimentos automáticos, junto com as
buscas em textos completos e o caso específico da Rede, são tratados nos capítulos finais deste livro.
Embora a figura 1 não corresponda exatamente à situação encontrada na Rede, a figura 2, sim. Isto é, o
problema de busca mostrado ali é igualmente pertinente às buscas feitas na Rede, exceto que multiplicada
por ordens de grandeza.

* Uma busca que classifique os resultados em ordem de ‘relevância provável’ exige uma medida um tanto diferente, a qual, com efeito,
compara a classificação [ranking] obtida com uma classificação ideal.
17
Capítulo 2 – Princípios da indexação

Embora o título deste livro se refira à ‘indexação’, seu alcance limita-se, de fato, à indexação de
assuntos e redação de resumos. A indexação de assuntos e a redação de resumos são atividades
intimamente relacionadas, pois ambas implicam a preparação de uma representação do conteúdo temático
dos documentos. O resumidor redige uma descrição narrativa ou síntese do documento, e o indexador
descreve seu conteúdo ao empregar um ou vários termos de indexação, comumente selecionados de algum
tipo de vocabulário controlado.
O principal objetivo do resumo é indicar de que trata o documento ou sintetizar seu conteúdo. Um
grupo de termos de indexação serve ao mesmo propósito. Por exemplo, o seguinte conjunto de termos
proporciona uma idéia bastante razoável sobre os assuntos tratados num relatório hipotético:
Centros de Informação
Compartilhamento de Recursos
Catálogos Coletivos
Catalogação Cooperativa
Redes em Linha
Empréstimos entre Bibliotecas

Em certo sentido, essa lista de termos pode ser vista como uma espécie de minirresumo. Serviria a tal
propósito se todos os termos fossem reunidos num índice publicado, copiados pela impressora ou mostrados
na tela para representar um item recuperado numa base de dados, como resultado de uma busca em linha.
De modo mais evidente, os termos atribuídos pelo indexador servem como pontos de acesso
mediante os quais um item é localizado e recuperado, durante uma busca por assunto num índice publicado
ou numa base de dados eletrônica.* Assim, num índice impresso, convém que se possa encontrar o item
hipotético mencionado anteriormente sob qualquer um dos seis termos. Num sistema de recuperação
informatizado, evidentemente, seria natural encontrá-lo sob qualquer um desses termos ou, de fato, sob
qualquer combinação deles.
A diferença entre indexação e redação de resumos está se tornando cada vez mais difusa. Por um
lado, uma lista de termos de indexação pode ser copiada pela impressora ou mostrada na tela de modo a
constituir um minirresumo. Por outro lado, o texto de resumos pode ser armazenado num sistema
informatizado de modo a permitir a realização de buscas por meio da combinação de palavras que ocorram
nos textos. Esses resumos podem ser utilizados no lugar de termos de indexação, permitindo o acesso aos
itens, ou complementar os pontos de acesso proporcionados pelos termos de indexação. Em certa medida
isso modifica a função do resumidor, que deve agora preocupar-se não só em redigir uma descrição clara e
de boa qualidade do conteúdo do documento, mas também em criar um registro que seja uma
representação eficaz para fins de recuperação.
Se a indexação e a redação de resumos fossem consideradas como atividades inteiramente
complementares, a natureza da atividade de indexação sofreria algum tipo de mudança. Por exemplo, o
indexador se concentrariana atribuição de termos que complementassem os pontos de acesso existentes no
resumo. Tal complementaridade, porém, deve ser inteiramente reconhecida e compreendida pelo usuário da
base de dados. Do contrário, um conjunto de termos de indexação isolados daria uma imagem bastante
equivocada do conteúdo de um item.

Extensão do registro
Uma das propriedades mais importantes de uma representação de conteúdo temático é sua extensão.
O efeito da extensão do registro acha-se exemplificado na figura 3. No lado esquerdo da figura, encontram-
se várias representações do conteúdo de um artigo de periódico na forma de texto narrativo; no lado direito,
estão duas representações na forma de listas de termos de indexação.
O título contém uma indicação geral sobre aquilo de que trata o artigo. O resumo breve oferece mais
detalhes, indicando que o artigo apresenta resultados da pesquisa e identificando as principais questões
analisadas. O resumo ampliado vai mais além, identificando todas as questões focalizadas na pesquisa e
informando sobre o tamanho da amostra utilizada no estudo.

* Outros autores empregam terminologia diferente para designar a indexação e os termos de indexação sem que isso altere de modo
relevante o significado adotado neste livro. Por exemplo, Anderson (1985) vê os termos como ‘indicadores’ de conteúdo; indexação
como “o processo de indicar o conteúdo e características afins de um documento”. O’Connor (1996) prefere o termo ‘apontamento’
[pointing]: os termos de indexação são apontadores; indexação é a tarefa de atribuir apontadores úteis a fontes de informação.
18
Quanto mais informações são apresentadas, mais claramente a representação revela o alcance do
artigo, tornando-se mais provável que venha a indicar para o leitor se esse artigo satisfaz ou não a uma
necessidade de informação. Por exemplo, alguém talvez esteja à procura de artigos que mencionem as
atitudes norte-americanas em relação a vários líderes árabes. O título não traz indicação alguma de que esse
tópico específico seja analisado, e o resumo breve, ao focalizar outros tópicos, sugere que talvez isso não
aconteça. É somente o resumo ampliado que mostra que o artigo inclui informações sobre esse assunto.
Também, quanto maior a representação, mais pontos de acesso ela proporciona. Se as palavras do
título fossem os únicos pontos de acesso, esse item provavelmente não seria localizado em muitas buscas
para as quais poderia ser considerado uma resposta válida. À medida que se aumenta a extensão da
representação também se aumenta a recuperabilidade do item. É provável que somente com o resumo
ampliado fosse possível recuperar esse item durante uma busca de informações sobre as atitudes norte-
americanas em face dos líderes árabes.

Título
Pesquisa nacional de opinião pública sobre as atitudes norte-
americanas a respeito do Oriente Médio

Resumo (breve)
Uma pesquisa realizada por telefone em 1985 apresenta
opiniões sobre tópicos como: a ajuda norte-americana a Israel e
ao Egito; se os EUA devem tomar o partido de Israel, das
nações árabes, ou de nenhum destes; se a OLP deve participar
de uma conferência de paz; e se um Estado palestino
independente é um pré-requisito para a paz.

Resumo (ampliado)
Em 1985 foram feitas entrevistas por telefone com uma
amostra probabilística de 655 norte-americanos. Obtiveram-se
respostas às seguintes questões: o estabelecimento de um
Estado palestino é essencial para a paz; deve ser reduzida a
ajuda norte-americana a Israel e ao Egito; os EUA devem
participar de uma conferência de paz que inclua a OLP; os EUA
não devem favorecer nem Israel nem as nações árabes, mas,
sim, manter relações amistosas com eles? Também se
expressaram opiniões sobre os principais líderes do Oriente
Médio (Hussein, Arafat, Peres, Mubarak, Fahd, Assad),
especialmente seus esforços pela paz, e se os entrevistados
achavam que possuíam ou não informações suficientes sobre os
diversos grupos nacionais da região.

Indexação (seletiva)
OPINIÃO PÚBLICA
PESQUISAS POR TELEFONE
ESTADOS UNIDOS
ATITUDES
ORIENTE MÉDIO

Indexação (exaustiva)
OPINIÃO PÚBLICA
PESQUISAS POR TELEFONE
ESTADOS UNIDOS
ATITUDES
ORIENTE MÉDIO
ISRAEL
EGITO
NAÇÕES ÁRABES
ORGANIZAÇÃO PARA A LIBERTAÇÃO DA PALESTINA
CONFERÊNCIAS DE PAZ
PAZ
ESTADO PALESTINO
AJUDA EXTERNIA
LÍDERES POLÍTICOS

Figura 3 – Efeito da extensão do registro sobre a recuperabilidade

A mesma situação aplica-se à indexação. A indexação seletiva, que inclua apenas cinco termos,
apresenta uma indicação muito geral daquilo de que trata o artigo (aproximadamente equivalente, neste
caso, ao título) e um nível de acesso muito limitado. A indexação mais exaustiva proporciona uma indicação
muito melhor do assunto específico de que trata o artigo, bem como possibilita muito mais pontos de
acesso.

Etapas da indexação de assuntos
A indexação de assuntos envolve duas etapas principais:
1. Análise conceitual, e
2. Tradução.

Intelectualmente são etapas totalmente distintas, embora nem sempre sejam diferençadas com
clareza e possam, de fato, ocorrer de modo simultâneo.
A análise conceitual, em primeiro lugar, implica decidir do que trata um documento - isto é, qual o seu
assunto. Os termos que aparecem na lista à direita, na figura 3, representam a análise conceitual de um
artigo feita por este autor aquilo que, segundo sua opinião, constituía o assunto do artigo.
Esta afirmativa sobre análise conceitual está bastante simplificada. A indexação de assuntos é
normalmente feita visando a atender às necessidades de determinada clientela - os usuários de um centro
de informação ou de uma publicação específica. Uma indexação de assuntos eficiente implica que se tome
19
uma decisão não somente quanto ao que é tratado num documento, mas também por que ele se reveste de
provável interesse para determinado grupo de usuários. Em outras palavras, não há um conjunto ‘correto’
de termos de indexação para documento algum. A mesma publicação será indexada de modo bastante
diferente em diferentes centros de informação, e deve ser indexada de modo diferente, se os grupos de
usuários estiverem interessados no documento por diferentes razões.*
O indexador, então, deve formular várias perguntas sobre um documento:
1. De que trata?
2. Por que foi incorporado a nosso acervo?
3. Quais de seus aspectos serão de interesse para nossos usuários?

Esta situação acha-se bem exemplificada na figura 4. Esse exemplo hipotético refere-se a relatório
publicado pela National Aeronautics and Space Administration (NASA) a respeito de um vôo espacial
tripulado. Ao incorporar esse relatório à sua própria base de dados, a NASA provavelmente estará
interessada em todas as suas facetas e o indexará exaustivamente, procurando abranger todos os seus
aspectos, talvez em nível razoavelmente genérico. Uma parte do relatório refere-se ao traje usado pelos
astronautas, mencionando alguns compostos novos de borracha sintética empregados em partes desse
traje. Isto faz com que o relatório seja interessante para uma fábrica de borracha. Ao ser incorporado ao
acervo de documentos dessa fábrica, o relatório será indexado, porém, de modo bastante diferente. Serão
usados termos altamente específicos para indexar os compostos novos, e o termo genérico TRAJES
ESPACIAIS talvez seja empregado para indicar determinada aplicação para esses compostos. Uma empresa
metalúrgica poderá interessar-se pelo mesmo relatório por um motivo diferente: ele menciona uma nova
técnica de soldagem desenvolvida para unir certas ligas na construção do veículo espacial. Neste caso, será
indexado sob os termos relativos a soldagem, os termos apropriados para metais e talvez o termo de
aplicação genérica VEÍCULOS ESPACIAIS. A fábrica de borracha indexa o relatório de forma muito diferente
daquela adotada pela empresa metalúrgica, e nenhum desses conjuntos de termos se assemelha à lista mais