Baixe o app para aproveitar ainda mais
Prévia do material em texto
Programa Geral de Informação ( PGI) e UNISIST U ESCO prf,grrama Geral de Informação ( PGI) e UNISIST Jj.ESCO , IConstrucão e uso de ' t ' . • ''· : ltiesauros: curso condensado A.W.LANCA$TER !i ;: i' :, éT- i !f t!istério da Ci~ia e Tecnologia ~CNPq: dJwSEL/:10 NACIONAL ot DESENVOLVIMENTO *NTIFir;O E TECNOLOGICO i3tCT • . ·· . INSTITUTO B$ASILEIRO DE ll\li'ORMAÇÃD " EM CIENCIA J TECIIlOLOGIA J @ UNESCO 1985 Direitos de tradução cedidos ao Instituto Brasileiro de Ipformação em Ciência e Tecnologia CIBICT) Tradução, com adaptações., do original inglês. Thes.aurus. C~ns.truction and Use. A Condens.ed Cours.e., elaborado por FI W. Lancaster (PGI-85/WS/11). Traduzido por Cesar Almeida de Menezes. Silva Revisto por Odilon Pereira da Silva lnsdtuto Hrasile!rg :> em Ciência e lecnolotia Pro c. Llvr. Prltço J) - Ce4/> -/ífl) N!: reglstr~"'+J{l- - Oi-, /tJ' f I 1.5.5 Lancaster, F. W. Construção e uso de tesauro : curso condensa- do I F. W. Lancaster; trad. de César Almeida de Meneses Silva; rev. de Odilon Pereira da Silva. BrasÍlia : IBICT, 1987. 106 p. (UNESCO; PGI-85/WS/11) 1. Tesauro-construção. 2. Tesauro-uso. I. Sil- va, César Almeida de Meneses, trad. II. Silva, Odilon Pereira da, rev. III. Título. CDU 025.45 Instituto Brasileiro de Informação em Ciência e Tecnologia (IlliCT) SC~ - Quadra 2 - Bloco K 70110 Brasília, DF Tel. (061) 225 96 77 Telex 612481 CICT BR S U M Á R I O INTRODup!o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 tJNIDADEi 1. Finalidade do controle de vocabulário ••..•••...•... 9 2. Componentes básicos de um vocabulário controlado .... 14 3. Coleta dos termos ••.•.••...••...•••••••••...••..... 18 4. Organização dos termos •.•••••.••••••••••.•..•••••.. 22 5. A relação hierárquica ....•.••..•••••••••.•.•...•••• 26 6. A relação associativa •••••...••...•....•.••••...•. -28 7. 8. 10. "' 11. Caracterlsticas dos descritores ••••....•••••.•••.••• 29 O vocabulário de entrada ••.•.••••.•••• , .•••••••.•••• 33 Notas explicativas e identificadores .••••..•••••••. 35 Formato e apresentação do tesauro •.••••••••...•••.. 37 Crescimento e atualização .............•...•........• 43 ~2. Utilização do computador •.••••.......••..••••.••.•.• 45 13. Fatores do vocabulário que afetam o desempenho dos sistemas de informação •.•..•••.•.....•.•.•.••.•.... 51 14. Sistemas de linguagem natural •••..••••••..•..•..•.• 59 ! . . ILUSTatÇÕES .•...•••.••••.....•••••.•.••••..•••••.••....•••.•• 63 BIBLIO~RAFIA ••••••••.••••••.•••.••••••••••....•••••••...••. 113 i INTRbDUÇÃO i j; I A ori$em deste curso foi o Seminário Regional sobre Linguagens de Iridex~ção, organizado sob o patrocínio da UNESCO pelo Centro Argenti- i no dei. Información Científica y TecnolÓgica (CAICYT), e realizado em i Bueno~ A~res, em agosto de 1978. O autor do presente volume foi o princkpal instrutor·naquele seminário. O CAICYT preparou, posteriormente, um curso, derivado do próprio semi- ' nárioi, sob a forma de ilustraçÕes (transparências, na verdade) com o texto! correspondente. Este curso foi publicado em 1981 (Curso sobre Leng4czjes de Indización y Consti'Uccion de Tesauros. Publicação da UNEsqo. •PGI. 81/WS/31). Em 19;84, a UNESCO firmou um contrato com o autor para preparar uma ;. versã!o inglesa do referido curso, o que resultou neste volume. i O volume é constituído de duas partes principais: um conjunto de 84 l "iluJtraçÕes", que poderão ser transformadas em diapositivos, ou i -tran~parências, e um texto para explicar e desenvolver as ilustraçoes. i Dife~e consideravelmente da versão em espanhol. De um modo particular, conc~ntra-se quase exclusivamente na construção e nas características dos ~esauros, enquanto que o Seminário na Argentina se ocupou também r - de odtras areas. ; i O te~to está dividido em 14 unidades temáticas, mas sem nenhuma preo~upação em torná-las "simétricas": algumas são bastante curtas, ' outr;s bem mais desenvolvidas. O cutso não pretende ser um programa para autodidatas, conquanto possa ser +sado com essa finalidade. Foi, de fato, preparado para servir a um i!strutor-- as ilustraçÕes (transparências) sendo, então, usadas como!recursos visuais, e o texto mais como um guia para o que poderia ser .cr~scentado nas aulas. Não ~everá ser considerado completo em si mesmo. Há inúmeros lugares em q~e o texto sugere tópicos que devem ser desenvolvidos pelo 5 inst;rutor (por exemplo: diferenças entre tesauros e listas de cabeça- lho$ de assuntos). ~de se esperar que os instrutores acrescentem out~s exemplos de sua própria lavra aos aqui oferecidos, sobretudo exemplos que ilustrem tesauros de especial interesse para os estuaantes que freqUentam determinados cursos. Além do mais, e importante que muitos exemplos de diferentes tipos de tesauros sejam postbs à disposição dos estudantes, para manuseio e exame, e que cada' estudante possua um exemplar da publicação da UNESCO, GuideUnes for 't;he EstabZishrnent and Development of Monolingual Thesauri (2.ed 1981,. Finalmente, um curso sobre elaboração de tesauros deve revestir-se de um cpnho prático. De cada estudante, ou pequeno grupo de estudantes, deve~se exigir a compilação de um pequeno tesauro- de aproximadamente 200 termos -em alguma área de assunto. O te$auro deve ser estruturalmente completo, no sentido de que deve incl.ir todos os tipos de componentes - TG, TE, TR, notas explicativas etc., e todas as relaçÕes devem indicar suas reciprocas. Além disso, deve :o tesauro conformar-se com as exigências das Diretrizes da UNESCO, sob todos os aspectos. Com o propósito de ajudar os estudantes na tarefa de construir esses tesauros, será necessário supri-los com urna ~ariedade de fontes- livros de referência, resumos etc. -de onde poss4m extrair os termos. Este 'volume nao é um livro-texto .. Para mantê-lo relativamente pequeno~ alguns tópicos tiveram tratamento um tanto superficial. Maior detaihamento em todos os tópicos que cobre, bem como em outros com os rnesrno:s relacionados, pode ser obtido na obra de Lancaster. Vocabulary Contrpl for Information Retrieval (2.ed., Arlington, Va., Inforrnation Resouirces Press, 1985), apresentada numa seqUência semelhante à adotapa no presente curso. Na ma;I.oria dos casos, as instruçÕes e exemplos oferecidos neste curso seguem as Diretrizes da UNESCO. Todavia, o curso não se destina apenas a ilut;trar o uso daquelas diretrizes, mas a cobrir a gama maior de assuntos relacionados com a elaboração e o uso dos tesauros. 6 Como tlecorrência, outras terminologias, processos e práticas, I ampla~ente empregados, embora não inteiramente conformes às Diretrizes, são com freqUência mencionados e apresentados a título de ilust~ação. i Esses! desvios devem provocar discussão em classe a respeito das Í' vant~ens e desvantagens das diferentes abordagens e práticas em I contelxtos diferentes. ! i I I O au~or gostaria de agradecer à British Standards Institution a i perm~ssão para reproduzir páginas do ROOT Thesaurus. l ! 7 UNIDA$E 1. FINALIDADE DO CONTROLE DE VOCABULÁRIO I Objetiv~s l .1. Ilu~tra.r o papel que o vocabulário desempenha nos sistemas de recu- per~ção da informação; 2. apr1sentar alguns dos problemas que soem ocorrer quando esse ~ocabu- lár4o não é controlado; i. 3. mos~rar as funçÕes básicas de um vocabulário controlado. I r ..... Ilustr.-çao 1 ' ~ A expr.ssao recuperaçao da informação e geralmente empregada para I design.r as atividades relacionadas com a localização de documentos (livro$, periódicos, artigos, relatórios e outras formas)que tratam t de um ~ssunto particular, e um sistema de recuperação da informação i consiste em um grupo de atividades e componentes destinados a facilitar o aces~o ao conteúdo dos documentos. Os de os i componentes de maior importância são discutidos aqui. Do universo I doc~mentos disponíveis, os considerados relevantes,tendo em vista l' intieresses de uma determinada comunidade, são selecionados e i adqui~ido:s por algum centro de informação (que pode ser uma biblioteca conve*ional). i A cat&logação descritiva e a catalogação por assunto, ou indexação I por a,sunto, são aplicadas aos documentos selecionados. Teoricamente, I - - -catal~gaçao por assunto e indexaçao por assunto sao a mesma coisa, mas I a priJeira em geral se refere à descrição do assunto de uma publicação l em suá inteireza (por exemplo: livros, periódicos), enquanto a outra ! I muitolprovavelmente se aplica a partes de publicaçÕes (por exemplo: ! artig~s ~e periÓdicos). Neste curso, o termo indexação se refere à I index .. ção por assunto. muito embora os princÍpios discutidos se ,. apliq~em também à catalogação por assunto. O pri~eiro passo em indexação, a an~!i!;g _c_onceitual, envolve a decisão i sobref de que trata o documento. O segundo passo, a tradu_ç_~o, envolve a 9 sel~ção de termos para representar o conteúdo do documento. Pode-se referir-se a eles como termos de indexação ou, visto que eles des~revem o assunto dos documentos, descritores.* O c~njunto completo de termos de indexação utilizados em um sistema de tecuperação pode ser denominado vocabulário ou linguagem de indéxação daquele sistema. No centro do sistema de recuperaçao encontram-se duas bases de dados: uma consistindo dos próprios documentos, e a outra, da!'l entradas que rep~esentam esses documentos e proporcionam o acesso aos mesmos sob a fdrma de termos de indexação selecionados para lhes representar o assqnto. Essa segunda base de dados pode ser considerada como um indtce do conteúdo da primeira. Na ~ioria das bibliotecas, a base de dados de documentos consiste basi~amente de livros arrumados em estantes, enquanto que o indice é provavelmente constituido por entradas em um fichário. Em outras situaçÕes, o indice estará automatizado (em fita magnética ou disco), ou sbb a forma de microfilme, ou mesmo impresso como um livro conv~ncional, embora possam existir outras alternativas. Na i~ustração, o termo consultas se refere a necessidades de informação oriundas do universo de usuários do sistema. Os consulentes estarão, via de regra, a procura de documentos, ou parte de documentos que tratem de determinado assunto, embora possam, ao invés, estar a proc.ra de respostas para um problema factual. No c~ntexto de um centro de informação, o que ocorre com as consultas que 4hegam é semelhante ao que ocorre com os documentos recebidos. * Düietrizes para indexação por assunto podem ser encontradas na norma internacional ISO DIS 5963: Methods for examining documents~ de~ermining their subjects and selecting indexing terms. lO i A aná~ise conceitual, aqui, diz respeito à interpretação daquilo que o cons~lente na verdade está a procura, enquanto que tradução é a repres~ntação das necessidades do consulente, através de termos i selecifmados do vocabulário do sistema. A representação da necessidade ' de inf~r~nação daí decorrente pode ser considerada uma estratégia de I busca.! \ ' Quandq se aplica essa estratégia de busca ao Índice, aquelas entradas I que ptj'eenchem os requisitos da estratégia são "recuperadas". Isso pode I condu~ir posteriormente à recuperação dos documentos correspondentes no acervQ. Deveria ficar evidente na Ilustração 1 que o vocabulário empregado em r um si$tema de recuperaçao é um componente de importância capital, uma I vez q•e o assunto, tanto das consultas quanto dos documentos, deve i ser rtpresentado por termos tomados a essa linguagem. Na ma~oria dos sistemas de recuperaçao, o vocabulário empregado sera um vo~abulário controlado. Tal vocabulário nada mais é do que um conjupto limitado de termos que devem ser utilizados por in<!_exadores e usu~rios. Em outras palavras, o vocabulário determinará os termos que ppdem ser empregados e os que não o podem. Além disso, os ! vocab!ulários controlados, em geral, apresentam alguma forma de "estrlutura" (isto é, os termos encontram-se organizados de maneira a t - - i podetlem evidenciar relaçÕes importantes), embora isso não seja l-elem~nta essencial à sua definição. ! No c~ntexto da recuperaçao da informação, o antônimo de vocabulário cont~olado é linguagem natural. Esta Última significa que o assunto podefser descrito par meio de quaisquer palavras ou frases tais como ocor~em nos próprios documentos, sem limitaçÕes. É possível operar ' um sistema de recuperação sem qualquer controle de vocabulário, o que ' -I . seraldi$cutido adiante neste curso. Certos problemas, entretanto, ocorrem, quando não se impÕe controle algum sobre o vocabulário, como I se Pfde ver na Ilustração 2. 11 Iluftração 2 Todos os termos aqui podem ser vistos como de alguma forma relacionados com~falhas nos metais. Alguns dizem respeito a tipos de falhas (por exemplo: fratura, ruptura), alguns a possíveis causas da falha (por exelllplo: corrosão, fadiga), alguns ainda a propriedades dos me tais que pod~m afetar sua tendência a apresentar falhas (por exemplo: ductibi- lidàde, resistência), e assim por diante. Os tferrnos aparecem em ordem alfabética,·da mesma forma como.podern ser encontrados em um catálogo de assunto, ou num Índice, onde eles estariam misturados com muitos outros a respeito de tÓpicos inteiramen- te diversos. Par~ a pessoa em busca de informação relacionada com falhas nos metais, vários problemas vêm ilustrados nesse exemplo: a. ap_gu:ns termos listados são sinÔnimos, ou quase-sinÔnimos: "falha" e;"defeito", por exemplo; b. a'-gumas palavras são ambíguas quando retiradas do contexto. Por e:kernplo: "ruptura" pode referir-se ao processo de fratura ou ao ato de violação de um contrato, no campo do direito, enquanto termos corno "fadiga" e "resistência" podem ser ditos tanto dos séres humanos quanto dos materiais; c. térrnos relacionados quanto ao significado ficam muito distanciados uns dos outros na ordem alfabética. Embota pareça impossível que alguém se disponha a fazer urna pesquisa sobr• todos os aspectos da falha, é possível que alguém queira recupe- rar toda informação que trate de urna forma de falha, corno, por exemplo, a fr~tura. A seqUência alfabética, infelizmente, separa muitos termos atinentes ao assunto: defeito, ductilidade, falha, fragilidade, fratuira, resistência, ruptura etc. A menos que esses termos sejam agrupados ou relacionados de alguma forma, fica muito difícil para um usuárli.o tê-los a todos em mente. 12 i t: - ·Ilustr+-çao 3 ' ·É exat~mente esse tipo de problema que o vocabulário controlado tenta ' soluci~mar: I a. paljlvras ou frase.s sinÔnimas, ou quase-sinônimas, são fundidas: uma ! é ai:Iotada, e da outra é feito algum tipo de remissiva no voc-abulá- 1' rio i; pal~vras que têm muitos significados ou contextos podem aparecer i mai~ de uma vez; podem-se usar explicaçÕes entre parênteses ou b. qua~sq~er outros recursos que evitem ambigUidade; c. teqnos, com significados que guardem relação entre si sao associados de ~lg:uma forma. são representados aqui elos entre alguns dos tertnos da Ilustração 2. Descrevem-se dois tipos de relaçÕes. O pr*e:Lro, a relação entre uma coisa e suas espécies (isto e, genero ;.· e +pecie): _!_r'~~1lra e r1Jp_J:lJ,ra são sempre tipos de falhas. O segundo, um~: relação mais transitória; por exemplo: o processode falha pode I ser! induzido por outros processos, como a corr_?s_~o ou ?_fªc!_ig_a, e i po~ ser influenciado por propriedades dos materiais, i como a ' re~istência e a fragilidade. A relação genérica, permanente, e as ve~es :denominada paradigmática ou a priori, enquanto a de natureza ma~s transitÓria (uma falha pode ser devida à corrosão, mas nem se~pre, e da corrosão nem sempre resulta uma falha) é, às vezes, i de~ominada sintagmática ou a posteriori. I ' Ilusttacio 4 1 Os objetivos do controle de vocabulário em um sistema de recuperação da in.ormação podem ser sumariados assim: j a. Pr~mover representaçao consistente do assunto, pelos indexadores e jconsulentes (evitando por conseguinte a dispersão de materiais cofrelacionados) através do controle de sinÔnimos e quase-sinÔnimos, I I be. como pelo estabelecimento das distinçÕes entre homógrafos; r b. fa~ilitar o desenvolvimento de uma busca exaustiva a respeito de I al$um tópico, através do agrupamento de termos cujos significados i 13 •stão paradigmática ou sintagmaticamente relacionados. A indexação tende a ser mais consistente quando o vocabulário adotado e cqntrolado. Há mais probabilidade de os indexadores coincidirem na escolha dos termos necessários à indexação de um tópico, quando os mesaos são relacionados em uma lista preestabelecida. o vocabulário con~rolado tenc!~h-~J_azer coincidir a linguagem dos illclexadores -- ··---------------· -------- -.. -..... _______ ------- --------- . ~------ -------------- -··--. com~ dos pesquisadores. Um ~ocabulário controlado nao precisa ser mais do que·um conjunto limi;tado de termos que devem ser usados por indexadores e pesquisado- res.i Na maioria dos casos, entretanto, é introduzida uma estrutura, de tal ~aneira que os termos,cujos significados estão inter-relacionados, são , agrupados ou acasalados de alguma forma. Isso ajuda tanto o inde~ador quanto o usuário a escolher os termos mais apropriados para. representar um tópico particular, e identificar todos os termos nece.~sários ao desenvolvimento de uma busca relativamente exaustiva sobre o assunto. O votabulário controlado de que o tesauro ê uma variedade - é, com muita freqüência, adotado para padronizar descritores ou cabeçalhos de a$sunto que representam o conteúdo das publicaçÕes ou interesses inditiduais (isto é, estratégias de busca e perfis de interesse adotados em Disseminação Seletiva de Informação - DSI). Em princípio, entrétanto, tal recurso pode ser adotado em qualquer situação em que a pa(ronização da terminologia seja requerida. .. UNIDADE 2. PR I NC I PA l1S COMPONENTES DE UM VOCABULAR I O CONTROLADO Objeqivos 1. Mo:strar que um vocabulário controlado deve conter elementos cl{assificados a par de elementos alfabéticos; ' 2. md.strar diferentes maneiras de como esses elementos podem ser apjresentados; 14 i 3. ilu~trar a estrutura de um tesauro convencional; í 4. mos.rat que um tesauro encerra uma classificação hierárquica com*leta._ i l l ... Ilustr,çao 5 ; Um voc.bulário controlado deve conter dois elementos intercomplementa- ! res: ut arranjo sistemático (classificado) de termos e um alfabético. Ilustração 6 l•. i Aqui éfmo~trada uma classificação parcial de termos que descrevem tipos ' de bib~iotecas. Tem a forma de uma árvore genealógica, como se usa em Genealbgia, de tal forma que se torna fácil perceber que bibliotecas ! depart~entais sao uma subdivisão de bibliotecas de faculdade; estas, ' uma supdivisão de bibliotecas universitárias, e assim por diante. A subdiv~são se baseia rigorosamente na relação gênero/espécie. Bibliofecas departamentais são tipos de bibliotecas de faculdade, que i sao, ppr sua vez, tipos de bibliotecas universitárias. Ilust~çãb 7 f' O esqu~ma de arvore genealógica funciona bem com hierarquias relativa- ! - mente ~equenas de termos, mas hierarquias muito complexas sao de difícil! esquematização por essa forma, porque pode resultar impossível apres~tar a hierarquia toda em apenas uma página. Além do mais, a j< i: -dispo~içao em forma de árvore genealógica desperdiça espaço. ! Neste !exemplo é apresentada uma classificação hierárquica idêntica. i Aqui, !entretanto, os termos aparecem com um arranjo que se assemelha ' aos e~quemas da classificação bibliográfica convencional adotados em I i I -bibli,teeas (como a Classificaçao Decimal Universal ou a da Biblioteca do Co.gresso). Vários níveis de recolhido são empregados para indicar I os níteis de hierarquia. 15 Ilustração 8 Essa se assemelha mais ainda a uma classificação bibliográfica, porque cad~ termo recebeu agora um número de classificação. Esses números são denqminados notação da classificação. Alguns estudantes de Biblioteco- nom~a são levados a crer que a notação é essencial a um esquema de cla$,sificação. Não o é. A ilustração 8 nao e um esquema de classifica- ção ':mais do que o é a Ilustração 7 ou mesmo a 6. As ilustraçÕes 6 e 7, como apresentadas, são verdadeiros esquemas de classificação cobrindo uma parte da terminologia de "bibliotecas". A notação serve apenas para manter o esquema numa seqUência e para funcionar como um muito conveniente símbolo abreviativo de cada termo Útil, por exemplo, na arrumação de livros em estantes de bibliotecas. Ilustração 9 As ilustraçÕes 6-8 apresentam termos de uma forma sistemática (claasificada), mas não oferecem a abordagem alfabética. Devem oferecer, como suplemento, algum tipo de Índice alfabético, para que fique evid~nte para o usuário onde, no esquema de classificação, um determi- nado termo aparece. Este é um exemplo simples de entradas de Índice alfapético baseado na classificação da ilustração 8. Se a classificação é apresentada sem notação (ilustraçÕes 6 e 7), o máximo que o Índice pode fazer é remeter à página onde uma determinada hierarquia aparece-- o qué ilustra uma das desvantagens de não ter uma notação num esquema de classificação. Ilustração 10 Nos 4xemplos 6-8, o arranjo principal dos termos é o classificado. E ele ~ explicitamente classificado. O Índice alfabético e, na verdade, um S'Jplemento, embora seja um suplemento indispensável ao uso eficien- te d~ um esquema de classificação de qualquer porte. Um esquema de classificação se compÕe de dois elementos constitutivos, distintos mas inter-relacionados: um classificado e outro alfabético. 16 A Ilustração 10 é uma apresentação alternativa do mesmo conjunto de termos ~iblioteconômicos. É explicitamente alfabética. Entretanto, a classifkcação hierárquica, que é explÍcita nas ilustraçÕes 6-8, foi aqui embutida na ordenação alfabética de uma maneira implícita, r Fltravés~ do, emprego de referências cruzadas. Aqui um gênero é chamado de te~ genérico (TG), e uma espécie de termo específico (TE). Assim, podemo~t:lotar que BIBLIOTECAS UNIVERSITÁRIAS possui duas espécies e liDl gênero,i enquanto que BIBLIOTECAS possui quatro espécies e nenhum gênero (isto~· ~le é o termo mais alto na árvore genealÓgica). A Ilusqração 10 é uma ilustração bastante simplificada de como os r - - -termos :sao apresentados em um tesauro de recuperaçao da informaçao. O tesaurq difere do esquema de classificação descrito anteriormente porque~ (1) o ~rranjo é explicitamente alfabético, mas implicitamente cl~ssificado; (2) osielementos alfabético e classificado são apresentados numaúnica (3) se~Uência; i emlqualquer ponto de entrada só é oferecido um Único nível I hitrárquico para cima e outro para baixo. Assim, é possível ver-se, a partir do termo BIBLIOTECAS UNIVERSITÁRIAS, que BIBLIO- TECAS DE FACULDADE está um nível abaixo na hierarquia, mas l' deve-se ir ao termo BIBLIOTECAS DE FACULDADE paraperceber que ' BI~LIOTECAS DEPARTAMENTAIS encontra-se um nível mais abaixo na i me~ma, hierarquia. Essa estrutura de "um degrau acima, um degrau l í 1 - ~ ab~ixo' nao e essencial aos tesauros, mas economiza espaço quando o [instrumento utiliza o papel como suporte fisico; ' (4) a !relação TG/TE apresenta reciprocidade simétrica Se ao termo B c~rresponde como TE o termo Y, então ao termo Y deve corresponder ! cqmo TG o termo B. Embor~ não ostensiva, a classificação implícita na Ilustração 10 é tao ! compl~ta e correta quanto a apresentada de forma mais explícita nas ilust~açÕes 6-8. Na verdade, a Ilustração 10 procede diretamente da 7. l Além bo mais, uma vez que as ilustraçÕes 6, 7, 8 e 10 apresentam um esque~a de classificação idêntico, um arranjo poderia ser derivado do 17 outro automaticamen~e. Quer dizer, poder-se-ia criar um programa de computador para derivar 10 e 6, 7 ou (mais facilmente devido à notj=ição) de 8, enquanto outro programa poderia ser criado para derivar 6 o~ 7 de 10. A Ilustração 8, também, poderia ser automaticamente derivada da 10. Neste caso, entretanto, o programa precisaria ser expandido, para permitir chegar-se à notação algoritmicamente. Convém notar que o tesauro adotado em recuperaçao da informação é diffrente de um tesauro literário, como o de Roget. Difere também das listas de cabeçalhos de assuntos adotadas tradicionalmente em biblio- tecas. A lista de cabeçalhos de assuntos não encerra em si um esquema completo de classificação. Além do mais, cabeçalhos de assuntos são descritores mais "complexos" do que os descritores de um tesauro, no sentido de que eles tendem a ser mais "pré-coordenados" (ver o texto das IlustraçÕes 73-75). Ilu~tração 11 Em t;odos os exemplos biblioteconômicos apresentados até agora, apenas um tipo de relação foi mostrado: o dos termos que aparecem numa mesma hierarquia. Mas termos de hierarquias diferentes também podem ser rela:cionados, como no caso dos pares ligados por setas na Ilustração 11 (a). Um vocabulário controlado unirá também termos que são intimamente relacionados, mesmo que apareçam em hierarquias diferentes. No tesauro consegue-se isso com o uso da remissiva termo relacionado (TR), conforme visto em 11 (b). As remissivas TG/TE associam termos da mesma hierarquia, enquanto a remissiva TR associa termos de hierarquias difetentes. Esse assunto é discutido com maiores detalhes mais adiante. UNIDADE 3, COLETA DOS TERMOS Objetivos 1. D:f.stinguir as abordagens "de cima para baixo" e "de baixo para 18 i cim'" na construção de tesauros; 2. dis~inguir "garantia literária" e "garantia de uso" e mostrar a imp~rtãncia desses dois princípios; ! 3. mosfrar como esses dois princípios podem ser adotados na coleta de termos para a construção do tesauro. t ! ! Ilustr~ção 12 Antes be construir um tesauro inteiramente novo, um centro de informa- ! ção faltá muito bem em examinar um tesauro já existente, para verificar I se porj acaso não satisfaz às necessidades locais. Em alguns casos um l tesau-do preexistente pode ser modificado para se tornar de utilidade. ! Isso :rioderá significar expandi-lo em diversas áreas de assunto. Uma I forma iespecial de expandir é construir um microtesauro adequado a : estru~ur4 de um instrumento mais geral (por exemplo: um tesauro sobre I diabe'e dentro da estrutura hierárquica de umtesauro médico pre- exist~nte). Em outras ocasiÕes pode existir um tesauro adequado noutro idioma, i poden~o ser traduzido para o idioma do centro de informação. i Criarrum tesauro inteiramente do nada pode ser um empreendimento muito dispe~dioso,que deveria ser levado a cabo somente quando se tem I certe~a de que nenhum dos instrumentos já existentes pode ser adotado ou adjapt.ado. Ilus$-ação 13 Na cqnstrução do tesauro,podem ser identificadas quatro etapas i fund4mentais. A primeira delas consiste na coleta da matéria-prima-- a tetminologia do assunto a cobrir. I Ilustração 14 I São ~presentadas duas abordagens a construçao de um tesauro. Na abor~agem de cima para baixo, ou "dedutiva", que freqUentemente exige o trkbalho em equipe, as categorias principais de termos são identifi- . 19 cad;:1s e subdivididas de cima para baixo. Dessa forma, um grupo de bibiliotecários, construindo um tesauro sobre Ciência da Informação, reconhece a necessidade de uma categoria "tipos de bibliotecas". Adotando "bibliotecas" como o cabeçalho mais amplo, começam a subpividir a categoria, conforme mostrado na ilustração 6. Pro~lemas principais a destacar nessa abordagem: 1. ( difÍcil prever todas as categorias ou hierarquias de que se vai qecessitar; 2. ~ característica empregada para subdividir um genero pode não qonduzir à classificação mais adequada às necessidades dos usuários. P,or exemplo: a classe "brinquedos" poderia ser subdividida por ~aterial, cor, idade da clientela a que se destina, método de ~comoção etc. Para um fabricante de brinquedos, uma dessas q;:1racterísticas (talvez a idade) pode ser muito mais importante do q,ue qualquer uma das outras. A abbrdagem empÍrica (isto é, de baixo para cima, ou "indutiva") à construçao de tesauros é exatamente o oposto, e tende a ser muito mais confiável. Os termos que ocorrem na área são coletados de fontes diferentes, e só é criada uma categoria de termos se ela parecer importante ou Útil. Por exemplo: uma subdivisão de brinquedos por cor (azu~s, vermelhos), embora teoricamente possível, pode não significar nada para o fabricante para quem o tesauro está sendo criado. Na a~ordagem empÍrica, podem ser identificados dois·princÍpios impo~ta~tes: garantia literária e garantia de uso. Ilusttração 15 b princípio da garantia literári) (também conhecida por garantia '-· ' bibliográfica) foi enunciado por \<.Tyndham Hulme há mais de 70 anos. O contexto foi o da classificação bibliográfica: um termo (núme~o de classificação) se justifica apenas quando se sabe existir liter~tura sobre o assunto. 20 Extrap~lado para a construção de tesauros, o princÍpio pode ficar i assim:~ um termo se justifica apenas se ocorre dentro da literatura de r um de~rminado assunto com algum grau de freqUência. A manEj'1ira mais eficiente de coletar a terminologia de um assunto é I -1 -buscaila naquelas fontes de referencia com probabilidade de conter uma alta 4onqentração de termos. As fontes têm que ser razoavelmente I atual~zadas. t i A melijor de todas as fontes, talvez, seja uma publicação de resumos '· t dedic4da ao assunto, ou a seção adequada de uma publicação de âmbito I mais .mplo (por exemplo: a seção sobre Psicologia Educacional do Psyc~ZogicaZ Abstracts). l i I Traba~hando de forma absolutamente manual, o compilador do tesauro terá te ~xaminar os resumos, registrando palavras e frases que pareçam relev.ntes para a descrição do assunto. Essas palavras e frases podem ser s~bl;inhadas nos resumos ou transcritas para fichas. Eventualmente, : podem(ser transcritas para formas legíveis por máquina, para manipula- - r çao ptlo computador. r , 1 É umaj; medida muito sensata caminhar para trás no tempo, começando pelo ' ÚltimP fascículo dos resumos. O compilador pára a coleta quando atinge !-- um popto em que a ocorrência dos termos parece ter diminuído, isto é, I • quandf começam a ser encontrados muito pouco termos novos. I 1' A coljeta de termos por essa forma manual é uma tarefa tediosa e que ,. cons~e muito tempo. O processo pode ser acelerado consideravelmente quando o texto dos resumos pode ser obtido na forma de uma base de ' dadoJ computadorizada. Neste caso, podem ser criados programas ! para !imprimir em ordem descendente de freqUência umalista de palavras l que qcorrem nos títulos e resumos. Pode-se fazer o mesmo com pares de I pala~ras ou grupos de três, quando ocorrem com significativa freqUência f na b4se de dados. Além do mais, seria possível criar listagens impr+ssas de co-ocorrência de palavras nos resumos, de grande valia na s+lee~o dos TRs a serem usados no tesauro. ~ 2.1 Ilustração 16 A s~leção de termos a partir da literatura (garantia literária) é impdrtante. Mas é igualmente importante que os termos coletados rep~esentem as necessidades dos usuários do serviço de informação que vai :adotar o tesauro. Alguns termos podem ocorrer na literatura, mas sere!m de pouco interesse para um determinado grupo de usuários. Por exe~plo: os usuários podem necessitar de menos especificidade do que o que a literatura sugere para certos tipos de termos. (. O compilador do tesauro faria muito bem em identificar os termos que traduzem os interesses temáticos dos usuários, ao mesmo tempo em que os ~oleta da literatura. Estas abordagens são muito mais complementa- res do ~ue alternativas. Se o. serviço de informação existe há algum tempo e colecionou registros de buscas de literatura realizadas para os usuários no passado, tais regi~tros são, provavelmente, uma rica fonte de terminologia. Ques~ionários também podem ser Úteis (enviados a todos os usuários em potencial ou a uma amostragem deles, dependendo do número envolvido) na cpleta de descriç~es que indiquem os interesses atuais da população a ser servida. No caso de uma comunidade de pesquisa, títulos/resumos de pUblicaç~es desses usuários constituem uma valiosa fonte de termos. Em c~rtas situaç~es é possível combinar numa Única operé!_çªp a g;arant:ia literária com a garantia de uso. Usuários representativos recebem cópias das publicaç~es que mais de perto refletem seus atuais intetesses profissionais. Os usuários, então, sublinham os termos que torn~m essas publicaç~es interessantes para eles. UNI~ADE 4. ORGANIZAÇÃO DOS TERMOS 1. AUresentar os padr~es para a construção de tesauros; 2. mostrar como os termos podem ser organizados em categorias e em hierarquias dentro das categorias; 22 i 3. mo~trar como um arranjo alfabético do tesauro pode ser sistematica- me~te derivado do arranjo hierárquico; 4. mo~tr~r possibilidades alternativas de apresentação do componente i al1ab~tico ! 1 llustlfaçào 17 l de um tesauro. O pri~ei~o tesauro para recuperaçao de informação data de 1959. Muita i experiên~ia na construção de tesauros foi adquirida no início dos anos 60, eJpecialmente nos Estados Unidos. Essa experiência foi sendo registrada paulatinamente, levando à publicação de diretrizes e, ! postetiormente, ao estabelecimento de normas para construção de tesautos (nos Estados Unidos, Reino Unido, França e Alemanha, por ' exempJo). A UNESCO publicou diretrizes para a construçao de tesauros monolíngUes ~ em 19ro, e estas acabaram por levar ao estabelecimento da norma interpacional ISO 2788, publicada em 1974. Um edição revista das f diretriz~s da UNESCO, publicada em 1981, tornou-se a base de um proje~o de edição revista da ISO 2788. ! Diretí:"izes da UNESCO para construçao de tesauros multilÍngUes apare- ,, ceramÍ em 1976 e foram revistas em 1979, resultando na ISO DIS 5964 I (1983~. As formas de tesauro discutidas neste curso sao compatíveis com a~ Guidelines for the Establishment and Development of Monolingual i Thes~i,, da UNESCO (2.ed. 1981), a menos que se diga algo em contrlârio. ' ' !' Ilustj:ração 18 i Uma vrez coletados os termos da literatura, dos usuários, ou ambos, ! eles l'pnkisam ser organizados em grandes categorias e em hierarquias dentJo dessas categorias. Devem ser estabelecidas as relaçÕes f inte*-hierárquicas. Finalmente, o arranjo sistemático deve ser L "inv4rtido" .para formar um arranjo alfabético. 23 Ilu.tração 19 Sup~nhamos que alguém estivesse- construindo um tesauro sobre ~i "irfigação" e que tivesse coletado em fichas uma grande quantidade de ter-os. As fichas podem agora ser arrumadas em pilhas, de tal forma que todas as fichas de uma determinada pilha pertençam ao mesmo "tipo" (isÇo é, estejam dentro da mesma categoria). Presumivelmente, uma cat~goria seri reservada a tipos de irrigação, outra a tipos de plarltaçÕes a irrigar, outra a tipos de solos, outra ainda a zonas cli~iticas, e assim por diante. Ilu~tração 20 Uma vez identificadas as categorias, o passo seguinte consiste em org~nizar cada uma delas em hierarquias. Na maioria dos casos, a cat~goria inteira pode ser organizada com resultados priticos em uma grande e Única hierarquia, como seria o caso de produtos agrícolas, que ',se dividem em grandes tipos, grandes subtipos etc. Em alguns pouc~s casos, entretanto, poderi fazer mais sentido nao tentar adotar o esquema de hierarquia Única. Por exemplo: uma das categorias identi- ficadas por primeiro pode ser "propriedades". Todavia, posteriormente, o cqnpilador decide que este termo geral é muito amplo e não muito Útil: como "termo superior" da hierarquia. Ele constrói, ao invés, virifis hierarquias separadas: propriedades físicas, propriedades mecâhic.as, forma, cor etc. Este' exemplo mostra um desenvolvimento parcial da hierarquia "plan- taçÕes". Da maneira como apresentada aqui, é uma verdadeira cJassifi- caçãb hierirquica baseada na relação gênero/espécie: laranjas são um tipo, de frutas cítricas; frutas cítricas são um tipo de fruta; e frut~s são um tipo de produto agrícola. Ilustração 21 Q_ cortiunto comjli_e_tg_.d_!Lhi~_r'ª-_:r~uias desenvolvido a partir dos termos sobrEi irrigação constituirá uma ~~c:tE>_s:if:icaçãog.:l,t:r=_rm:i,no],ogia,sobre Lr_Eij~_çii_o, Uma vez satisfeito com as hierarquias estabelecidas, o 24 compi~ador inverte a classificação para criar o tesauro alfabético. Cada Jermo torna-se uma entrada e são mantidas suas relaçÕes hierár- í quica~,expressas em TGs e TEs. ' Este Jxemplo mostra um grupo de entradas de tesauros, derivadas da ! Ilust~ação 20. Todas as relaçÕes gênero/espécie foram mantidas, e são p~rf~itamente reciprocas: visto que "limÕes" mostra "frutas c{tri~as" como seu TG, "frutas cítricas" deve mostrar "limÕes" como um ! de se~s TEs. As ilustraçÕes 20 e 21 são apenas duas maneirasdiferentes de moftrar o mesmo esquema de classificação: 21 derivou-se de 20, e 20 poderia ter sido derivada de 21. Ilustfaçâo 22 O esqitema "de um degrau acima, um degrau abaixo" (descrito anterior- mente~ é usado na Ilustração 21. Ele é recomendado, quando não por outra~ razoes, pela de economizar espaço no tesauro impresso. Às ve~es, adotam-se outros recursos para evidenciar a hierarquia, ! como t\.a Ilustração 22. à esquerda são mostrados todos os níveis de termo$espec{ficosem uma Única seqllência alfabética. Não há nada que rec-ndie isso: desperdiça espaço e não distingue os níveis hierár- • i quico~. À direita é apresentado um arranjo al~_1::.Lc~Q_-::-_c:l._ªªªif:L<:_9A9, que t~m ia vantagem de mostrar todos os níveis hierárquicos num relankear de olhos. A Única desvantagem é que,quando impresso, ! ! . -resu~tara em um instrumento muito volumoso. Para um tesauro relativa- mentej pequeno e especializado, entretanto, pode se'r a melhor forma de ; apre~n~ação. ! ' Ilus~ração 23 Quan4o ~dotado, o tipo alfabético-classificado deverá ser explicito em iden~ificar os níveis hierárquicos: TE 1 é um termo especifico em l . prim~irQ nível, TE 2 em segundo, e assim por diante. 25 UNijDADE 5. A RELAÇÃO HIERÁRQUICA Obje't:ivos 1. Distinguir as relaçÕes "genérica", "partitiva" e "exemplar"; 2. mostrar como deve ser usada a relação TG/TE; 3. mpstrar como a relação TG/TE pode ser indicada em um tesauro itnpresso.Ilus~racào 24 A relação TG/TE acabará sendo do tipo gênero/espécie (isto é genérica) em qyase todas as circunstâncias. Para ser um TE legítimo, um termo deve representar uma espécie da coisa identificada por seu TG. Ilustração 25 A relação todo/parte (partitiva) via de regra não sera considerada uma TG/Ti. Por exemplo: em um tesauro sobre const ução de móveis, o termo "per!las·de mesa" deverá aparecer como TE su. ordinado a "pernas" e não a "mesas". / Por qonvençao, entretanto, certasjtelaçÕes partitivas são freqUente- ment~ tratadas como se fossem ge~:ricas. Partes do corpo e nomes geognáficos são os melhores exemplos. Faz sentido fazer de "aorta" um TE s~bordinado a "coração", embora ~la seja uma parte e não um tipo ! de cqração, o mesmo valendo para~a ... I ocalização geográfica. As -rL Diretrizes da UNESCO reconhes,em e~plicitamente duas outras situaçÕes em qu;e a relação partitiva dev'êrla ser tratada como genérica: campos de esttudo (FÍsica pode ser útn TE de Ciência). e estruturas sociais (DivisÕes podem ser um TE de /Exércitos). ( ('!> Ilusttaçào 26 As Ditetrizes da UNESCO w'rmitem a um tesauro reconhecer outros dois tipos de relaçÕes TG/TE, \m genérico e outro partitivo, de tal forma que os termos "partes" pod~ ser agrupados com o termo "todo" ao qual se reterem. Neste caso, fazÍse uma distinção entre TEG (termo espe- ~ r J ' 26 i I cífico $enérico) e TEP (termo específico partitivo), e os dois grupos I de term~s são listados separadamente. A relação é recíproca: neste ~xemplol "navios de guerra" terá como TEG "navios", e "cascos" terá I como TEf "navios". Esse procedimento é Útil no sentido de que evita a t ~ntrodu~ão de termos artificiais para funcionar como TG dos termos i partes.: i, por exemplo: "partes do navio" ou "componentes do navio". ! !' I Ilustra~ão 27 1· I As Direltrizes também permitem ser a relação "exemplar" tratada como ! TG/TE, iquando isso parecer Útil. Um termo "exemplar" será algum tipo de nom~ próprio - de pessoa, grupo, prédio etc. A "Catedral de Brasília'' não é ~igorosamente um tipo de catedral (um tipo seria, por exemplo, Modern4), ,mas um exemplo (exemplar). I Ilustr$ção 28 I Em um ~squema de classificação facetada construído de forma correta, o prindípio de divisão (ou "característica") empregado para derivar as J: faceta~ deve ser expresso clara e explicitamente. ! Ilustr+cão 29 I I I Em um ~esauro, entretanto, tais distinçÕes não são, em geral, I necess$rias. Esta entrada é perfeitamente aceitável, embora os TEs represtntem três tipos de divisão diferentes (isto é, facetas): ! aplica~ão, país e estilo. Ilustr~ção 30 I I Não ob~tante, a identificação explícita de facetas em um tesauro é de l se recbmendar, particularmente, quando muitos termos estão envolvidos. O tipoj"de entrada aqui ilustrado evitaria uma longa lista de TEs I h~tero~êneos sob o termo APLICAÇÕES EM ARQUITETURA (TE Arquitetura i ' resid~ncial etc.). 27 Ilu$tr•ção 31 Dentro de um tesauro um termo terá, normalmente, apenas um TG (isto é, ele.aparecera em apenas uma hierarquia). Em alguns casos, entretanto~ ele poderá receber legitimamente dois ou mais TGs. Quanto mais geral o tesa;uro, maior a probabilidade de que isso ocorra. Havendo a possibi- lid~de, é melhor pôr um termo na hierarquia à qual ele sempre pertence: um qiamante pode ser um instrumento para cortar, mas é sempre uma pedt;a preciosa. Todavia, a relação hierárquica deve refletir os interesses da comuni- dadel a quem serve. Por exemplo: em um tesauro para a indústria metalúr- gica; haverá pouca utilidade de uma hierarquia de pedras preciosas. Aqui, presumivelmente, "diamantes" apareceria apenas como "instrumen- tos para cortar". Ilushação 32 Algu~s tesauros poderão indicar, para cada termo, não apenas seu TG, mas também seu TS (isto e, o "termo superior" na hierarquia onde ele aparece). Nesta ilustração (ver Ilustração 20) o TG de "laranjas" e "frurias cítricas", enquanto seu TS é "produtos agrícolas". UNIDADE 6. A RELAÇÃO ASSOCIATIVA Objetivos 1. Distinguir a relação hierárquica (TG/TE) da associativa (TR); 2. dat exemplo de tipos de termos que talvez devessem ser associados pot" TRs. Ilusd~ação 33 Podem ser formuladas regras precisas para reger a relação TG/TE. 28 A relatão TR, ou associativa, é muito menos susceptível de regulamen- - j, taçoes~ \ A Últi~a coisa que se pode dizer com algum caráter de definido é que qualqu~r par de termos considerados inter-relacionados quanto ao i sentidp no contexto de um determinado tesauro pode ser associado atravé~ da remissiva TR, contanto que eles não apareçam na mesma ' hiera~uia. Isso equivale a dizer que um TR é um conectar inter- hierárhuico1 e não intra-hierárquico. É inteiramente desnecessário ·-..__ _________ .c~;>-'---- A•~---· usar ~ tR para associar arquitetura residencial com arquitetura 1 relig~sa ou com arquitetura naval. Eles são irmãos, parceiros co-ig~ais na mesma hierarquia e a relação se torna evidente, indo para cima d:a hierarquia em direção ao termo genérico, arquitetura, no caso. Por ou!tro lado, as setas, neste exemplo, mostram termos que poderão i ser l~gitimamente associados com arquitetura religiosa, desde que eles ~rocedem de hierarquias inteiramente outras. I I i Ao contrário da relação TG/TE, não é imprescindível que a relação TR i seja ~ec{proca. Não se está obrigado a tornar arquitetura religiosa em um!TR de iconografia apenas porque a recíproca é verdadeira. j . Entre~anto, em princípio, é aconselhável adotar a reciprocidade. ! i Ilusttaçào 34 i Exemptificam-se aqui algumas relaçÕes freqUentemente expressas por ! meio de um TR. A lista não se esgota, embora ela pareça incluir as I relaç;es mais importantes e freqUentes. Dever-se-á aplicar a recipro- ! cidad. em todos os casos aqui apresentados (por exemplo: causa/ ! efeit~, a par de efeito/causa). i· I UNI~ADE 7. CARACTERÍSTICAS DOS DESCRITORES objet~vos 1. Deifinir um descritor legÍtimo em termos de: 29 i(a) forma vocabular, {b) singular/plural ' {c) seqUincia vocabular; 2. prientar quanto à problemática dos "compostos", isto e, quanto a ~omplexidade dos descritores. '[ Iluf;;tração 35 Quaae invariavelmente os descritores acabarão sendo substantivos ou alg'j.lm tipo de locução. A maioria dessas locuçÕes será composta com-a participação de adjetivos, mas podem ocorrer também algumas locuçÕes preposicionadas. Verbos na forma infinitiva e participial não devem ser"adotados como descritores. Adjetivos que se encontram dissociados de $eu substantivo devem ser evitados. Os descritores devem estar na for~a direta, de preferincia. Isso leva à vezes os alunos ao engano de querer agrupar os termos relacionados com LIVRO. f absolutamente des~ecessário fazer isso - consegue-se o agrupamento por outras formas (por exemplo: indo hierarquia acima até o ginero "livro"). Ilustr~ção 36 A m-*ioria dos substantivos se refere à quantidade. São "quantitativos". Representam eles entidades mensuráveis através de números ("quantos?") e d~veriam se apresentar sempre na forma do plural. Menos freqUentes sao .:os nomes que se referem a volume, e representam itens mensuráveis em t:ermos de quantidade ("quanto?"). Devem ser representados na forma do a::ingular. Pode~se abrir exceção para substantivos normalmente considerados do singplar, ou imaginados como sendo do singular em determinado contexto. Faz sentido falar-se de "olhos" e "ouvidos" e no entanto dize):-s.e "nariz". Em um tesauro sobre navios pode-se usar "ponte de comando" em vez de "pontes de comando", partindo do princípio de que ~or norma há apenasuma ponte de comando em cada navio. 30 I . Ilustr*ão 37 i Evite-Je redundância desnecessária em um tesauro especializado. Em um ! tesaurd sobre Biblioteconomia, o termo "cooperação" pode ser facil- ' mente :interpretado como "cooperação entre bibliotecas"; "prédios" como "Jrédios de bibliotecas", e assim por diante. Não há utilidade ,, I algumatem encontrar metade dos descritores do tesauro começando pela f palavra "biblioteca". l Ilustrfção 38 .Uma daf maiores dificuldades que encontra um compilador de tesauro é ~ descobtir até que ponto decompor uma frase em seus elementos constitu- ' tivos.!Em um extremo encontra-se a decisão de manter a frase "ruído i dos mo~ores de automóveis" como um Único termo (descritor); no outro, a de désmembrá-la em diversos termos. Também e possível adotar um meio-t~rmp. A decisão vai depender de vários fatores, incluindo-se entre ~les o âmbito do tesauro e as convençÕes do idioma em questão I . (por eremplo: a praxe alemã versus a praxe inglesa). Ilust .. ç~o 39 As Di~etrizes da UNESCO estabelecem algumas regras para ajudar na t tomad~ de decisão, baseadas no princípio da "fatoração sintática". f-Elas aao muito complexas e devem ser estudadas no contexto das f própr~as Diretrizes. Este exemplo tenta apresentar uma abordagem mais ! simpl~s. Não está preocupado em apresentar todos os casos, mas apenas i os co~siderados mais importantes. Em geral, frases cujos elementos constitutivos aparecem também indep,nd~ntes de outros no tesauro devem ser desmembradas: "ruído do tr.ffego" é um bom exemplo, no caso de se precisar também dos dois termo I "trafégo" e "ruído" • A idéia específica de "ruído do í tráfe~o" pode ser expressa com a indexação sob ambos os termos da frase~ I 31 Fra$es que representam dois princípios de divisão diferentes (isto e, "ca~acterísticas!') devem ser sempre desmembradas. "Livros infantis ilu~trados" encerra duas características diferentes:· pÚblico ~ ' destinatário e formato fÍsico. I Termos que parecem representar uma espécie, mas na verdade expressam outro tipo de relação, devem ser desmembrados. "Corrosão de turbinas a gfs" não e mera espécie (tipo) de corrosão (como o é, por exemplo, corrosão por fadiga), a turbina a gás é apenas o local onde ocorre a cortosão. Comtostos que, em princípio, nao devem ser desmembrados: • o$ em que uma palavra têm apenas um contexto em um determinado tesauro - num tesauro sobre Biblioteconomia, "acidez" só deve e~istir associada a papel; • aqueles em que o significado do termo no composto é diferente do que ele tem quando isolado: lírio-do-mar não tem nada a ver com ovegetal Hrio; • os: cujos elementos constitutivos, tomados isoladamente, podem causar atU!bigUidade: "lâmina" e "vidro" podem.representar tanto lâminas de v~ro quanto vidro laminado; • os que se apresentam como membros de um genero bem conhecido, mas querem dizer algo muito diferente: cavalos-marinhos não são, na vetdade,uma raça de cavalos • • osque encerram um nome próprio; • os<que ocorrem com tanta freqüência numa determinada área do conhe- ci$ento, que o desmembramento do composto, embora possível, poderá próvocar irritação nos usuários. ~ o caso de "recipientes de pr.ssâo" em engenharia mecânica. 32 I UNIDAPE·8. VOCABUlÁRIO DE ENTRADA r Objeti'fos l 1. Mostrat como se usa a remissiva USE; 2. mostrar como usar essa remissiva para controlar sinônimos e quase- sin$nimos; 3. mostrar como essa remissiva pode ser empregada para remeter de um te~o específico, não adotado na indexação, para outro mais gen~rico. ' Ilustr~ção 40 ! I Um tesiauro inclui remissivas -de certos termos nao adotados na index~ção ou na busca (não-descritores) para os termos adotados em seu ; lugar f(descritores). Os não-descritores encaminham para os descritores. Eles ~ornecem acesso adicional, ou pontos de entrada no vocabulário. i Tomadqs em conjunto, podem ser denominados vocabulários de entrada. Há dois grandes tipos de termos de entrada, de acordo com a ilustração. r Sinônimos perfeito devem ser controlados por meio da remissiva USE. Um ti~o de sinônimo é uma abreviatura ou uma sigla. Outro tipo e o que I reflete convençÕes nacionais divergentes (por exemplo: a praxe brasi~eita versus a portuguesa). Deve-se, via de regra, adotar como descr~tor o termo com maior probabilidade de ocorrer à mente do pÚbli~o a que se destina. Para o público brasileiro o termo "trem" deve ~er preferido ao termo "comboio"; o público comum provavelmente procu~arâ sob o termo coleção de selos, e não sob filatelia. Deve~e procurar ser consistente. Causa confusão o fato de abrevia- i tura~ e as siglas ! serem adotadas numa circunstância e nao em outras. Cont~o ,, uma sigla deve ser preferida sempre que a forma por extenso ~-~-'"--""~-"""'-··""'-'~'·----•-i'R'"'""''_. __ ,_. _ _,__~_,._,_....,_,,...._.,_~..,_,'V·~''"··--=,_..,_..,._,...,._.,,,,,,,..~,,.~--"-,.....-~~--c"'-"""'"'""~-"~,....""""""""""'-~·•~'-' for ~uco conhecida, como no caso de lasers. -·-·-+····· '"'" 33 Os quase-sinÔnimos ocorrem mais freqUentemente do que os sinônimos ver~adeiros. Um termo, A, pode ser considerado sinÔnimo de outro, B, quahdo a distinç:io entre ambos é imperceptível, ou não vale a pena faze-la num determinado contexto. "Som" não é exatamente sinÔnimo de "ac~stica", mas em alguns tesauros esses dois termos podem ser tomados como sinÔnimos. Não'há necessidade de fazer remissiva das formas invertidas para..as ·,""'-._. dir~tas, porque o ponto de acesso adicional será fornecido de outras man4iras. Por exemplo: a entrada Livros, encadernação USE Encadernação de ~iVJtos, é redundante, uma vez que o termo "Encadernação" listará os descritores para todos os tipos de encadernação como seus TEs. Uma pos~Ivel exceçao e o caso de frases preposicionais (por exemplo: Equ~Ões de movimento). Te~s que representam os extremos opostos de um continuo de valores são normalmente tratados como se fossem sinônimos. Por exemplo: um artigo sobre a elasticidade de algum material pode ser considerado comoi, se tratasse também de sua inelasticidade. Esses pares sao as veze~ denominados "quase-sinônimos". O mapeamento pode ser "um para muitos" ou "um a um". Na Ilustração 7, a expressão "arquitetura residencial", deve ser indexada e procurada sob .mbos os termos, "arquitetura" e "residências". Termós considerados demasiado especificas para adoção como termos de inde~ação podem ser mapeados com o termo mais geral e mais adequado. Por exeiillplo: há garantia literária para "ruido branco", mas determi- nado;tesauro pode não exigir tamanho grau de especificidade. Ilust;ração 42 A remissiva USE deve ter sua reciproca. Se existir a remissiva A USE B~ a reciproca deve existir também: B UP A, onde._JW. significa ~para". No caso do mapeamento "um para muitos", algum símbolo e -- 34 necessário para indicar que um termo é apenas um de dois ou mais I termos teferidos. Nesse exemplo, em "residências", o sinal+ depois li de UP mbstra que o termo "residências" é um de dois ou mais termos I< referidps em "arquitetura residencial". . i UNIDA.E '9. NOTAS EXPLICATIVAS E IDENTIFICADORES li i '· ObjetivPs 1 I 1. Ilusltnir os tipos de notas explicativas e mostrar sua finalidade; 2. mosdrar como se distinguem os homógrafos num tesauro; 3. dis~inguir um descritor de um identificador. I i I -Ilustr~çao 43 i Quando i'o significado de um termo pode parecer confuso, ele pode receber i uma no~~a ~xplicativa (NE) no tesauro. Pode ser ela uma verdadeira I· defini4ão de dicionário, como no exemplo de "permafrost". Como alterna- , tiva, Jma NE pode simplesmente indicar como um termo deve ser interpre- 1 tado n~contexto de determinado tesauro e/ou distingui-lo de outros [, ·termostcom os quais pode vir a ser confundido. Ilustrlção 44 f i Alguma~ palavras podem ter mais de um significado, mesmo no contexto de um ~esmo tesauro; isto quer dizer que elas são homógrafas. i FreqUehtemente é possível distinguir significados diferentes com o i, ' I empregt de um qualificador entre parênteses, sem necessidade de toda uma no~a explicativa. Ao contrário da nota explicativa, o qualificador entre t . parênt~ses é parte integrante do descritor. Por exemplo: o termo i "tanqués'' não existe por si só. Ele foi desmembrado em dois termos I , distin~os: TANQUES (RECIPIENTES) e TANQUES (ARMAS). Sem dÚvida alguma, i existe~ outros métodos para dirimir tais ambigUidades, que podem ser adotad~s ·em alguns tesauros. i i l' I 35 Il$tração 45 Os descritores organizados em um tesauro tendem a ser substantivos ou locJ,JçÕes substantivas, mas podem não incluir muitos nomes prÓprios. To@vi.a, em muitas disciplinas, nomes de pessoas, lugares, organi-, . zaçÕes, ou objetos serão necessirios para representar o assunto dos doc~rnentos. Em vez de expandir enormemente a estrutura hierirquica do tesJiuro, esses nomes devem ser "controlados" (isto é, normalizados) em um tocabulirio à parte. Os nomes tratados dessa forma são freqUente- rnen(:e denominados "identificadores", e a lista empregada para controli- los,seri simplesmente isso- urna lista, talvez com algumas remissivas, rnasinão com urna verdadeira "estrutura". São apresentados aqui exemplos de tipos de termos tratados corno idetJtificadores e.rn diversos serviços de informação. Não ,quer dizer que todos os nomes prÓprios devam ser tratados corno identificadores em todos os tesauros. Sem dúvida alguma um tesauro sobr'e Ciência Política necessitari de nomes de países como elemento int~rante da estrutura do tesauro. Por outro lado, um tesauro sobre Educação tem menos necessidade de descritores geogrificos: nomes de país~s podem ter seu tratamento através da lista de identificadores. De fp.to, em uma disciplina em que esses nomes possam incidental- mente vir a ser necessirios, a melhor coisa a fazer, talvez, é adotar alguina lista oficial (autorizada) ji existente. No Brasil, as fontes Óbvi~s a pesquisar são as publicaçÕes do Instituto Brasileiro de Geografia e Estatística (IBGE). Em u~ tesauro, por exemplo, sobre Literatura Brasileira, os nomes dos autofes serão obviamente necessirios. Mas não hi sentido pritico em tentár incluir todos esses nomes na estrutura de um tesauro. Basta inclqir os nomes dos autores mais significativos como descritores, trat~ndo os demais como identificadores. Nesse caso, um ensaísta rela~ivamente insignificante do século XIX pode ser indexado sob descritores relevantes - ENSAÍSTAS e s:gCULO XIX - bem como sob seu própr:io nome, tirado da lista de identificadores. 36 i UNIDAtE 10. FORMATO E APRESENTAÇÃO DO TESAURO ! ObjetivjPs r 1. IluJtr~r os componentes principais da entrada de um tesauro; 2. ilu1trar modos alternativos de apresentação de um tesauro; 3. mos#rali, com exemplos, os esquemas gráficos e o fesauro. i facEttado . . Ilustr4cão 46 Se a e.trada sob um termo contiver todos os elementos habituais, ela terá e~sa apar~ncia. Os elementos são apresentados na seqU~ncia i recome~dada pelas normas. Em cada lista de termos com remissivas TE, ,, TR etc~, os termos são listados alfabeticamente. A maioria das entradas : um tesauro não contém todos os elementos; as notas explicativas, em I partic~larmente, aparecem como exceção, não como regra. ! í · Ilustr~ção 47 ! Conforfe descrito anteriormente (Unidade 2), a organização alfabética dos termos num tesauro deve conter um verdadeiro esquema de I' I classi~icação hierárquica. Entretanto, certos tesauros incluem alguma t ' -forma pe esquema de classificaçao ostensiva como um recurso secundário, I um com~le~ento ao arranjo alfabético. São também possíveis outras I formas! de arranjo. ! . L O tesahro UNBIS, usado pela biblioteca Dag Hammarskjold, das NaçÕes i Unidas!, em Nova Iorque, incorpora quatro arranjos complementares de I termos!. O arranjo alfabético,que esta ilustração apresenta, é I conve~cional, exceto no que diz respeito a inclusão de TSs (cuja I expli~aç.io se encontra na Ilustração 32) e de números para as categJrias (por exemplo: 04.02.01 em IRRIGATION é a categoria na qual ! esse ~ermo aparece). I 37 Ilut;tração 48 Os túmeros das categorias fornecem pontos de entrada para uma lista de ter4os por categoria. Isso pode ser considerado um esquema de ~ cla$sificação muito geral. Dentro de cada uma das categorias principais (pot exemplo, CROPS) entretanto, os termos são listados alfabetica- men~e, em vez de hierarquicamente. Da forma como mostrado aqui, o arranjo inclui remissivas tipo USE e notas explicativas (NE). Ilustração 49 O te;rceiro arranjo é uma "lista hierárquica". Aqui cada "termo superior" é ar;ranjado alfabeticamente, e abaixo dele aparece a hierarquia comp~eta, empregando-se recolhido para indicar os diferenres níveis. Muit~s tesauros poderão incluir alguma forma de arranjo sistemático para complementar o alfabético - algo semelhante às ilustraçÕes 48 ou 49. A inclusão de dois arranjos dessa natureza é menos comum. Ilus~ração 50 A ma~oria dos tesauros, como o tesauro UNBIS, inclui algum tipo de arran:jo permutado das palavras, seja KWIC (palavra-chave no contexto), seja KWOC (palavra-chave fora do contexto). Esse tipo de Índice mostra, para ~ada palavra,todas as suas ocorr~ncias nos descritores. ~ um suplemento Útil, enquanto revela ocorr~ncias de palavras (e por isso ocorr~ncias do tema) que poderiam não ser facilmente encontráveis no arranjo alfabético ou em outros tipos de arranjo. Ilustração 51 Outro método alternativo de apresentar um tesauro é com o emprego de "esquemas gráficos". O tipo usado como ilustração, retirado das Direttizes da UNESCO- é conhecido como um "gráfico de setas". Ele é, no fundo, um arranjo hierárquico apresentado por meio de gráficos. O termo .'superior da hierarquia, câmaras, é o centro do gráfico; os demais 38 giram e~ torno dele para mostrar os níveis de hierarquia. Dessa forma, f Câmaras! de 35 mm é subordinado a Minicâmaras, por sua vez subordinado r a CâmarJas Fotográficas, que é uma subdivisão de Câmaras. Linhas t pontil~da:s unem os termos a outros elementos que lhes são associados. I Quando ~á uma certa quantidade desses gráficos de setas, eles se ' l asseme~ham a um atlas rodoviário, onde um mapa remete para outro. Os defensq:res de arranjos que utilizam esquemas gráficos insistem em que, I uma ved que alguém tenha se familiarizado com esse formato, será muito I :mais f~cil, examinar uma família inteira de termos do que em qualquer outro ~ormato. I Ilustr~ção 52 O gráf~co de setas, basicamente hierárquico, constitui o elemento classi~icàdo do tesauro. É evidente que se faz necessária alguma ' ~ aborda~em alfabética. Poderá ser simplesmente um Índice alfabético. Neste 1xe~plo, entretanto, o elemento alfabético encontra-se, de fato, na for*a de um tesauro convencional, com um acréscimo: a posição de cada t~rro no gráfico de setas- o número do mapa e a referência ao quadra*te- e indicada. i i Ilustr4ção 53 O tesaJro SPINES, da UNESCO inclui um tipo completamente diferente de t arranj1 q\lle também pode ser considerado do tipo "gráfico". Este tesauro incorp~ra uma certa quantidade de características próprias. O compo- t ~ nente .lf~bético identifica explicitamente todos os níveis de TG e TE i ,para c.da descritor, ao mesmo tempo em que prove notas especiais, I remissfvasTRs e USE. É feita uma distinção entre as remissivas USE e VER, e~ q~e esta Última oferece uma oportunidade de escolher i ' descrilores em substituição aos não-descritores (termos de entrada). A I inclusto desses dois tipos de referência (USE e VER) não se tornou i conventão, e não pe recomendada pelas Diretrizes da UNESCO. É aconse- r I lhávellque os alunos desconsiderem essa distinção. 39 Ilbst,ração 54 A forma de apresentaçao com esquemas gráficos usa polígonos, subpolí- gonps e subsubpolígonos na tentativa de tornar evidentes diferentes nív~is de hierarquia. Polígonos relacionados são ligados por meio de uma:: "relação associativa", um tipo de remissiva TR. Uma página completa com'esse tipo de apresentação que utiliza esquemas gráficos ("mapa") pod~ incluir muitos polígonos inter-relacionaqos, embora o exemplo esc.lhido mostre apenas um polígono completo. Ilqstração 55 Corno já se enfatizou anteriormente, todos os tesauros contêm um compo~ente classificado - ao qual se chega através da adoção da estk-utura TG/TE, um dispositivo gráfico que indica hierarquia ou out.~o recurso qualquer. O tesauro facetado é um tipo de vocabulário con~rolado que combina o tesauro alfabético com uma classificação hietárquica facetada, inclusive com notação. São mostradas aqui algumas entradas de um tesauro facetado hipotético. Convém notar que essas duas partes se completam. O componente facetado se éncarrega da relação hierárquica (isto é, a estrutura TG/TE), enq4anto todas as outras relaçÕes aparecem no tesauro propriamente dito. O t~sauro fornece a notação para cada termo, de tal forma que o usuário poda' procurar o componente facetado para ver a relação hierárquica. Na clasisificação facetada um termo aparece apenas uma vez. Entretanto, se um t:ermo puder legitimamente aparecer em mais de uma hierarquia, as relaÇÕes secundárias serão fornecidas pelo tesauro, usando-se a conv~nç~o TG (A), que significa "termo genérico adicional". O tesauro facetado oferece vantagens Óbvias sobre outras formas de tesauro: pode ser Usado para arrumar livros nas estantes de uma biblioteca especia- lizaaa, bem como para indexação dos itens numa base de dados. Além disso, o arranjo nas estantes e o da base de dados serão assim inteiramente compatíveis. \ 40 , I Ilustrf1ção 56 } O UNESCO Tesaurus pode ser considerado um tipo de tesauro facetado. r, AÍ tem~s o elemento facetado onde cada faceta é explicitamente r identi~icada ("by crimes against property", e ("by crimes against . i publ1q order11 ). I Ilust~~çã,o 57 i Neste !te~auro porém, os elementos alfabético e facetado n~o s~o inteinamente complementares, conforme mostrado no exemplo hipotético I (Ilus4raç~o 55). Ao mesmo tempo em que o elemento alfabético fornece muitaiinformaç~o que n~o se encontra no elemento facetado, ele repete algum's das informaçÕes ali contidas (por exemplo: BT (TG), TT (TS), uF cmh. i l ...;. Ilustl'açao 58 ! O Root Tesaurus, da British Standards Institution, é, talvez, o mais sofisficado dos instrumentos que combinam uma classificaç~o facetada com u~ arranjo alfabético dos termos. As facetas pelas quais um i assunto é dividido est~o clara e explicitamente indicadas, por i propr~edade ("by property"), por aplicaç~o ("by application") etc. O i tesauto adota algumas convençÕes especiais, como: I I i ~nd~ca um sinÔnimo n~o-preferido * ( ~ndica um termo genérico adicional retirado çle outra parte do ! tesauro (n~o há exemplo aqui) ~ * > I ~ndica um termo específico adicional retirado de outra parte do ltesauro (por exemplo: "drainpipes" aparece em RFM. N, ao mesmo : !tempo em que é considerado um tipo de cano em NJV /NJX; "rigid ! lpipes", por outro lado, em NJV. B, n~o aparece em mais lugar algum ~a classificaç~o). I *- iinc:llica um termo relacionado adicional retirado de outra parte do i :tesauro. 41 Il11stração 59 A ~eçâo alfabética fornece apenas um nível de hierarquia. São adotadas as seguintes convençÕes: sinÔnimo não-preferido <( termo genérico na mesma parte do tesauro (por exemplo "pipes" é mostrado como um termo específico de "fluid equipment" • .> termo especÍfico na mesma parte do tesauro (por exemplo: "rigid pipes" como específico de "pipes". termo relacionado na mesma parte do tesauro. * <j termo genérico em outra parte do tesauro. * )t- termo especÍfico em outra parte do tesauro ("drainpipes", foi o exemplo usado anteriormente). *- termo relacionado em outra parte do tesauro. Não.i-descritores são tratado de duas maneiras, como nesses exemplos: Pip~ threads ---t Threads NWC/NWD indica que o tÓpico anterior deve ser indexado sob o outro termo, enqt~anto que * A~beatos cement pipes NJW.S __,...._.. Pipes + Asbestos cement indi'ca um "termo sintetizado": o termo "asbestos cement pipes" não deve ser usado; esse conceito deve ser indexado em "pipes" e em "asbest,os cement" (observe-se que a entrada em "pipes" mostra que esse termp + "asbestos cement" deve ser usado para representar "asbestos cement pipes"). O símbolos especiais usados em lugar de BT (TG), NT (TE)• RT (TR) e USE tornam a estrutura deste tesauro independente da língua. Todavia o emprego de tais símbolos não é preconizado pelas norm*s internacionais. 42 l UNIDAD~ 11. CRESCIMENTO E ATUALIZAÇAO Objeti~os 1. Mos~rar como se pode aplicar um teste simples para verificar o grau de ,,;completeza" da versão preliminar de um tesauro; 2. definir as formas como um tesauro pode ser mantido atualizado. i Ilustr$-cão 60 Um teshuro não é algo estático; ele continuará a crescer à medida que i novos termos forem necessários para acomodar assuntos não encontrados í antes.! Geralmente isto significa desenvolver as hierarquias atuais com maiior detalhe, tornando assim o vocabulário cada vez mais espec~ico. i Apresdnta-se uma curva hipotética de crescimento. Partindo do j' pressqposto de que o tesauro é construído a partir da coleta de termos ! na li~era'tura, o crescimento sera muito rápido no inÍcio - virtual- i mente [todo item novo (resumo, por exemplo) vai gerar muitos termos novosJ, Posteriormente, entretanto, ele começara a atingir um ponto de ' equil~brio, e haverá aquele momento em que muitos novos documentos dever~o ser examinados para que se encontre algum termo novo. Neste i pontoia ~oleta de termos pode ser suspensa: os já coletados devem ser organ4zados para produzir o primeiro esboço de um tesauro. Ilust~ação 61 Seriaicortveniente que a versão preliminar fosse revista, de preferência i por e~pecialistas no assunto, bem como pelos especialistas em infor~ação que a utilizarão. Ante de começar a ser utilizado na práti~a, é aconselhável testar sua adequação aos objetivos. ! ' A ilu,tração mostra um teste simples. Tome-se uma amostra aleatória de I 100 attigos ou relatórios publicados recentemente, do tipo a ser index.do na base de dados. Um ou vários especialistas em informação { 43 inqexam esse material em duas etapas. Primeiro, o indexador anota os re~ultados de sua "análise conceitual" com uma série de palavras ou frases que representem os t6picos que ele julga devam ser cobertos na ind;iexação. Essa análise conceitual é feita para todos os 100 documentos da ~mostra. Em seguida, consulta a versão preliminar do tesauro e faz uma. tentativa de traduzir a análise conceitual para o vocabulário. controlado. Ilul;tração 62 Mostra~se aqui um exemplo hipotético. Neste caso, todos os conceitos listados pelo indexador podem ser traduzidos para os termos do tesauro, embora não seja sempre possível uma equivalência univoca. Por.exemplo: dois "conceitos" são traduzidos por um termo ou um conceitopor dois termos. Em apenas um caso há variação na especifici- dade: o tesauro oferece "água residual", mas na verdade "água de esgoto" é um tipo especial daquela. Ilu~tração 63 Os resultados do teste em todos os documentos da amostra podem ser expr:essos estatisticamente. Neste caso hipotético os resultados parecem bons. Muito poucos conceitos não são traduziveis. Quase todos, na v~rdade, podem ser traduzidos no nfvel de especificidade desejado. Num teste dessa natureza podem-se identificar algumas deficiências especificas que, no entanto, podem ser corrigidas - talvez sejam necessários termos mais especÍficos para tipos de água utilizável em irritação. Uma vez feitas as correçÕes, o tesauro parece pronto para impl~ntação. Ilustração 64 Uma ~ez implantado, o tesauro continuará naturalmente a crescer. Ele deve ;ser mantido atualizado com o acréscimo de novos termos. O serviço de informação a quem ele serve de instrumento deve estabelecer proce- dimerltoE!, baseados nos quais os indexadores possam acrescentar novos descritores na medida das necessidades, ao menos de uma forma 44 provisÓ~ia. No caso de um serviço de informação de grande porte, algum "~r~po de revisãodo vocabulário" pode ser formado para decidir se ess4S.descritores provisórios devem ser incorporados ao tesauro, e, em casd a~irmativo, se devem aparecer na estrutura. Os ter~os que ocorrem nas consultas formuladas pelos usuários devem i sofrer !o ~esmo processo de acompanhamento. Isso se faz necessário especi~lmente para garantir que o vocabuláriopermanecerásuficiente- mente ~spec{fico satisfazer is necessidades de informação dos ' usuárids. i I i JNIDADE 12. f Objeti~os UTILIZACAO DO COMPUTADOR ' i l 1. Mostrar como os processos computadorizados podem ser empregados na I con~trução e manutenção de tesauros; 2. mostrar o papel importante que os tesauros computadorizados podem destmpfnhar nas atividades relacionadas com a recuperação da inf9rmação. Ilustr~çãp 65 Os computadores podem desempenhar um papel muito importante na constrhção e na utilização de tesauros. A possibilidade de adoção dos r comput~dores na coleta dos termos foi mencionada anteriormente (Ilust~ação 15). Os termos podem ser extraídos de bases de dados em I comput~dor, produzindo-se listas ordenadas de acordo com a freqUência ! de suai ocorrência. Mesmo que os termos não sejam extraídos de bases de I . ~ • dados !em,computador, e ma1s do que aconselhável lançá-los em suportes i imfor$tJ;cos, para permitir sua ordenação e contagem, e, possivelmente, !: para P,roquzir tabelas de co-ocorrência. Devidq ao fato de a construção de um tesauro convencional ser ' i essenqial,mente uma atividade intelectual, o processamento de termos i 45 por meio do computador pode para tal contribuir apenas em escala relativamente reduzida. Por exemplo: ordenando e imprimindo todos os terlinos pela palavra de comando (soldagem, soldagem a gás, soldagem a arcp blindado) ou mesmo pelos radicais dessas palavras, o computador pod~ ajudar na identificação de facetas ou hierarquias. Ten4o o compilador do tesauro organizado o vocabulário em facetas e hietarquias, o processamento por computador pode ser de extrema valia, para não dizer absolutamente essencial. Como exemplo, considere- se ~ hierarquia parcial da Ilustração 8, onde uma notação simples é utilizada para representar os níveis hierárquicos. Com esses dados o computador pode imprimir um arranjo hierárquico igual ao mostrado na Ilu~:tração 7, um arranjo de palavras permútadas, como o da Ilustração 50, :,e (contanto que cada hierarquia tenha sido atribuída a uma deter- minarla categoria de assunto) um arranjo por categoria, como o da Ilustração 48. O que é mais importante, contudo, é que pode ser usado um programa de comphtador para gerar um arranjo alfabético perfeitamente consistente (comf;> na Ilustração 10), com todas as referências TG, TE, TR e USE em perftita relação de reciprocidade. Mais ainda, os dados do tesauro em f~rma legível por computador podem dar entrada numa máquina de foto~omposição, de modo que a impressão de todos os arranjos pode ter a ma~s alta qualidade tipográfica. Além !'de produzir tesauros e apresentá-los numa grande variedade de formq;tos de saída, os programas de computador podem ser utilizados na manut;ençao do tesauro. Termos novos podem ser acrescentados a qualquer momen;to. O acréscimo de um termo na forma apropriada fará com que o mesmo seja incorporado à estrutura do tesauro na posição correta, ao mesmo tempo em que sao estabelecidas as remissivas de reciprocidade. Quando um termo for eliminado do tesauro, os programas checarão todos os tetmos em relação de reciprocidade com ele e eliminarão automati- camente todas as remissivas ao mesmo. Se a grafia de um termo foi alterada, a alteração será processada pelos programas em todos os lugar's onde o mesmo ocorrer. Se forem introduzidas referências cruzaõas adicionais a um termo, os programas gerarão automaticamente 46 as relJç~~s reciprocas dessas remissivas. Semelhantemente, o compu- i tador ijrodederá às alteraç~es necessárias no tesauro toda vez que uma nota e4pl~cativa for alterada, ou quando um termo for deslocado de uma ca~egdria de assunto para outra. l i i Ilustr4ção 66 i O compJta4or pode desempenhar papel relevante na geração de tesauros I I impres$os, O tesauro computadorizado pode também ter importantes t funç~e, a desempenhar na operacionalização de um sistema de recupe- ração 1e informação. l O tesa*ro computadorizado é um registro autorizado do vocabulário do ! sistemf, ~nteiramente atualizado. Podemos chamá-lo de "arquivo-mestre do voc~bulário" ou AMV. Além de fornecer listagens do tesauro de diversts tipos, o AMV tem as seguintes funç~es em um sistema informa- f -tizadolde recuperaçao da informação: ele checa a consistência e . aceita~ilidade dos termos empregados por indexadores e usuários do sistem~. No caso de um indexador ou um usuário empregar um termo nao reconh~cido pelo AMV, o registro de entrada (ou entrada de busca) será i . rejeit~do, com uma notificação apropriada ao indexador ou usuário. Em alg~ns sistemas o AMV pode realizar certas atividades de mapeamento ' automá~ico. Por exemplo, o indexador ou o usuário podem serautorizados a usar[ um qualquer de dois sinônimos reconhecidos pelo tesauro, com o ! M1V prpcedendo automaticamente à substituição do termo preferido. Soment~ quando o termo empregado pelo indexador ou pelo usuário for l inteir~mente estranho ao sistema, sofrerá ele rejeição. O AMV ~antém certas informaç~es de natureza estatística Úteis que i seriani de difícil ou impossivel manutenção por processos manuais. Em primeij;r{ssimo lugar, ele mantém um registro do numero de referências ! bibli~gráficas relacionadas com cada termo, isto é, o número de vezes que elie poi empregado na indexação. Esses dados podem ser apresentados ! em forjma impressa ou em terminal linha. A informação sobre a freqll~c~a com que um termo foi empregado na indexação é de utilidade I I 47 nas operaçÕes de busca, porque ela permite ao pesquisador calcular quahtas referências serão recuperadas em resposta a uma determinada estratégia de busca, ou, na pior das hipóteses, mostrar o numero máximo de referências que poderiam, em princípio, ser recuperadas. InformaçÕes de cunho estatístico sobre a freqUência de uso de termos na Jndexação são relevantes para as atividades de controle de vocabulário. Um descritor usado com muito pouca freqUência durante os Últimos 12 meses pode ser um forte candidato a ser eliminado do vocábulário. Dados estatísticos sobre freqUências de uso de termos na busca também são de importância
Compartilhar