Baixe o app para aproveitar ainda mais
Prévia do material em texto
Linguagens documentárias e vocabulários semânticos para a web: elementos conceituais José Antonio Moreiro González SciELO Books / SciELO Livros / SciELO Libros GONZÁLEZ, J.A.M. Linguagens documentárias e vocabulários semânticos para a web: elementos conceituais [online]. Salvador: EDUFBA, 2011. ISBN: 978-85-232-0824-0. https://doi.org/10.7476/9788523218829. https://doi.org/10.7476/9788523218829 UNIVERSIDADE FEDERAL DA BAHIA REITORA Dora Leal Rosa VICE-REITOR Luiz Rogério Bastos Leal EDITORA DA UNIVERSIDADE FEDERAL DA BAHIA DIRETORA Flávia Goullart Mota Garcia Rosa CONSELHO EDITORIAL Titulares Alberto Brum Novaes Ângelo Szaniecki Perret Serpa Caiuby Alves da Costa Charbel Niño El-Hani Dante Eustachio Lucchesi Ramacciotti Evelina de Carvalho Sá Hoisel José Teixeira Cavalcante Filho Maria Vidal de Negreiros Camargo Linguagens documentárias e vocabulários semânticos para a web: elementos conceituais José Antonio Moreiro González Salvador EDUFBA 2011 © 2011 by José Antonio Moreiro González Direitos para esta edição cedidos à Editora da Universidade Federal da Bahia 1ª Reimpressão: 2014 Projeto Gráfico e Editoração Eletrônica Victor França Capa Alana Gonçalves de Carvalho Martins Revisão Nídia Maria Lienert Lubisco SIBI/UFBA/Faculdade de Educação – Biblioteca Anísio Teixeira Moreiro González, José Antonio. Linguagens documentárias e vocabulários semânticos para a web [livro eletrônico]: elementos conceituais / José Antonio Moreiro González. – Salvador : EDUFBA, 2011. 6252 Kb; ePUB ISBN: 978-85-232-1882-9 1. Linguagem documentária. 2. Recuperação da informação. 3. Web emântica. 4. Tesauros. I. Título. CDD 025.49 – 22. ed. Editora filiada à: EDUFBA Rua Barão de Jeremoabo, s/n Campus de Ondina Salvador Bahia CEP 40170-115 Tel/fax. 71 3283-6164 www.edufba.ufba.br edufba@ufba.br Versão digital: dezembro de 2019 http://www.edufba.ufba.br/ mailto:edufba@ufba.br Table of Contents / Sumário / Tabla de Contenido Front Matter / Elementos Pré-textuais / Páginas Iniciales Apresentação Introdução 1 Bases epistemológicas da representação da informação 1.1 Origem da representação conceitual 1.2 Origem das relações entre conceitos 1.3 Os conceitos principais e sua organização em macroestruturas 2 Para melhor entender a recuperação léxica da informação 3 Requerimentos fundamentais da nova Web 3.1 Dimensões da Web Social e da Web Semântica 3.2. Qual a finalidade da chamada Web Semântica? 3.3. Possibilidades de Evolução 4 Léxico e Linguagens Documentárias 4.1 Classificação dos KOS 4.2 SKOS 5 Web 2.0 e Folksonomias 5.1 Funcionamento das Folksonomias 5.2 Para que servem as Folksonomias? 5.3 Vantagens e debilidades das Folksonomias 5.4 Comparação entre Folksonomias e Tesauros 6 Taxonomia 6.1 Taxonomias: características e componentes básicos 6.2 Construção de Taxonomias 6.3 Exemplos de Taxonomias 7 Tesauro 7.1 Tesauro: rede conceitual e instrumentalidade 7.2 Uso de tesauros: vantagens e desvantagens 7.3 Tesauros: aportes das novas normas 8 Ontologias, o predomínio dos conceitos 8.1 Camadas da Web Semântica 8.2 Ontologias como KOS 8.3 Linguagens para a criação de Ontologias 8.4 Elaboração de Ontologias 8.5 Tesauros frente a Ontologias 9 Tesauros: progressão conceitual e redes semânticas 9.1 Tesauros de Descritores Verbais 9.2 Redes semânticas 10 Topic Maps 10.1 Conceito e definição 10.2 O modelo Topic Maps 10.3 Elementos do Topic maps 10.4 Ferramentas para construir Topic Maps 10.5 Vantagens dos Topic Maps 11 Reflexão final Referências Apresentação Encontramo-nos imersos em um inacabado processo de adaptação e transformação e até de invenção dos sistemas simbólicos empregados para representar e recuperar o conhecimento. O surgimento das bases de dados, na década de 1960, induzia já à concepção de linguagens controladas perfeitamente estruturadas para recuperar conjuntos de documentos, mediante as relações terminológicas que tinham em comum. Os sistemas de organização e representação que empregamos na atualidade surgiram por impulso de uma web que precisava de novas estruturas para responder a novas necessidades, o que nos obrigou a adaptar as linguagens documentais pré-existentes. A soma das linguagens documentais geradas no passado e dos novos sistemas de representação agrupa-se em torno do que se convencionou denominar Vocabulários para a web que, curiosamente, não deixam de contemplar o componente léxico em detrimento da intenção conceitual e, portanto semântica, que supõe qualquer recuperação autêntica de conhecimento. Sem dúvida, o fim principal dos vocabulários para a web é possibilitar a busca por conceitos. Por enquanto, para consegui-lo, recorre-se tanto à contribuição mesclada de vocabulários registrados (como são as ontologias, os tesauros e os cabeçalhos de assunto) e termos ordenados, mas menos estáveis como os que formam as taxonomias, quanto a palavras de linguagem livre, como é o caso das folksonomias, que ficam fora de intenções conceituais. Nessa fragmentação de atuações, intervêm os vocabulários de base léxica ou terminológica, como são todos os integrados em SKOS, ou as redes semânticas e mapas conceituais, junto a outros que atuam com base lógica, entre os quais estão as ontologias e os TopicMaps. A presença simultânea de tal variedade de opções obedece às necessidades nascidas da própria web. De maneira que, quando se centra na possibilidade de compartilhar processos, como acontece na Web 2.0, é suficiente um sistema de descrição coletiva dos recursos mediante o uso livre de etiquetas. O uso das palavras sem nenhum impedimento deu-se sempre quando se queria um nível de estruturação baixo, ao mesmo tempo em que se dispunha de alta facilidade de implantação. No entanto, quando o site adquire uma intenção semântica, passa a empregar vocabulários controlados (KOS) e de representação lógica, como são as linguagens para a expressão de ontologias e os vocabulários de metadados. Empregamse, pois, linguagens-padrão, com sintaxe uniforme e semântica não ambígua. Para a web semântica que possa funcionar, é necessário obter descrições etiquetadas dos recursos, ao mesmo tempo em que se há de contar com agentes de software capazes de processar esses recursos, numa perspectiva semântica. As descrições são feitas especialmente a partir dos metadados e das ontologias, enquanto a informação se processa a partir de axiomas lógicos, com motores de inferência semântica. Para que as máquinas possam ler os “significados”, há que codificar a “semântica de mundo”. Para concretizar essa representação surge o standard XML (eXtendedMarkupLanguage), uma metalinguagem para intercâmbio de dados e informação na web. Este livro trilha mais as transformações pelas quais passaram os componentes e as estruturas de relacionamento dos vocabulários para se adaptar a um meio tão exigente, do que a preocupação em atender os sucessivos modelos de dados em XML para expressar o conhecimento, em estruturas simples, pré-definidas, como é o caso do emprego de SKOS para codificar tesauros ou qualquer linguagem documentária em formato RDF. Sem desconsiderar totalmente esses modelos, privilegia-se aqui uma perspectiva de análise de conteúdo documental, desde aquelas que diferenciam os elementos linguísticos que compõem os vocabulários e linguagens, de acordo com o emprego de conceitos inferidos, termos unívocos ou palavras livres, como também os relacionamentos semânticos que se dão entre esses elementos, segundo a responsabilidade e intervenção das pessoas, na construção das linguagens e dos vocabulários, inclusive de acordo com a aplicação que se estabeleça para a representação de objetos e para o uso aberto ou restrito dos vocabulários. Sem dúvida, é uma visão parcial, mas necessária, para entender a origem, a transformação e a projeção dos vocabulários e linguagens documentárias, empregados para organizar o conhecimento no site e o enquadramento teórico em que isto acontece. José Antonio Moreiro González Introdução O objetivo primeiro deste trabalho é atender ao que permanecee ao que mudou na representação conceitual dos documentos, dentro do ambiente determinado pela web e pela interatividade, esclarecendo como as linguagens documentárias têm evoluído na sua adaptação às novas necessidades para muito além da estabilidade terminológica racionalista que tem caracterizado as linguagens documentárias até poucas décadas atrás. Esta aproximação prioriza estabelecer os elementos documentários como nexo de um âmbito multidisciplinar, onde se entrecruzam contribuições provenientes da Filosofia, da Linguística, da Computação e da História da Ciência. O ponto de partida desta proposta está em querer apresentar, suficientemente amadurecidas, as apostilas que nos dois últimos anos foram fornecidas aos alunos como material complementar para cursos de pós-graduação, buscando facilitar o roteiro da exposição oral. E fazê-lo preferentemente de maneira esquemática. De modo que, mesmo que a origem tenha tido um claro caráter docente, a elaboração da síntese foi responsável pela atualização e inclusão dos resultados de alguns trabalhos pessoais, assim como o seguimento de tendências e novidades referentes aos assuntos aqui tratados. Certamente, os documentos nos proporcionam informação. Mas não geram conhecimento até que sua mensagem seja alcançada e assimilada pelo usuário. Para que isto aconteça, os originais devem processar-se mediante representações de seu conteúdo surgidas das técnicas de análise documentária. Essas representações servirão para facilitar os usuários na busca e na recuperação dos conteúdos que lhes interessam: Figura 1 - A análise de conteúdo dentro das operações básicas dos Centros de Informação e Documentação Fonte: Elaboração própria Este esquema, em grande parte, contém o procedimento comum adotado há umas décadas. Mas, além disso, considera as novas linguagens documentárias requeridas pelos documentos eletrônicos e sua gestão, sem por isto modificar a estrutura básica dos pré- existentes. O signo compõe-se inseparavelmente de significante e significado, o que oferece um paralelismo no caso dos documentos, já que suas orações e frases também resultam da união do plano expressivo, morfológico-sintático, com o do contido ou conceitual semântico, ao que deve acrescentar-se a relação entre autor e leitores e de ambos com a mensagem, o pragmático. Nenhum destes elementos pode ser esquecido ao planejar a análise semântica dos documentos, especialmente para identificar os conceitos essenciais que contêm. Figura 2. Perspectiva linguística do documento Níveis de análise Níveis de síntese Estrutura morfológica Suporte físico Catalogação Identificação do documento-objeto Estrutura semântica Superestrutura ou disposição organizativa Tipologia documentária Macroestruturas Indexação Resumo Fonte: Elaboração própria O documento, na sua estrutura morfológica, pode ser considerado um objeto de informação1 e o tratamento que sofrerá será sempre superficial, externo, pela estrutura física ou pelas palavras que seu texto contenha. Porém, a estrutura semântica lida com as ideias e mensagens principais que o documento transmite. A análise de conteúdo leva a procurar os conceitos com relevância suficiente para serem representativos de toda a informação de um documento. A estrutura morfológica contém o significante e a estrutura semântica, o significado. O processo de representação da informação macroestrutural seguiu uma adaptação aos tipos de documentos e sua forma de acesso, mantendo sempre a concomitância entre os novos e antigos métodos de representação. Figura 3. Aplicação da Teoria do signo de Saussure à representação da informação Signo Significado Palavra Termo Significante Conceito Fonte: Elaboração própria Podem ser vistas duas linhas que vão do morfológico (as palavras- chave) ao mais semântico (os conceitos) que se entrecruzam histórica e aplicativamente. Enquanto uma tem um nível baixo de estruturação, a outra o tem alto; enquanto uma tem alta facilidade de implantação, esta escasseia na outra. Assim, na organização e representação da informação, esses grupos de linguagem podem ser considerados sob a perspectiva do léxico utilizado e das relações entre as palavras que utilizam: Listas de palavras: folksonomias. Listas de termos: glossários, listas de nomes e dicionários, entre eles apareceram os anéis semânticos (como o que oferece uma parte da Wordnet). Categorizações e classificações: taxonomias, esquemas de categorização2. Grupos de relações: baseados em associações entre os termos e entre os conceitos: tesauros automáticos ou conceituais, topic maps, ontologias. Todos eles são sistemas de organização e representação do conhecimento KOS (Knowledge Organization Systems) e servem para fazer a indexação de recursos na Web com diferentes vocabulários (alguns deles controlados, outros não), até dentro do mesmo domínio. As novas linguagens documentárias oferecem uma grande complexidade disciplinar e de uso que obrigam a abordar sua compreensão a partir de fundamentos conceituais provenientes de diversos campos, como a Lógica Formal e a Estatística, a Computação, a Retórica, a Linguística do texto, a Semiótica ou a Lexicografia. 1 Bases Epistemológicas da Representação da Informação Desde a Antiguidade clássica, têm sido procurados os conceitos mais gerais dos discursos aludidos na expressão do pensamento, conhecidos então como predicados e agora como macroestruturas. 1.1 Origem da Representação Conceitual Neste ponto, é preciso voltar a Aristóteles. Dentro do estudo dos conceitos, nos “analíticos posteriores”, ele considerou os predicamentos como categorias ou tópicos principais da expressão, de onde partem os distintos modos retóricos3: Substância, Quantidade, Qualidade, Relação, Lugar, Tempo, Situação, Posse, Ação e Paixão. A substância é a categoria fundamental, aquilo que existe em si mesmo; os acidentes são categorias que existem em outro ser, na substância. Aristóteles classifica os acidentes nas categorias anteriormente ditas. Na medida em que as categorias remetem às formas extramentais de ser, adquirem um forte conteúdo ontológico, supondo que as coisas são captadas pela mente tal como o são na verdade. Posteriormente, esta lista ficou reduzida por Leibniz a apenas cinco categorias4: Substância, Quantidade, Qualidade, Relação, Ação ou Paixão. Mas Kant refinou ainda mais os conceitos puros do entendimento, ao planejá-los tão somente em quatro categorias5: Quantidade, Qualidade, Relação e Modalidade. 1.2 Origem das Relações entre Conceitos Além de identificar as ideias essenciais, atribui-se a Porfírio, discípulo de Plotino, o mérito de haver disposto uma primeira rede semântica ao distribuir as categorias universais de predicados de uma proposição em forma de árvore6, mostrando graficamente as relações que se dão entre os conceitos em razão de seu gênero, subtipo e diferença7. Deste modo, fixava-se a existência de uma ordem hierárquica entre as categorias aristotélicas, onde o gênero supremo era ocupado pela substância material, ou composta, em sentido descendente na escala, de acordo com a ordem marcada na árvore por Genus e Species. Esta ordem chegou até nós na estrutura conceitual de taxonomias e tesauros, que têm na relação de categorias a origem da disposição hierárquica de seus termos. Cada gênero inferior tem como genérico o gênero imediatamente superior do qual é espécie, ao tempo em que atua como genérico dos gêneros inferiores que de imediato lhe seguem. De maneira que um mesmo conceito pode ser: Gênero (Genus) pela sua relação com as ideias para as quais se estende seu conceito. O Genus tem um gênero supremo: top term ou macrodescritor. E tem gêneros e espécies subordinados (intermediários): middle term (submacrodescritor). Espécie (species) pela sua subordinação a outra mais geral. A species tem especificidades de diferentes níveis em um tesauro. Espécie especialíssima: Genéricos. Indivíduos: Específicos. Tendo a ver mais com a categorização feita por Porfírio que com a proposta primitiva de Aristóteles,Ramón Llull apresentou uma árvore semântica com sete partes, entre as que são de particular relevância: a estrutura, os predicáveis e os predicamentos ou categorias. Precisamente na primeira distinção, composta por ens, substancia, cors, animal e quaestio, ele apresentou como metodologia básica de sua Logica nova e, portanto, como mecanismo universal de qualquer feito comunicativo, as dez regras gerais de questionar8: Utrum → se é ou não Quid → que é De quo → de que é Quare → por que é Quomodo → de que maneira Ubi → onde é Quando → quando é Quantum → quanto é Cum quo → com quem é Quale → qual é O movimento de Port-Royal introduziu outros elementos essenciais, ao situar, junto dos predicáveis, os conceitos lógicos de definição e de divisão, aquele para explicar a quididade de algo, tal como os tesauros concretizam o significado de alguns descritores por meio da scope note, enquanto divisão vinha a esclarecer a diferença de uma espécie para outras, analisando o gênero pelas diferenças9. De forma direta ou indireta, a organização de conceitos feita pela Retórica chegou até nós10. Sempre que se elaborou uma proposta para categorizar os conceitos do texto, apareceu a relação entre eles como uma forma fundamental do pensamento, encontrando-se aqui a razão do proceder indutivo dos tesauros, taxonomias e ontologias, tanto para estabelecer associações semânticas entre os termos, como para permitir aos usuários navegar coerentemente pelos conceitos que representam. Inclusive o planejamento lulliano do raciocínio continua presente em diferentes aspectos da representação do conhecimento, as redes semânticas ou a inteligência artificial11. Porém, as relações não-hierárquicas somente podem ser organizadas quando referentes a uma dada experiência ou a um campo específico do conhecimento. Mostafa e Cruz sugerem o Empirismo inglês de David Hume como a referência adequada às relações associativas em linguagem documentária12. Mas, pode-se comprovar que muitas delas provêm dos predicados clássicos, como mostra a revisão feita por Ramón Llull na Logica nova, onde aparecem fatores de relacionamento originados na causalidade, finalidade, origem ou modo. A visão empirista criou uma nova determinação das relações lógicas entre predicamentos: Relações associativas naturais: Causa e efeito processo ou operação /agente ou instrumento ação / resultado da ação causalidade ou causa/ consequência atividade/ agente atividade/ propriedade Semelhança Atividades complementares / coisa Atividade/ suas propriedades ou agentes − Contiguidade Pessoas ou coisas/ origens Relações associativas filosóficas: Causa e efeito Coisa ou atividade/ suas propriedades ou agentes Identidade Atribuição: disciplinas ou campos de estudo/objetos ou fenômenos estudados Ação/ seu paciente Semelhança Coisas ou atividades/ suas propriedades ou agentes Contrariedade Opostos Coisa/ seu contra-agente Quantidade Influência Qualidade Expressões sincategoremáticas/ substantivos que incluem Por conseguinte, os mecanismos gerais do raciocínio atuam estabelecendo relações entre as estruturas de conceitos. Este comportamento se ultrapassou, de maneira peculiar, os elementos que constituem as linguagens documentárias: Termos que se integram dentro da mesma categoria. Diferenças de uma espécie em relação a outras. Divisão ou análise do gênero pelas diferenças. Definições (Scope note) para ajustar o significado de um termo. Relações que não podem identificar-se como de equivalência ou hierárquicas. Aparecem inclusive fundamentos do tesauro em propostas como a Teoria da Desconstrução de Derrida, ao defender que o signo linguístico pode-se repetir13. Precisamente para evitar algumas das contingências nietzscheanas, como a possibilidade de não dizer nada ou o perigo da desapropriação do próprio nome, os tesauros acordam chamar inequivocamente cada conceito por um termo, evitando qualquer anfibologia ou ambiguidade e assegurando a compreensão dos significados com independência das situações. Até a intenção de visualização, característica dos mapas conceituais como procedimento para a representação esquemática das noções essenciais, estava colocada já na Árvore de Porfírio, primeira rede semântica ou, melhor dizendo, o primeiro mapa conceitual, pois seu fim era claramente visualizador. Mais um passo foi dado pelos Topic Maps ao estabelecer relações entre matérias de textos diferentes, atuando como metaíndices. 1.3 Os Conceitos Principais e sua Organização em Macroestruturas Estão dispostos de forma que a primeira exigência foi determinar as estruturas semânticas dos documentos textuais, para conhecer sua organização e discriminar as partes em que a informação relevante se concentra. A relevância e organização dos conceitos nos documentos determinam as estruturas do texto a serem representadas pelas linguagens documentárias: Figura 4. Estrutura formal da base textual A macroestrutura global (Ma) representa o significado mais geral dos conceitos de um texto14. As macroestruturas parciais atuam como submacroestruturas ou macroestruturas secundárias (Ms). Há outras macroestruturas mais parciais (mp), até chegar às microestruturas, ou nível de significação mais local (mi)15: Ma = Ms1, Ms2, …, Msn. Ms1 = mp1.1, mp1.2,…, mp1.n. mp1.1= mi1.1.1., mi1.1.2…., mi1.1.n.. Ms2 = mp2.1, mp2.2,…, mp2.n. mp2.1= mi2.1.1., mi2.1.2…., mi2.1.n.. … Msn… Fonte: Elaboração própria Figura 5. Unidades de significação dos discursos Unidades de significação Dimensão da macroestrutura Estrutura superficial Microestruturas. Sintaxe e semântica das frases e parágrafos Estruturas intermediárias Macroestruturas parciais. Estruturas semânticas parciais Superestrutura. Ordem das macroestruturas no texto Estrutura global Macroestrutura geral. Estrutura semântica global Sintática Semântica Pragmática Fonte: elaboração própria A aproximação a dimensão da macroestrutura pode fazer-se a partir de: Sintaxe: estuda as relações recíprocas que se dão entre os signos. O signo considera-se suscetível de ser inserido em sequências de outros signos, segundo regras combinatórias: Estrutura temática transformacional. Sintaxe de base linear. Semântica: estudo do significado das relações que existem entre os signos e os objetos ou fenômenos que designam. Considera-se o signo em relação ao que significa. Pode-se chegar a um conceito mais amplo, que distinga entre uma semântica referencial (relação com a realidade extralinguística) e uma semântica orientada ao conteúdo, ambas entendidas como relações imanentes ao sistema, que se dão entre o conteúdo dos signos: Conteúdo global do discurso, seu tema. Pragmática: interpretação do texto a partir das relações que se estabelecem entre os signos e os usuários, ou entre os usuários. Considera-se o signo em relação a suas origens, os efeitos sobre seus destinatários, a utilização que é feita deles, etc.: Função comunicativa. Geração e compreensão textual (macrorregras e estratégias). Coerência e coesão do discurso16. As diferentes partes do texto são dispostas e identificadas pela superestrutura: a ordem que dispõe as macroestruturas no texto: Texto, f a / texto, f b / texto, f c/…/ texto f n/ Nos documentos de caráter científico, a organização temática (superestrutura) segue uma divisão canônica do texto em: Partes / Capítulos / Seções / Parágrafos Os trabalhos de pesquisa empírica apresentam uma disposição arquetípica: Introdução (Determinação do problema; objeto; objetivos; estado da arte; limites) Método de pesquisa utilizado Resultados e discussão Conclusões (no caso, recomendações) Referências E agora, como passar do texto completo à sua representação documentária? Fases da representação documentária: Reconhecimento: aproximação sensorial ao documento para identificar e compreender sua informação mais importante e sua distribuição. Redução: a informação do documento, depois de ser interpretada, limita-se a suas mensagens essenciais. Representação: expressão dos termos ou códigos deindexação e redação do resumo. Trata-se, em ambos os casos, de alcançar uma nova expressão da informação fundamental do texto, buscando sua comunicabilidade a partir dos padrões existentes. Reflexão sobre a leitura dos documentos na hora de procurar as macroestruturas: a Lei do Anderson determina os lugares mais propícios para obter informação: O título do documento. Os subtítulos: sumários, tabelas ou índices de assuntos. O resumo do autor. Sua presença nos originais facilita a análise e a representação dos documentos. A introdução e os primeiros parágrafos dos capítulos, seções e qualquer outra divisão do documento. As conclusões. Ilustrações, diagramas, tabelas, e sua legenda ou explicação. Qualquer frase ou palavra destacada pelo autor no texto, sublinhada ou com letra diferente. 2 Para melhor entender a recuperação léxica da informação Desde a Antiguidade, os documentos individuais têm facilitado o acesso a sua informação por meio dos sumários (e índices), acesso feito ao mesmo tempo pela superfície expressiva léxica e pelo contexto de referência, ao contar com terminologia própria de um domínio, motivo pelo qual se situam entre os que se elaboram livremente com palavras-chave (por extração ou por dotação), e os que se estabelecem mediante linguagens controladas. Esses sumários (e índices) tradicionais formam redes semânticas com os conceitos, cuja designação pode ser feita por mais de uma palavra ou termo; com as associações entre conceitos (veja, veja também; subordinações…); e com o surgimento dos conceitos: casos ou ocorrências guiadas pelas referências17. Os índices alfabéticos devem levar em conta os sinônimos e as variações gramaticais com remissivas; as subdivisões normalizadas; e os rótulos explicativos que determinam a não ambiguidade. As ciências naturais alcançaram um sistema de coordenadas e unidades de medida universais entre os séculos XVI e XX. Desde então, os cientistas usam instrumentos simbólicos e conceituais: independentes das línguas naturais como metalinguagem muito formalizada logicamente coerente amplamente compartilhada18. Nos documentos técnico- científico, os termos cumprem duas funções: a de representação conceitual, e a de transmissão dos conhecimentos especializados. Porém, nas propostas recentes, destaca-se a função comunicativa da língua, afastando-se das tentativas anteriores de fixar os termos19: Como referentes ideais e homogêneos. Estritamente desambiguados e monossêmicos. A serviço preferente da comunicação entre expertos. Então, agora, a sua condição é mais cambiante, pois são aceitas as metáforas e os contextos históricos de uso, o que favorece as dúvidas sobre o sentido monossêmico (com o que se reabilita consequentemente a polissemia) e sobre a variação vista como uma “perturbação da unidade linguística”20. Sob uma perspectiva contemporânea, o acesso à informação por assuntos abriu a trajetória espetacular que teriam as linguagens documentárias no século XX. Nos Estados Unidos, em 1876, formaram-se as obras básicas Classificação decimal de Dewey21 e as Rules for a dictionnary catalog de Cutter22: A Classificação decimal queria organizar a totalidade do conhecimento dentro de divisões decimais, seguindo a ideia de aspirar a uma expressão universalmente válida23. Tentava graduar as disciplinas científicas mediante uma sequência que partia do nível mais amplo da classificação do saber humano de Francis Bacon24, passando por níveis médios segundo os conceitos do século XIX, até chegar a níveis específicos25. Suas características mais notáveis são a simplicidade, a ingenuidade e a adaptabilidade de suas anotações. Rules for a dictionnary catalog o fazia para as linguagens controladas, mediante as listas de cabeçalhos de assunto com caráter pré-coordenado estrutura associativa e controle de vocabulário de aplicação específica. Sem dúvida seu uso era mais amigável para o usuário. A rigidez dos sistemas classificatórios deu aos cabeçalhos preferência para as linguagens controladas. O enriquecimento de relações nos novos vocabulários e das linguagens documentárias e da Ciência da Informação será abordado posteriormente. É fruto da potencialidade dinâmica e criadora do pensamento. Já no pós-guerra mundial, Vannevar Bush percebeu que o problema principal estava na inadequada forma de armazenar e recuperar a informação. Em As we may think, raciocinou que a estrutura sequencial dos conceitos documentários em classe-subclasse era a causa pelas quais as taxonomias alfabéticas ou numéricas seriam incapazes de processar adequadamente grandes acervos de informação, pois os sistemas hierárquicos ficavam superados pela associação de conceitos, imitando o modo em que as pessoas pensam26. Era evidente que as categorias tradicionais da Biblioteconomia resultavam insuficientes para tratar o conteúdo dos documentos, pois as classificações universais contribuíam pouco à circulação efetiva dos conteúdos registrados. Com esta proposta, Bush se aprofundou nos índices associativos e predisse a implantação dos sistemas de bases de dados, hipertextos e hipermídia27. Agora, a condição vem determinada por umas profundas variações, pois se aceitam as metáforas e os contextos históricos de uso, o que favorece as dúvidas sobre o sentido monossêmico (com o que se reabilita consequentemente a polissemia) e sobre a variação vista como uma “perturbação da unidade linguística” 28. Figura 6. O acesso contemporâneo à informação dos documentos. Conceitos de representação da informação Positivista Pós-moderno Categorias universais, formas apriorísticas de representação Linguagem considerada a partir da sua função comunicativa Predomínio das relações hierárquicas (taxonomias) Preponderância das relações associativas29 Léxico como nomenclatura ou taxonomia Relativização pelo cenário ou situação do discurso Linguagem normalizada: comunicação inequívoca Documento considerado a partir da sua função comunicativa Procura da precisão, objetividade e clareza da linguagem O usuário como sujeito da interpretação Modelo das ciências mais formalizadas, sem as imperfeições dos discursos das Humanidades Cada documento contém um modelo léxico Substantivo, forma de representação privilegiada30 Léxico mais próximo da linguagem natural Fonte: elaboração própria 3 Requerimentos fundamentais da nova Web A maioria dos sistemas atuais de representação surgiu antes que existisse o ciberespaço, há menos de uma geração. Por isso, a matriz cultural de referência para os documentalistas do século XXI continua inacabada e eles têm que enfrentar o problema de inventar, adaptar ou melhorar uma nova geração de sistemas simbólicos que se ajuste às possibilidades disponíveis de tratamento 31. A nova Web tem melhorado as estruturas de organização do conhecimento: Trazendo as ontologias e as taxonomias para o primeiro plano. Mas também obrigando a adaptar-se às linguagens pré- existentes: tesauros; linguagem livre (folksonomias, agora); mapas conceituais (para os topic maps). São muitas as deficiências da recuperação na web aberta, como: a sobrecarga de Informação, a ineficácia das palavras-chave, a falta de autoridade literária ou a falta de sistemas com PLN –Processamento da linguagem natural-. Um dos obstáculos mais comuns para explorar as potencialidades do digital é o fato de que os sistemas baseiam suas investigações em correntes de signos e não em conceitos. Assim, a palavra “cão” é tratada como a sucessão de signos “c, ã, o” e não como um conceito traduzível (dog, chien, perro,…), que pertence à subclasse dos mamíferos, animais domésticos etc. A nova web, na sua caracterização semântica, requer linguagens de representação do conhecimento baseadas em ontologias para localizar e acessar os recursos32. Linguagens multicamadas que interajam entre modelos e reutilizem recursos com novos modelos de processamento para estabelecer relações de confiança e provas de autenticidade, para garantir aos usuários a disponibilidade de recursos e tornar seu funcionamento transparente.Figura 7. Evolução da Web: Web Social e Web Semântica Web 2.0 Web Semântica Origem Evolução natural da web Proposta de Tim Berners para a futura web33 em 1999 Expressão Linguagem livre: folksonomias, palavras-chave em etiquetas (tags), com problemas de sinonímia e polissemia Linguagem controlada, a partir de linguagens para expressão de ontologias, KOS e vocabulários de metadados Algumas características - Descrição dos recursos para melhorar sua distribuição gratuita, compartilha conhecimento e desenvolvimentos: - Arquitetura de colaboração - Usabilidade alta - Quanto mais utilizada, mais útil - Utilização de uma linguagem normalizada com sintaxe uniforme e semântica não ambígua -Interoperabilidade: intercâmbio de informação com qualquer repositório - Usabilidade escassa Fonte: Morato e colaboradores (2008, p. 8034) 3.1 Dimensões da Web Social e da Web Semântica Web social e web semântica tratam de dimensões diferentes: A web semântica usa semântica muito formal para criar ontologias dirigidas a aplicações de software. A web social cria mecanismos locais de colaboração dirigidos ao usuário, nos quais predomina a usabilidade. Entram em confronto porque: As ontologias são pouco legíveis por pessoas e difíceis de serem desenvolvidas (RDF y OWL estreitam as possibilidades). As folksonomias são difíceis de interpretar por sua polissemia e ambiguidade, mas sua criação é feita com baixo custo e esforço. Não existem ferramentas amigáveis da web semântica para os usuários, porém, os recursos da web social não são amigáveis para as aplicações. As técnicas automáticas de criação de ontologias são ainda imaturas. Há duplicidade de vocabulários de metadados (por ex., SKOS- Core, os PSI, Zthes e MADS). A web semântica é uma extensão da web que acrescenta semântica ao atual formato de representação de dados. Ela, com suas linguagens e padrões, constituirá a base para a efetivação de um tratamento mais acurado das informações da web. Para tanto, foram criadas diversas tecnologias, dentre elas as ontologias, visando a atribuir sentido e significado ao conteúdo dos documentos, atuando como ferramenta de representação do conhecimento. Em Tecnologia da Informação, chamam-se ontologias as classificações de identidades, sejam elas informação ou matéria (objetos no mundo real). A nova web, na sua caracterização semântica, requer35: Linguagens de representação do conhecimento baseadas em ontologias para localizar e acessar os recursos. Linguagens multicamadas que interajam entre modelos e reutilizem recursos com novos modelos de processamento: para estabelecer relações de confiança e provas de autenticidade, para garantir aos usuários a disponibilidade de recursos e tornar seu funcionamento transparente. A nova web tem melhorado as estruturas de organização do conhecimento: Ontologias. Taxonomias. E obrigou a adaptar-se às linguagens pré-existentes: Tesauros. Linguagem livre (folksonomias, agora). Mapas conceituais (para os Topic maps). 3.2 Qual a finalidade da chamada Web Semântica? A web semântica é baseada em duas ideias principais36: Etiquetagem semântica de recursos, que deriva em uma separação formal entre o conteúdo e a estrutura dos documentos. Criação de aplicações de software “inteligentes” (ou agentes) capazes de processar e operar estes recursos em nível semântico. A web semântica (WS) propõe37: Uma sintaxe comum, XML, e a expressão do conhecimento em estruturas simples predefinidas (por ex., RDF). Utilização de vocabulários de metadados e ontologias (SKOS: Simple Knowledge Organization System). Referenciar os termos com recursos que expliquem seu conteúdo mediante a URI. Utilização por pessoas e máquinas (RSS). Apesar de seu refinamento técnico, a web chamada “semântica”, lançada há mais de dez anos e dirigida por um consórcio de grandes empresas (Yahoo, Google, AOL, IBM, Microsoft,…), não conseguiu os avanços esperados. A inteligência artificial e a web semântica limitam-se à automação das operações lógicas para tirar o melhor partido dos computadores 3.3 Possibilidades de Evolução 3.3.1 Que a Web 2.0 evolua para a Web semântica. Esta evolução não será feita de forma natural, pois partem de diferentes dimensões. A Web 2.0 deveria ter uma evolução a KOS complexos: Expressão das folksonomias como web semântica (por ex., MyPiggyBank que permite por etiquetas nas páginas web38. Simplificação na forma de designar etiquetas semânticas para os recursos (por ex., microformas). Criação de interfaces mais utilizáveis da web semântica que popularizem o enfoque. 3.3.2 Que a 2.0 e a Web Semântica convirjam na Web 3.0 A convergência implica em tomar medidas para que a evolução seja possível, o que supõe adaptar as palavras-chave (por ex.,. das folksonomias) à web semântica e fazer sua migração para KOS mais complexos. A falta de KOS complexos e de popularidade da web semântica tem duas soluções: Limitar os KOS complexos e vocabulários da web semântica para recursos de grande valor. Deixar as folksonomias para recursos de menor valor, já que a web semântica e a web social respondem a diferentes necessidades da web. 3.3.3 Que a Web 2.0 e a Web semântica coexistam Coexistência de linguagens de acordo com sua finalidade (Web Social). Para a coexistência das linguagens propõem-se os seguintes passos: Analisar os documentos mais populares da web social (por ex., RSS), na procura de simplicidade. Promover institucionalmente a criação de ontologias de domínio por usuários especialistas, mesmo com problemas para chegar a um consenso entre muitos usuários. Estabelecer mecanismos para centralizar os documentos em um repositório comum, facilitando sua recuperação e eliminando duplicidades não necessárias, assim suprimindo a duplicidade de SKOS, MADS, PSI, etc. Melhorar a dimensão de contato na utilização de documentos RDF-OWL (p.e. SemanticWorks ou Tabulator), visando a conversão a uma linguagem web transparente39. Converter as folksonomias em KOS mais complexos40. Estabelecer mecanismos que facilitem a confiabilidade das buscas (supervisão), para evitar spam de HTML. Reduzir a desconfiança das empresas. 4 Léxico e Linguagens Documentárias A maior relação entre o léxico e as linguagens documentárias se faz por meio das normas ISO 704-2000 e ISO 1087/1-2000, que apresentam vantagens com respeito à norma ISO 2788 de construção de tesauros: uma compreensão mais clara dos conceitos mostram as relações existentes entre os conceitos configuração dos sistemas conceituais As propostas recentes destacam a função comunicativa do léxico, afastando-se das tentativas de fixar os termos Como referentes ideais e homogêneos Estritamente não ambíguos e monossêmicos A serviço principalmente da comunicação entre especialistas Que se estabelece mediante linguagens controladas 4.1 Classificação dos KOS Os sistemas de organização e representação do conhecimento KOS (Knowledge Organization Systems) fazem, até agora, a indexação de recursos na web: Com diferentes vocabulários (alguns deles controlados, outros não). Até dentro do mesmo domínio Como sua representação é heterogênea, a maneira com que estes recursos estão organizados pode responder a diferentes esquemas de classificação. Podem considerar-se estes grupos de linguagens: Palavras-chave independentes (i.e. folksonomias). Listas de palavras (glossários, listas de nomes, dicionários). Facetas, categorizações e classificações. Grupos de relações (tesauros, topic maps e ontologias). Figura 8. Linguagens para organizar e representar a informação Facilidade de implantação Características Nível de estruturação Alta Palavras-chave independentes (i.e. folksonomias) Baixo ↑ Listas de palavras (glossários, listas de nomes, dicionários) ↓ ↑ Facetas, categorizações e classificações ↓ Escassa Grupos de relações (Tesauros, Topic maps, e Ontologias) Alto Fonte: elaboração própria Os KOS: Permitem categorizar recursos com esquemas de organização determinados, para facilitar sua posterior recuperação. Permitem ao usuário interpretar estruturasde conhecimento de maneira organizada. Contribuem para melhorar a eficiência dos serviços de informação. Buscam a terminologia específica das instituições (a maioria da informação é de origem interna). Muitas vezes, provêm do trabalho cooperativo no âmbito empresarial (extranets e comunidades de trabalho). A. Palavras-chave independentes: Folksonomias, ou sistema de indexação social. Dotação colaborativa, mediante a utilização de rótulos simples, de palavras-chave em um espaço sem hierarquias nem relações. Esta prática se produz em ambientes de software social (Web 2.0.). B. Listas de termos: Relação de palavras, algumas vezes, acompanhadas de definições. Todas as suas entradas são formadas por termos preferenciais. B.1. Listas de autoridades: permitem controlar as diferentes variantes da denominação de uma entidade (por ex., países, pessoas físicas ou jurídicas) ou um domínio específico. Os termos comumente são apresentados em ordem alfabética ou estruturados segundo um esquema de classificação simples. Costumam referir- se a termos autorizados e não-autorizados. B.2. Glossários: listas de termos acompanhados de definições ou comentários específicos, dentro de um domínio. B.3. Dicionários: Listas alfabéticas de termos, de alcance mais geral que os glossários, os quais incluem definições, variantes semânticas e, às vezes, informação etimológica, sinônimos e variantes ortográficas. Sem estrutura hierárquica explícita. B.4. Índices toponímicos: Dicionários de termos relativos a lugares geográficos. Costumam aparecer como índices de atlas. As entradas vão identificadas por uma categoria (cidade, rio, cordilheira, etc.) com as coordenadas geográficas do lugar. C. Classificações e esquemas de categorização: Os termos e códigos se estruturam em conjuntos temáticos. C.1. Cabeçalhos de assunto Termos controlados de cobertura temática genérica. Estrutura hierárquica para representar as matérias. Linguagem pré-coordenada: regras para combinar termos no momento. da indexação em uma ordem previamente estabelecida. A recuperação se realiza sequencialmente, pela ordem do termo. Não é possível recuperar documentos a partir de aspectos não definidos explicitamente nos cabeçalhos. C.2. Taxonomias e esquemas de classificação e categorização Mesmo que às vezes se empreguem indistintamente, existem diferenças entre eles. Definem-se como categorias temáticas gerais que agrupam termos ordenados numérica ou alfabeticamente. Alguns tesauros usam esquemas de classificação para categorizar seus termos e utilizá-los como ajuda para a navegação. As suas entradas estão formadas por termos preferenciais entre os quais existem relações de hierarquia. C.2.1. Taxonomia: agrupamentos de seres vivos, objetos ou termos ordenados hierarquicamente, segundo características particulares. Podem aplicar-se a grandes taxonomias corporativas, a diretórios web ou a categorizações de documentos geradas automaticamente C.2.2. Esquemas de classificação e categorização: linguagens de indexação pré-coordenadas como a Classificação Decimal Universal (CDU) ou a Classificação Decimal de Dewey. Estes esquemas classificam e colocam em ordem os acervos no ambiente arquivístico e biblioteconômico: Finalidade: destinam-se a organizar coleções por classes, de acordo com os assuntos tratados. Forma: estrutura hierárquica de conceitos por classes, mediante anotações simbólicas pré-coordenadas. Centrados no conteúdo dos documentos por grandes assuntos. Seguem as classificações científicas mais aceitas para ordenar as ciências. Por esta razão são mais úteis para a divisão das disciplinas acadêmicas ou para os especialistas do que para os usuários comuns. Os tesauros e os esquemas de classificação valorizam muito o conteúdo, na suposição que este será utilizado por profissionais indexadores (documentalistas) e por usuários especializados. Nas classes, o nível de subdivisão é relativo à importância de uma matéria e à distribuição do esquema. As classes estão pensadas para incluir os recursos amplamente, mas pecam por sua generalidade. D. Listas relacionadas Listas de conceitos definidos univocamente e entre cujos elementos se estabelecem relações. Suas entradas estão formadas por termos preferenciais ou não preferenciais, entre os quais existem relações de equivalência, hierarquia e associação. Podem conter notas de aplicação e históricas, assim como facetas. Incluem: D.1. Tesauros D.2. Ontologias D.3. Redes semânticas 4.2 SKOS SKOS é uma das especificações da web semântica mais relevante para aplicar em arquivos, bibliotecas e centros de documentação. Estabelece uma ponte entre as tendências da web semântica e as práticas tradicionais para o controle do vocabulário e a organização e representação do conhecimento. Apareceu como uma recomendação W3C feita pelo Semantic Web Deployment Working Group41. Oferece um modelo para representar a estrutura básica e o conteúdo de esquemas conceituais, como os que oferecem os tesauros, os sistemas de classificação, as listas de cabeçalhos de assunto ou as taxonomias e folksonomias42. A documentação oficial de SKOS fala de sistemas semiformais de organização do conhecimento para diferenciá-los das ontologias desenhadas para suportar processos de raciocínio automático complexos. SKOS está orientado à indexação e à recuperação de informação documental, ao contrário de outros sistemas como OWL170 orientados a processamentos mais complexos43. Serve para codificar vocabulários controlados e linguagens de indexação em XML. Trata-se de um método para migrar, a baixo custo, linguagens de indexação pré-existentes para a web semântica. Porém, não é só uma possibilidade para publicar linguagens de indexação e, sim, um mecanismo para representar relações entre diferentes esquemas conceituais. Oferece a vantagem de aproveitar o conhecimento do setor bibliotecário na organização do conhecimento e inseri-lo nas iniciativas adotadas para a web semântica. SKOS se baseia em RDF, onde os conceitos de uma linguagem de indexação correspondem a instâncias de classe e onde as relações entre conceitos e suas descrições são tratadas como declarações sobre estas instâncias. Sua finalidade está em representar a realidade tão só dos termos incluídos em um determinado vocabulário controlado, respeitando a finalidade e o uso para o qual foi concebido. Suas caraterísticas são: Os conceitos (unidades de pensamento) identificam-se mediante URI. Os conceitos podem ter diferentes etiquetas em linguagem natural, em um ou em vários idiomas. Os conceitos se agrupam em “esquemas de conceitos”. Os conceitos podem levar associadas notas de escopo. Os conceitos podem se relacionar mediante hierarquias ou associações, segundo o determinado para as linguagens documentárias de indexação. Entre suas vantagens está sua orientação para os conceitos e não para os termos, pelo que aumentam o valor dos modelos configurados pelos tesauros e a capacidade de estabelecer relações entre unidades léxicas ou etiquetas e poder alargar os relacionamentos básicos de um vocabulário controlado tradicional. SKOS também incorpora funções avançadas que permitem estabelecer relações entre esquemas de conceitos e agrupá-los em coleções44. 5 Web 2.0 e Folksonomias Thomas Vander Wal propôs o neologismo: Folk + sonomy = gente + taxonomia. Definição: modo de indexação cooperativa que adota palavras- chave para representar a informação de maneira espontânea e livre. Situa se dentro da arquitetura da informação social (Web 2.0) em que cada usuário escolhe o que mais se ajusta ao seu entendimento. Nelas: Autor: qualquer pessoa. Tecnologia: Web 2.0 e rótulos. Descrição do conteúdo: palavras-chave. Não é essencial construir uma hierarquia. Sim, contar com um instrumento que permita o emprego livre de etiquetas semânticas para efetuar as indexações. Uma folksonomia45: é explícita pode agregar-se pressupõe vantagens para os usuários (esta é a razão de agregar etiquetas) é relevante para os interesses de um site web 5.1 Funcionamento das FolksonomiasÉ um sistema simples e emergente, que se afasta da maneira tradicional de classificar de cima para baixo46. Abandonar as taxonomias por listas de palavras-chave não é algo novo. Os blogueiros preferem descrever seus textos com palavras- chave livres. Beneficiam-se do vocabulário pessoal e da contribuição social para ajudar a encontrar e controlar na web os assuntos mais interessantes. Como diferença entre taxonomias e folksonomias47: estas últimas podem retroalimentar-se. Incluem cada palavra proposta. Não deixam nenhuma palavra de fora. Marcar com etiquetas de caráter social pode ser considerado um elo de baixa inversão entre a indexação pessoal e a indexação compartilhada. Não há uma autoridade central que imponha sua visão, de forma que cada voz tem seu lugar. Tipos de folksonomias: Folksonomia genérica (broad folksonomy): Diferentes usuários etiquetam o mesmo objeto e cada um deles pode fazê-lo com seus próprios rótulos ou vocabulário, tal como sucede com Del.icio.us, por isso se as conhece também como relacionadas. Folksonomia específica (narrow folksonomy) Uma ou poucas pessoas etiquetam a informação. Acontece assim com Flickr, cujo uso permite alojar fotografias e indexá-las para que outros possam buscá-las por meio desses rótulos. http://del.icio.us/ 5.2 Para que servem as Folksonomias? As folksonomias funcionam porque são eficazes para os usuários na hora de ordenar sua informação (em princípio, para ser recuperada por eles mesmos, mesmo que depois possam compartilhá-la). Ao tratar-se de usuários inexperientes na organização do conhecimento, o tempo que demorariam com complexos sistemas de classificação hierárquicos fica minimizado com este método. Principais usuários: aqueles que organizam a informação nos blogs e os defensores do uso social do software. As folksonomias refletem exatamente o modelo de conceitos que a gente tem. Sua vantagem provém da capacidade de associar as verdadeiras necessidades dos usuários com a língua; e de não buscar sua precisão. É importante entender quem está marcando com rótulos e como estes se aproveitam depois. Temos também a opção de derivar para ideias não entroncadas com a corrente principal, que podem emergir do interesse de uma parte pequena da população. 5.3 Vantagens e debilidades das Folksonomias Vantagens: As folksonomias permitem conhecer: Os termos mais empregados, Como evoluem de acordo com as tendências e segundo as comunidades que os empregam As folksonomias servem para extrair vocabulário (datamining) com o qual se elaboram as linguagens controladas depois de normalizadas. Debilidades: Carecem de controle. Não têm hierarquias nem associações; só é possível utilizar clusters que podem se formar com os recursos indexados pelos usuários mediante palavras-chave coincidentes48. A ambiguidade é muito alta: para um usuário, um termo pode expressar uma realidade muito distinta da de outro. Não há guia nem limitações na hora de etiquetar os conteúdos. Falta de consistência por ausência de controle de sinônimos: assim na hora de denominar um computador Macintosh, pode empregar-se as etiquetas “Mac”, “Apple”, “Macintosh”49. Imprecisão ao se utilizar etiquetas só com unitermos. Emprego indistinto de singulares e de plurais (assim é em Flickr). E, certamente, a ausência de hierarquia. 5.4 Comparação entre Folksonomias e Tesauros Mesmo se fosse um modismo, tanto no que respeita ao significado como ao próprio termo, as folksonomias permitem estudar: - termos mais empregados - e como evoluem de acordo com as tendências e segundo as comunidades que os empreguem Os vocabulários controlados não são aplicáveis à maioria dos casos onde se pode usar metadados. Sua construção, manutenção e aplicação têm custo alto tanto em tempo de desenvolvimento, como de preparação dos usuários. Manter uma taxonomia não é fácil. Neste sentido, as folksonomias são uma solução quando a indexação tradicional não é viável Exemplos de folksonomia: Del.icio.us: gestor social de web sites favoritos (bookmarks) Permite: adicionar a favoritos as páginas desejadas, classificar mediante palavras-chave os sites para poder recuperá-los futuramente, fazer intercâmbio desta informação com outros usuários Cada palavra-chave proposta pelos usuários permite navegar pelos conteúdos etiquetados com ela. Problema: quando o usuário inclui uma palavra-chave, não lhe é permitido intercalar espaços. A folksonomia utiliza somente unitermos. Flickr, http://www.flickr.com/ Site web sobre fotografia: qualquer usuário pode compartilhar fotos deixando-as à disposição para consulta, mediante o estabelecimento de palavras-chave em um ambiente colaborativo. http://del.icio.us/ http://www.flickr.com/ Cada usuário indexa as fotografias de acordo com o que o conteúdo sugere. 6 Taxonomia Tradicionalmente, entende-se por Taxonomia a ciência ou técnica de classificação: em Biologia é a descrição, identificação e classificação dos organismos, individualmente ou em grupo, de alcance global: biotaxonomia, ou especializado: fitotaxonomia e zootaxonomia, onde as taxonomias tiveram a função de classificar as espécies em Botânica e Zoologia. Taxonomia é o estudo dos princípios gerais da classificação científica, a classificação sistemática: em particular, classificação ordenada de plantas e animais seguindo relações naturais. Classificação ou categorização de um conjunto de coisas de forma hierárquica. Por definição, taxonomia é classificação, sistemática. Quanto às linguagens documentarias, trata-se de uma lista de termos preferenciais com estrutura hierárquica. Uma taxonomia serve para ordenar informação em uma hierarquia, utilizando a relação pai-filho (generalização ou “tipo de”). Uma hierarquia é basicamente uma estrutura em forma de árvore que estabelece relação entre os objetos de generalização-especialização. Uma taxonomia estabelece uma semântica simples de acordo com algumas de suas propriedades50. Nos sistemas de classificação, das ontologias, da inteligência artificial, é a classificação de elementos de natureza mais variada. Na atualidade, são estruturas classificatórias que servem como instrumento para a organização e recuperação de informação nas empresas e instituições. Principalmente, organizam e administram os recursos digitais de informação que, como organizações complexas, alojam nos seus servidores web, procurando categorizá- los e ter condições de navegabilidade51. Consideram-se as taxonomias meios de acesso pois atuam como mapas conceituais dos assuntos solicitados em um serviço de recuperação: buscando categorizá-las, folheá-las e navegar por elas. Sua primeira função tem, então, mais de visualização do que recuperação52. As taxonomias estão presentes nos Esquemas de classificação, Tesauros, Modelos conceituais e Ontologias 6.1 Taxonomias: características e componentes básicos Componentes: Estrutura classificatória hierárquica (contexto conceitual): com determinados níveis de profundidade. Rótulos de entrada: lista de termos que dão nome aos conceitos. São os elementos da estrutura, agrupados em blocos temáticos. Admitem facetas não-hierárquicas: dão dinamismo e pluralidade de enfoques aos assuntos. Uma taxonomia organiza não só os conteúdos próprios de uma organização, mas também Serviços. Produtos. Recursos humanos. Com respeito à relação entre as taxonomias e os termos, devem ser feitas as seguintes considerações: Nos tesauros, os termos têm justificação documentária, nas taxonomias, o usuário os certifica: o conteúdo se adapta aos usos e à situação dos usuários. Termos: Categorias representadas por entradas etiquetadas orientadas ao usuário. Cobertura dos termos: Baseados no contexto de aplicação. Fáceis de modificar. Estrutura: Tamanho manejável tanto da estrutura hierárquica como da facetada. Baseados no contexto de aplicação. Dinâmica. Características das taxonomias: As taxonomias, enquanto estruturas classificatórias, representam os objetivos de organização intelectual em um determinado cenário. Neste sentido, são diferentes,dependendo do tipo de organização e das informações que pretendem representar: Pertencem a um domínio concreto. Contêm uma lista estruturada de conceitos/termos. Incluem termos sem definição, somente com relações hierárquicas. Possibilitam a organização e recuperação de informação mediante navegação. Permitem acrescentar dados, além de explicitar um modelo conceitual do domínio. São um instrumento de organização intelectual, atuando como um mapa conceitual dos assuntos solicitados em um Sistema de Recuperação de Informação. São um novo mecanismo de consulta dos portais institucionais por navegação. Atendem às linguagens particulares de uma instituição que não possui tesauros e classificações. Conectam a experiência e características do pessoal próprio de cada instituição. Permitem aos usuários classificar as matérias usando hierarquias. Termos autorizados e definições que uma organização usa para classificar seus conteúdos. Rede semântica de conceitos interrelacionados para cobrir as necessidades empresariais e a forma como os trabalhadores se relacionam com a informação. Desvantagem: As taxonomias são restritas nas suas possibilidades de exploração, ao conter apenas relações hierárquicas e partitivas. Assim, têm que ser complementadas com mecanismos de busca, caso se queira acessar outras relações. Geralmente é bem aceito falar-se de três tipos de taxonomias: Taxonomia canônica, classificação de unidades sistemáticas (família, gênero, espécie). Taxonomia de domínio (ou especialidade). Taxonomia de processos e tarefas de gestão. 6.2 Construção de Taxonomias 6.2.1 Processo de construção: critérios gerais A construção de taxonomias requer um planejamento metódico: inicia-se com seu dimensionamento, depois vêm as etapas de construção. Alguns princípios são fundamentais para garantir a consistência de sua estrutura classificatória e alcançar uma boa recuperação. Para determinar o tamanho, temos que ter dados sobre53: Que problema a taxonomia quer responder? Para que tipo de informação corporativa e com que alcance? Que volume de informação nova se espera? Que disponibilidade os especialistas da área têm para desenvolver a taxonomia? Qual é a arquitetura de informação e informática com que conta a organização para apoiar a existência da taxonomia? Em relação aos termos empregados, deve-se considerar o seguinte: Comunicabilidade: o termo empregado deve representar a linguagem empregada pelos usuários. Utilidade: o nível de especificidade dos termos deve expressar um agrupamento de documentos e não um único documento. Um termo só é útil quando representa um conjunto de documentos. Motivação: o uso de termos induz o usuário a continuar a navegação pelo sistema. Compatibilidade: os termos empregados representam o âmbito de referência, integrando as atividades e funções da organização. 6.2.2 Métodos para construir Taxonomias Reutilização de taxonomias Antes de criar uma taxonomia deverá se investigar se existem taxonomias sobre a mesma temática ou de temática similar. Para economizar tempo e esforço valem inclusive listas e linguagens controladas. Haverá que contar com seu acesso, gratuito ou não. Três métodos básicos (Jagerman)54: Do genérico ao específico (descendente). Do específico ao genérico (ascendente). Aproximação facetada. Do genérico ao específico (descendente): o método mais tradicional. 1º Passo. Levantar e registrar o material. Tarefas Extração de recursos de informação para fazer mineração de termos (mediante entrevistas a especialistas…). Dotação de um código abreviado a cada um dos entrevistados para conhecer a procedência de cada termo. Seleção de termos e transferência com toda a informação (definições, sinônimos e termos relacionados) em forma taxonômica ao computador. 2º Passo. Reduzir todos seus sinônimos e às variações ao termo preferente e dispor todos eles em ordem alfabética. Tarefa Unificação da informação sobre termos sinônimos, inclusive podendo acrescentar-se informação proveniente de outras fontes para esclarecer as razões de algumas unificações terminológicas. Ordenação de todos os termos preferentes em ordem alfabética. 3º Passo. Elaborar a estrutura sistemática prévia. Pode fazer-se a partir de um mapa conceitual que contenha todos os termos. Pode- se unir a técnicas de tesauros como as relações de homonímia- sinonímia ou de equivalência. Tarefa Detalhe da estrutura. Determinação ampla das classes e dotação dos termos a cada uma delas. Depois, determinação das subclasses e dotação dos termos a cada uma delas. 4º Passo. Elaborar uma primeira versão do esquema. Tarefa Construção da primeira versão e sua distribuição aos expertos do domínio para que a avaliem e, assim, possam ser introduzidas melhoras. 5º Passo. Completar a taxonomia com todos os seus termos. Tarefa Revisão de todas as entradas: 1. Formulação normalizada das abreviaturas. 2. Determinação dos descritores. 3. Estabelecimento das relações de equivalência e hierarquia. 6º Passo. Comprovar o funcionamento em experimentos de indexação e recuperação. Tarefa Ensaios sobre um corpus documentário do domínio; possíveis modificações. 7º Passo. Publicar uma versão da taxonomia. Tarefa Aplicação da taxonomia na indexação e recuperação. Do específico ao genérico (ascendente) Parte dos elementos componentes e situa-os em classes. Cada subgrupo de um acervo documentário se situa em uma categoria específica. A graduação sucessiva de subdivisões vai situando subgrupos até alcançar as macrocategorias. 1º Passo. Formar um grupo de expertos no domínio da taxonomia a ser criada. Tarefa Trabalho com os expertos para determinar o alcance da taxonomia. 2º Passo. Formar uma coleção representativa de documentos já indexados. Tarefa Emprego dos termos de indexação como lista preliminar. 3º Passo. Criar uma coleção de documentos, se estes não estiverem indexados. Tarefa Indexação da coleção de documentos com palavras-chave. Se contarem com algum tipo de índice, aproveitá-lo para obter as palavras-chave. 4º Passo. Criar o esquema taxonômico na sua primeira versão. Tarefa Normalizar os termos e organiza-los para construir a taxonomia. 5º Passo. Contar com expertos no domínio. Tarefa Contato com expertos para esclarecer o significado de termos ambíguos. 6º Passo. Avaliar a taxonomia mediante provas de indexação e recuperação. Tarefa Experimentos de indexação e recuperação com uma coleção de documentos. Introdução das modificações necessárias. 7º Passo. Publicar uma versão da taxonomia. Tarefa Aplicação da taxonomia à indexação e à recuperação. Aproximação facetada Facetas ou categorias genéricas excludentes para ordenar os termos nas linguagens documentárias. Em uma primeira divisão do domínio, cada faceta agrupa os termos em categorias semânticas coerentes e homogêneas. Uma faceta inclui termos que têm relações de sinonímia ou de hierarquia55. Um vocabulário dividido em facetas torna-se manejável. Passos 1. Criar uma lista de termos que representem conceitos simples. 2. Agrupar os termos em categorias excludentes, a não ser em casos excepcionais. 3. Classificar as facetas em um número restrito de categorias fundamentais. A função de um termo dentro do esquema se define com estas categorias. 4. Usar notações para fixar o valor classificatório de cada termo dentro da sequência. 5. Fixar o significado, mediante definições dos termos mais abstratos ou ambíguos. Processo de construção: metodologia A partir dessas considerações, aplica-se algum processo desta metodologia nos passos antes determinados: 1. Mineração de dados. 2. Análise dos documentos/informações que foram agregadas à taxonomia. 3. Elaboração da estrutura classificatória da taxonomia. 4. Verificação por especialistas 1. Mineração de dados Trata-se de identificar as matérias que se incluirão na estrutura classificatória como pontos de acesso à informação. Esta identificação pode ser feita a partir de entrevistas com especialistas, de documentos existentes na instituição e de instrumentos classificatóriosou terminológicos. Para elaborar um vocabulário básico, pode-se partir das frases de busca dos usuários ou por meio de entrevistas com especialistas, definindo-se a metodologia para transformar o conhecimento tácito do especialista em conhecimento explícito. Emprega-se a técnica de observação participativa entre o analista e o especialista, a partir de propostas classificatórias existentes num dado contexto. O analista transforma os resultados dessa discussão em novas propostas que serão, por sua vez, discutidas até chegar a um modelo adequado que satisfaça os objetivos da organização. 2. Análise da informação que se agregará à taxonomia. Ao servir de mapa de navegação para um tipo específico de informação, é necessária uma superestrutura classificatória que atenda à natureza dos documentos agregados. Busca-se representar os conhecimentos existentes e explicitados pela comunidade de especialistas. Isto se refletiria em um universo de documentos e não em um conhecimento falso que não expresse o contexto e as visões daquela comunidade56. As taxonomias agregam documentos, considerados em sua acepção mais ampla. Estas informações devem encontrar hospitalidade no sistema. 3. Elaboração da superestrutura classificatória da taxonomia É importante definir a tipologia de taxonomia a representar, para que setor (especialidade) ou para que processos e tarefas de gestão; em seguida, determinam-se os princípios utilizados na elaboração de estruturas classificatórias. Além disso, a taxonomia é fruto do modelo de representação adotado; assim, é necessário definir a superestrutura representativa e o software a utilizar57. É importante investigar as formas gráficas de representação, pois em alguns casos estas formas “inibem” as possibilidades representativas. Toda taxonomia é fruto de um processo representativo e classificatório, por isso é produto de uma construção representativa do estado e da visão do conhecimento de seus elaboradores. Neste sentido, considera-se fundamental explicitar os princípios pelos quais essas representações foram construídas, pois isto facilita sua constante alimentação. 4. Verificação por especialistas. Duas funções: Confirmar o trabalho realizado. Transferir o conhecimento do processo de realização. É imprescindível verificar todas as etapas de definição da taxonomia, a partir dos estudos dos documentos/informações agregadas, até a definição das formas gráficas de representação. Assim, podem ser alcançados critérios de comunicabilidade, estímulo e compatibilidade. Conclusão Para o usuário, uma taxonomia é um guia no assunto a ser pesquisado. Evita-se, assim, a necessidade de ele compreender o assunto antes de fazer uma pergunta. A navegação por categorias, no acesso à taxonomia, fomenta o pensamento associativo e pode guiar o usuário através de processos de descoberta da informação. Embora a navegação por taxonomias não seja melhor que outras formas de busca, como as palavras-chave nos sites e portais web, a utilização das taxonomias se tornou mais importante, pois a navegação é uma interface bem desenhada sobre a informação contida no documento. O analista se fundamenta em princípios classificatórios explícitos e consistentes. 6.3 Exemplos de Taxonomias http://www.ilo.org/public/spanish/support/lib/tools/taxonomy.htm Law X.0; http://3lepiphany.typepad.com/3l_epiphany/2006/03/taxonomy_ overfl_79.html www.xbrl.es/downloads/Taxonomias/plantilladocumentotaxono mia_dic2005.doc http://webinsider.uol.com.br/index.php/2006/12/07/a-taxonomia- na-gestao-estrategica-das-empresas/ http://usabilidoido.com.br/cardsorting_classificando_conteudo.ht ml http://webinsider.uol.com.br/index.php/2006/11/28/a- importancia-e-o-impacto-da-taxonomia-nas-empresas/ http://www.cin.ufsc.br/pgcin/Vital,%20Luciane.pdf http://tematres.r020.com.ar http://www.ilo.org/public/spanish/support/lib/tools/taxonomy.htm http://3lepiphany.typepad.com/3l_epiphany/2006/03/taxonomy_overfl_79.html http://www.xbrl.es/downloads/Taxonomias/plantilladocumentotaxonomia_dic2005.doc http://webinsider.uol.com.br/index.php/2006/12/07/a-taxonomia-na-gestao-estrategica-das-empresas/ http://usabilidoido.com.br/cardsorting_classificando_conteudo.html http://webinsider.uol.com.br/index.php/2006/11/28/a-importancia-e-o-impacto-da-taxonomia-nas-empresas/ http://www.cin.ufsc.br/pgcin/Vital,%20Luciane.pdf http://tematres.r020.com.ar/ 7 Tesauro 7.1 Tesauro: rede conceitual e instrumentalidade Conceito: lista de descritores (termos controlados) que representam os conceitos de um domínio do conhecimento. E se organiza em estrutura hierárquica com relações semânticas entre si. Dentro de cada campo semântico, os descritores mantêm as relações propostas por Aristóteles: gênero, subtipo e diferença58. Nestas relações interconceituais, está a causa da ordem hierárquica (facetas em que se classifica e desenvolvimento destas). O principal objetivo dos tesauros é eliminar a ambiguidade da linguagem na matéria à qual pertencem os termos. Outros objetivos são: Representar de maneira unívoca o conteúdo dos documentos. Ajudar o usuário na indexação dos documentos e das consultas. Controlar o vocabulário utilizado em um determinado sistema documentário. Servir de ponte entre o analista e o usuário. Oferecem inferência terminológica dentro de uma lista de conceitos que se expressam mediante termos simples ou sintagmáticos entre os quais se estabelecem relações semânticas. Na sua fase de construção, os documentos já contêm tesauros interiores, pelas relações semânticas entre seus termos componentes, em especial dentro de campos semânticos coincidentes com a macroestrutura geral e com as macroestruturas parciais. Tendência: identificá-los automaticamente em documentos individuais; mas também corroborando sua estabilidade dentro de um domínio pela repetição de sua presença e de suas relações. Ao construir um tesauro manejamos três ferramentas: Um corpus de termos extraídos do domínio cuja representação se quer fazer59. Uma organização macroestrutural que fixa os esquemas e a segmentação desse corpus: com uma macroestrutura global (domínio de aplicação); com macroestruturas secundárias (os macrodescritores que encabeçam cada uma das subdivisões do tesauro); desenvolvimento em submacrodescritores (classificam as famílias de termos). E umas microestruturas ou estruturas de superfície: os próprios descritores e suas relações. O tesauro conta com elementos estruturais ou unidades léxicas que representam os conceitos 60: Descritores: Representam de maneira unívoca conceitos utilizáveis para indexar ou consultar. Em geral são palavras isoladas (principalmente substantivos), termos compostos ou frases. Não-descritores: Sinônimos ou quase-sinônimos dos descritores (em relação de equivalência). Os não-descritores não podem ser utilizados na indexação, só remetem a seus descritores preferenciais. Descritores auxiliares: qualificadores que contextualizam o descritor. Evitam ter que definir um novo descritor. Reduzem o tamanho do tesauro. Grupos de descritores: definem-se para melhorar a organização lógica do tesauro. Podem-se organizar por campos (tema) ou por classes de termos ou “facetas” (categorias genéricas que agrupam descritores que podem se definir, por exemplo, como fenômenos, processos, materiais, organizações, seres vivos, equipamentos, propriedades ou disciplinas). A sintaxe do tesauro é determinada pela sua macroestrutura global e pela sua superestrutura que estabelecem as normas de: Ordenação (parte classificatória). Subordinação (parte hierárquica). Associação (completa a parte alfabética); reflete a concepção mais comunicativa da linguagem. A macroestrutura cumpre uma dupla função: Fracionar o corpus de termos. Levar para a situação exata dos termos dentro da superestrutura. Os termos: Procuram as equivalências para evitar a sinonímia. Estão controlados e normalizados para anular a sinonímia e a polissemia → precisão. As relações semânticas provêm: da própria estrutura (classificação + hierarquia); das associações.Os termos têm sentido semântico por aparecerem contextualizados. Recuperação a partir de conceitos (vantagem para as áreas verticais): uso correto dos termos para formular as consultas61. As relações semânticas organizam a estrutura do tesauro: Equivalência - controla os termos utilizados e os não- utilizados. Implica a designação de descritores e outras formas de representar um conceito (sinônimos e quase-sinônimos) não utilizado como ponto de acesso na indexação e na recuperação. Hierárquicas - apresentam níveis de superordenação e subordinação. Cada termo subordinado é da mesma classe de conceitos que seu termo geral. Subtipos de relações hierárquicas: Gênero-espécie (classe ou categoria / membros ou espécies) Partitivas (parte/todo) Enumerativas (categoria geral / caso individual) Poli-hierárquicas (conceito que tem mais de una cadeia hierárquica; mais de um termo genérico). Associativas - as mais difíceis de definir e estabelecer. Quando uma relação não pode identificar-se como de equivalência ou hierárquica: Similitude Causa e efeito Instrumentalidade Concomitância Sucessão no tempo e no espaço Relação com elementos constitutivos Relação de propriedade Objeto de uma ação, processo ou disciplina Localização Antonímia No que diz respeito ao sistema fixo ou estático de descritores, estes devem ser submetidos a revisões periódicas para assegurar sua coerência perante a atualização do vocabulário e suas relações. Como é o funcionamento do tesauro? O usuário representa sua necessidade de informação e a traduz à linguagem de recuperação. Para precisar a busca, o tesauro expande a consulta por termos relacionados. Frente às listas de autoridades, os tesauros combinam termos em pós-coordenação. Os usuários combinam os conceitos com operadores booleanos. A pós-coordenação dá maior flexibilidade que a pré- coordenação. Mediante as relações semânticas, representa-se o pensamento e se estabelecem associações entre os termos que compõem o corpus, permitindo aos usuários navegar coerentemente pelos conceitos que representam62: Integrando termos dentro de uma mesma categoria. Determinando diferenças de uma espécie em relação a outras. Possibilitando a divisão ou análise do gênero pelas diferenças. Concedendo definições (scope note) para ajustar o significado de um termo. Obs.: Consulte as partes e estrutura de um tesauro em: Tesauro de Tesauro do Folclore e Cultura Popular Brasileira http://www.cnfcp.gov.br/tesauro/ http://www.cnfcp.gov.br/tesauro/ 7.2 Uso de Tesauros: vantagens e desvantagens Os tesauros oferecem dificuldades na sua utilização. O emprego dos tesauros tem sido muito bem sucedido, mas a ambiguidade, a riqueza e a capacidade de inovação, constantes das linguagens nas quais se encontram expressos os documentos sendo trabalhados, produzem, em algumas ocasiões, o silêncio ou o ruído, e constituem uma falta de pertinência na hora da seleção de documentos. A isto se acrescenta o problema do número de documentos que circulam pela web e a variedade de seus suportes. As estruturas definidas em um tesauro servem apenas para recuperações que contenham aquelas relações estáticas com as quais trabalha e que foram definidas a priori63. Por isto, colocam dois inconvenientes: Dificuldade para descrever campos com alto nível de abstração (o da informática, por exemplo) ou documentos que não têm nenhum tipo de estrutura (textos de livre formato). Custo elevado na criação, manutenção e funcionamento, evitáveis só com a automação ou semiautomação. Existem muitas dificuldades para fazê-las devido à riqueza das estruturas semânticas dos textos. Vantagens que oferece o uso de tesauros: Simples de criar e gerar. Alguns muito testados. Legíveis. Grau de coerência geralmente alto. Eficácia comprovada. Abundância de tesauros. Bom ponto de partida para criar ontologias. Desvantagens: Sem mecanismos para compartilhar informação na Web (até a aparição de SKOS (Simples Knowledge Organization System). Estão pensados para domínios restritos. Dificuldade de definir relações. Regras de nomeação segundo normas de automação complicadas. É um vocabulário sem relação direta com os objetos. Criação por consenso prévio de criadores, não de usuários. Custo elevado na criação, manutenção e funcionamento, evitáveis só com a automação64. Busca de soluções para estes inconvenientes: Linguística: amplia o tesauro criando-lhe diferentes “vistas” (facetas). Isto complica a automação dos modelos e os torna pouco intuitivos e pouco manejáveis para o usuário. Por isto, os processos de filtragem para eliminar previamente os termos não significativos, o tratamento dos termos flexionados mediante algoritmos de stemming (número de n-grams grupos de letras), o tratamento de palavras compostas, a discriminação de termos representativos de um texto: algoritmos IDF y N-grams65. - Estatística: solução matemática e, por isso, favorável à automação, no entanto distante da realidade linguística, pois os algoritmos dão uma visão simplista do mundo real. Deste modo, são eficazes somente em âmbitos muito definidos. Empregam-se algoritmos k-means, co-ocorrência terminológica ou redes neuronais (ART, Kohonen etc)66. Assim, a obtenção de associações temáticas entre componentes (clusterização em classes dos descritores com características comuns)67: Classificadores cienciométricos: Co- wording; Estatísticos: Max-min, K-vecinos, K-vecinos incremental, Isodata; Neuronais: Kohonen, Art-1, Art-2. Ou a construção da representação do domínio: clusterização + extração de raízes: cálculo do centroide (descritor mais geral do cluster). - Computação: desde os anos 90, começaram a se aplicar modelos próprios da engenharia de software aos tesauros. A convergência destes métodos desembocou numa evolução dos standards sobre tesauros para verdadeiros mapas de representação do conhecimento. Esta transformação leva implícita a criação de relações adaptáveis a cada domínio, assim como a inclusão de grande variedade de descritores cuja categoria gramatical contribui com matizes na semântica do mapa conceitual e de novas categorias relacionais que ligam os recursos de informação e as facetas. Os tesauros proporcionam respostas às perguntas dos usuários O quê continua sendo atual. O Como supõe adaptar-se às novas necessidades. 7.3 Tesauros: aportes das novas normas Trata-se das normas britânica BS 8723 (2005-2007)68 e da ANSI/ NISO Z39.19: 200569. Suas duas primeiras partes equivalem à norma ISO 2788 e BS 5723. A terceira, Vocabularies other than thesauri, atende a outras linguagens documentárias: taxonomias, ontologias, cabeçalhos de assunto, esquemas de classificação e redes semânticas. E a quarta, Interoperability between vocabularies, refere-se à interoperabilidade na recuperação da informação: a capacidade de dois ou mais sistemas ou componentes de intercambiar informação e de usar essa informação intercambiada (mapping). As principais novidades da norma Z39.19: 2005 são: Em vez de documentos, refere-se a objetos de conteúdo: entidades que contêm informação. Usa termo para referir-se aos descritores e termos preferenciais: palavra que representa um conceito. Distingue quatro tipos de linguagens controladas: Listas. Aneis de sinônimos. Taxonomias. Tesauros. Considera como finalidades das linguagens controladas: Tradução: do vocabulário natural aos termos. Consistência: uniformidade na atribuição dos termos. Indicação de relações semânticas entre os termos. Etiquetado e visualização: proporcionar hierarquias para localizar os objetos de conteúdo desejados. Recuperação: ajudam na busca dos objetos de conteúdo. Figura 9 - Complexidade dos quatro tipos de linguagens controladas, de menor a maior (da esquerda para a direita) Lista Anel de sinônimo Taxonomia Tesauro Controle da ambigüidade Controle da ambiguidade Controle da ambiguidade Controle de sinônimos Controle de sinônimos Controle de sinônimos Relações hierárquicas Relações hierárquicas Relações associativas Fonte: elaboração própria Lista: é um grupo simples de
Compartilhar