Linguagens documentárias e vocabulários semânticos para a web elementos conceituais_José Antonio Moreiro González

•

Humanas / Sociais

Jailton Lira

17/03/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 157 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 157 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 157 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Indexação

327 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Linguagens documentárias e vocabulários
semânticos para a web:
elementos conceituais
José Antonio Moreiro González
SciELO Books / SciELO Livros / SciELO Libros
GONZÁLEZ, J.A.M. Linguagens documentárias e vocabulários
semânticos para a web: elementos conceituais [online]. Salvador:
EDUFBA, 2011. ISBN: 978-85-232-0824-0.
https://doi.org/10.7476/9788523218829.
https://doi.org/10.7476/9788523218829
UNIVERSIDADE FEDERAL DA BAHIA
REITORA
Dora Leal Rosa
VICE-REITOR
Luiz Rogério Bastos Leal
EDITORA DA UNIVERSIDADE FEDERAL DA BAHIA
DIRETORA
Flávia Goullart Mota Garcia Rosa
CONSELHO EDITORIAL
Titulares
Alberto Brum Novaes
Ângelo Szaniecki Perret Serpa
Caiuby Alves da Costa
Charbel Niño El-Hani
Dante Eustachio Lucchesi Ramacciotti
Evelina de Carvalho Sá Hoisel
José Teixeira Cavalcante Filho
Maria Vidal de Negreiros Camargo
Linguagens documentárias e vocabulários
semânticos para a web:
elementos conceituais
José Antonio Moreiro González
Salvador
EDUFBA
2011
© 2011 by José Antonio Moreiro González
Direitos para esta edição cedidos à Editora da Universidade Federal
da Bahia
1ª Reimpressão: 2014
Projeto Gráfico e Editoração Eletrônica
Victor França
Capa
Alana Gonçalves de Carvalho Martins
Revisão
Nídia Maria Lienert Lubisco
SIBI/UFBA/Faculdade de Educação – Biblioteca Anísio Teixeira
Moreiro González, José Antonio.
Linguagens documentárias e vocabulários
semânticos para a web [livro eletrônico]: elementos
conceituais / José Antonio Moreiro González. –
Salvador : EDUFBA, 2011.
6252 Kb; ePUB
ISBN: 978-85-232-1882-9
1. Linguagem documentária. 2. Recuperação da
informação. 3. Web emântica. 4. Tesauros. I. Título.
CDD 025.49 – 22. ed.
Editora filiada à:
EDUFBA
Rua Barão de Jeremoabo, s/n Campus de Ondina
Salvador Bahia CEP 40170-115 Tel/fax. 71 3283-6164
www.edufba.ufba.br
edufba@ufba.br
Versão digital: dezembro de 2019
http://www.edufba.ufba.br/
mailto:edufba@ufba.br
Table of Contents / Sumário / Tabla de
Contenido
Front Matter / Elementos Pré-textuais / Páginas Iniciales
Apresentação
Introdução
1 Bases epistemológicas da representação da informação
1.1 Origem da representação conceitual
1.2 Origem das relações entre conceitos
1.3 Os conceitos principais e sua organização em
macroestruturas
2 Para melhor entender a recuperação léxica da informação
3 Requerimentos fundamentais da nova Web
3.1 Dimensões da Web Social e da Web Semântica
3.2. Qual a finalidade da chamada Web Semântica?
3.3. Possibilidades de Evolução
4 Léxico e Linguagens Documentárias
4.1 Classificação dos KOS
4.2 SKOS
5 Web 2.0 e Folksonomias
5.1 Funcionamento das Folksonomias
5.2 Para que servem as Folksonomias?
5.3 Vantagens e debilidades das Folksonomias
5.4 Comparação entre Folksonomias e Tesauros
6 Taxonomia
6.1 Taxonomias: características e componentes básicos
6.2 Construção de Taxonomias
6.3 Exemplos de Taxonomias
7 Tesauro
7.1 Tesauro: rede conceitual e instrumentalidade
7.2 Uso de tesauros: vantagens e desvantagens
7.3 Tesauros: aportes das novas normas
8 Ontologias, o predomínio dos conceitos
8.1 Camadas da Web Semântica
8.2 Ontologias como KOS
8.3 Linguagens para a criação de Ontologias
8.4 Elaboração de Ontologias
8.5 Tesauros frente a Ontologias
9 Tesauros: progressão conceitual e redes semânticas
9.1 Tesauros de Descritores Verbais
9.2 Redes semânticas
10 Topic Maps
10.1 Conceito e definição
10.2 O modelo Topic Maps
10.3 Elementos do Topic maps
10.4 Ferramentas para construir Topic Maps
10.5 Vantagens dos Topic Maps
11 Reflexão final
Referências
Apresentação
Encontramo-nos imersos em um inacabado processo de
adaptação e transformação e até de invenção dos sistemas
simbólicos empregados para representar e recuperar o
conhecimento. O surgimento das bases de dados, na década de
1960, induzia já à concepção de linguagens controladas
perfeitamente estruturadas para recuperar conjuntos de
documentos, mediante as relações terminológicas que tinham em
comum. Os sistemas de organização e representação que
empregamos na atualidade surgiram por impulso de uma web que
precisava de novas estruturas para responder a novas
necessidades, o que nos obrigou a adaptar as linguagens
documentais pré-existentes. A soma das linguagens documentais
geradas no passado e dos novos sistemas de representação
agrupa-se em torno do que se convencionou denominar
Vocabulários para a web que, curiosamente, não deixam de
contemplar o componente léxico em detrimento da intenção
conceitual e, portanto semântica, que supõe qualquer recuperação
autêntica de conhecimento.
Sem dúvida, o fim principal dos vocabulários para a web é
possibilitar a busca por conceitos. Por enquanto, para consegui-lo,
recorre-se tanto à contribuição mesclada de vocabulários
registrados (como são as ontologias, os tesauros e os cabeçalhos
de assunto) e termos ordenados, mas menos estáveis como os que
formam as taxonomias, quanto a palavras de linguagem livre, como
é o caso das folksonomias, que ficam fora de intenções conceituais.
Nessa fragmentação de atuações, intervêm os vocabulários de base
léxica ou terminológica, como são todos os integrados em SKOS, ou
as redes semânticas e mapas conceituais, junto a outros que atuam
com base lógica, entre os quais estão as ontologias e os TopicMaps.
A presença simultânea de tal variedade de opções obedece às
necessidades nascidas da própria web. De maneira que, quando se
centra na possibilidade de compartilhar processos, como acontece
na Web 2.0, é suficiente um sistema de descrição coletiva dos
recursos mediante o uso livre de etiquetas. O uso das palavras sem
nenhum impedimento deu-se sempre quando se queria um nível de
estruturação baixo, ao mesmo tempo em que se dispunha de alta
facilidade de implantação. No entanto, quando o site adquire uma
intenção semântica, passa a empregar vocabulários controlados
(KOS) e de representação lógica, como são as linguagens para a
expressão de ontologias e os vocabulários de metadados.
Empregamse, pois, linguagens-padrão, com sintaxe uniforme e
semântica não ambígua.
Para a web semântica que possa funcionar, é necessário obter
descrições etiquetadas dos recursos, ao mesmo tempo em que se
há de contar com agentes de software capazes de processar esses
recursos, numa perspectiva semântica. As descrições são feitas
especialmente a partir dos metadados e das ontologias, enquanto a
informação se processa a partir de axiomas lógicos, com motores de
inferência semântica. Para que as máquinas possam ler os
“significados”, há que codificar a “semântica de mundo”. Para
concretizar essa representação surge o standard XML
(eXtendedMarkupLanguage), uma metalinguagem para intercâmbio
de dados e informação na web.
Este livro trilha mais as transformações pelas quais passaram os
componentes e as estruturas de relacionamento dos vocabulários
para se adaptar a um meio tão exigente, do que a preocupação em
atender os sucessivos modelos de dados em XML para expressar o
conhecimento, em estruturas simples, pré-definidas, como é o caso
do emprego de SKOS para codificar tesauros ou qualquer
linguagem documentária em formato RDF.
Sem desconsiderar totalmente esses modelos, privilegia-se aqui
uma perspectiva de análise de conteúdo documental, desde aquelas
que diferenciam os elementos linguísticos que compõem os
vocabulários e linguagens, de acordo com o emprego de conceitos
inferidos, termos unívocos ou palavras livres, como também os
relacionamentos semânticos que se dão entre esses elementos,
segundo a responsabilidade e intervenção das pessoas, na
construção das linguagens e dos vocabulários, inclusive de acordo
com a aplicação que se estabeleça para a representação de objetos
e para o uso aberto ou restrito dos vocabulários.
Sem dúvida, é uma visão parcial, mas necessária, para entender
a origem, a transformação e a projeção dos vocabulários e
linguagens documentárias, empregados para organizar o
conhecimento no site e o enquadramento teórico em que isto
acontece.
José Antonio Moreiro González
Introdução
O objetivo primeiro deste trabalho é atender ao que permanecee
ao que mudou na representação conceitual dos documentos, dentro
do ambiente determinado pela web e pela interatividade,
esclarecendo como as linguagens documentárias têm evoluído na
sua adaptação às novas necessidades para muito além da
estabilidade terminológica racionalista que tem caracterizado as
linguagens documentárias até poucas décadas atrás.
Esta aproximação prioriza estabelecer os elementos
documentários como nexo de um âmbito multidisciplinar, onde se
entrecruzam contribuições provenientes da Filosofia, da Linguística,
da Computação e da História da Ciência.
O ponto de partida desta proposta está em querer apresentar,
suficientemente amadurecidas, as apostilas que nos dois últimos
anos foram fornecidas aos alunos como material complementar para
cursos de pós-graduação, buscando facilitar o roteiro da exposição
oral. E fazê-lo preferentemente de maneira esquemática. De modo
que, mesmo que a origem tenha tido um claro caráter docente, a
elaboração da síntese foi responsável pela atualização e inclusão
dos resultados de alguns trabalhos pessoais, assim como o
seguimento de tendências e novidades referentes aos assuntos aqui
tratados.
Certamente, os documentos nos proporcionam informação. Mas
não geram conhecimento até que sua mensagem seja alcançada e
assimilada pelo usuário. Para que isto aconteça, os originais devem
processar-se mediante representações de seu conteúdo surgidas
das técnicas de análise documentária. Essas representações
servirão para facilitar os usuários na busca e na recuperação dos
conteúdos que lhes interessam:
Figura 1 - A análise de conteúdo dentro das operações básicas
dos Centros de Informação e Documentação
Fonte: Elaboração própria
Este esquema, em grande parte, contém o procedimento comum
adotado há umas décadas. Mas, além disso, considera as novas
linguagens documentárias requeridas pelos documentos eletrônicos
e sua gestão, sem por isto modificar a estrutura básica dos pré-
existentes.
O signo compõe-se inseparavelmente de significante e significado,
o que oferece um paralelismo no caso dos documentos, já que suas
orações e frases também resultam da união do plano expressivo,
morfológico-sintático, com o do contido ou conceitual semântico, ao
que deve acrescentar-se a relação entre autor e leitores e de ambos
com a mensagem, o pragmático. Nenhum destes elementos pode
ser esquecido ao planejar a análise semântica dos documentos,
especialmente para identificar os conceitos essenciais que contêm.
Figura 2. Perspectiva linguística do documento
Níveis de análise Níveis de
síntese
Estrutura
morfológica
Suporte físico Catalogação
Identificação do
documento-objeto
Estrutura
semântica
Superestrutura ou
disposição organizativa
Tipologia
documentária
Macroestruturas Indexação
Resumo
Fonte: Elaboração própria
O documento, na sua estrutura morfológica, pode ser considerado
um objeto de informação1 e o tratamento que sofrerá será sempre
superficial, externo, pela estrutura física ou pelas palavras que seu
texto contenha. Porém, a estrutura semântica lida com as ideias e
mensagens principais que o documento transmite. A análise de
conteúdo leva a procurar os conceitos com relevância suficiente para
serem representativos de toda a informação de um documento. A
estrutura morfológica contém o significante e a estrutura semântica,
o significado. O processo de representação da informação
macroestrutural seguiu uma adaptação aos tipos de documentos e
sua forma de acesso, mantendo sempre a concomitância entre os
novos e antigos métodos de representação.
Figura 3. Aplicação da Teoria do signo de Saussure à
representação da informação
Signo Significado Palavra
Termo
Significante Conceito
Fonte: Elaboração própria
Podem ser vistas duas linhas que vão do morfológico (as palavras-
chave) ao mais semântico (os conceitos) que se entrecruzam
histórica e aplicativamente. Enquanto uma tem um nível baixo de
estruturação, a outra o tem alto; enquanto uma tem alta facilidade de
implantação, esta escasseia na outra. Assim, na organização e
representação da informação, esses grupos de linguagem podem ser
considerados sob a perspectiva do léxico utilizado e das relações
entre as palavras que utilizam:
Listas de palavras: folksonomias.
Listas de termos: glossários, listas de nomes e dicionários, entre
eles apareceram os anéis semânticos (como o que oferece uma
parte da Wordnet).
Categorizações e classificações: taxonomias, esquemas de
categorização2.
Grupos de relações: baseados em associações entre os termos
e entre os conceitos: tesauros automáticos ou conceituais, topic
maps, ontologias.
Todos eles são sistemas de organização e representação do
conhecimento KOS (Knowledge Organization Systems) e servem
para fazer a indexação de recursos na Web com diferentes
vocabulários (alguns deles controlados, outros não), até dentro do
mesmo domínio.
As novas linguagens documentárias oferecem uma grande
complexidade disciplinar e de uso que obrigam a abordar sua
compreensão a partir de fundamentos conceituais provenientes de
diversos campos, como a Lógica Formal e a Estatística, a
Computação, a Retórica, a Linguística do texto, a Semiótica ou a
Lexicografia.
1 Bases Epistemológicas da
Representação da Informação
Desde a Antiguidade clássica, têm sido procurados os conceitos
mais gerais dos discursos aludidos na expressão do pensamento,
conhecidos então como predicados e agora como macroestruturas.
1.1 Origem da Representação Conceitual
Neste ponto, é preciso voltar a Aristóteles. Dentro do estudo dos
conceitos, nos “analíticos posteriores”, ele considerou os
predicamentos como categorias ou tópicos principais da expressão,
de onde partem os distintos modos retóricos3:
Substância, Quantidade, Qualidade, Relação, Lugar, Tempo,
Situação, Posse, Ação e Paixão.
A substância é a categoria fundamental, aquilo que existe em si
mesmo; os acidentes são categorias que existem em outro ser, na
substância. Aristóteles classifica os acidentes nas categorias
anteriormente ditas. Na medida em que as categorias remetem às
formas extramentais de ser, adquirem um forte conteúdo ontológico,
supondo que as coisas são captadas pela mente tal como o são na
verdade.
Posteriormente, esta lista ficou reduzida por Leibniz a apenas
cinco categorias4:
Substância, Quantidade, Qualidade, Relação, Ação ou Paixão.
Mas Kant refinou ainda mais os conceitos puros do entendimento,
ao planejá-los tão somente em quatro categorias5:
Quantidade, Qualidade, Relação e Modalidade.
1.2 Origem das Relações entre Conceitos
Além de identificar as ideias essenciais, atribui-se a Porfírio,
discípulo de Plotino, o mérito de haver disposto uma primeira rede
semântica ao distribuir as categorias universais de predicados de
uma proposição em forma de árvore6, mostrando graficamente as
relações que se dão entre os conceitos em razão de seu gênero,
subtipo e diferença7. Deste modo, fixava-se a existência de uma
ordem hierárquica entre as categorias aristotélicas, onde o gênero
supremo era ocupado pela substância material, ou composta, em
sentido descendente na escala, de acordo com a ordem marcada na
árvore por Genus e Species.
Esta ordem chegou até nós na estrutura conceitual de taxonomias
e tesauros, que têm na relação de categorias a origem da
disposição hierárquica de seus termos. Cada gênero inferior tem
como genérico o gênero imediatamente superior do qual é espécie,
ao tempo em que atua como genérico dos gêneros inferiores que de
imediato lhe seguem. De maneira que um mesmo conceito pode
ser:
Gênero (Genus) pela sua relação com as ideias para as quais
se estende seu conceito. O Genus tem um gênero supremo: top
term ou macrodescritor. E tem gêneros e espécies
subordinados (intermediários): middle term (submacrodescritor).
Espécie (species) pela sua subordinação a outra mais geral. A
species tem especificidades de diferentes níveis em um
tesauro.
Espécie especialíssima: Genéricos.
Indivíduos: Específicos.
Tendo a ver mais com a categorização feita por Porfírio que com a
proposta primitiva de Aristóteles,Ramón Llull apresentou uma
árvore semântica com sete partes, entre as que são de particular
relevância: a estrutura, os predicáveis e os predicamentos ou
categorias. Precisamente na primeira distinção, composta por ens,
substancia, cors, animal e quaestio, ele apresentou como
metodologia básica de sua Logica nova e, portanto, como
mecanismo universal de qualquer feito comunicativo, as dez regras
gerais de questionar8:
Utrum → se é ou
não
Quid → que é
De quo → de que
é
Quare → por que
é
Quomodo → de que
maneira
Ubi → onde é
Quando → quando
é
Quantum → quanto
é
Cum quo → com
quem é
Quale → qual é
O movimento de Port-Royal introduziu outros elementos
essenciais, ao situar, junto dos predicáveis, os conceitos lógicos de
definição e de divisão, aquele para explicar a quididade de algo, tal
como os tesauros concretizam o significado de alguns descritores
por meio da scope note, enquanto divisão vinha a esclarecer a
diferença de uma espécie para outras, analisando o gênero pelas
diferenças9.
De forma direta ou indireta, a organização de conceitos feita pela
Retórica chegou até nós10. Sempre que se elaborou uma proposta
para categorizar os conceitos do texto, apareceu a relação entre
eles como uma forma fundamental do pensamento, encontrando-se
aqui a razão do proceder indutivo dos tesauros, taxonomias e
ontologias, tanto para estabelecer associações semânticas entre os
termos, como para permitir aos usuários navegar coerentemente
pelos conceitos que representam. Inclusive o planejamento lulliano
do raciocínio continua presente em diferentes aspectos da
representação do conhecimento, as redes semânticas ou a
inteligência artificial11.
Porém, as relações não-hierárquicas somente podem ser
organizadas quando referentes a uma dada experiência ou a um
campo específico do conhecimento. Mostafa e Cruz sugerem o
Empirismo inglês de David Hume como a referência adequada às
relações associativas em linguagem documentária12. Mas, pode-se
comprovar que muitas delas provêm dos predicados clássicos,
como mostra a revisão feita por Ramón Llull na Logica nova, onde
aparecem fatores de relacionamento originados na causalidade,
finalidade, origem ou modo. A visão empirista criou uma nova
determinação das relações lógicas entre predicamentos:
Relações associativas naturais:
Causa e efeito
processo ou operação /agente ou instrumento
ação / resultado da ação
causalidade ou causa/ consequência
atividade/ agente
atividade/ propriedade
Semelhança
Atividades complementares / coisa
Atividade/ suas propriedades ou agentes − Contiguidade
Pessoas ou coisas/ origens
Relações associativas filosóficas:
Causa e efeito
Coisa ou atividade/ suas propriedades ou agentes
Identidade
Atribuição: disciplinas ou campos de estudo/objetos ou
fenômenos estudados
Ação/ seu paciente
Semelhança
Coisas ou atividades/ suas propriedades ou agentes
Contrariedade
Opostos
Coisa/ seu contra-agente
Quantidade
Influência
Qualidade
Expressões sincategoremáticas/ substantivos que incluem
Por conseguinte, os mecanismos gerais do raciocínio atuam
estabelecendo relações entre as estruturas de conceitos. Este
comportamento se ultrapassou, de maneira peculiar, os elementos
que constituem as linguagens documentárias:
Termos que se integram dentro da mesma categoria.
Diferenças de uma espécie em relação a outras.
Divisão ou análise do gênero pelas diferenças.
Definições (Scope note) para ajustar o significado de um termo.
Relações que não podem identificar-se como de equivalência
ou hierárquicas.
Aparecem inclusive fundamentos do tesauro em propostas como
a Teoria da Desconstrução de Derrida, ao defender que o signo
linguístico pode-se repetir13. Precisamente para evitar algumas das
contingências nietzscheanas, como a possibilidade de não dizer
nada ou o perigo da desapropriação do próprio nome, os tesauros
acordam chamar inequivocamente cada conceito por um termo,
evitando qualquer anfibologia ou ambiguidade e assegurando a
compreensão dos significados com independência das situações.
Até a intenção de visualização, característica dos mapas conceituais
como procedimento para a representação esquemática das noções
essenciais, estava colocada já na Árvore de Porfírio, primeira rede
semântica ou, melhor dizendo, o primeiro mapa conceitual, pois seu
fim era claramente visualizador. Mais um passo foi dado pelos Topic
Maps ao estabelecer relações entre matérias de textos diferentes,
atuando como metaíndices.
1.3 Os Conceitos Principais e sua
Organização em Macroestruturas
Estão dispostos de forma que a primeira exigência foi determinar
as estruturas semânticas dos documentos textuais, para conhecer
sua organização e discriminar as partes em que a informação
relevante se concentra.
A relevância e organização dos conceitos nos documentos
determinam as estruturas do texto a serem representadas pelas
linguagens documentárias:
Figura 4. Estrutura formal da base textual
A macroestrutura global (Ma) representa o significado
mais geral dos conceitos de um texto14.
As macroestruturas parciais atuam como
submacroestruturas ou macroestruturas secundárias
(Ms).
Há outras macroestruturas mais parciais (mp), até
chegar às microestruturas, ou nível de significação
mais local (mi)15:
Ma = Ms1, Ms2, …, Msn.
Ms1 = mp1.1, mp1.2,…, mp1.n.
mp1.1= mi1.1.1., mi1.1.2…., mi1.1.n..
Ms2 = mp2.1, mp2.2,…, mp2.n.
mp2.1= mi2.1.1., mi2.1.2…., mi2.1.n..
…
Msn…
Fonte: Elaboração própria
Figura 5. Unidades de significação dos discursos
Unidades de
significação
Dimensão da
macroestrutura
Estrutura
superficial
Microestruturas.
Sintaxe e semântica
das frases e parágrafos
Estruturas
intermediárias
Macroestruturas
parciais.
Estruturas semânticas
parciais
Superestrutura.
Ordem das
macroestruturas no
texto
Estrutura
global
Macroestrutura geral.
Estrutura semântica
global
Sintática
Semântica
Pragmática
Fonte: elaboração própria
A aproximação a dimensão da macroestrutura pode fazer-se a
partir de:
Sintaxe: estuda as relações recíprocas que se dão entre os
signos. O signo considera-se suscetível de ser inserido em
sequências de outros signos, segundo regras combinatórias:
Estrutura temática transformacional.
Sintaxe de base linear.
Semântica: estudo do significado das relações que existem entre
os signos e os objetos ou fenômenos que designam. Considera-se o
signo em relação ao que significa. Pode-se chegar a um conceito
mais amplo, que distinga entre uma semântica referencial (relação
com a realidade extralinguística) e uma semântica orientada ao
conteúdo, ambas entendidas como relações imanentes ao sistema,
que se dão entre o conteúdo dos signos:
Conteúdo global do discurso, seu tema.
Pragmática: interpretação do texto a partir das relações que se
estabelecem entre os signos e os usuários, ou entre os usuários.
Considera-se o signo em relação a suas origens, os efeitos sobre
seus destinatários, a utilização que é feita deles, etc.:
Função comunicativa.
Geração e compreensão textual (macrorregras e estratégias).
Coerência e coesão do discurso16.
As diferentes partes do texto são dispostas e identificadas pela
superestrutura: a ordem que dispõe as macroestruturas no texto:
Texto, f a / texto, f b / texto, f c/…/ texto f n/
Nos documentos de caráter científico, a organização temática
(superestrutura) segue uma divisão canônica do texto em:
Partes / Capítulos / Seções / Parágrafos
Os trabalhos de pesquisa empírica apresentam uma disposição
arquetípica:
Introdução (Determinação do problema; objeto; objetivos;
estado da arte; limites)
Método de pesquisa utilizado
Resultados e discussão
Conclusões (no caso, recomendações)
Referências
E agora, como passar do texto completo à sua representação
documentária?
Fases da representação documentária:
Reconhecimento: aproximação sensorial ao documento para
identificar e compreender sua informação mais importante e sua
distribuição.
Redução: a informação do documento, depois de ser
interpretada, limita-se a suas mensagens essenciais.
Representação: expressão dos termos ou códigos deindexação e redação do resumo. Trata-se, em ambos os casos,
de alcançar uma nova expressão da informação fundamental do
texto, buscando sua comunicabilidade a partir dos padrões
existentes.
Reflexão sobre a leitura dos documentos na hora de procurar as
macroestruturas: a Lei do Anderson determina os lugares mais
propícios para obter informação:
O título do documento.
Os subtítulos: sumários, tabelas ou índices de assuntos.
O resumo do autor. Sua presença nos originais facilita a análise
e a representação dos documentos.
A introdução e os primeiros parágrafos dos capítulos, seções e
qualquer outra divisão do documento.
As conclusões.
Ilustrações, diagramas, tabelas, e sua legenda ou explicação.
Qualquer frase ou palavra destacada pelo autor no texto,
sublinhada ou com letra diferente.
2 Para melhor entender a recuperação
léxica da informação
Desde a Antiguidade, os documentos individuais têm facilitado o
acesso a sua informação por meio dos sumários (e índices), acesso
feito ao mesmo tempo pela superfície expressiva léxica e pelo
contexto de referência, ao contar com terminologia própria de um
domínio, motivo pelo qual se situam entre os que se elaboram
livremente com palavras-chave (por extração ou por dotação), e os
que se estabelecem mediante linguagens controladas. Esses
sumários (e índices) tradicionais formam redes semânticas com os
conceitos, cuja designação pode ser feita por mais de uma palavra
ou termo; com as associações entre conceitos (veja, veja também;
subordinações…); e com o surgimento dos conceitos: casos ou
ocorrências guiadas pelas referências17. Os índices alfabéticos
devem levar em conta os sinônimos e as variações gramaticais com
remissivas; as subdivisões normalizadas; e os rótulos explicativos
que determinam a não ambiguidade.
As ciências naturais alcançaram um sistema de coordenadas e
unidades de medida universais entre os séculos XVI e XX. Desde
então, os cientistas usam instrumentos simbólicos e conceituais:
independentes das línguas naturais
como metalinguagem muito formalizada
logicamente coerente
amplamente compartilhada18.
Nos documentos técnico- científico, os termos cumprem duas
funções: a de representação conceitual, e a de transmissão dos
conhecimentos especializados. Porém, nas propostas recentes,
destaca-se a função comunicativa da língua, afastando-se das
tentativas anteriores de fixar os termos19:
Como referentes ideais e homogêneos.
Estritamente desambiguados e monossêmicos.
A serviço preferente da comunicação entre expertos.
Então, agora, a sua condição é mais cambiante, pois são aceitas
as metáforas e os contextos históricos de uso, o que favorece as
dúvidas sobre o sentido monossêmico (com o que se reabilita
consequentemente a polissemia) e sobre a variação vista como uma
“perturbação da unidade linguística”20.
Sob uma perspectiva contemporânea, o acesso à informação por
assuntos abriu a trajetória espetacular que teriam as linguagens
documentárias no século XX. Nos Estados Unidos, em 1876,
formaram-se as obras básicas Classificação decimal de Dewey21 e
as Rules for a dictionnary catalog de Cutter22:
A Classificação decimal queria organizar a totalidade do
conhecimento dentro de divisões decimais, seguindo a ideia de
aspirar a uma expressão universalmente válida23.
Tentava graduar as disciplinas científicas mediante uma
sequência que partia do nível mais amplo da classificação
do saber humano de Francis Bacon24, passando por níveis
médios segundo os conceitos do século XIX, até chegar a
níveis específicos25.
Suas características mais notáveis são a simplicidade, a
ingenuidade e a adaptabilidade de suas anotações.
Rules for a dictionnary catalog o fazia para as linguagens
controladas, mediante as listas de cabeçalhos de assunto
com caráter pré-coordenado
estrutura associativa
e controle de vocabulário de aplicação específica.
Sem dúvida seu uso era mais amigável para o usuário. A rigidez
dos sistemas classificatórios deu aos cabeçalhos preferência para
as linguagens controladas.
O enriquecimento de relações nos novos vocabulários e das
linguagens documentárias e da Ciência da Informação será
abordado posteriormente. É fruto da potencialidade dinâmica e
criadora do pensamento.
Já no pós-guerra mundial, Vannevar Bush percebeu que o
problema principal estava na inadequada forma de armazenar e
recuperar a informação.
Em As we may think, raciocinou que a estrutura sequencial dos
conceitos documentários em classe-subclasse era a causa pelas
quais as taxonomias alfabéticas ou numéricas seriam incapazes de
processar adequadamente grandes acervos de informação, pois os
sistemas hierárquicos ficavam superados pela associação de
conceitos, imitando o modo em que as pessoas pensam26.
Era evidente que as categorias tradicionais da Biblioteconomia
resultavam insuficientes para tratar o conteúdo dos
documentos, pois as classificações universais contribuíam
pouco à circulação efetiva dos conteúdos registrados.
Com esta proposta, Bush se aprofundou nos índices
associativos e predisse a implantação dos sistemas de bases
de dados, hipertextos e hipermídia27.
Agora, a condição vem determinada por umas profundas
variações, pois se aceitam as metáforas e os contextos históricos de
uso, o que favorece as dúvidas sobre o sentido monossêmico (com
o que se reabilita consequentemente a polissemia) e sobre a
variação vista como uma “perturbação da unidade linguística” 28.
Figura 6. O acesso contemporâneo à informação dos
documentos. Conceitos de representação da
informação
Positivista Pós-moderno
Categorias universais, formas
apriorísticas de representação
Linguagem
considerada a partir
da sua função
comunicativa
Predomínio das relações
hierárquicas (taxonomias)
Preponderância das
relações
associativas29
Léxico como nomenclatura ou
taxonomia
Relativização pelo
cenário ou situação
do discurso
Linguagem normalizada:
comunicação inequívoca
Documento
considerado a partir
da sua função
comunicativa
Procura da precisão,
objetividade e clareza da
linguagem
O usuário como
sujeito da
interpretação
Modelo das ciências mais
formalizadas, sem as
imperfeições dos discursos das
Humanidades
Cada documento
contém um modelo
léxico
Substantivo, forma de
representação privilegiada30
Léxico mais próximo
da linguagem
natural
Fonte: elaboração própria
3 Requerimentos fundamentais da nova
Web
A maioria dos sistemas atuais de representação surgiu antes que
existisse o ciberespaço, há menos de uma geração. Por isso, a
matriz cultural de referência para os documentalistas do século XXI
continua inacabada e eles têm que enfrentar o problema de inventar,
adaptar ou melhorar uma nova geração de sistemas simbólicos que
se ajuste às possibilidades disponíveis de tratamento 31.
A nova Web tem melhorado as estruturas de organização do
conhecimento:
Trazendo as ontologias e as taxonomias para o primeiro plano.
Mas também obrigando a adaptar-se às linguagens pré-
existentes: tesauros; linguagem livre (folksonomias, agora);
mapas conceituais (para os topic maps).
São muitas as deficiências da recuperação na web aberta, como:
a sobrecarga de Informação,
a ineficácia das palavras-chave,
a falta de autoridade literária ou
a falta de sistemas com PLN –Processamento da linguagem
natural-.
Um dos obstáculos mais comuns para explorar as potencialidades
do digital é o fato de que os sistemas baseiam suas investigações
em correntes de signos e não em conceitos. Assim, a palavra “cão”
é tratada como a sucessão de signos “c, ã, o” e não como um
conceito traduzível (dog, chien, perro,…), que pertence à subclasse
dos mamíferos, animais domésticos etc.
A nova web, na sua caracterização semântica, requer linguagens
de representação do conhecimento baseadas em ontologias para
localizar e acessar os recursos32. Linguagens multicamadas que
interajam entre modelos e reutilizem recursos com novos modelos
de processamento para estabelecer relações de confiança e provas
de autenticidade, para garantir aos usuários a disponibilidade de
recursos e tornar seu funcionamento transparente.Figura 7. Evolução da Web: Web Social e Web
Semântica
Web 2.0 Web Semântica
Origem Evolução natural
da web
Proposta de Tim
Berners para a
futura web33 em
1999
Expressão Linguagem livre:
folksonomias,
palavras-chave em
etiquetas (tags),
com problemas de
sinonímia e
polissemia
Linguagem
controlada, a partir
de linguagens para
expressão de
ontologias, KOS e
vocabulários de
metadados
Algumas
características
- Descrição dos
recursos para
melhorar sua
distribuição
gratuita,
compartilha
conhecimento e
desenvolvimentos:
- Arquitetura de
colaboração
- Usabilidade alta
- Quanto mais
utilizada, mais útil
- Utilização de uma
linguagem
normalizada com
sintaxe uniforme e
semântica não
ambígua
-Interoperabilidade:
intercâmbio de
informação com
qualquer
repositório
- Usabilidade
escassa
Fonte: Morato e colaboradores (2008, p. 8034)
3.1 Dimensões da Web Social e da Web
Semântica
Web social e web semântica tratam de dimensões diferentes:
A web semântica usa semântica muito formal para criar
ontologias dirigidas a aplicações de software.
A web social cria mecanismos locais de colaboração dirigidos
ao usuário, nos quais predomina a usabilidade.
Entram em confronto porque:
As ontologias são pouco legíveis por pessoas e difíceis de
serem desenvolvidas (RDF y OWL estreitam as possibilidades).
As folksonomias são difíceis de interpretar por sua polissemia e
ambiguidade, mas sua criação é feita com baixo custo e
esforço.
Não existem ferramentas amigáveis da web semântica para os
usuários, porém, os recursos da web social não são amigáveis
para as aplicações.
As técnicas automáticas de criação de ontologias são ainda
imaturas.
Há duplicidade de vocabulários de metadados (por ex., SKOS-
Core, os PSI, Zthes e MADS).
A web semântica é uma extensão da web que acrescenta
semântica ao atual formato de representação de dados. Ela, com
suas linguagens e padrões, constituirá a base para a efetivação de
um tratamento mais acurado das informações da web. Para tanto,
foram criadas diversas tecnologias, dentre elas as ontologias,
visando a atribuir sentido e significado ao conteúdo dos
documentos, atuando como ferramenta de representação do
conhecimento. Em Tecnologia da Informação, chamam-se
ontologias as classificações de identidades, sejam elas informação
ou matéria (objetos no mundo real).
A nova web, na sua caracterização semântica, requer35:
Linguagens de representação do conhecimento baseadas em
ontologias para localizar e acessar os recursos.
Linguagens multicamadas que interajam entre modelos e
reutilizem recursos com novos modelos de processamento:
para estabelecer relações de confiança e provas de
autenticidade,
para garantir aos usuários a disponibilidade de recursos e
tornar seu funcionamento transparente.
A nova web tem melhorado as estruturas de organização do
conhecimento:
Ontologias.
Taxonomias.
E obrigou a adaptar-se às linguagens pré-existentes:
Tesauros.
Linguagem livre (folksonomias, agora).
Mapas conceituais (para os Topic maps).
3.2 Qual a finalidade da chamada Web
Semântica?
A web semântica é baseada em duas ideias principais36:
Etiquetagem semântica de recursos, que deriva em uma
separação formal entre o conteúdo e a estrutura dos
documentos.
Criação de aplicações de software “inteligentes” (ou agentes)
capazes de processar e operar estes recursos em nível
semântico.
A web semântica (WS) propõe37:
Uma sintaxe comum, XML, e a expressão do conhecimento em
estruturas simples predefinidas (por ex., RDF).
Utilização de vocabulários de metadados e ontologias (SKOS:
Simple Knowledge Organization System).
Referenciar os termos com recursos que expliquem seu
conteúdo mediante a URI.
Utilização por pessoas e máquinas (RSS).
Apesar de seu refinamento técnico, a web chamada “semântica”,
lançada há mais de dez anos e dirigida por um consórcio de
grandes empresas (Yahoo, Google, AOL, IBM, Microsoft,…), não
conseguiu os avanços esperados. A inteligência artificial e a web
semântica limitam-se à automação das operações lógicas para tirar
o melhor partido dos computadores
3.3 Possibilidades de Evolução
3.3.1 Que a Web 2.0 evolua para a Web semântica.
Esta evolução não será feita de forma natural, pois partem de
diferentes dimensões. A Web 2.0 deveria ter uma evolução a KOS
complexos:
Expressão das folksonomias como web semântica (por ex.,
MyPiggyBank que permite por etiquetas nas páginas web38.
Simplificação na forma de designar etiquetas semânticas para
os recursos (por ex., microformas).
Criação de interfaces mais utilizáveis da web semântica que
popularizem o enfoque.
3.3.2 Que a 2.0 e a Web Semântica convirjam na Web 3.0
A convergência implica em tomar medidas para que a evolução
seja possível, o que supõe adaptar as palavras-chave (por ex.,. das
folksonomias) à web semântica e fazer sua migração para KOS
mais complexos. A falta de KOS complexos e de popularidade da
web semântica tem duas soluções:
Limitar os KOS complexos e vocabulários da web semântica
para recursos de grande valor.
Deixar as folksonomias para recursos de menor valor, já que a
web semântica e a web social respondem a diferentes
necessidades da web.
3.3.3 Que a Web 2.0 e a Web semântica coexistam
Coexistência de linguagens de acordo com sua finalidade (Web
Social). Para a coexistência das linguagens propõem-se os
seguintes passos:
Analisar os documentos mais populares da web social (por ex.,
RSS), na procura de simplicidade.
Promover institucionalmente a criação de ontologias de domínio
por usuários especialistas, mesmo com problemas para chegar
a um consenso entre muitos usuários.
Estabelecer mecanismos para centralizar os documentos em
um repositório comum, facilitando sua recuperação e
eliminando duplicidades não necessárias, assim suprimindo a
duplicidade de SKOS, MADS, PSI, etc.
Melhorar a dimensão de contato na utilização de documentos
RDF-OWL (p.e. SemanticWorks ou Tabulator), visando a
conversão a uma linguagem web transparente39.
Converter as folksonomias em KOS mais complexos40.
Estabelecer mecanismos que facilitem a confiabilidade das
buscas (supervisão), para evitar spam de HTML.
Reduzir a desconfiança das empresas.
4 Léxico e Linguagens Documentárias
A maior relação entre o léxico e as linguagens documentárias se
faz por meio das normas ISO 704-2000 e ISO 1087/1-2000, que
apresentam vantagens com respeito à norma ISO 2788 de
construção de tesauros:
uma compreensão mais clara dos conceitos
mostram as relações existentes entre os conceitos
configuração dos sistemas conceituais
As propostas recentes destacam a função comunicativa do léxico,
afastando-se das tentativas de fixar os termos
Como referentes ideais e homogêneos
Estritamente não ambíguos e monossêmicos
A serviço principalmente da comunicação entre especialistas
Que se estabelece mediante linguagens controladas
4.1 Classificação dos KOS
Os sistemas de organização e representação do conhecimento
KOS (Knowledge Organization Systems) fazem, até agora, a
indexação de recursos na web:
Com diferentes vocabulários (alguns deles controlados, outros
não).
Até dentro do mesmo domínio
Como sua representação é heterogênea, a maneira com que
estes recursos estão organizados pode responder a diferentes
esquemas de classificação.
Podem considerar-se estes grupos de linguagens:
Palavras-chave independentes (i.e. folksonomias).
Listas de palavras (glossários, listas de nomes, dicionários).
Facetas, categorizações e classificações.
Grupos de relações (tesauros, topic maps e ontologias).
Figura 8. Linguagens para organizar e representar a
informação
Facilidade
de
implantação
Características Nível de
estruturação
Alta Palavras-chave
independentes (i.e.
folksonomias)
Baixo
↑ Listas de palavras
(glossários, listas de
nomes, dicionários)
↓
↑ Facetas, categorizações e
classificações
↓
Escassa Grupos de relações
(Tesauros, Topic maps, e
Ontologias)
Alto
Fonte: elaboração própria
Os KOS:
Permitem categorizar recursos com esquemas de organização
determinados, para facilitar sua posterior recuperação.
Permitem ao usuário interpretar estruturasde conhecimento de
maneira organizada.
Contribuem para melhorar a eficiência dos serviços de
informação.
Buscam a terminologia específica das instituições (a maioria da
informação é de origem interna).
Muitas vezes, provêm do trabalho cooperativo no âmbito
empresarial (extranets e comunidades de trabalho).
A. Palavras-chave independentes: Folksonomias, ou sistema de
indexação social. Dotação colaborativa, mediante a utilização de
rótulos simples, de palavras-chave em um espaço sem hierarquias
nem relações. Esta prática se produz em ambientes de software
social (Web 2.0.).
B. Listas de termos: Relação de palavras, algumas vezes,
acompanhadas de definições. Todas as suas entradas são formadas
por termos preferenciais.
B.1. Listas de autoridades: permitem controlar as diferentes
variantes da denominação de uma entidade (por ex., países,
pessoas físicas ou jurídicas) ou um domínio específico. Os termos
comumente são apresentados em ordem alfabética ou estruturados
segundo um esquema de classificação simples. Costumam referir-
se a termos autorizados e não-autorizados.
B.2. Glossários: listas de termos acompanhados de definições ou
comentários específicos, dentro de um domínio.
B.3. Dicionários: Listas alfabéticas de termos, de alcance mais
geral que os glossários, os quais incluem definições, variantes
semânticas e, às vezes, informação etimológica, sinônimos e
variantes ortográficas. Sem estrutura hierárquica explícita.
B.4. Índices toponímicos: Dicionários de termos relativos a
lugares geográficos. Costumam aparecer como índices de atlas. As
entradas vão identificadas por uma categoria (cidade, rio,
cordilheira, etc.) com as coordenadas geográficas do lugar.
C. Classificações e esquemas de categorização: Os termos e
códigos se estruturam em conjuntos temáticos.
C.1. Cabeçalhos de assunto
Termos controlados de cobertura temática genérica.
Estrutura hierárquica para representar as matérias.
Linguagem pré-coordenada: regras para combinar termos no
momento. da indexação em uma ordem previamente
estabelecida.
A recuperação se realiza sequencialmente, pela ordem do
termo.
Não é possível recuperar documentos a partir de aspectos não
definidos explicitamente nos cabeçalhos.
C.2. Taxonomias e esquemas de classificação e
categorização
Mesmo que às vezes se empreguem indistintamente, existem
diferenças entre eles. Definem-se como categorias temáticas gerais
que agrupam termos ordenados numérica ou alfabeticamente.
Alguns tesauros usam esquemas de classificação para categorizar
seus termos e utilizá-los como ajuda para a navegação. As suas
entradas estão formadas por termos preferenciais entre os quais
existem relações de hierarquia.
C.2.1. Taxonomia: agrupamentos de seres vivos, objetos ou
termos ordenados hierarquicamente, segundo características
particulares. Podem aplicar-se a grandes taxonomias corporativas, a
diretórios web ou a categorizações de documentos geradas
automaticamente
C.2.2. Esquemas de classificação e categorização: linguagens
de indexação pré-coordenadas como a Classificação Decimal
Universal (CDU) ou a Classificação Decimal de Dewey.
Estes esquemas classificam e colocam em ordem os acervos no
ambiente arquivístico e biblioteconômico:
Finalidade: destinam-se a organizar coleções por classes, de
acordo com os assuntos tratados.
Forma: estrutura hierárquica de conceitos por classes, mediante
anotações simbólicas pré-coordenadas.
Centrados no conteúdo dos documentos por grandes assuntos.
Seguem as classificações científicas mais aceitas para ordenar
as ciências.
Por esta razão são mais úteis para a divisão das disciplinas
acadêmicas ou para os especialistas do que para os usuários
comuns.
Os tesauros e os esquemas de classificação valorizam muito o
conteúdo, na suposição que este será utilizado por profissionais
indexadores (documentalistas) e por usuários especializados. Nas
classes, o nível de subdivisão é relativo à importância de uma
matéria e à distribuição do esquema. As classes estão pensadas
para incluir os recursos amplamente, mas pecam por sua
generalidade.
D. Listas relacionadas
Listas de conceitos definidos univocamente e entre cujos
elementos se estabelecem relações. Suas entradas estão formadas
por termos preferenciais ou não preferenciais, entre os quais
existem relações de equivalência, hierarquia e associação. Podem
conter notas de aplicação e históricas, assim como facetas. Incluem:
D.1. Tesauros
D.2. Ontologias
D.3. Redes semânticas
4.2 SKOS
SKOS é uma das especificações da web semântica mais
relevante para aplicar em arquivos, bibliotecas e centros de
documentação. Estabelece uma ponte entre as tendências da web
semântica e as práticas tradicionais para o controle do vocabulário e
a organização e representação do conhecimento.
Apareceu como uma recomendação W3C feita pelo Semantic
Web Deployment Working Group41. Oferece um modelo para
representar a estrutura básica e o conteúdo de esquemas
conceituais, como os que oferecem os tesauros, os sistemas de
classificação, as listas de cabeçalhos de assunto ou as taxonomias
e folksonomias42. A documentação oficial de SKOS fala de sistemas
semiformais de organização do conhecimento para diferenciá-los
das ontologias desenhadas para suportar processos de raciocínio
automático complexos. SKOS está orientado à indexação e à
recuperação de informação documental, ao contrário de outros
sistemas como OWL170 orientados a processamentos mais
complexos43.
Serve para codificar vocabulários controlados e linguagens de
indexação em XML. Trata-se de um método para migrar, a baixo
custo, linguagens de indexação pré-existentes para a web
semântica. Porém, não é só uma possibilidade para publicar
linguagens de indexação e, sim, um mecanismo para representar
relações entre diferentes esquemas conceituais. Oferece a
vantagem de aproveitar o conhecimento do setor bibliotecário na
organização do conhecimento e inseri-lo nas iniciativas adotadas
para a web semântica.
SKOS se baseia em RDF, onde os conceitos de uma linguagem
de indexação correspondem a instâncias de classe e onde as
relações entre conceitos e suas descrições são tratadas como
declarações sobre estas instâncias.
Sua finalidade está em representar a realidade tão só dos termos
incluídos em um determinado vocabulário controlado, respeitando a
finalidade e o uso para o qual foi concebido. Suas caraterísticas são:
Os conceitos (unidades de pensamento) identificam-se
mediante URI. Os conceitos podem ter diferentes etiquetas em
linguagem natural, em um ou em vários idiomas.
Os conceitos se agrupam em “esquemas de conceitos”.
Os conceitos podem levar associadas notas de escopo.
Os conceitos podem se relacionar mediante hierarquias ou
associações, segundo o determinado para as linguagens
documentárias de indexação.
Entre suas vantagens está sua orientação para os conceitos e
não para os termos, pelo que aumentam o valor dos modelos
configurados pelos tesauros e a capacidade de estabelecer relações
entre unidades léxicas ou etiquetas e poder alargar os
relacionamentos básicos de um vocabulário controlado tradicional.
SKOS também incorpora funções avançadas que permitem
estabelecer relações entre esquemas de conceitos e agrupá-los em
coleções44.
5 Web 2.0 e Folksonomias
Thomas Vander Wal propôs o neologismo:
Folk + sonomy = gente + taxonomia.
Definição: modo de indexação cooperativa que adota palavras-
chave para representar a informação de maneira espontânea e livre.
Situa se dentro da arquitetura da informação social (Web 2.0) em
que cada usuário escolhe o que mais se ajusta ao seu
entendimento. Nelas:
Autor: qualquer pessoa.
Tecnologia: Web 2.0 e rótulos.
Descrição do conteúdo: palavras-chave.
Não é essencial construir uma hierarquia.
Sim, contar com um instrumento que permita o emprego livre de
etiquetas semânticas para efetuar as indexações.
Uma folksonomia45:
é explícita
pode agregar-se
pressupõe vantagens para os usuários (esta é a razão de
agregar etiquetas)
é relevante para os interesses de um site web
5.1 Funcionamento das FolksonomiasÉ um sistema simples e emergente, que se afasta da maneira
tradicional de classificar de cima para baixo46.
Abandonar as taxonomias por listas de palavras-chave não é algo
novo. Os blogueiros preferem descrever seus textos com palavras-
chave livres.
Beneficiam-se do vocabulário pessoal e da contribuição social
para ajudar a encontrar e controlar na web os assuntos mais
interessantes.
Como diferença entre taxonomias e folksonomias47: estas últimas
podem retroalimentar-se. Incluem cada palavra proposta. Não
deixam nenhuma palavra de fora. Marcar com etiquetas de caráter
social pode ser considerado um elo de baixa inversão entre a
indexação pessoal e a indexação compartilhada. Não há uma
autoridade central que imponha sua visão, de forma que cada voz
tem seu lugar.
Tipos de folksonomias:
Folksonomia genérica (broad folksonomy):
Diferentes usuários etiquetam o mesmo objeto e cada um deles
pode fazê-lo com seus próprios rótulos ou vocabulário, tal como
sucede com Del.icio.us, por isso se as conhece também como
relacionadas.
Folksonomia específica (narrow folksonomy)
Uma ou poucas pessoas etiquetam a informação. Acontece assim
com Flickr, cujo uso permite alojar fotografias e indexá-las para que
outros possam buscá-las por meio desses rótulos.
http://del.icio.us/
5.2 Para que servem as Folksonomias?
As folksonomias funcionam porque são eficazes para os usuários
na hora de ordenar sua informação (em princípio, para ser
recuperada por eles mesmos, mesmo que depois possam
compartilhá-la).
Ao tratar-se de usuários inexperientes na organização do
conhecimento, o tempo que demorariam com complexos sistemas
de classificação hierárquicos fica minimizado com este método.
Principais usuários: aqueles que organizam a informação nos
blogs e os defensores do uso social do software.
As folksonomias refletem exatamente o modelo de conceitos que
a gente tem.
Sua vantagem provém da capacidade de associar as verdadeiras
necessidades dos usuários com a língua; e de não buscar sua
precisão.
É importante entender quem está marcando com rótulos e como
estes se aproveitam depois. Temos também a opção de derivar para
ideias não entroncadas com a corrente principal, que podem emergir
do interesse de uma parte pequena da população.
5.3 Vantagens e debilidades das
Folksonomias
Vantagens:
As folksonomias permitem conhecer:
Os termos mais empregados,
Como evoluem de acordo com as tendências e segundo as
comunidades que os empregam
As folksonomias servem para extrair vocabulário (datamining)
com o qual se elaboram as linguagens controladas depois de
normalizadas.
Debilidades:
Carecem de controle.
Não têm hierarquias nem associações; só é possível utilizar
clusters que podem se formar com os recursos indexados pelos
usuários mediante palavras-chave coincidentes48.
A ambiguidade é muito alta: para um usuário, um termo pode
expressar uma realidade muito distinta da de outro.
Não há guia nem limitações na hora de etiquetar os conteúdos.
Falta de consistência por ausência de controle de sinônimos:
assim na hora de denominar um computador Macintosh, pode
empregar-se as etiquetas “Mac”, “Apple”, “Macintosh”49.
Imprecisão ao se utilizar etiquetas só com unitermos.
Emprego indistinto de singulares e de plurais (assim é em
Flickr).
E, certamente, a ausência de hierarquia.
5.4 Comparação entre Folksonomias e
Tesauros
Mesmo se fosse um modismo, tanto no que respeita ao
significado como ao próprio termo, as folksonomias permitem
estudar:
- termos mais empregados
- e como evoluem de acordo com as tendências e segundo as
comunidades que os empreguem
Os vocabulários controlados não são aplicáveis à maioria dos
casos onde se pode usar metadados. Sua construção, manutenção
e aplicação têm custo alto tanto em tempo de desenvolvimento,
como de preparação dos usuários.
Manter uma taxonomia não é fácil. Neste sentido, as folksonomias
são uma solução quando a indexação tradicional não é viável
Exemplos de folksonomia:
Del.icio.us: gestor social de web sites favoritos (bookmarks)
Permite:
adicionar a favoritos as páginas desejadas,
classificar mediante palavras-chave os sites para poder
recuperá-los futuramente,
fazer intercâmbio desta informação com outros usuários
Cada palavra-chave proposta pelos usuários permite navegar
pelos conteúdos etiquetados com ela.
Problema: quando o usuário inclui uma palavra-chave, não lhe é
permitido intercalar espaços. A folksonomia utiliza somente
unitermos.
Flickr, http://www.flickr.com/
Site web sobre fotografia: qualquer usuário pode compartilhar
fotos deixando-as à disposição para consulta, mediante o
estabelecimento de palavras-chave em um ambiente colaborativo.
http://del.icio.us/
http://www.flickr.com/
Cada usuário indexa as fotografias de acordo com o que o
conteúdo sugere.
6 Taxonomia
Tradicionalmente, entende-se por Taxonomia a ciência ou técnica
de classificação: em Biologia é a descrição, identificação e
classificação dos organismos, individualmente ou em grupo, de
alcance global: biotaxonomia, ou especializado: fitotaxonomia e
zootaxonomia, onde as taxonomias tiveram a função de classificar
as espécies em Botânica e Zoologia.
Taxonomia é o estudo dos princípios gerais da classificação
científica, a classificação sistemática: em particular, classificação
ordenada de plantas e animais seguindo relações naturais.
Classificação ou categorização de um conjunto de coisas de forma
hierárquica. Por definição, taxonomia é classificação, sistemática.
Quanto às linguagens documentarias, trata-se de uma lista de
termos preferenciais com estrutura hierárquica. Uma taxonomia
serve para ordenar informação em uma hierarquia, utilizando a
relação pai-filho (generalização ou “tipo de”). Uma hierarquia é
basicamente uma estrutura em forma de árvore que estabelece
relação entre os objetos de generalização-especialização. Uma
taxonomia estabelece uma semântica simples de acordo com
algumas de suas propriedades50.
Nos sistemas de classificação, das ontologias, da inteligência
artificial, é a classificação de elementos de natureza mais variada.
Na atualidade, são estruturas classificatórias que servem como
instrumento para a organização e recuperação de informação nas
empresas e instituições. Principalmente, organizam e administram
os recursos digitais de informação que, como organizações
complexas, alojam nos seus servidores web, procurando categorizá-
los e ter condições de navegabilidade51.
Consideram-se as taxonomias meios de acesso pois atuam como
mapas conceituais dos assuntos solicitados em um serviço de
recuperação: buscando categorizá-las, folheá-las e navegar por
elas. Sua primeira função tem, então, mais de visualização do que
recuperação52.
As taxonomias estão presentes nos
Esquemas de classificação, Tesauros, Modelos conceituais e
Ontologias
6.1 Taxonomias: características e
componentes básicos
Componentes:
Estrutura classificatória hierárquica (contexto conceitual): com
determinados níveis de profundidade.
Rótulos de entrada: lista de termos que dão nome aos
conceitos. São os elementos da estrutura, agrupados em blocos
temáticos.
Admitem facetas não-hierárquicas: dão dinamismo e pluralidade
de enfoques aos assuntos.
Uma taxonomia organiza não só os conteúdos próprios de uma
organização, mas também
Serviços.
Produtos.
Recursos humanos.
Com respeito à relação entre as taxonomias e os termos, devem
ser feitas as seguintes considerações:
Nos tesauros, os termos têm justificação documentária, nas
taxonomias, o usuário os certifica: o conteúdo se adapta aos usos e
à situação dos usuários.
Termos:
Categorias representadas por entradas etiquetadas orientadas
ao usuário.
Cobertura dos termos:
Baseados no contexto de aplicação.
Fáceis de modificar.
Estrutura:
Tamanho manejável tanto da estrutura hierárquica como da
facetada.
Baseados no contexto de aplicação.
Dinâmica.
Características das taxonomias:
As taxonomias, enquanto estruturas classificatórias, representam
os objetivos de organização intelectual em um determinado cenário.
Neste sentido, são diferentes,dependendo do tipo de organização e
das informações que pretendem representar:
Pertencem a um domínio concreto.
Contêm uma lista estruturada de conceitos/termos.
Incluem termos sem definição, somente com relações
hierárquicas.
Possibilitam a organização e recuperação de informação
mediante navegação.
Permitem acrescentar dados, além de explicitar um modelo
conceitual do domínio.
São um instrumento de organização intelectual, atuando como
um mapa conceitual dos assuntos solicitados em um Sistema
de Recuperação de Informação.
São um novo mecanismo de consulta dos portais institucionais
por navegação.
Atendem às linguagens particulares de uma instituição que não
possui tesauros e classificações.
Conectam a experiência e características do pessoal próprio de
cada instituição.
Permitem aos usuários classificar as matérias usando
hierarquias.
Termos autorizados e definições que uma organização usa para
classificar seus conteúdos.
Rede semântica de conceitos interrelacionados para cobrir as
necessidades empresariais e a forma como os trabalhadores se
relacionam com a informação.
Desvantagem:
As taxonomias são restritas nas suas possibilidades de
exploração, ao conter apenas relações hierárquicas e partitivas.
Assim, têm que ser complementadas com mecanismos de busca,
caso se queira acessar outras relações.
Geralmente é bem aceito falar-se de três tipos de taxonomias:
Taxonomia canônica, classificação de unidades sistemáticas
(família, gênero, espécie).
Taxonomia de domínio (ou especialidade).
Taxonomia de processos e tarefas de gestão.
6.2 Construção de Taxonomias
6.2.1 Processo de construção: critérios gerais
A construção de taxonomias requer um planejamento metódico:
inicia-se com seu dimensionamento, depois vêm as etapas de
construção.
Alguns princípios são fundamentais para garantir a consistência
de sua estrutura classificatória e alcançar uma boa recuperação.
Para determinar o tamanho, temos que ter dados sobre53:
Que problema a taxonomia quer responder?
Para que tipo de informação corporativa e com que alcance?
Que volume de informação nova se espera?
Que disponibilidade os especialistas da área têm para
desenvolver a taxonomia?
Qual é a arquitetura de informação e informática com que conta
a organização para apoiar a existência da taxonomia?
Em relação aos termos empregados, deve-se considerar o
seguinte:
Comunicabilidade: o termo empregado deve representar a
linguagem empregada pelos usuários.
Utilidade: o nível de especificidade dos termos deve expressar
um agrupamento de documentos e não um único documento.
Um termo só é útil quando representa um conjunto de
documentos.
Motivação: o uso de termos induz o usuário a continuar a
navegação pelo sistema.
Compatibilidade: os termos empregados representam o âmbito
de referência, integrando as atividades e funções da
organização.
6.2.2 Métodos para construir Taxonomias
Reutilização de taxonomias
Antes de criar uma taxonomia deverá se investigar se existem
taxonomias sobre a mesma temática ou de temática similar.
Para economizar tempo e esforço valem inclusive listas e
linguagens controladas. Haverá que contar com seu acesso, gratuito
ou não.
Três métodos básicos (Jagerman)54:
Do genérico ao específico (descendente).
Do específico ao genérico (ascendente).
Aproximação facetada.
Do genérico ao específico (descendente): o método mais
tradicional.
1º Passo. Levantar e registrar o material.
Tarefas
Extração de recursos de informação para fazer mineração de
termos (mediante entrevistas a especialistas…).
Dotação de um código abreviado a cada um dos entrevistados
para conhecer a procedência de cada termo.
Seleção de termos e transferência com toda a informação
(definições, sinônimos e termos relacionados) em forma
taxonômica ao computador.
2º Passo. Reduzir todos seus sinônimos e às variações ao termo
preferente e dispor todos eles em ordem alfabética.
Tarefa
Unificação da informação sobre termos sinônimos, inclusive podendo
acrescentar-se informação proveniente de outras fontes para esclarecer
as razões de algumas unificações terminológicas. Ordenação de todos
os termos preferentes em ordem alfabética.
3º Passo. Elaborar a estrutura sistemática prévia. Pode fazer-se a
partir de um mapa conceitual que contenha todos os termos. Pode-
se unir a técnicas de tesauros como as relações de homonímia-
sinonímia ou de equivalência.
Tarefa
Detalhe da estrutura. Determinação ampla das classes e dotação dos
termos a cada uma delas.
Depois, determinação das subclasses e dotação dos termos a cada uma
delas.
4º Passo. Elaborar uma primeira versão do esquema.
Tarefa
Construção da primeira versão e sua distribuição aos expertos do
domínio para que a avaliem e, assim, possam ser introduzidas melhoras.
5º Passo. Completar a taxonomia com todos os seus termos.
Tarefa
Revisão de todas as entradas:
1. Formulação normalizada das abreviaturas.
2. Determinação dos descritores.
3. Estabelecimento das relações de equivalência e hierarquia.
6º Passo. Comprovar o funcionamento em experimentos de
indexação e recuperação.
Tarefa
Ensaios sobre um corpus documentário do domínio; possíveis
modificações.
7º Passo. Publicar uma versão da taxonomia.
Tarefa
Aplicação da taxonomia na indexação e recuperação.
Do específico ao genérico (ascendente)
Parte dos elementos componentes e situa-os em classes.
Cada subgrupo de um acervo documentário se situa em uma
categoria específica.
A graduação sucessiva de subdivisões vai situando subgrupos até
alcançar as macrocategorias.
1º Passo. Formar um grupo de expertos no domínio da taxonomia
a ser criada.
Tarefa
Trabalho com os expertos para determinar o alcance da taxonomia.
2º Passo. Formar uma coleção representativa de documentos já
indexados.
Tarefa
Emprego dos termos de indexação como lista preliminar.
3º Passo. Criar uma coleção de documentos, se estes não
estiverem indexados.
Tarefa
Indexação da coleção de documentos com palavras-chave. Se contarem
com algum tipo de índice, aproveitá-lo para obter as palavras-chave.
4º Passo. Criar o esquema taxonômico na sua primeira versão.
Tarefa
Normalizar os termos e organiza-los para construir a taxonomia.
5º Passo. Contar com expertos no domínio.
Tarefa
Contato com expertos para esclarecer o significado de termos ambíguos.
6º Passo. Avaliar a taxonomia mediante provas de indexação e
recuperação.
Tarefa
Experimentos de indexação e recuperação com uma coleção de
documentos. Introdução das modificações necessárias.
7º Passo. Publicar uma versão da taxonomia.
Tarefa
Aplicação da taxonomia à indexação e à recuperação.
Aproximação facetada
Facetas ou categorias genéricas excludentes para ordenar os
termos nas linguagens documentárias.
Em uma primeira divisão do domínio, cada faceta agrupa os
termos em categorias semânticas coerentes e homogêneas. Uma
faceta inclui termos que têm relações de sinonímia ou de
hierarquia55.
Um vocabulário dividido em facetas torna-se manejável.
Passos
1. Criar uma lista de termos que representem conceitos simples.
2. Agrupar os termos em categorias excludentes, a não ser em
casos excepcionais.
3. Classificar as facetas em um número restrito de categorias
fundamentais. A função de um termo dentro do esquema se
define com estas categorias.
4. Usar notações para fixar o valor classificatório de cada termo
dentro da sequência.
5. Fixar o significado, mediante definições dos termos mais
abstratos ou ambíguos.
Processo de construção: metodologia
A partir dessas considerações, aplica-se algum processo desta
metodologia nos passos antes determinados:
1. Mineração de dados.
2. Análise dos documentos/informações que foram agregadas à
taxonomia.
3. Elaboração da estrutura classificatória da taxonomia.
4. Verificação por especialistas
1. Mineração de dados
Trata-se de identificar as matérias que se incluirão na estrutura
classificatória como pontos de acesso à informação. Esta
identificação pode ser feita a partir de entrevistas com especialistas,
de documentos existentes na instituição e de instrumentos
classificatóriosou terminológicos.
Para elaborar um vocabulário básico, pode-se partir das frases de
busca dos usuários ou por meio de entrevistas com especialistas,
definindo-se a metodologia para transformar o conhecimento tácito
do especialista em conhecimento explícito. Emprega-se a técnica de
observação participativa entre o analista e o especialista, a partir de
propostas classificatórias existentes num dado contexto.
O analista transforma os resultados dessa discussão em novas
propostas que serão, por sua vez, discutidas até chegar a um
modelo adequado que satisfaça os objetivos da organização.
2. Análise da informação que se agregará à taxonomia.
Ao servir de mapa de navegação para um tipo específico de
informação, é necessária uma superestrutura classificatória que
atenda à natureza dos documentos agregados.
Busca-se representar os conhecimentos existentes e explicitados
pela comunidade de especialistas. Isto se refletiria em um universo
de documentos e não em um conhecimento falso que não expresse
o contexto e as visões daquela comunidade56.
As taxonomias agregam documentos, considerados em sua
acepção mais ampla. Estas informações devem encontrar
hospitalidade no sistema.
3. Elaboração da superestrutura classificatória da taxonomia
É importante definir a tipologia de taxonomia a representar, para
que setor (especialidade) ou para que processos e tarefas de
gestão; em seguida, determinam-se os princípios utilizados na
elaboração de estruturas classificatórias.
Além disso, a taxonomia é fruto do modelo de representação
adotado; assim, é necessário definir a superestrutura representativa
e o software a utilizar57.
É importante investigar as formas gráficas de representação, pois
em alguns casos estas formas “inibem” as possibilidades
representativas. Toda taxonomia é fruto de um processo
representativo e classificatório, por isso é produto de uma
construção representativa do estado e da visão do conhecimento de
seus elaboradores.
Neste sentido, considera-se fundamental explicitar os princípios
pelos quais essas representações foram construídas, pois isto
facilita sua constante alimentação.
4. Verificação por especialistas.
Duas funções:
Confirmar o trabalho realizado.
Transferir o conhecimento do processo de realização.
É imprescindível verificar todas as etapas de definição da
taxonomia, a partir dos estudos dos documentos/informações
agregadas, até a definição das formas gráficas de representação.
Assim, podem ser alcançados critérios de comunicabilidade,
estímulo e compatibilidade.
Conclusão
Para o usuário, uma taxonomia é um guia no assunto a ser
pesquisado. Evita-se, assim, a necessidade de ele compreender o
assunto antes de fazer uma pergunta.
A navegação por categorias, no acesso à taxonomia, fomenta o
pensamento associativo e pode guiar o usuário através de
processos de descoberta da informação.
Embora a navegação por taxonomias não seja melhor que outras
formas de busca, como as palavras-chave nos sites e portais web, a
utilização das taxonomias se tornou mais importante, pois a
navegação é uma interface bem desenhada sobre a informação
contida no documento.
O analista se fundamenta em princípios classificatórios explícitos
e consistentes.
6.3 Exemplos de Taxonomias
http://www.ilo.org/public/spanish/support/lib/tools/taxonomy.htm
Law X.0;
http://3lepiphany.typepad.com/3l_epiphany/2006/03/taxonomy_
overfl_79.html
www.xbrl.es/downloads/Taxonomias/plantilladocumentotaxono
mia_dic2005.doc
http://webinsider.uol.com.br/index.php/2006/12/07/a-taxonomia-
na-gestao-estrategica-das-empresas/
http://usabilidoido.com.br/cardsorting_classificando_conteudo.ht
ml
http://webinsider.uol.com.br/index.php/2006/11/28/a-
importancia-e-o-impacto-da-taxonomia-nas-empresas/
http://www.cin.ufsc.br/pgcin/Vital,%20Luciane.pdf
http://tematres.r020.com.ar
http://www.ilo.org/public/spanish/support/lib/tools/taxonomy.htm
http://3lepiphany.typepad.com/3l_epiphany/2006/03/taxonomy_overfl_79.html
http://www.xbrl.es/downloads/Taxonomias/plantilladocumentotaxonomia_dic2005.doc
http://webinsider.uol.com.br/index.php/2006/12/07/a-taxonomia-na-gestao-estrategica-das-empresas/
http://usabilidoido.com.br/cardsorting_classificando_conteudo.html
http://webinsider.uol.com.br/index.php/2006/11/28/a-importancia-e-o-impacto-da-taxonomia-nas-empresas/
http://www.cin.ufsc.br/pgcin/Vital,%20Luciane.pdf
http://tematres.r020.com.ar/
7 Tesauro
7.1 Tesauro: rede conceitual e
instrumentalidade
Conceito: lista de descritores (termos controlados) que
representam os conceitos de um domínio do conhecimento. E se
organiza em estrutura hierárquica com relações semânticas entre si.
Dentro de cada campo semântico, os descritores mantêm as
relações propostas por Aristóteles: gênero, subtipo e diferença58.
Nestas relações interconceituais, está a causa da ordem hierárquica
(facetas em que se classifica e desenvolvimento destas).
O principal objetivo dos tesauros é eliminar a ambiguidade da
linguagem na matéria à qual pertencem os termos.
Outros objetivos são:
Representar de maneira unívoca o conteúdo dos documentos.
Ajudar o usuário na indexação dos documentos e das
consultas.
Controlar o vocabulário utilizado em um determinado sistema
documentário.
Servir de ponte entre o analista e o usuário.
Oferecem inferência terminológica dentro de uma lista de
conceitos que se expressam mediante termos simples ou
sintagmáticos entre os quais se estabelecem relações semânticas.
Na sua fase de construção, os documentos já contêm tesauros
interiores, pelas relações semânticas entre seus termos
componentes, em especial dentro de campos semânticos
coincidentes com a macroestrutura geral e com as macroestruturas
parciais. Tendência: identificá-los automaticamente em documentos
individuais; mas também corroborando sua estabilidade dentro de
um domínio pela repetição de sua presença e de suas relações.
Ao construir um tesauro manejamos três ferramentas:
Um corpus de termos extraídos do domínio cuja representação
se quer fazer59.
Uma organização macroestrutural que fixa os esquemas e a
segmentação desse corpus:
com uma macroestrutura global (domínio de aplicação);
com macroestruturas secundárias (os macrodescritores que
encabeçam cada uma das subdivisões do tesauro);
desenvolvimento em submacrodescritores (classificam as
famílias de termos).
E umas microestruturas ou estruturas de superfície: os próprios
descritores e suas relações.
O tesauro conta com elementos estruturais ou unidades léxicas
que representam os conceitos 60:
Descritores: Representam de maneira unívoca conceitos
utilizáveis para indexar ou consultar. Em geral são palavras
isoladas (principalmente substantivos), termos compostos ou
frases.
Não-descritores: Sinônimos ou quase-sinônimos dos
descritores (em relação de equivalência). Os não-descritores
não podem ser utilizados na indexação, só remetem a seus
descritores preferenciais.
Descritores auxiliares: qualificadores que contextualizam o
descritor. Evitam ter que definir um novo descritor. Reduzem o
tamanho do tesauro.
Grupos de descritores: definem-se para melhorar a
organização lógica do tesauro. Podem-se organizar por campos
(tema) ou por classes de termos ou “facetas” (categorias
genéricas que agrupam descritores que podem se definir, por
exemplo, como fenômenos, processos, materiais, organizações,
seres vivos, equipamentos, propriedades ou disciplinas).
A sintaxe do tesauro é determinada pela sua macroestrutura
global e pela sua superestrutura que estabelecem as normas de:
Ordenação (parte classificatória).
Subordinação (parte hierárquica).
Associação (completa a parte alfabética); reflete a concepção
mais comunicativa da linguagem.
A macroestrutura cumpre uma dupla função:
Fracionar o corpus de termos.
Levar para a situação exata dos termos dentro da
superestrutura.
Os termos:
Procuram as equivalências para evitar a sinonímia.
Estão controlados e normalizados para anular a sinonímia e a
polissemia → precisão.
As relações semânticas provêm:
da própria estrutura (classificação + hierarquia);
das associações.Os termos têm sentido semântico por aparecerem
contextualizados.
Recuperação a partir de conceitos (vantagem para as áreas
verticais): uso correto dos termos para formular as consultas61.
As relações semânticas organizam a estrutura do tesauro:
Equivalência - controla os termos utilizados e os não-
utilizados. Implica a designação de descritores e outras formas
de representar um conceito (sinônimos e quase-sinônimos) não
utilizado como ponto de acesso na indexação e na
recuperação.
Hierárquicas - apresentam níveis de superordenação e
subordinação. Cada termo subordinado é da mesma classe de
conceitos que seu termo geral. Subtipos de relações
hierárquicas:
Gênero-espécie (classe ou categoria / membros ou
espécies)
Partitivas (parte/todo)
Enumerativas (categoria geral / caso individual)
Poli-hierárquicas (conceito que tem mais de una cadeia
hierárquica; mais de um termo genérico).
Associativas - as mais difíceis de definir e estabelecer.
Quando uma relação não pode identificar-se como de
equivalência ou hierárquica:
Similitude
Causa e efeito
Instrumentalidade
Concomitância
Sucessão no tempo e no espaço
Relação com elementos constitutivos
Relação de propriedade
Objeto de uma ação, processo ou disciplina
Localização
Antonímia
No que diz respeito ao sistema fixo ou estático de descritores,
estes devem ser submetidos a revisões periódicas para assegurar
sua coerência perante a atualização do vocabulário e suas relações.
Como é o funcionamento do tesauro?
O usuário representa sua necessidade de informação e a traduz
à linguagem de recuperação.
Para precisar a busca, o tesauro expande a consulta por termos
relacionados.
Frente às listas de autoridades, os tesauros combinam termos
em pós-coordenação.
Os usuários combinam os conceitos com operadores
booleanos.
A pós-coordenação dá maior flexibilidade que a pré-
coordenação.
Mediante as relações semânticas, representa-se o pensamento e
se estabelecem associações entre os termos que compõem o
corpus, permitindo aos usuários navegar coerentemente pelos
conceitos que representam62:
Integrando termos dentro de uma mesma categoria.
Determinando diferenças de uma espécie em relação a outras.
Possibilitando a divisão ou análise do gênero pelas diferenças.
Concedendo definições (scope note) para ajustar o significado
de um termo.
Obs.: Consulte as partes e estrutura de um tesauro em:
Tesauro de Tesauro do Folclore e Cultura Popular Brasileira
http://www.cnfcp.gov.br/tesauro/
http://www.cnfcp.gov.br/tesauro/
7.2 Uso de Tesauros: vantagens e
desvantagens
Os tesauros oferecem dificuldades na sua utilização. O emprego
dos tesauros tem sido muito bem sucedido, mas a ambiguidade, a
riqueza e a capacidade de inovação, constantes das linguagens nas
quais se encontram expressos os documentos sendo trabalhados,
produzem, em algumas ocasiões, o silêncio ou o ruído, e constituem
uma falta de pertinência na hora da seleção de documentos. A isto
se acrescenta o problema do número de documentos que circulam
pela web e a variedade de seus suportes.
As estruturas definidas em um tesauro servem apenas para
recuperações que contenham aquelas relações estáticas com as
quais trabalha e que foram definidas a priori63. Por isto, colocam
dois inconvenientes:
Dificuldade para descrever campos com alto nível de abstração
(o da informática, por exemplo) ou documentos que não têm
nenhum tipo de estrutura (textos de livre formato).
Custo elevado na criação, manutenção e funcionamento,
evitáveis só com a automação ou semiautomação. Existem
muitas dificuldades para fazê-las devido à riqueza das
estruturas semânticas dos textos.
Vantagens que oferece o uso de tesauros:
Simples de criar e gerar.
Alguns muito testados.
Legíveis.
Grau de coerência geralmente alto.
Eficácia comprovada.
Abundância de tesauros.
Bom ponto de partida para criar ontologias.
Desvantagens:
Sem mecanismos para compartilhar informação na Web (até a
aparição de SKOS (Simples Knowledge Organization System).
Estão pensados para domínios restritos.
Dificuldade de definir relações.
Regras de nomeação segundo normas de automação
complicadas.
É um vocabulário sem relação direta com os objetos.
Criação por consenso prévio de criadores, não de usuários.
Custo elevado na criação, manutenção e funcionamento,
evitáveis só com a automação64.
Busca de soluções para estes inconvenientes:
Linguística: amplia o tesauro criando-lhe diferentes “vistas”
(facetas). Isto complica a automação dos modelos e os torna pouco
intuitivos e pouco manejáveis para o usuário. Por isto, os processos
de filtragem para eliminar previamente os termos não significativos,
o tratamento dos termos flexionados mediante algoritmos de
stemming (número de n-grams grupos de letras), o tratamento de
palavras compostas, a discriminação de termos representativos de
um texto: algoritmos IDF y N-grams65.
- Estatística: solução matemática e, por isso, favorável à
automação, no entanto distante da realidade linguística, pois os
algoritmos dão uma visão simplista do mundo real. Deste modo, são
eficazes somente em âmbitos muito definidos. Empregam-se
algoritmos k-means, co-ocorrência terminológica ou redes neuronais
(ART, Kohonen etc)66. Assim, a obtenção de associações temáticas
entre componentes (clusterização em classes dos descritores com
características comuns)67: Classificadores cienciométricos: Co-
wording; Estatísticos: Max-min, K-vecinos, K-vecinos incremental,
Isodata; Neuronais: Kohonen, Art-1, Art-2. Ou a construção da
representação do domínio: clusterização + extração de raízes:
cálculo do centroide (descritor mais geral do cluster).
- Computação: desde os anos 90, começaram a se aplicar
modelos próprios da engenharia de software aos tesauros.
A convergência destes métodos desembocou numa evolução dos
standards sobre tesauros para verdadeiros mapas de representação
do conhecimento. Esta transformação leva implícita a criação de
relações adaptáveis a cada domínio, assim como a inclusão de
grande variedade de descritores cuja categoria gramatical contribui
com matizes na semântica do mapa conceitual e de novas
categorias relacionais que ligam os recursos de informação e as
facetas.
Os tesauros proporcionam respostas às perguntas dos usuários
O quê continua sendo atual.
O Como supõe adaptar-se às novas necessidades.
7.3 Tesauros: aportes das novas normas
Trata-se das normas britânica BS 8723 (2005-2007)68 e da ANSI/
NISO Z39.19: 200569. Suas duas primeiras partes equivalem à
norma ISO 2788 e BS 5723. A terceira, Vocabularies other than
thesauri, atende a outras linguagens documentárias: taxonomias,
ontologias, cabeçalhos de assunto, esquemas de classificação e
redes semânticas. E a quarta, Interoperability between vocabularies,
refere-se à interoperabilidade na recuperação da informação: a
capacidade de dois ou mais sistemas ou componentes de
intercambiar informação e de usar essa informação intercambiada
(mapping).
As principais novidades da norma Z39.19: 2005 são:
Em vez de documentos, refere-se a objetos de conteúdo:
entidades que contêm informação.
Usa termo para referir-se aos descritores e termos
preferenciais: palavra que representa um conceito.
Distingue quatro tipos de linguagens controladas:
Listas.
Aneis de sinônimos.
Taxonomias.
Tesauros.
Considera como finalidades das linguagens controladas:
Tradução: do vocabulário natural aos termos.
Consistência: uniformidade na atribuição dos termos.
Indicação de relações semânticas entre os termos.
Etiquetado e visualização: proporcionar hierarquias para
localizar os objetos de conteúdo desejados.
Recuperação: ajudam na busca dos objetos de conteúdo.
Figura 9 - Complexidade dos quatro tipos de
linguagens controladas, de menor a maior (da
esquerda para a direita)
Lista Anel de
sinônimo
Taxonomia Tesauro
Controle da
ambigüidade
Controle da
ambiguidade
Controle da
ambiguidade
Controle de
sinônimos
Controle de
sinônimos
Controle de
sinônimos
Relações
hierárquicas
Relações
hierárquicas
Relações
associativas
Fonte: elaboração própria
Lista: é um grupo simples de