Buscar

INDEXAÇÃO E RESUMOS_ TEORIA E PRÁTICA_30102018_noturno

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

INDEXAÇÃO E RESUMOS: 
TEORIA E PRÁTICA
Camila Rodrigues de Araujo nº USP 9799359
Jessica Oliveira Santos nº USP 8500318
João Vasques nº USP 9799321
Prof. Dra. Giovana Deliberali Maimone
Indexação: teoria e métodos - noturno
Sobre o livro:
Título: Indexação e resumos: teoria e prática
Autor: Frederick Wilfrid Lancaster
Primeira edição: 1991
Trata da indexação de assuntos e redação de resumos.
“A indexação de assuntos e a redação de resumos são atividades intimamente 
relacionadas, pois ambas implicam a preparação de uma representação do 
conteúdo temático dos documentos.” (LANCASTER, 2004, p. 6)
Capítulos abordados:
❖ Capítulo 2: Princípios da indexação
❖ Capítulo 3: A prática da indexação
❖ Capítulo 15: Indexação automática, redação automática de resumos e 
processos afins
Capítulo 2: Princípios da indexação
RESUMO
Resumidor: síntese do documento de 
forma clara e com boa qualidade.
INDEXAÇÃO
Indexador: descreve o conteúdo com 
um ou vários termos de indexação 
(vocabulário controlado).
Objetivo: indicar do que trata o documento e funcionar como pontos 
de acesso para recuperação.
Capítulo 2: Princípios da indexação
Extensão do registro:
● uma das propriedades mais importantes de 
uma representação de conteúdo temático;
● no resumo quanto mais informações 
apresentadas, mais se revela se satisfaz ou 
não a necessidade informacional;
● a indexação exaustiva proporciona uma 
indicação melhor do assunto.
 representação = recuperabilidade do item (pontos 
de acesso)
 
Capítulo 2: Princípios da indexação
Etapas da indexação de assuntos:
1. Análise conceitual
2. Tradução
1. Análise conceitual decide de que trata/assunto do documento. Para Lancaster (2004, p. 
15) “[...] identifica assuntos estudados ou representados num documento.” 
3 perguntas: 
● De que trata?
● Por que foi incorporado a nosso acervo?
● Quais de seus aspectos serão de interesse para nossos usuários?
Capítulo 2: Princípios da indexação
● “indexação centrada no usuário” (FIDEL, 1994 apud LANCASTER, 2004, p. 
10)
● Métodos colaborativos de indexação.
● É preciso que os indexadores 
saibam muito mais do que os 
princípios da indexação. Devem, 
em especial, estar inteiramente a 
par dos interesses da comunidade 
atendida e das necessidades de 
informação de seus membros.” 
(LANCASTER, 2004, p. 12)
Capítulo 2: Princípios da indexação
2. Tradução “[...] envolve a conversão da análise conceitual de um documento 
num determinado conjunto de termos de indexação.” (LANCASTER, 2004, p. 18)
● Indexação por extração (derivada): palavras ou expressões selecionados do 
documento.
● Indexação por atribuição: termos de outra fonte que não o documento, 
podendo ser o vocabulário controlado.
Capítulo 2: Princípios da indexação
Vocabulário controlado:
● Vocabulário controlados - lista de termos autorizados que serve para 
controlar sinônimos, diferenciar homógrafos e agrupar termos afins.
● 3 tipos principais de vocabulários controlados: esquemas de classificação 
bibliográfica, listas de cabeçalhos de assuntos e tesauros.
Capítulo 2: Princípios da indexação
Especificidade do vocabulário:
● Tradução para os 3 tipos de vocabulários;
● Alcance e especificidade do vocabulário;
● Propriedades de combinação de termos.
Segundo Lancaster (2004, p. 22-23):
[...] o tipo de vocabulário controlado (esquemas de classificação, listas de cabeçalhos de assuntos, 
tesauro) não é o fator mais importante a influir na etapa de tradução da indexação. Muito mais 
importantes são o alcance (abrangência) e a especificidade do vocabulário. [...] É importante 
considerar, em especial, as propriedades de combinações de termos de indexação mais do que as 
propriedades de termos isolados.
Capítulo 3: A prática da indexação
Quase em nenhuma oportunidade, o 
indexador conseguirá ler um texto ou 
documento completamente. Indica-se a 
leitura de trechos que têm maior 
probabilidade de fornecer informações 
importantes sobre o texto em menor tempo. 
Lancaster cita esses trechos, assim como 
dá uma lista presente em uma norma 
internacional sobre indexação de assuntos 
(Methods for examining documents) de 
1985:
a) título;
b) resumo, se houver;
c) sumário;
d) introdução, as frases e parágrafos 
de abertura de capítulos, e as 
conclusões;
e) ilustrações, gráficos, tabelas e 
respectivas legendas;
f) palavras ou grupos de palavras 
que apareçam sublinhados ou 
grafados com tipos diferentes.
Capítulo 3: A prática da indexação
O autor frisa que esses pressupostos são 
considerados para documentos que são 
possíveis de se ler, a já citada Methods for 
examining documents fala sobre diferentes 
procedimentos para os outros tipos de 
documentos, como os audiovisuais. Como 
no caso dos documento impressos, 
geralmente, o documento não é todo 
analisado (neste caso, assistido ou 
escutado), sendo a indexação feita a partir 
do título e/ou da sinopse. 
Usando como referência um texto de Browne 
(2001), fala-se da particularidade em indexar 
sites na web, para ter-se uma base e a 
indexação ser possível, o profissional deve: 
anotar o tipo de informação, a quantidade de 
informação, a qualidade dos vínculos de 
navegação, o tamanho dos arquivos e, por 
fim; solicitar ao responsável informações 
importantes dos arquivos, inclusive a 
quantidade de autores que contribuem com a 
página.
Capítulo 3: A prática da indexação
Exaustividade e exatidão da indexação:
Existem dois fatores que influem diretamente na 
eficiência de um sistema de recuperação da 
informação, ligados diretamente a indexação, são 
eles: a política de indexação e a exatidão da 
indexação. A principal decisão política diz a 
respeito à exaustividade da indexação, o que é 
relacionado ao número de termos atribuídos em 
média. Não é recomendado que exista um limite 
para esses termos mas, que se estabeleça uma 
faixa de termos padrão.
Figura que mostra o problema de uma indexação 
exaustiva, em que o indexador quer incluir todos os 
assuntos abordados no texto.
O correto seria uma indexação equilibrada (seletiva + 
exaustiva), que busque identificar os termos mais 
relevantes para o usuário.
Capítulo 3: A prática da indexação
Princípio da especificidade:
É o mais importante princípio da indexação de 
assuntos, remontando a Cutter. Este princípio 
defende que um tópico deve ser indexado sob o 
termo mais específico que o abranja 
completamente e se torna muito comum 
indexadores serem redundantes quando não o 
seguem. Lancaster usa o exemplo de um artigo 
sobre o cultivo de laranjas para exemplificar o 
princípio, o mesmo seria indexado sob o termo 
LARANJAS e não com um termo mais genérico 
como FRUTAS ou FRUTAS CÍTRICAS.
Incluir esses termos mais abrangentes 
tornará a tarefa de diferenciar artigos mais 
genéricos dos mais específicos mais difícil e 
demorada. Deve se entender que é possível 
ter especificidade com a combinação de 
termos, se nenhum termo sozinho possa 
representar um tópico.
Capítulo 3: A prática da indexação
Outras diretrizes:
Nenhuma outra regra rigorosa, além do princípio 
da especificidade foi desenvolvida para atribuição 
dos termos. O único outro princípio formulado é 
denominado de “indexação compulsória”, que é 
basicamente uma reafirmação do princípio da 
especificidade. Apesar de teorias e axiomas 
surgirem de vários autores, Lancaster analisa 
que eles não são diretamente ligados a 
indexação. Segundo ele, é possível identificar 
apenas duas regras básicas; uma referente a 
análise conceitual e outra a etapa de tradução:
1. Inclua todos os tópicos 
reconhecidamente de interesse 
para os usuários do serviço de 
informação, que sejam tratados 
substantivamente no documento
2. Indexe cada um desses tópicos 
tão especificamente quanto o 
permita o vocabulário do sistema e 
o justifiquem as necessidades ou 
interesses dos usuários. 
Capítulo 3: A prática da indexação
Índices pós-coordenados:
O conteúdo temático objeto de um 
documento e os termos de indexação que lhe 
são atribuídos possuem caráter 
multidimensional.Lancaster usa como 
exemplo um texto que trata da migração de 
mão-de-obra de Moçambique para as minas 
da África do Sul.
Um sistema de recuperação da 
informação que permite que uma busca 
combine os termos de qualquer maneira é 
chamado de pós-coordenado. Um sistema 
informatizado moderno, funciona em linha 
e pode ser imaginado conceitualmente 
como uma matriz.
Sobre os índices pós-coordenados pode 
se afirmar:
Capítulo 3: A prática da indexação
Índices pós-coordenados:
1. Os termos podem ser combinados entre si de qualquer forma no momento 
em que se faz a busca.
2. Preserva-se a multidimensionalidade das relações entre os termos.
3. Todo termo atribuído a um documento tem peso igual - nenhum é mais 
importante que o outro.
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
“As representações de textos podem ser o 
próprio texto completo, partes dele ou outra 
forma de representação construída [...] As 
representações de pedidos serão termos, 
apresentados em relações lógicas, enunciados 
textuais ou ‘itens’ [...].” (LANCASTER, 2004, p. 
284)
Problemas de recuperação da informação:
● mensagem em diferentes formatos;
● necessidades de informação como pedidos formulados a um serviço de informação;
● serviço de informação que armazena as informações numa base de dados.
“Os textos podem não ser representações perfeitas das mensagens [...] as representações 
dos textos também podem ser imperfeitas. E por sinal, os pedidos raramente são 
representações perfeitas das necessidades de informação [...]. ” (LANCASTER, 2004, p. 
284)
Bates (1986 apud LANCASTER, 2004) a respeito do problema da recuperação da 
informação foca na problemática da saída da atividade (necessidade de informação - pedido 
- representação) em relação a entrada (mensagem - texto - representação).
Lancaster (2004) menciona a aplicação de computadores na indexação automática e 
elaboração automática de resumos. 
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
Indexação por extração automática:
Na indexação por extração, palavras ou 
expressões que aparecem no texto são 
extraídas e utilizadas” (LANCASTER, 2004, p. 
286)
Critérios de indexação por extração feita por 
humanos e computadores:
● frequência;
● posição;
● contexto.
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
Métodos para o critério de frequência:
● seleção de palavras e expressões no 
texto;
● seleção de radicais;
● processamento da primeira e última 
linha de cada parágrafo 
(BAXENDALE, 1958);
● frequência relativa combinada a 
frequência absoluta.
Indexação por atribuição automática:
De acordo com Lancaster (2004, p. 289):
A extração automática apresenta nítida vantagem em relação à extração feita por seres 
humanos: é totalmente coerente. No entanto, a maior parte da indexação feita por seres 
humanos não constitui indexação por extração, mas indexação por atribuição, e a realização 
desse trabalho por computador é, em geral, mais difícil.
Método para indexação por atribuição feita por computador:
● desenvolver um “perfil” de palavras e expressões para cada termo
Ex: termo “chuva ácida” chuva ácida, precipitação ácida, poluição atmosférico, etc.
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
● Outras formas de classificação:
A indexação é uma forma de classificação na 
qual há atribuição de “itens”, nela são criadas 
classes de documentos ou classes de termos.
O capítulo 15 trata principalmente da “indexação” 
e a “elaboração automática de resumos”. 
○ Em sistemas “convencionais”: 
recuperação da informação é realizada 
na forma de buscas auxiliadas por 
associações estabelecidas entre termos. 
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
○ Método automático: de 
classificação é baseado na 
comparação (cotejar) da linguagem 
natural, resumos e/ou 
representações documentais.
○ Eficácia das buscas: o método 
automático vem incorporando 
processos automáticos.
○ Co-ocorrência: que é a relação 
entre termos explorada pelo 
computador. 
Ex. de co-ocorrência: Quanto mais 
frequentemente dois termos ocorrerem juntos 
[...], mais provável será que tratem de 
conteúdo temático similar [...] se o termo A 
nunca ocorre em B e o termo B nunca ocorre 
sem A [...] os dois termos são totalmente 
interdependentes e seriam completamente 
intercambiáveis na busca. Além da associação 
direta: (X e X tendem a ocorrer juntos).
○ Associações indiretas: termos podem 
também ser derivados com base nos 
dados de co-ocorrência. (LANCASTER, 
2004, p. 294).
 
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
○ O cálculo de associação: 
É feito através da co-ocorrência relativa à 
frequência de ocorrência de cada termo. 
A relacionalidade “R” de dois termos é definida 
pela equação 
○ Relacionalidade: os dados obtidos com a 
relacionalidade podem ser usados de 
duas formas:
✓ Desenvolve-se e armazena-se uma rede 
de associações entre dois termo;
✓ Identificam-se e armazenam-se classes 
separadas de termos com base em 
associações extraídas da rede.
Tipos de classes de termos:
➢ Facção: 
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
➢ Estrela: 
➢ Fileira: 
➢ Conglomerado:
 
➢ Tais classes derivam de um processo 
estatístico;
● Outras formas de ligação:
○ Indexação semântica latente: 
abordagem similar ao “agrupamento de 
itens relacionados” é a “Indexação 
semântica latente”, que se baseia no 
processo de classificação relacionado com 
a análise fatorial. 
○ Acoplamento bibliográfico: Kessler 
(1962-1965) fórmula que quanto mais 
referências dois itens tiverem em comum, 
mais forte será seu acoplamento.
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
○ Co-citação: um tipo de ligação que alguns 
itens forma uma classe por serem citados 
juntos. (quanto mais itens co-citarem, mais 
fortemente estarão relacionados). 
○ É importante ressaltar que as classes 
formadas por co-citação sofrem mudanças 
com o passar do tempo, pois novas 
inter-relações entre pesquisas e resultados 
são estabelecidos.
○ Esse método poderia descobrir itens úteis que 
não seriam encontrados por meio 
convencionais. Porém o método normal 
consegue localizar itens que a ligação por 
citação não conseguiria, os dois métodos são 
complementares e não concorrentes. 
● Redação automática de resumos:
Os computadores podem ser programados para 
selecionar termos de documentos seguindo 
critérios de frequência, isso basicamente se 
denomina como a “redação automática de 
resumo ou elaboração automática de extratos”. 
O criador desse método é Luhn (1958), e para 
tanto adotou os seguintes procedimentos: 
➢ Uma lista de palavras proibidas elimina do 
processamento posterior todas as 
palavras não-significativas.
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
➢ Contam-se as ocorrências de todas as 
palavras restantes, que são ordenadas 
segundo sua frequência de ocorrência 
(podem ser usados radicais no lugar das 
palavras).
➢ Todas as palavras que ocorram mais de x 
vezes são definidas como palavras de “alta 
frequência” ou significativas”. 
➢ Localizam-se as frases que contenham 
concentrações dessas palavras de alta 
frequência, Consideram-se duas palavras 
relacionadas dentro de uma frase se não 
houver mais de quatro palavras 
intermediárias.
➢ Calcula-se um “fator de significância” 
para cada frase, da seguinte maneira:
✓ determina-se o número de 
“aglomerados” na frase (grupo de 
palavras mais extenso, demarcado por 
palavras significativas e estas não 
estejam separadas por de 4 palavras 
intermediárias); 
✓ determina-se o número de palavras 
significativas no aglomerado e se divide 
o quadrado desse número pelo total de 
palavras dentro do aglomerado;
Capítulo 15: Indexação automática, redaçãoautomática de 
resumos e processos afins
✓ define-se o fator de significância da 
frase como o valor do aglomerado mais 
alto ou como a soma dos valores de 
todos os aglomerados na frase.
Exemplo:
 
○ De acordo com Luhn, as frases que 
tenham fatores de significância mais altos 
serão selecionadas na sequência em que 
ocorrem no texto, dando forma ao 
“resumo”. 
○ O resumo feito dessa forma pode parecer 
confuso, pois tira frases de todas as 
partes do texto (começo, meio e fim). 
○ O importa é que as frases escolhidas 
tenham o quadro exato do que o 
documento está tratando.
○ Luhn (1959) e Oswald et al (1959), 
utilizam a frequência de palavras ou 
expressões para a seleção de frases. 
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
● Outros pesquisadores empregaram 
critérios alternativos para extratos 
automáticos:
● Ex. Edmundson (1959), identificou 4 
métodos possíveis:
✓ Método de chave
✓ Método da deixa
✓ Método do título
✓ Método da Localização
Já para Rush et al. (1971) qualquer método de 
extração deve ter critérios de rejeição e seleção 
de frases, levando em conta a relevância 
contextual. 
● O seu método baseia-se no cotejo do 
texto com uma lista de Controle de 
palavras, que inclui uma lista de 
expressões que levariam a seleção ou 
rejeição dos termos. 
● Seu método oferecia vantagens em 
relação a processos anteriores, pois tinha 
a capacidade de:
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
✓ Modificar frases extraídas;
✓ “Remissão interfrasal” (frase testada para 
determinar seu significado, dependentes 
das frases precedentes. se o significado 
fosse dependente, as frases (max. 3) 
seriam incluídas no resumo, mesmo sem 
estar de acordo com os critérios de 
aceitação;
✓ Capacidade de criar extratos com melhor 
sequência lógica.
Mathis et al. (1973) fez modificações no método 
de Rush, referentes às características de 
modificação frasal e remissão interfrasal dos 
processos anteriores, assim pretendia-se produzir 
representações que sejam mais legíveis. 
Earl (1973) fez experimentos para determinar se 
as frases poderiam ou não ser significativas e 
identificadas por meio de análise sintática. A 
hipótese de Earl era que as frases que 
contivessem certas estruturas sintáticas seriam 
mais indicativas de conteúdo do que outras. 
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
Paice (1981) descreveu processos de elaboração 
automática de extratos baseados na identificação 
de frases com probabilidade de serem bons 
indicadores daquilo de que trata um documento. 
(expressões como “o principal objetivo” ou 
“descreve-se um método”).
Fum et al. (1982) descreveram um método de 
elaboração automática de resumos no qual, 
processos de análise sintática e ponderação 
identificam as informações mais importantes 
transmitidas num texto e eliminam elementos 
não-essenciais e reestruturam o restante em um 
resumo condensado e expressivo. (Processo não 
viável com documento extensos)
Hahn e Reimer (1984) desenvolveram um método, inspirado no conceito de “sistema 
especialista”, para condensação de textos, em que foi adotado uma base de 
conhecimento de quadros que aplicavam à análise sintática de textos(métodos que 
pode ser utilizados para criar condensação em vários níveis). 
Quanto mais formais e coerentes forem os textos dos documentos, mais bem 
sucedidos provavelmente serão os processos de elaboração de extratos. 
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
● Operações “automáticas” de 
recuperação:
Processo que permitiria que um pedido 
expresso em texto em linguagem natural fosse 
cotejado com o texto dos documentos (texto 
completo, texto parcial ou alguma forma de 
apresentação), considera-se isso como uma 
espécie de coincidência de padrões.
○ Escore: Atribui-se aos textos de base de 
dados um tipo de escore, que reflete o 
grau de coincidência de um texto com um 
pedido, de modo que possam ser 
apresentados em forma de saída ordena
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
○ Método simples de coincidência: Levar em 
conta quantas palavras do pedido ocorrem 
em um resumo.
○ São possíveis muitos refinamentos desse 
nível rudimentar de estabelecimento de 
coincidência.
○ A coincidência pode basear-se em radicais, 
ao invés de palavras completas. 
○ Mais precisa se tiver como base expressões 
e não palavras simples.
○ Na posição intermediária entre palavras 
simples e expressões está o emprego da 
proximidade de palavras (capacidade de 
atribuir pesos maiores a palavras que 
apareçam perto uma da outra).
● diferentes critérios na atribuição de um 
escore ao texto, a fim de refletir o grau em 
que ele coincide com o texto de um 
pedido.
● escore atribuído pode basear-se em mais 
de um dos critérios. 
● Portanto um sistema “automático” deve 
incorporar diversos critérios possíveis 
para o estabelecimento de coincidência, e 
permitir ao usuário escolher um deles (ex. 
sistema mais elaborado SMART de 
Salton, elaborado por mais de 30 anos).
 
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
Salton (1989): os métodos de Salton 
determinam essencialmente a similaridade 
entre dois textos e expressam essa proximidade 
como um escore numérico, uma “medida de 
similaridade”, que será usada para ordenar a 
saída.
Pode-se atribuir outras utilizações para essa 
medida de similaridade dos textos (ex. medir 
proximidade de textos de documentos, 
permitindo formar classes de textos similares).
Esse escore pode estabelecer vínculos de 
hipertexto em uma rede de informação.
Savoy (1995) postula o estabelecimento de 
vínculos de hipertexto mediante aplicação de 
métodos probabilísticos. Também sugere que 
os vínculos de hipertexto sejam usados para a 
obtenção automática de novos termos de 
busca. 
Outros sistemas também foram criados para 
permitir ao usuário dar entrada a um pedido na 
forma de enunciado textual (ex. CITE 
desenvolvido por Doszkocs (1983)).
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
CITE: tem sido empregado como interface em 
linguagem natural com bases de dados 
MEDLINE e CATLINE da National Library of 
Medicine.
Ele funciona em uma base de dados de 
registros que possuem termos de indexação ou 
que envolva textos livres.
Abordagens atuais:
A internet provocou tremendo aumento do interesse pelas técnicas de recuperação em geral 
e pelos métodos automáticas em particular.” (LANCASTER, 2004, p. 310)
● Projeto TIPSTER: atividades de processamento automático de texto
Conferências: 
● TRECS (Text Retrieval Conferences) - recuperação de texto;
● MUCS (Message Understanding Conferences) - compreensão de mensagens;
● DUCS (Document Understanding Conferences) - compreensão de documentos;
● Conferências sobre processamento de linguagem natural aplicada;
● Conferências internacionais sobre análise e reconhecimento de documentos.
Capítulo 15: Indexação automática, redação automática de 
resumos e processos afins
Mais de 30 anos as pesquisas sobre indexação com o auxílio de computador. O auxílio em 
linha ocorre das seguintes formas: sugestão de termos aos indexadores; advertência para 
erros; substituição de termos inaceitáveis por aceitáveis; interface com a base de dados. 
(LANCASTER, 2004).
❖ Exemplos de sistemas de indexação com computador: 
● DCMS (Data Creation and Maintenance System) - National Library of Medicine;
● CAIN - usado no AGREP (base de dados da Comunidades Européia sobre projetos 
agrícolas), usa dois tesauros (AGRO-VOC e o CAB Thesauros);
● CASI (Center for AeroSpace Information) - NASA;
● SNOMED (Systematized Nomenclature of Human and Veterinary Medicine) - atribuição 
automática de descritores clínicos dos textos de resumo de alta de pacientes;
Capítulo 15: Indexação automática, redação automática de 
resumos e processosafins
● MedIndEx - sistema especializado da National Library of Medicine, baseado em quadros 
[frame-bases];
● CAIT (Computer-Assisted Indexing Tutor) - sistema especializado da National Agricultural 
Library.
❖ Sistemas descritos na literatura:
Jones e Bell (1992) - “[...] sistema projetado para extrair palavras ou expressões de textos, a 
fim de formar entradas de índices [...] baseia-se em listas armazenadas: de palavras a serem 
ignoradas, palavras/expressões/nomes de reconhecido interesse, e listas auxiliares para 
desambiguação de homógrafos.” (LANCASTER, 2004, p. 313)
Driscoll et al (1991) - “O texto é processado em cotejo com uma lista de mais de 3000 
expressões. A ocorrência de uma delas no texto aciona o uso de regras de inserção e 
eliminação.” (LANCASTER, 2004, p. 313)
Plaunt e Norgard (1998) - uso do tesauro INSPEC com base na técnica de “colocação lexical”.
 
NLM (National Library of Medicine) desenvolve processos para atribuir automaticamente a 
artigos de periódicos os cabeçalhos do Medical Subject Heading (MeSH):
● método de ligação com os termos do MeSH com expressões presentes nos títulos dos 
artigos e nos resumos, utilizando o Unified Medical Language System;
● método de cotejo das palavras, do título e do resumo de um artigo ‘novo’ com as 
palavras que ocorrem no título e no resumo de artigos já indexados, assim os termos 
atribuídos coincidentes tornam-se candidatos para atribuição ao novo artigo.
Pérez-Carballo (2001) - “A indexação semântica latente (ISL) é um dos mais elaborados 
esforços atuais visando a uma indexação automática de alta qualidade. Fundamenta-se em 
agrupamentos de termos baseados em co-ocorrência e identificação de documentos 
relativos a tais agrupamentos. Ao se apoiar em dados de co-ocorrência a ISL, também 
consegue lidar com o problema da variedade de termos que expressam ideias 
semelhantes.” (LANCASTER, 2004, p. 315-316)
❖ Redação de resumos assistida por computador:
Mudança do termo “redação automática de resumos” para “sumarização de textos”
De acordo com Lancaster (2004, p. 320):
“A sumarização automática ainda é uma questão de seleção de frases e o objetivo das pesquisas 
nesta área consiste em otimizar essa seleção e organizar as frases selecionadas para melhorar a 
clareza e utilidade do extrato.”
❖ Métodos descritos na literatura:
Hahn e Mani (2000) - modelo de ponderação linear, com localização no texto, número de 
ocorrências na base de dados como um todo e expressões-deixa (cue phrases)
Salton et al (1997) - medição das semelhanças entre pares de parágrafos no mesmo documento
Nomoto e Matsumoto (2001) - ‘diversidade’ - identificação de tópicos abrangidos no texto e 
seleção da frase mais representativa de cada tópico
Lehmam (1999) - seleção de frases que contenham a maior concentração de palavras ou 
expressões
Mani (2001) avalia resumo automáticos em métodos intrínsecos e extrínsecos:
Método intrínseco: Método extrínseco:
Obrigado!
Referências:
LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. rev. atual. 
Brasília, DF: Briquet de Lemos/Livros, 2004.

Continue navegando