INDEXAÇÃO E RESUMOS_ TEORIA E PRÁTICA_30102018_noturno

•

Engenharias

clara santos

12/08/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Culturas

1.547 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

INDEXAÇÃO E RESUMOS:
TEORIA E PRÁTICA
Camila Rodrigues de Araujo nº USP 9799359
Jessica Oliveira Santos nº USP 8500318
João Vasques nº USP 9799321
Prof. Dra. Giovana Deliberali Maimone
Indexação: teoria e métodos - noturno
Sobre o livro:
Título: Indexação e resumos: teoria e prática
Autor: Frederick Wilfrid Lancaster
Primeira edição: 1991
Trata da indexação de assuntos e redação de resumos.
“A indexação de assuntos e a redação de resumos são atividades intimamente
relacionadas, pois ambas implicam a preparação de uma representação do
conteúdo temático dos documentos.” (LANCASTER, 2004, p. 6)
Capítulos abordados:
❖ Capítulo 2: Princípios da indexação
❖ Capítulo 3: A prática da indexação
❖ Capítulo 15: Indexação automática, redação automática de resumos e
processos afins
Capítulo 2: Princípios da indexação
RESUMO
Resumidor: síntese do documento de
forma clara e com boa qualidade.
INDEXAÇÃO
Indexador: descreve o conteúdo com
um ou vários termos de indexação
(vocabulário controlado).
Objetivo: indicar do que trata o documento e funcionar como pontos
de acesso para recuperação.
Capítulo 2: Princípios da indexação
Extensão do registro:
● uma das propriedades mais importantes de
uma representação de conteúdo temático;
● no resumo quanto mais informações
apresentadas, mais se revela se satisfaz ou
não a necessidade informacional;
● a indexação exaustiva proporciona uma
indicação melhor do assunto.
representação = recuperabilidade do item (pontos
de acesso)

Capítulo 2: Princípios da indexação
Etapas da indexação de assuntos:
1. Análise conceitual
2. Tradução
1. Análise conceitual decide de que trata/assunto do documento. Para Lancaster (2004, p.
15) “[...] identifica assuntos estudados ou representados num documento.”
3 perguntas:
● De que trata?
● Por que foi incorporado a nosso acervo?
● Quais de seus aspectos serão de interesse para nossos usuários?
Capítulo 2: Princípios da indexação
● “indexação centrada no usuário” (FIDEL, 1994 apud LANCASTER, 2004, p.
10)
● Métodos colaborativos de indexação.
● É preciso que os indexadores
saibam muito mais do que os
princípios da indexação. Devem,
em especial, estar inteiramente a
par dos interesses da comunidade
atendida e das necessidades de
informação de seus membros.”
(LANCASTER, 2004, p. 12)
Capítulo 2: Princípios da indexação
2. Tradução “[...] envolve a conversão da análise conceitual de um documento
num determinado conjunto de termos de indexação.” (LANCASTER, 2004, p. 18)
● Indexação por extração (derivada): palavras ou expressões selecionados do
documento.
● Indexação por atribuição: termos de outra fonte que não o documento,
podendo ser o vocabulário controlado.
Capítulo 2: Princípios da indexação
Vocabulário controlado:
● Vocabulário controlados - lista de termos autorizados que serve para
controlar sinônimos, diferenciar homógrafos e agrupar termos afins.
● 3 tipos principais de vocabulários controlados: esquemas de classificação
bibliográfica, listas de cabeçalhos de assuntos e tesauros.
Capítulo 2: Princípios da indexação
Especificidade do vocabulário:
● Tradução para os 3 tipos de vocabulários;
● Alcance e especificidade do vocabulário;
● Propriedades de combinação de termos.
Segundo Lancaster (2004, p. 22-23):
[...] o tipo de vocabulário controlado (esquemas de classificação, listas de cabeçalhos de assuntos,
tesauro) não é o fator mais importante a influir na etapa de tradução da indexação. Muito mais
importantes são o alcance (abrangência) e a especificidade do vocabulário. [...] É importante
considerar, em especial, as propriedades de combinações de termos de indexação mais do que as
propriedades de termos isolados.
Capítulo 3: A prática da indexação
Quase em nenhuma oportunidade, o
indexador conseguirá ler um texto ou
documento completamente. Indica-se a
leitura de trechos que têm maior
probabilidade de fornecer informações
importantes sobre o texto em menor tempo.
Lancaster cita esses trechos, assim como
dá uma lista presente em uma norma
internacional sobre indexação de assuntos
(Methods for examining documents) de
1985:
a) título;
b) resumo, se houver;
c) sumário;
d) introdução, as frases e parágrafos
de abertura de capítulos, e as
conclusões;
e) ilustrações, gráficos, tabelas e
respectivas legendas;
f) palavras ou grupos de palavras
que apareçam sublinhados ou
grafados com tipos diferentes.
Capítulo 3: A prática da indexação
O autor frisa que esses pressupostos são
considerados para documentos que são
possíveis de se ler, a já citada Methods for
examining documents fala sobre diferentes
procedimentos para os outros tipos de
documentos, como os audiovisuais. Como
no caso dos documento impressos,
geralmente, o documento não é todo
analisado (neste caso, assistido ou
escutado), sendo a indexação feita a partir
do título e/ou da sinopse.
Usando como referência um texto de Browne
(2001), fala-se da particularidade em indexar
sites na web, para ter-se uma base e a
indexação ser possível, o profissional deve:
anotar o tipo de informação, a quantidade de
informação, a qualidade dos vínculos de
navegação, o tamanho dos arquivos e, por
fim; solicitar ao responsável informações
importantes dos arquivos, inclusive a
quantidade de autores que contribuem com a
página.
Capítulo 3: A prática da indexação
Exaustividade e exatidão da indexação:
Existem dois fatores que influem diretamente na
eficiência de um sistema de recuperação da
informação, ligados diretamente a indexação, são
eles: a política de indexação e a exatidão da
indexação. A principal decisão política diz a
respeito à exaustividade da indexação, o que é
relacionado ao número de termos atribuídos em
média. Não é recomendado que exista um limite
para esses termos mas, que se estabeleça uma
faixa de termos padrão.
Figura que mostra o problema de uma indexação
exaustiva, em que o indexador quer incluir todos os
assuntos abordados no texto.
O correto seria uma indexação equilibrada (seletiva +
exaustiva), que busque identificar os termos mais
relevantes para o usuário.
Capítulo 3: A prática da indexação
Princípio da especificidade:
É o mais importante princípio da indexação de
assuntos, remontando a Cutter. Este princípio
defende que um tópico deve ser indexado sob o
termo mais específico que o abranja
completamente e se torna muito comum
indexadores serem redundantes quando não o
seguem. Lancaster usa o exemplo de um artigo
sobre o cultivo de laranjas para exemplificar o
princípio, o mesmo seria indexado sob o termo
LARANJAS e não com um termo mais genérico
como FRUTAS ou FRUTAS CÍTRICAS.
Incluir esses termos mais abrangentes
tornará a tarefa de diferenciar artigos mais
genéricos dos mais específicos mais difícil e
demorada. Deve se entender que é possível
ter especificidade com a combinação de
termos, se nenhum termo sozinho possa
representar um tópico.
Capítulo 3: A prática da indexação
Outras diretrizes:
Nenhuma outra regra rigorosa, além do princípio
da especificidade foi desenvolvida para atribuição
dos termos. O único outro princípio formulado é
denominado de “indexação compulsória”, que é
basicamente uma reafirmação do princípio da
especificidade. Apesar de teorias e axiomas
surgirem de vários autores, Lancaster analisa
que eles não são diretamente ligados a
indexação. Segundo ele, é possível identificar
apenas duas regras básicas; uma referente a
análise conceitual e outra a etapa de tradução:
1. Inclua todos os tópicos
reconhecidamente de interesse
para os usuários do serviço de
informação, que sejam tratados
substantivamente no documento
2. Indexe cada um desses tópicos
tão especificamente quanto o
permita o vocabulário do sistema e
o justifiquem as necessidades ou
interesses dos usuários.
Capítulo 3: A prática da indexação
Índices pós-coordenados:
O conteúdo temático objeto de um
documento e os termos de indexação que lhe
são atribuídos possuem caráter
multidimensional.Lancaster usa como
exemplo um texto que trata da migração de
mão-de-obra de Moçambique para as minas
da África do Sul.
Um sistema de recuperação da
informação que permite que uma busca
combine os termos de qualquer maneira é
chamado de pós-coordenado. Um sistema
informatizado moderno, funciona em linha
e pode ser imaginado conceitualmente
como uma matriz.
Sobre os índices pós-coordenados pode
se afirmar:
Capítulo 3: A prática da indexação
Índices pós-coordenados:
1. Os termos podem ser combinados entre si de qualquer forma no momento
em que se faz a busca.
2. Preserva-se a multidimensionalidade das relações entre os termos.
3. Todo termo atribuído a um documento tem peso igual - nenhum é mais
importante que o outro.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
“As representações de textos podem ser o
próprio texto completo, partes dele ou outra
forma de representação construída [...] As
representações de pedidos serão termos,
apresentados em relações lógicas, enunciados
textuais ou ‘itens’ [...].” (LANCASTER, 2004, p.
284)
Problemas de recuperação da informação:
● mensagem em diferentes formatos;
● necessidades de informação como pedidos formulados a um serviço de informação;
● serviço de informação que armazena as informações numa base de dados.
“Os textos podem não ser representações perfeitas das mensagens [...] as representações
dos textos também podem ser imperfeitas. E por sinal, os pedidos raramente são
representações perfeitas das necessidades de informação [...]. ” (LANCASTER, 2004, p.
284)
Bates (1986 apud LANCASTER, 2004) a respeito do problema da recuperação da
informação foca na problemática da saída da atividade (necessidade de informação - pedido
- representação) em relação a entrada (mensagem - texto - representação).
Lancaster (2004) menciona a aplicação de computadores na indexação automática e
elaboração automática de resumos.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Indexação por extração automática:
Na indexação por extração, palavras ou
expressões que aparecem no texto são
extraídas e utilizadas” (LANCASTER, 2004, p.
286)
Critérios de indexação por extração feita por
humanos e computadores:
● frequência;
● posição;
● contexto.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Métodos para o critério de frequência:
● seleção de palavras e expressões no
texto;
● seleção de radicais;
● processamento da primeira e última
linha de cada parágrafo
(BAXENDALE, 1958);
● frequência relativa combinada a
frequência absoluta.
Indexação por atribuição automática:
De acordo com Lancaster (2004, p. 289):
A extração automática apresenta nítida vantagem em relação à extração feita por seres
humanos: é totalmente coerente. No entanto, a maior parte da indexação feita por seres
humanos não constitui indexação por extração, mas indexação por atribuição, e a realização
desse trabalho por computador é, em geral, mais difícil.
Método para indexação por atribuição feita por computador:
● desenvolver um “perfil” de palavras e expressões para cada termo
Ex: termo “chuva ácida” chuva ácida, precipitação ácida, poluição atmosférico, etc.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● Outras formas de classificação:
A indexação é uma forma de classificação na
qual há atribuição de “itens”, nela são criadas
classes de documentos ou classes de termos.
O capítulo 15 trata principalmente da “indexação”
e a “elaboração automática de resumos”.
○ Em sistemas “convencionais”:
recuperação da informação é realizada
na forma de buscas auxiliadas por
associações estabelecidas entre termos.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
○ Método automático: de
classificação é baseado na
comparação (cotejar) da linguagem
natural, resumos e/ou
representações documentais.
○ Eficácia das buscas: o método
automático vem incorporando
processos automáticos.
○ Co-ocorrência: que é a relação
entre termos explorada pelo
computador.
Ex. de co-ocorrência: Quanto mais
frequentemente dois termos ocorrerem juntos
[...], mais provável será que tratem de
conteúdo temático similar [...] se o termo A
nunca ocorre em B e o termo B nunca ocorre
sem A [...] os dois termos são totalmente
interdependentes e seriam completamente
intercambiáveis na busca. Além da associação
direta: (X e X tendem a ocorrer juntos).
○ Associações indiretas: termos podem
também ser derivados com base nos
dados de co-ocorrência. (LANCASTER,
2004, p. 294).

Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
○ O cálculo de associação:
É feito através da co-ocorrência relativa à
frequência de ocorrência de cada termo.
A relacionalidade “R” de dois termos é definida
pela equação
○ Relacionalidade: os dados obtidos com a
relacionalidade podem ser usados de
duas formas:
✓ Desenvolve-se e armazena-se uma rede
de associações entre dois termo;
✓ Identificam-se e armazenam-se classes
separadas de termos com base em
associações extraídas da rede.
Tipos de classes de termos:
➢ Facção:
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
➢ Estrela:
➢ Fileira:
➢ Conglomerado:

➢ Tais classes derivam de um processo
estatístico;
● Outras formas de ligação:
○ Indexação semântica latente:
abordagem similar ao “agrupamento de
itens relacionados” é a “Indexação
semântica latente”, que se baseia no
processo de classificação relacionado com
a análise fatorial.
○ Acoplamento bibliográfico: Kessler
(1962-1965) fórmula que quanto mais
referências dois itens tiverem em comum,
mais forte será seu acoplamento.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
○ Co-citação: um tipo de ligação que alguns
itens forma uma classe por serem citados
juntos. (quanto mais itens co-citarem, mais
fortemente estarão relacionados).
○ É importante ressaltar que as classes
formadas por co-citação sofrem mudanças
com o passar do tempo, pois novas
inter-relações entre pesquisas e resultados
são estabelecidos.
○ Esse método poderia descobrir itens úteis que
não seriam encontrados por meio
convencionais. Porém o método normal
consegue localizar itens que a ligação por
citação não conseguiria, os dois métodos são
complementares e não concorrentes.
● Redação automática de resumos:
Os computadores podem ser programados para
selecionar termos de documentos seguindo
critérios de frequência, isso basicamente se
denomina como a “redação automática de
resumo ou elaboração automática de extratos”.
O criador desse método é Luhn (1958), e para
tanto adotou os seguintes procedimentos:
➢ Uma lista de palavras proibidas elimina do
processamento posterior todas as
palavras não-significativas.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
➢ Contam-se as ocorrências de todas as
palavras restantes, que são ordenadas
segundo sua frequência de ocorrência
(podem ser usados radicais no lugar das
palavras).
➢ Todas as palavras que ocorram mais de x
vezes são definidas como palavras de “alta
frequência” ou significativas”.
➢ Localizam-se as frases que contenham
concentrações dessas palavras de alta
frequência, Consideram-se duas palavras
relacionadas dentro de uma frase se não
houver mais de quatro palavras
intermediárias.
➢ Calcula-se um “fator de significância”
para cada frase, da seguinte maneira:
✓ determina-se o número de
“aglomerados” na frase (grupo de
palavras mais extenso, demarcado por
palavras significativas e estas não
estejam separadas por de 4 palavras
intermediárias);
✓ determina-se o número de palavras
significativas no aglomerado e se divide
o quadrado desse número pelo total de
palavras dentro do aglomerado;
Capítulo 15: Indexação automática, redaçãoautomática de
resumos e processos afins
✓ define-se o fator de significância da
frase como o valor do aglomerado mais
alto ou como a soma dos valores de
todos os aglomerados na frase.
Exemplo:

○ De acordo com Luhn, as frases que
tenham fatores de significância mais altos
serão selecionadas na sequência em que
ocorrem no texto, dando forma ao
“resumo”.
○ O resumo feito dessa forma pode parecer
confuso, pois tira frases de todas as
partes do texto (começo, meio e fim).
○ O importa é que as frases escolhidas
tenham o quadro exato do que o
documento está tratando.
○ Luhn (1959) e Oswald et al (1959),
utilizam a frequência de palavras ou
expressões para a seleção de frases.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● Outros pesquisadores empregaram
critérios alternativos para extratos
automáticos:
● Ex. Edmundson (1959), identificou 4
métodos possíveis:
✓ Método de chave
✓ Método da deixa
✓ Método do título
✓ Método da Localização
Já para Rush et al. (1971) qualquer método de
extração deve ter critérios de rejeição e seleção
de frases, levando em conta a relevância
contextual.
● O seu método baseia-se no cotejo do
texto com uma lista de Controle de
palavras, que inclui uma lista de
expressões que levariam a seleção ou
rejeição dos termos.
● Seu método oferecia vantagens em
relação a processos anteriores, pois tinha
a capacidade de:
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
✓ Modificar frases extraídas;
✓ “Remissão interfrasal” (frase testada para
determinar seu significado, dependentes
das frases precedentes. se o significado
fosse dependente, as frases (max. 3)
seriam incluídas no resumo, mesmo sem
estar de acordo com os critérios de
aceitação;
✓ Capacidade de criar extratos com melhor
sequência lógica.
Mathis et al. (1973) fez modificações no método
de Rush, referentes às características de
modificação frasal e remissão interfrasal dos
processos anteriores, assim pretendia-se produzir
representações que sejam mais legíveis.
Earl (1973) fez experimentos para determinar se
as frases poderiam ou não ser significativas e
identificadas por meio de análise sintática. A
hipótese de Earl era que as frases que
contivessem certas estruturas sintáticas seriam
mais indicativas de conteúdo do que outras.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Paice (1981) descreveu processos de elaboração
automática de extratos baseados na identificação
de frases com probabilidade de serem bons
indicadores daquilo de que trata um documento.
(expressões como “o principal objetivo” ou
“descreve-se um método”).
Fum et al. (1982) descreveram um método de
elaboração automática de resumos no qual,
processos de análise sintática e ponderação
identificam as informações mais importantes
transmitidas num texto e eliminam elementos
não-essenciais e reestruturam o restante em um
resumo condensado e expressivo. (Processo não
viável com documento extensos)
Hahn e Reimer (1984) desenvolveram um método, inspirado no conceito de “sistema
especialista”, para condensação de textos, em que foi adotado uma base de
conhecimento de quadros que aplicavam à análise sintática de textos(métodos que
pode ser utilizados para criar condensação em vários níveis).
Quanto mais formais e coerentes forem os textos dos documentos, mais bem
sucedidos provavelmente serão os processos de elaboração de extratos.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● Operações “automáticas” de
recuperação:
Processo que permitiria que um pedido
expresso em texto em linguagem natural fosse
cotejado com o texto dos documentos (texto
completo, texto parcial ou alguma forma de
apresentação), considera-se isso como uma
espécie de coincidência de padrões.
○ Escore: Atribui-se aos textos de base de
dados um tipo de escore, que reflete o
grau de coincidência de um texto com um
pedido, de modo que possam ser
apresentados em forma de saída ordena
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
○ Método simples de coincidência: Levar em
conta quantas palavras do pedido ocorrem
em um resumo.
○ São possíveis muitos refinamentos desse
nível rudimentar de estabelecimento de
coincidência.
○ A coincidência pode basear-se em radicais,
ao invés de palavras completas.
○ Mais precisa se tiver como base expressões
e não palavras simples.
○ Na posição intermediária entre palavras
simples e expressões está o emprego da
proximidade de palavras (capacidade de
atribuir pesos maiores a palavras que
apareçam perto uma da outra).
● diferentes critérios na atribuição de um
escore ao texto, a fim de refletir o grau em
que ele coincide com o texto de um
pedido.
● escore atribuído pode basear-se em mais
de um dos critérios.
● Portanto um sistema “automático” deve
incorporar diversos critérios possíveis
para o estabelecimento de coincidência, e
permitir ao usuário escolher um deles (ex.
sistema mais elaborado SMART de
Salton, elaborado por mais de 30 anos).

Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Salton (1989): os métodos de Salton
determinam essencialmente a similaridade
entre dois textos e expressam essa proximidade
como um escore numérico, uma “medida de
similaridade”, que será usada para ordenar a
saída.
Pode-se atribuir outras utilizações para essa
medida de similaridade dos textos (ex. medir
proximidade de textos de documentos,
permitindo formar classes de textos similares).
Esse escore pode estabelecer vínculos de
hipertexto em uma rede de informação.
Savoy (1995) postula o estabelecimento de
vínculos de hipertexto mediante aplicação de
métodos probabilísticos. Também sugere que
os vínculos de hipertexto sejam usados para a
obtenção automática de novos termos de
busca.
Outros sistemas também foram criados para
permitir ao usuário dar entrada a um pedido na
forma de enunciado textual (ex. CITE
desenvolvido por Doszkocs (1983)).
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
CITE: tem sido empregado como interface em
linguagem natural com bases de dados
MEDLINE e CATLINE da National Library of
Medicine.
Ele funciona em uma base de dados de
registros que possuem termos de indexação ou
que envolva textos livres.
Abordagens atuais:
A internet provocou tremendo aumento do interesse pelas técnicas de recuperação em geral
e pelos métodos automáticas em particular.” (LANCASTER, 2004, p. 310)
● Projeto TIPSTER: atividades de processamento automático de texto
Conferências:
● TRECS (Text Retrieval Conferences) - recuperação de texto;
● MUCS (Message Understanding Conferences) - compreensão de mensagens;
● DUCS (Document Understanding Conferences) - compreensão de documentos;
● Conferências sobre processamento de linguagem natural aplicada;
● Conferências internacionais sobre análise e reconhecimento de documentos.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Mais de 30 anos as pesquisas sobre indexação com o auxílio de computador. O auxílio em
linha ocorre das seguintes formas: sugestão de termos aos indexadores; advertência para
erros; substituição de termos inaceitáveis por aceitáveis; interface com a base de dados.
(LANCASTER, 2004).
❖ Exemplos de sistemas de indexação com computador:
● DCMS (Data Creation and Maintenance System) - National Library of Medicine;
● CAIN - usado no AGREP (base de dados da Comunidades Européia sobre projetos
agrícolas), usa dois tesauros (AGRO-VOC e o CAB Thesauros);
● CASI (Center for AeroSpace Information) - NASA;
● SNOMED (Systematized Nomenclature of Human and Veterinary Medicine) - atribuição
automática de descritores clínicos dos textos de resumo de alta de pacientes;
Capítulo 15: Indexação automática, redação automática de
resumos e processosafins
● MedIndEx - sistema especializado da National Library of Medicine, baseado em quadros
[frame-bases];
● CAIT (Computer-Assisted Indexing Tutor) - sistema especializado da National Agricultural
Library.
❖ Sistemas descritos na literatura:
Jones e Bell (1992) - “[...] sistema projetado para extrair palavras ou expressões de textos, a
fim de formar entradas de índices [...] baseia-se em listas armazenadas: de palavras a serem
ignoradas, palavras/expressões/nomes de reconhecido interesse, e listas auxiliares para
desambiguação de homógrafos.” (LANCASTER, 2004, p. 313)
Driscoll et al (1991) - “O texto é processado em cotejo com uma lista de mais de 3000
expressões. A ocorrência de uma delas no texto aciona o uso de regras de inserção e
eliminação.” (LANCASTER, 2004, p. 313)
Plaunt e Norgard (1998) - uso do tesauro INSPEC com base na técnica de “colocação lexical”.

NLM (National Library of Medicine) desenvolve processos para atribuir automaticamente a
artigos de periódicos os cabeçalhos do Medical Subject Heading (MeSH):
● método de ligação com os termos do MeSH com expressões presentes nos títulos dos
artigos e nos resumos, utilizando o Unified Medical Language System;
● método de cotejo das palavras, do título e do resumo de um artigo ‘novo’ com as
palavras que ocorrem no título e no resumo de artigos já indexados, assim os termos
atribuídos coincidentes tornam-se candidatos para atribuição ao novo artigo.
Pérez-Carballo (2001) - “A indexação semântica latente (ISL) é um dos mais elaborados
esforços atuais visando a uma indexação automática de alta qualidade. Fundamenta-se em
agrupamentos de termos baseados em co-ocorrência e identificação de documentos
relativos a tais agrupamentos. Ao se apoiar em dados de co-ocorrência a ISL, também
consegue lidar com o problema da variedade de termos que expressam ideias
semelhantes.” (LANCASTER, 2004, p. 315-316)
❖ Redação de resumos assistida por computador:
Mudança do termo “redação automática de resumos” para “sumarização de textos”
De acordo com Lancaster (2004, p. 320):
“A sumarização automática ainda é uma questão de seleção de frases e o objetivo das pesquisas
nesta área consiste em otimizar essa seleção e organizar as frases selecionadas para melhorar a
clareza e utilidade do extrato.”
❖ Métodos descritos na literatura:
Hahn e Mani (2000) - modelo de ponderação linear, com localização no texto, número de
ocorrências na base de dados como um todo e expressões-deixa (cue phrases)
Salton et al (1997) - medição das semelhanças entre pares de parágrafos no mesmo documento
Nomoto e Matsumoto (2001) - ‘diversidade’ - identificação de tópicos abrangidos no texto e
seleção da frase mais representativa de cada tópico
Lehmam (1999) - seleção de frases que contenham a maior concentração de palavras ou
expressões
Mani (2001) avalia resumo automáticos em métodos intrínsecos e extrínsecos:
Método intrínseco: Método extrínseco:
Obrigado!
Referências:
LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. rev. atual.
Brasília, DF: Briquet de Lemos/Livros, 2004.