Buscar

Aula03 RI Modelo Vetorial

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
Recuperação de Informação
Modelos de Recuperação de Documentos
Modelo Espaço Vetorial
Renato Fernandes Corrêa
2Modelo Espaço Vetorial
Representação do documento
Associa pesos positivos não-binários aos termos 
nos documentos
Os documentos são representados como vetores 
onde os termos são eixos que definem o espaço 
vetorial multidimensional de termos.
Olimpíada
Brasil
Sidney
d0.2
0.5
0.3
Documento d :
Brasil em Sidney 2000
O Brasil não foi bem no 
quadra das medalhas da 
Olimpíada de Sidney 2000 ...
Brasil 0.5
Olimpíada 0.3
Sidney 0.2
Representação de d
3Modelo Espaço Vetorial
Representação da consulta
A expressão de busca consiste de palavras 
separadas por espaço em branco
Associa pesos positivos não-binários aos termos 
na expressão de busca
A consulta é representada como vetor onde os 
termos são eixos que definem o espaço vetorial 
multidimensional de termos.
Olimpíada
Brasil
Sidney
d0.2
0.50.3
q
Brasil Olimpíada SidneyConsulta q : Brasil 0.4
Olimpíada 0.3
Sidney 0.3
Representação de q
4
Modelo Espaço Vetorial
Representação do documento e da consulta
Dado o conjunto de termos representativos para o 
corpus em questão V = {t1, t2, t3, ...,tn}
 cada termo é um eixo de um espaço vetorial
Consultas (q) e documentos (d) são representados 
como vetores nesse espaço n-dimensional de termos
Olimpíada
Brasil
Sidney
d0.2
0.50.3
q
Brasil Olimpíada SidneyConsulta q :
Documento d :
Brasil em Sidney 2000
O Brasil não foi bem no quadra 
das medalhas da Olimpíada de 
Sidney 2000 ...
Brasil 0.4
Olimpíada 0.3
Sidney 0.3
Brasil 0.5
Olimpíada 0.3
Sidney 0.2
Representação de q
Representação de d
5Modelo Espaço Vetorial
Representação do documento e da consulta
Este modelo pode utilizar diferentes 
fórmulas para calcular os pesos dos 
vetores
Freqüência de ocorrência do termo 
no documento
TF-IDF (mais usado)
Essa escolha depende de quem 
constrói o SRI, e não do modelo 
Espaço Vetorial
6
Modelo Espaço Vetorial
Função de Busca
O modelo ordena os documentos recuperados 
de acordo com sua similaridade em relação à 
consulta
Similaridade pode ser medida pelo cosseno do 
ângulo entre q e d
 Existem outras medidas de similaridade usadas com 
o modelo EV, porém o cosseno é a mais usada
K2
K1 d
q

Similaridade(q,d) = cos()
7
Este modelo pode utilizar diferentes 
fórmulas para calcular a medida de 
similaridade entre consulta e documentos
Cosseno (mais usado)
Jaccard, Coeficiente de Pearson, 
etc...
Essa escolha depende de quem 
constrói o SRI, e não do modelo 
Espaço Vetorial
Modelo Espaço Vetorial
Função de Busca
8Modelo Espaço Vetorial
Função de Busca
A associação de pesos positivos não-binários aos 
termos nos documentos e na expressão de busca 
juntamente com o cálculo de uma função 
similaridade entre os vetores permite o 
casamento parcial entre consulta e documento
 Os pesos são usados para calcular um “grau de 
similaridade” entre consulta e documento
 O usuário recebe um conjunto ordenado de 
documentos como resposta à sua consulta
Mais interessante do que apenas uma lista 
desordenada ou sem ordem significativa.
9
Similaridade pode ser medida pelo 
cosseno do ângulo entre q e d
 função inversamente relacionada ao 
ângulo entre os documentos 
Quanto menor é o ângulo entre os 
documentos, maior o cosseno 
E maior é a similaridade entre d e q
 Varia entre 0 e 1
 Independe do tamanho do vetor
Considera apenas sua direção
Modelo Espaço Vetorial
Função de Busca
10
Função de Busca
Cosseno
Exemplo:







n
i
i
n
i
i
n
i
ii
dq
dq
sim
1
2
1
2
1
)()(
)(
   
97.0
36.0
35.0
38.034.0
35.0
(0.2) (0.3) (0.5)(0.3) (0.3) (0.4)
.200.3 .300.3 .500.4
222222





sim
dq
dq
sim 




Olimpíada
Brasil
Sidney
d0.2
0.5
0.3 -
q
Brasil Olimpíada SidneyConsulta q :
Documento d :
Brasil em Sidney 2000
O Brasil não foi bem no quadra 
das medalhas da Olimpíada de 
Sidney 2000 ...
Brasil 0.4
Olimpíada 0.3
Sidney 0.3
Brasil 0.5
Olimpíada 0.3
Sidney 0.2
Representação de q
Representação de d
0.3 -
11
Função de Busca
0.35 .200.3 .300.3 .500.4 dq

dq
dq
dqdqsim 



 ),cos(),(
Brasil 0.4
Olimpíada 0.3
Sidney 0.3
Brasil 0.5
Olimpíada 0.3
Sidney 0.2
Representação de q
Representação de d
Brasil Olimpíada Sidney Norma q  dj Cos
d 0,5 0,3 0,2 0,62 0,35 0,97
q 0,4 0,3 0,3 0,58
58.034.0(0.3) (0.3) (0.4) 222 q

97.0
36.0
35.0
58.062.0
35.0
cos 





dq
dq


62.038.0(0.2) (0.3) (0.5) 222 d

Exemplo 1 
Espaço Vetorial usando Cosseno 
com pesos binários
t1 t2 t3 Norma q  dj Cos
d1 1 0 1 1,41 2 0,82
d2 1 0 0 1,00 1 0,58
d3 0 1 1 1,41 2 0,82
d4 1 0 0 1,00 1 0,58
d5 1 1 1 1,73 3 1,00
d6 1 1 0 1,41 2 0,82
d7 0 1 0 1,00 1 0,58
q 1 1 1 1,73
Consulta q: t1 t2 t3
Modelo Booleano só permite retornar como resultado: 
d5 (todos os termos); ou todos os documentos sem ordem (qualquer dos termos).
Resultado: d5, [d1, d3, d6], [d2, d4, d7]
d1
d2
d3d4
d5
d6
d7
t1
t2
t3
Exemplo 2 
Espaço Vetorial usando cosseno, usando 
frequência de ocorrência como peso das palavras
t1 t2 t3 Norma q  dj Cos
d1 2 0 1 2,24 3 0,77
d2 1 0 0 1,00 1 0,58
d3 0 1 3 3,16 4 0,73
d4 2 0 0 2,00 2 0,58
d5 1 2 4 4,58 7 0,88
d6 1 2 0 2,24 3 0,77
d7 0 5 0 5,00 5 0,58
q 1 1 1 1,73
Consulta q: t1 t2 t3
Pesos calculados pelo próprio sistema de RI
Resultado: d5, [d1, d6], d3, [d2, d4,d7]
14
Modelo Espaço Vetorial
Cálculo dos Pesos
Uma possibilidade é utilizar como peso a 
frequência de ocorrência do termo (TF) no 
documento e na consulta
“Se o desonesto soubesse a 
vantagem de ser honesto, 
ele seria honesto ao menos 
por desonestidade.”
Sócrates
Doc original
desonesto / soubesse /
vantagem / honesto /
seria / honesto /
menos/desonestidade/
socrates
honesto 2
desonesto 1
soubesse 1
vantagem 1
seria 1
menos 1
desonestidade 1
socrates 1
Operações de Texto
Representação
Doc : www.filosofia.com Doc : www.filosofia.com
Doc : www.filosofia.com
15
Modelo Espaço Vetorial
Cálculo dos Pesos
Método TF-IDF leva em consideração
 Freqüência do termo no documento
 Term Frequency (TF)
 Quanto maior, mais relevante é o termo para 
descrever o documento
 Inverso da freqüência do termo nos documentos 
da coleção
 Inverse Document Frequency (IDF)
 Termo que aparece em muitos documentos não é 
útil para distinguir relevância
Peso associado ao termo varia entre zero e 
um e tenta balancear esses dois fatores
16
Definições
 dj: documento; ki:termo 
 freqi,j: freqüência do termo ki no documento dj
 ni: número de documentos que contêm termo ki
 N: número total de documentos do corpus
 maxl freql,j : a freqüência do termo mais freqüente no 
documento
TF:
IDF: 
Modelo Espaço Vetorial
Cálculo dos Pesos com TF-IDF
N
ni
idfi= log
Inverso da freqüência do termo
nos documentos do corpus
freqi,j
maxl freql,j
tfi,j=
Freqüência (normalizada) 
do termo no documento
17
Exemplo de TF
 freqi,j: freqüência do termo ki no documento dj
 maxl freql,j = 2
Modelo Espaço Vetorial
Cálculo dos Pesos com TF-IDF
honesto 2 – 1.0
desonesto 1 – 0.5
soubesse 1 – 0.5
vantagem 1 – 0.5
seria 1 – 0.5
menos 1 – 0.5
desonestidade 1 – 0.5
socrates 1 – 0.5
Termo freq - tf
freqi,j
maxl freql,j
tfi,j=
Por exemplo:
tfhonesto,j= 1.0 
18
Exemplo de IDF
 ni: freqüência do termo ki na coleção 
N: número de documentos na coleção
 Suponha:
 que a palavra honesto apareça em seis documentos na 
coleção
 que a coleção tenha 32 documentos no total
Modelo Espaço Vetorial
Cálculo dos Pesos com TF-IDF
32
6
idfhonesto= log = 0.73
N
ni
idfi= log
19
Modelo Espaço Vetorial
Cálculo dos Pesos com TF-IDF
wi,j = tfi,j x idfi
freqi,j
maxl freql,j
wi,j =
N
ni
x log
Para o exemplo:
whonesto,j = tfhonesto,j x idfhonesto = 1.0 X 0.73 = 0.73
20
Definição do peso nos documentos:
 wi,j: peso associado ao termo ti no documento dj
 wi,j = tfi,j X idfi
Para definição dos pesos dos termos nas 
consultas, Baeza-Yates e Ribeiro-Neto sugerem:
Modelo Espaço Vetorial
Cálculo dos Pesos com TF-IDF
N
ni
X log
0.5 freqi,q
maxl freql,q
wi,j = 0.5 + 
21
Modelo Espaço Vetorial
Vantagens
 Permite casamento parcial dos documentos com a 
consulta
 Ordena documentos de acordo com o grau de 
similaridade com a consulta
 Consultas e documentos são representados de forma 
homogênea pelo sistema
Desvantagens:
 Assim como o modelo booleano assume independência 
entre os termos usados na indexação
 q1: professor ; q2: professores
 Resultados das consultas q1 e q2 são diferentes
 É menos intuitivo que o modelo booleano.
Mecanismos de Busca na Web
22
Todos adotam uma variação do modelo 
espaço vetorial 
Google
 https://www.google.com.br/about/company/history/
 http://www.google.com/intl/pt-BR/insidesearch/
 http://www.google.com/intl/pt-BR/insidesearch/howsearchworks/crawling-
indexing.html
 http://static.googleusercontent.com/media/www.google.com/pt-BR//intl/pt-
BR/insidesearch/howsearchworks/assets/searchInfographic.pdf
Bing
Yahoo
23
Exercícios
1) Construa a lista de documentos retornados 
utilizando o modelo espaço vetorial para o exemplo 2 
para as consulta: t1 t2
2) Faça o cálculo dos pesos das palavras utilizando o 
método TF-IDF para os documentos e consulta do 
exemplo 2. Calcule o cosseno e descreva a ordem 
dos resultados retornados pela busca.
Exercícios
3) Acesse o Google Acadêmico:
https://scholar.google.com.br/
 Recuperar documentos que possua o termo indexação 
automática em algum dos campos descritivos dos artigos ou no 
texto completo. Então, observe e descreva como está ordenado os 
resultados da busca.
24
Resolução
t1 t2 t3 Norma q  dj Cos
d1 2 0 1 2,24 2 0,63
d2 1 0 0 1,00 1 0,71
d3 0 1 3 3,16 1 0,22
d4 2 0 0 2,00 2 0,71
d5 1 2 4 4,58 3 0,46
d6 1 2 0 2,24 3 0,95
d7 0 5 0 5,00 5 0,71
q 1 1 0 1,41
Pesos dos termos na consulta calculados pelo Sistema de RI
Resultado: d6, [d2,d4,d7], d1,d5,d3
1) Consulta: t1 t2
Resolução
2) Primeiro Passo – cálculo de TF e IDF
26
TF t1 t2 t3
d1 1,00 0,00 0,50
d2 1,00 0,00 0,00
d3 0,00 0,33 1,00
d4 1,00 0,00 0,00
d5 0,25 0,50 1,00
d6 0,50 1,00 0,00
d7 0,00 1,00 0,00
q 1,00 1,00 1,00
t1 t2 t3
IDF 0,15 0,24 0,37
t1 t2 t3
d1 2 0 1
d2 1 0 0
d3 0 1 3
d4 2 0 0
d5 1 2 4
d6 1 2 0
d7 0 5 0
q 1 1 1
Resolução
2) Segundo Passo – Calculo do TFIDF
27
TFIDF t1 t2 t3
d1 0,15 0,00 0,18
d2 0,15 0,00 0,00
d3 0,00 0,08 0,37
d4 0,15 0,00 0,00
d5 0,04 0,12 0,37
d6 0,07 0,24 0,00
d7 0,00 0,24 0,00
q 0,15 0,24 0,37
TF t1 t2 t3
d1 1,00 0,00 0,50
d2 1,00 0,00 0,00
d3 0,00 0,33 1,00
d4 1,00 0,00 0,00
d5 0,25 0,50 1,00
d6 0,50 1,00 0,00
d7 0,00 1,00 0,00
q 1,00 1,00 1,00
t1 t2 t3
IDF 0,15 0,24 0,37
Resolução
2) Terceiro Passo – Cálculo do Cosseno 
Resultado: d5,d3,d1,d6,d7,[d2,d4]
28
TFIDF t1 t2 t3 Norma q  dj Cos
d1 0,15 0,00 0,18 0,23 0,09 0,82
d2 0,15 0,00 0,00 0,15 0,02 0,31
d3 0,00 0,08 0,37 0,38 0,16 0,89
d4 0,15 0,00 0,00 0,15 0,02 0,31
d5 0,04 0,12 0,37 0,39 0,17 0,94
d6 0,07 0,24 0,00 0,25 0,07 0,59
d7 0,00 0,24 0,00 0,24 0,06 0,52
q 0,15 0,24 0,37 0,46
Resolução
3) Google Acadêmico:
Busca por: indexação automática
29
Referências
FERNEDA, E. Introdução aos Modelos 
Computacionais de Recuperação de 
Informação. Rio de Janeiro: Editora Ciência 
Moderna
Ltda. 2012.
30

Outros materiais