Buscar

Exercícios Módulo 5

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1. O modelo de tópicos auxilia na realização de buscas em um grande volume de dados. Nesse sentido, 
pode-se dizer que a forma de pesquisar utilizada na modelagem de tópicos, mais eficiente se 
comparada a ferramentas de busca da Internet, é feita por meio de: 
Você acertou! 
C. Temas de interesse. 
Uma forma de melhorar as pesquisas por informações digitais é procurar pelo tema de interesse, com a 
possibilidade de verificar de perto com informações específicas, ou mais amplas relacionadas aos temas. Faz 
parte do resultado desse tipo de pesquisa os históricos de como os temas mudaram ao longo do tempo ou 
como eles estão conectados um ao outro. Diferentemente de pesquisas em ferramentas de busca on-line, que 
utilizam apenas a coincidência de conceitos ou palavras-chave, na modelagem de tópicos, a palavra é a 
unidade básica de dados, enquanto que o documento é uma sequência de palavras. 
2. A modelagem de tópicos é um conjunto de algoritmos que visam a pesquisar sobre grandes arquivos de 
documentos com informações temáticas. Assinale a alternativa em que uma das características da 
modelagem de tópicos é descrita de forma correta: 
Você acertou! 
C. Os algoritmos de modelagem de tópicos verificam como os temas mudam ao longo do tempo. 
Os algoritmos de modelagem de tópicos são métodos estatísticos (e não genéticos) que analisam as palavras 
dos textos originais para descobrir os temas que eles abrangem; como os temas mudam ao longo do tempo; e 
como eles estão conectados entre si. Os algoritmos de modelagem de tópicos não exigem leitura prévia dos 
documentos, pois os tópicos emergem da análise dos textos originais, assim como os algoritmos de 
modelagem de tópicos são utilizados para descobrir os principais temas que permeiam uma coleção grande e 
não estruturada de documentos. 
3. A rotulagem de tópicos permite mostrar aos usuários os tópicos com significado mais coerente em 
relação à pesquisa efetuada. Nesse sentido, assinale a alternativa que apresenta corretamente uma das 
finalidades do uso da rotulagem de tópicos: 
Resposta correta. 
A. Interpretar melhor o significado dos tópicos resultantes da pesquisa. 
A apresentação de um conjunto de termos de maneira externa ao seu contexto original pode dificultar a 
compreensão. Por isso, é necessária uma maior interpretação do significado dos tópicos para identificar o 
tema de forma mais eficiente, que é possibilitada pela rotulagem de tópicos. Por meio da rotulagem de tópicos 
é possível definir cada tópico como um conjunto mais explicativo (menos complexo) de termos. Ela permite 
mostrar aos usuários os tópicos com significado mais coerente em relação à pesquisa efetuada, o que diminui a 
dependência de conhecimentos especializados sobre a coleção ou o domínio, os quais seriam imprescindíveis 
para interpretar esses tópicos. 
4. O modelo LDA é um dos modelos de tópicos mais populares, o qual serviu como base para criar muitos 
outros modelos probabilísticos. Nesse sentido, assinale a alternativa na qual são listados corretamente 
a(s) técnica(s) e/ou o modelo(s) nos quais o LDA foi baseado: 
Resposta correta. 
D. Distribuição de Dirichlet, Análise de Semântica Latente e Indexação Probabilística de Semântica Latente. 
A Distribuição de Dirichlet é um método estatístico criado pelo matemático alemão Johann Peter Gustav 
Lejeune Dirichlet. No entanto, a Análise de Semântica Latente (Latent Semantic Analysis – LSA) utiliza a álgebra 
linear para decompor um corpus nos temas que o constituem, por meio de uma matriz de contagem de 
frequência dos termos. E a Indexação Probabilística de Semântica Latente (Probabilistic Latent Semantic 
Indexig –PLSI) é uma evolução do LSA com o uso de fórmulas probabilísticas, enquanto que o modelo de 
Alocação Latente de Dirichlet (Latent Dirichlet Allocation) é o próprio LDA. 
 
5. Diferentes linguagens de programação disponibilizam bibliotecas para a implementação de modelagem 
de tópicos. Entre elas estão a “lda-c” para a linguagem C, “mallet” para Java e “gensim” para Python. 
Nesse sentido, verifique a instrução Phyton a seguir: 
processed_corpus = [[token for token in text if frequency[token] > 1] for text in texts] 
Agora, assinale a alternativa que descreve corretamente a função da expressão acima: 
Você acertou! 
B. Manter no resultado os termos que se repetem no corpus. 
A instrução da questão faz parte do pré-processamento do corpus para a realização da pesquisa. Nela são 
mantidas apenas as palavras que aparecem mais de uma vez no corpus. Na etapa de pré-processamento, 
também conta-se, às vezes, quantas vezes (frequency) cada palavra ou termo se repete no corpus para criar 
um conjunto de termos mais frequentes (com o comando stoplist). E, posteriormente, cria-se e verifica-se um 
código exclusivo (criando um dictionary) para cada palavra ou termo do corpus, e não somente de um 
documento.

Continue navegando