Baixe o app para aproveitar ainda mais
Prévia do material em texto
1. O modelo de tópicos auxilia na realização de buscas em um grande volume de dados. Nesse sentido, pode-se dizer que a forma de pesquisar utilizada na modelagem de tópicos, mais eficiente se comparada a ferramentas de busca da Internet, é feita por meio de: Você acertou! C. Temas de interesse. Uma forma de melhorar as pesquisas por informações digitais é procurar pelo tema de interesse, com a possibilidade de verificar de perto com informações específicas, ou mais amplas relacionadas aos temas. Faz parte do resultado desse tipo de pesquisa os históricos de como os temas mudaram ao longo do tempo ou como eles estão conectados um ao outro. Diferentemente de pesquisas em ferramentas de busca on-line, que utilizam apenas a coincidência de conceitos ou palavras-chave, na modelagem de tópicos, a palavra é a unidade básica de dados, enquanto que o documento é uma sequência de palavras. 2. A modelagem de tópicos é um conjunto de algoritmos que visam a pesquisar sobre grandes arquivos de documentos com informações temáticas. Assinale a alternativa em que uma das características da modelagem de tópicos é descrita de forma correta: Você acertou! C. Os algoritmos de modelagem de tópicos verificam como os temas mudam ao longo do tempo. Os algoritmos de modelagem de tópicos são métodos estatísticos (e não genéticos) que analisam as palavras dos textos originais para descobrir os temas que eles abrangem; como os temas mudam ao longo do tempo; e como eles estão conectados entre si. Os algoritmos de modelagem de tópicos não exigem leitura prévia dos documentos, pois os tópicos emergem da análise dos textos originais, assim como os algoritmos de modelagem de tópicos são utilizados para descobrir os principais temas que permeiam uma coleção grande e não estruturada de documentos. 3. A rotulagem de tópicos permite mostrar aos usuários os tópicos com significado mais coerente em relação à pesquisa efetuada. Nesse sentido, assinale a alternativa que apresenta corretamente uma das finalidades do uso da rotulagem de tópicos: Resposta correta. A. Interpretar melhor o significado dos tópicos resultantes da pesquisa. A apresentação de um conjunto de termos de maneira externa ao seu contexto original pode dificultar a compreensão. Por isso, é necessária uma maior interpretação do significado dos tópicos para identificar o tema de forma mais eficiente, que é possibilitada pela rotulagem de tópicos. Por meio da rotulagem de tópicos é possível definir cada tópico como um conjunto mais explicativo (menos complexo) de termos. Ela permite mostrar aos usuários os tópicos com significado mais coerente em relação à pesquisa efetuada, o que diminui a dependência de conhecimentos especializados sobre a coleção ou o domínio, os quais seriam imprescindíveis para interpretar esses tópicos. 4. O modelo LDA é um dos modelos de tópicos mais populares, o qual serviu como base para criar muitos outros modelos probabilísticos. Nesse sentido, assinale a alternativa na qual são listados corretamente a(s) técnica(s) e/ou o modelo(s) nos quais o LDA foi baseado: Resposta correta. D. Distribuição de Dirichlet, Análise de Semântica Latente e Indexação Probabilística de Semântica Latente. A Distribuição de Dirichlet é um método estatístico criado pelo matemático alemão Johann Peter Gustav Lejeune Dirichlet. No entanto, a Análise de Semântica Latente (Latent Semantic Analysis – LSA) utiliza a álgebra linear para decompor um corpus nos temas que o constituem, por meio de uma matriz de contagem de frequência dos termos. E a Indexação Probabilística de Semântica Latente (Probabilistic Latent Semantic Indexig –PLSI) é uma evolução do LSA com o uso de fórmulas probabilísticas, enquanto que o modelo de Alocação Latente de Dirichlet (Latent Dirichlet Allocation) é o próprio LDA. 5. Diferentes linguagens de programação disponibilizam bibliotecas para a implementação de modelagem de tópicos. Entre elas estão a “lda-c” para a linguagem C, “mallet” para Java e “gensim” para Python. Nesse sentido, verifique a instrução Phyton a seguir: processed_corpus = [[token for token in text if frequency[token] > 1] for text in texts] Agora, assinale a alternativa que descreve corretamente a função da expressão acima: Você acertou! B. Manter no resultado os termos que se repetem no corpus. A instrução da questão faz parte do pré-processamento do corpus para a realização da pesquisa. Nela são mantidas apenas as palavras que aparecem mais de uma vez no corpus. Na etapa de pré-processamento, também conta-se, às vezes, quantas vezes (frequency) cada palavra ou termo se repete no corpus para criar um conjunto de termos mais frequentes (com o comando stoplist). E, posteriormente, cria-se e verifica-se um código exclusivo (criando um dictionary) para cada palavra ou termo do corpus, e não somente de um documento.
Compartilhar