Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 O algoritmo bag of words gera um conjunto de palavras de um texto, sendo amplamente utilizado na recuperação de informações de documentos, classificação de documentos e processamento de linguagem natural de forma geral. Considerando as etapas para gerar o bag of words, associe os itens, utilizando o código a seguir: I- Limpar o texto. II- Extrair os tokens. III- Construir o vocabulário. IV- Gerar os vetores. ( ) Após a limpeza do texto e a extração de tokens, construímos o vocabulário com os tokens extraídos. ( ) São gerados os vetores com as características do texto. Para cada token, associa-se sua frequência no texto. ( ) As palavras sem relevância para o conteúdo são removidas, como artigos, verbos de ligação ou o que o programador define como não relevantes. ( ) O texto é separado em partes , conforme a necessidade da aplicação. Geralmente, cada palavra é considerada uma parte, mas podemos considerá-los também frases inteiras ou sílabas. Assinale a alternativa que apresenta a sequência CORRETA: A IV - II - III - I. B I - III - IV - II. C I - II - III - IV. D III - IV - I - II. 2 Aplicar processamento de linguagem natural é a utilização de métodos e recursos computacionais para análise de dados linguísticos, isto é, informações em alguma linguagem inerente à comunicação do ser humano, dentre os quais o mais comum dentre eles são os em formato de textos. Sobre processamento de linguagem natural, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Em programação são utilizados os seguintes algoritmos para realizar a vetorização de texto: CountVectorizer, HashVectorizer e TF-IDFVectorizer. ( ) O algoritmo Bag of words é simples de entender e fácil de implementar. ( ) O Bag of words é como uma nuvem de palavras, na prática é como extrair características de um texto e apresentar visualmente. ( ) Ao aplicar bag of words é considerado o significado semântico de um texto. Assinale a alternativa que apresenta a sequência CORRETA: A F - F - F - V. B V - V - V - F. C V - F - F - F. D V - V - V - V. 3 Esse método é um cálculo estatístico adotado pelo algoritmo do Google para medir quais termos são mais relevantes para um tópico, analisando a frequência com que aparecem em um texto, em comparação a sua frequência em um conjunto maior de textos. Sobre qual método o texto se refere, assinale a alternativa CORRETA: A Gensin. B Word Embeddings. C Bag of words. D TF-IDF. 4 Ao que já tinha sido observado com o método CountVectorizer para outros modelos, o resultado para qualquer número de tópicos, independentemente do número de palavras utilizadas não é conclusivo quando da classificação de uma categoria. Sobre os parâmetros do CountVectorizer, associe os itens, utilizando o código a seguir: I- Input. II- Encoding. III- Decode_error. IV- Strip_accents. ( ) É a entrada que pode ter como entrada de argumento filename, file e content. ( ) Por padrão, o tipo de encoding é o utf-8. Se forem fornecidos bytes ou arquivos para análise, usaremos essa codificação para decodificar. ( ) Instruções sobre o que fazer se for fornecida uma sequência de bytes para analisar, que contém caracteres que nãofazemparte da codificação especificada. ( ) Remove os acentos e executa a normalização de outros caracteres durante a etapa de pré- processamento. Assinale a alternativa que apresenta a sequência CORRETA: A I - II - III - IV. B I - IV - III - II. C III - IV - II - I. D IV - III - II - I. 5 O Processamento de Linguagem Natural (PLN) possui a capacidade de fornecer métodos capazes de interpretar e processar textos escritos em linguagem humana e, para isso, utiliza técnicas de vetorização de textos. Sobre processamento de linguagem natural, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Entre os modelos de word embeddings existentes, pode-se destacar o word2vec, o GloVe e o fastText, os quais, comparados ao TF-IDF, lidam com vetores e matrizes densas. ( ) O GloVe (do inglês, global vectors), por sua vez, compreende um algoritmo de aprendizado não supervisionado e adiciona as informações do contexto local, como no word2vec, mas também do contexto global. ( ) O algoritmo fastText é similar ao word2vec, porém consegue generalizar com maior eficiência para palavras ainda não presentes no modelo de representação vetorial, o que é especialmente vantajoso em aplicações de tradução. ( ) O Skip-Gram prevê um contexto dado a uma palavra e, ao contrário do método CBOW, recebe uma única entrada (palavra) para retornar um conjunto de palavras que pertencem a esse contexto. Assinale a alternativa que apresenta a sequência CORRETA: A V - F - F - F. B F - F - F - V. C V - F - V - F. D V - V - V - V. 6 O scikit-learn é uma biblioteca de Python que possui várias implementações de algoritmos de aprendizado de máquina, tais como de regressão, classificação e agrupamento. Foi projetado para facilitar o uso do aprendizado de máquina através de uma linguagem simplificada. Sobre os vetorizadores de textos do Scikit-learn, associe os itens, utilizando o código a seguir: I- CountVectorizer. II- HashVectorizer. III- TF-IDFVectorizer. ( ) É a frequência de documento inversa à frequência do termo, indicando que o peso atribuído a cada termo não depende apenas de sua frequência em um documento, mas também de sua recorrência em todo um conjunto de documentos. ( ) O mais simples conta o número de vezes que um termo aparece no documento e usa esse valor como peso. ( ) Oferece boa eficiência em relação ao uso da memória. Em vez de armazenar palavras como strings, o vetorizador aplica um hash para modificá-los como índices numéricos. Assinale a alternativa que apresenta a sequência CORRETA: FONTE: COSTA, Axel Vieira Gomes et al. Classificador de fake news utilizando um modelo de aprendizado de máquina com técnicas de processamento de linguagem natural. 2020. A I - III - II. B I - II - III. C III - II - I. D III - I - II. 7 O processamento de linguagem natural (PLN, ou o tratamento das línguas por computador) é uma disciplina que se define tanto como a utilização de conhecimentos sobre a língua e a comunicação humana, quanto para a comunicação com o sistema. Sobre processamento de linguagem natural, classifique V para as sentenças verdadeiras e F para as falsas: ( ) O computador tem a capacidade de interpretar textos em sua forma natural, mas mesmo assim realiza uma conversão para o formato de máquina, para isso utilizamos a técnica de bag of words. ( ) O algoritmo bag of words é uma técnica de processamento de linguagem natural usada para extrair características de um texto, a partir da contagem da frequência das palavras em um documento. ( ) Ao processar o texto em linguagem natural, para extrair informações úteis de determinadas palavras usando técnicas de aprendizado de máquina, a palavra, ou o texto, deve ser convertida em um conjunto de números reais, ou seja, um vetor. ( ) Bag of words é um método usado para extrair características e informações de um texto, geralmente é empregado em conjunto com outros algoritmos no processo de aprendizagem de máquina. Assinale a alternativa que apresenta a sequência CORRETA: FONTE: SANTOS, Diana. Processamento de linguagem natural através das aplicações. quot. In: Elisabete Ranchhod (ed) Tratamento das Línguas por Computador - uma introdução à linguística computacional e suas aplicações. Lisboa: Caminho, 2001. A F - V - V - V. B F - F - F - V. C V - V - V - V. D V - F - F - F. 8 O Processamento de Linguagem Natural é a subárea da Inteligência Artificial que estuda a capacidade e as limitações de uma máquina em entender a linguagem dos seres humanos. O objetivo de tais técnicas é fornecer aos computadores a capacidade de entender e compor texto.Sobre processamento de linguagem natural, analise as sentenças a seguir: I- O word2vec é um modelo relevante, mas complexo de implementar, exigindo a utilização de bibliotecas para diminuir o esforço necessário para seu treinamento, o que facilita o seu emprego. II- A função simple_preprocess() retorna uma lista de palavras de acordo com as regras especificadas nos parâmetro III- O vocabulário é um tipo de arquivo próprio da biblioteca Gensim, similar e baseado nos dicionários da linguagem Python. IV- A biblioteca Gensim não disponibiliza métodos de pré-processamento de dados, bem como de textos Assinale a alternativa com a sequência CORRETA: A V - V - V - V. B V - V - V - F. C F - F - F - V. D V - F - F - F 9 É um método usado para extrair características e informações de um texto, geralmente é empregado em conjunto com outros algoritmos no processo de aprendizagem de máquina, já que as características fornecidas por ele são utilizadas na fase de treinamento de algoritmos de aprendizagem de máquina, tal método computa a quantidade de vezes que uma palavra acontece em determinado texto. Com base no método apresentado no texto, assinale a alternativa CORRETA: A Bag of language. B Bag of terms. C Bag of words. D Bag of listen. 10 Os algoritmos de aprendizado de máquina operam em um espaçod e recurso numérico, esperando entrada como uma matriz bidimensional em que linhas são instâncias e colunas, recursos ou características. Sendo assim, a máquina não compreende os textos de entrada, sendo necessária a realização de um processo. Sobre qual processo o texto se refere, assinale a alternativa CORRETA: A Padronização de textos. B Vetorização de textos. C Mineração de textos. D Classificação de textos.
Compartilhar