Uniasslevi - Processamento de Linguagem Natural - Avaliacao II

•

UNIASSELVI

Damiao Oliveira

13/07/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Processamento de Linguagem Natural

117 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1 
O algoritmo bag of words gera um conjunto de palavras de um texto, sendo amplamente utilizado 
na recuperação de informações de documentos, classificação de documentos e processamento de 
linguagem natural de forma geral. Considerando as etapas para gerar o bag of words, associe os 
itens, utilizando o código a seguir: 
I- Limpar o texto. 
II- Extrair os tokens. 
III- Construir o vocabulário. 
IV- Gerar os vetores. 
( ) Após a limpeza do texto e a extração de tokens, construímos o vocabulário com os tokens 
extraídos. 
( ) São gerados os vetores com as características do texto. Para cada token, associa-se sua 
frequência no texto. 
( ) As palavras sem relevância para o conteúdo são removidas, como artigos, verbos de ligação 
ou o que o programador define como não relevantes. 
( ) O texto é separado em partes , conforme a necessidade da aplicação. Geralmente, cada palavra 
é considerada uma parte, mas podemos considerá-los também frases inteiras ou sílabas. 
Assinale a alternativa que apresenta a sequência CORRETA: 
A 
IV - II - III - I. 
B 
I - III - IV - II. 
C 
I - II - III - IV. 
D 
III - IV - I - II. 
2 
Aplicar processamento de linguagem natural é a utilização de métodos e recursos computacionais 
para análise de dados linguísticos, isto é, informações em alguma linguagem inerente à 
comunicação do ser humano, dentre os quais o mais comum dentre eles são os em formato de 
textos. Sobre processamento de linguagem natural, classifique V para as sentenças verdadeiras e F 
para as falsas: 
( ) Em programação são utilizados os seguintes algoritmos para realizar a vetorização de texto: 
CountVectorizer, HashVectorizer e TF-IDFVectorizer. 
( ) O algoritmo Bag of words é simples de entender e fácil de implementar. 
( ) O Bag of words é como uma nuvem de palavras, na prática é como extrair características de 
um texto e apresentar visualmente. 
( ) Ao aplicar bag of words é considerado o significado semântico de um texto. 
Assinale a alternativa que apresenta a sequência CORRETA: 
A 
F - F - F - V. 
B 
V - V - V - F. 
C 
V - F - F - F. 
D 
V - V - V - V. 
3 
Esse método é um cálculo estatístico adotado pelo algoritmo do Google para medir quais termos 
são mais relevantes para um tópico, analisando a frequência com que aparecem em um texto, em 
comparação a sua frequência em um conjunto maior de textos. 
Sobre qual método o texto se refere, assinale a alternativa CORRETA: 
 
A 
Gensin. 
B 
Word Embeddings. 
C 
Bag of words. 
D 
TF-IDF. 
4 
Ao que já tinha sido observado com o método CountVectorizer para outros modelos, o resultado 
para qualquer número de tópicos, independentemente do número de palavras utilizadas não é 
conclusivo quando da classificação de uma categoria. Sobre os parâmetros do CountVectorizer, 
associe os itens, utilizando o código a seguir: 
I- Input. 
II- Encoding. 
III- Decode_error. 
IV- Strip_accents. 
( ) É a entrada que pode ter como entrada de argumento filename, file e content. 
( ) Por padrão, o tipo de encoding é o utf-8. Se forem fornecidos bytes ou arquivos para análise, 
usaremos essa codificação para decodificar. 
( ) Instruções sobre o que fazer se for fornecida uma sequência de bytes para analisar, que 
contém caracteres que nãofazemparte da codificação especificada. 
( ) Remove os acentos e executa a normalização de outros caracteres durante a etapa de pré-
processamento. 
Assinale a alternativa que apresenta a sequência CORRETA: 
A 
I - II - III - IV. 
B 
I - IV - III - II. 
C 
III - IV - II - I. 
D 
IV - III - II - I. 
5 
O Processamento de Linguagem Natural (PLN) possui a capacidade de fornecer métodos capazes 
de interpretar e processar textos escritos em linguagem humana e, para isso, utiliza técnicas de 
vetorização de textos. Sobre processamento de linguagem natural, classifique V para as sentenças 
verdadeiras e F para as falsas: 
( ) Entre os modelos de word embeddings existentes, pode-se destacar o word2vec, o GloVe e o 
fastText, os quais, comparados ao TF-IDF, lidam com vetores e matrizes densas. 
( ) O GloVe (do inglês, global vectors), por sua vez, compreende um algoritmo de aprendizado 
não supervisionado e adiciona as informações do contexto local, como no word2vec, mas também 
do contexto global. 
( ) O algoritmo fastText é similar ao word2vec, porém consegue generalizar com maior eficiência 
para palavras ainda não presentes no modelo de representação vetorial, o que é especialmente 
vantajoso em aplicações de tradução. 
( ) O Skip-Gram prevê um contexto dado a uma palavra e, ao contrário do método CBOW, recebe 
uma única entrada (palavra) para retornar um conjunto de palavras que pertencem a esse 
contexto. 
Assinale a alternativa que apresenta a sequência CORRETA: 
A 
V - F - F - F. 
B 
F - F - F - V. 
C 
V - F - V - F. 
D 
V - V - V - V. 
6 
O scikit-learn é uma biblioteca de Python que possui várias implementações de algoritmos de 
aprendizado de máquina, tais como de regressão, classificação e agrupamento. Foi projetado para 
facilitar o uso do aprendizado de máquina através de uma linguagem simplificada. Sobre os 
vetorizadores de textos do Scikit-learn, associe os itens, utilizando o código a seguir: 
I- CountVectorizer. 
II- HashVectorizer. 
III- TF-IDFVectorizer. 
( ) É a frequência de documento inversa à frequência do termo, indicando que o peso atribuído 
a cada termo não depende apenas de sua frequência em um documento, mas também de sua 
recorrência em todo um conjunto de documentos. 
( ) O mais simples conta o número de vezes que um termo aparece no documento e usa esse 
valor como peso. 
( ) Oferece boa eficiência em relação ao uso da memória. Em vez de armazenar palavras como 
strings, o vetorizador aplica um hash para modificá-los como índices numéricos. 
Assinale a alternativa que apresenta a sequência CORRETA: 
FONTE: COSTA, Axel Vieira Gomes et al. Classificador de fake news utilizando um modelo de 
aprendizado de máquina com técnicas de processamento de linguagem natural. 2020. 
A 
I - III - II. 
B 
I - II - III. 
C 
III - II - I. 
D 
III - I - II. 
7 
O processamento de linguagem natural (PLN, ou o tratamento das línguas por computador) é uma 
disciplina que se define tanto como a utilização de conhecimentos sobre a língua e a comunicação 
humana, quanto para a comunicação com o sistema. Sobre processamento de linguagem natural, 
classifique V para as sentenças verdadeiras e F para as falsas: 
( ) O computador tem a capacidade de interpretar textos em sua forma natural, mas mesmo 
assim realiza uma conversão para o formato de máquina, para isso utilizamos a técnica de bag of 
words. 
( ) O algoritmo bag of words é uma técnica de processamento de linguagem natural usada para 
extrair características de um texto, a partir da contagem da frequência das palavras em um 
documento. 
( ) Ao processar o texto em linguagem natural, para extrair informações úteis de determinadas 
palavras usando técnicas de aprendizado de máquina, a palavra, ou o texto, deve ser convertida 
em um conjunto de números reais, ou seja, um vetor. 
( ) Bag of words é um método usado para extrair características e informações de um texto, 
geralmente é empregado em conjunto com outros algoritmos no processo de aprendizagem de 
máquina. 
Assinale a alternativa que apresenta a sequência CORRETA: 
 
FONTE: SANTOS, Diana. Processamento de linguagem natural através das aplicações. quot. In: 
Elisabete Ranchhod (ed) Tratamento das Línguas por Computador - uma introdução à linguística 
computacional e suas aplicações. Lisboa: Caminho, 2001. 
A 
F - V - V - V. 
B 
F - F - F - V. 
C 
V - V - V - V. 
D 
V - F - F - F. 
8 
O Processamento de Linguagem Natural é a subárea da Inteligência Artificial que estuda a 
capacidade e as limitações de uma máquina em entender a linguagem dos seres humanos. O 
objetivo de tais técnicas é fornecer aos computadores a capacidade de entender e compor 
texto.Sobre processamento de linguagem natural, analise as sentenças a seguir: 
I- O word2vec é um modelo relevante, mas complexo de implementar, exigindo a utilização de 
bibliotecas para diminuir o esforço necessário para seu treinamento, o que facilita o seu emprego. 
II- A função simple_preprocess() retorna uma lista de palavras de acordo com as regras 
especificadas nos parâmetro 
III- O vocabulário é um tipo de arquivo próprio da biblioteca Gensim, similar e baseado nos 
dicionários da linguagem Python. 
IV- A biblioteca Gensim não disponibiliza métodos de pré-processamento de dados, bem como de 
textos 
Assinale a alternativa com a sequência CORRETA: 
A 
V - V - V - V. 
B 
V - V - V - F. 
C 
F - F - F - V. 
D 
V - F - F - F 
9 
É um método usado para extrair características e informações de um texto, geralmente é 
empregado em conjunto com outros algoritmos no processo de aprendizagem de máquina, já que 
as características fornecidas por ele são utilizadas na fase de treinamento de algoritmos de 
aprendizagem de máquina, tal método computa a quantidade de vezes que uma palavra acontece 
em determinado texto. 
Com base no método apresentado no texto, assinale a alternativa CORRETA: 
A 
Bag of language. 
B 
Bag of terms. 
C 
Bag of words. 
D 
Bag of listen. 
10 
Os algoritmos de aprendizado de máquina operam em um espaçod e recurso numérico, 
esperando entrada como uma matriz bidimensional em que linhas são instâncias e colunas, 
recursos ou características. Sendo assim, a máquina não compreende os textos de entrada, sendo 
necessária a realização de um processo. 
Sobre qual processo o texto se refere, assinale a alternativa CORRETA: 
A 
Padronização de textos. 
B 
Vetorização de textos. 
C 
Mineração de textos. 
D 
Classificação de textos.