Processamento de Linguagem Natural

•

Anhanguera

Fernando Pereira

13/09/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Processamento de Linguagem Natural

117 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

13/09/2022 11:10 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 1/6
Processamento de linguagem natural
Professor(a): Ariel da Silva Dias (Mestrado acadêmico)
1)
2)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A
Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final.
Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas.
Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir
o prazo estabelecido. Boa prova!
Sobre topic modeling, analise as afirmativas a seguir e assinale-as com V (verdadeiro) ou
F (falso): 
( ) Os principais modelos de algoritmos de topic modeling são Continuos Bag of Words
(CBOW) e Skip-Gram. 
( ) O modelo Skip-Gram prevê uma palavra dado um determinado contexto, sendo ideal
para grandes conjuntos de dados. 
( ) O modelo CBOW prevê a probabilidade de uma palavra dado um contexto que pode ser
uma palavra única ou um grupo de palavras. 
( ) A relação entre as palavras menina e mulher, no mesmo contexto, são detectadas pela
medida da similaridade de cosseno. 
( ) Word embedding é uma técnica em que cada palavra é mapeada, individualmente, para
um vetor. 
Assinale a alternativa que contenha a sequência correta de V e F:
Alternativas:
F – F – V – V – V.  CORRETO
F – V – F – V – F.
V – F – F – V – V.
V – F – V – V – F.
V – V – F – V – F.
Código da questão: 63236
Após uma frase ser analisada para extrair ___________ e entender a __________, a análise
____________ conclui o significado da frase em uma forma livre de contexto, como uma frase
independente. O significado inferido pode não ser a intenção real do significado implícito.
Alternativas:
Os tokens; sintaxe; sintática.
A entidade; oração; sintática.
Os tokens; sintaxe; léxica.
A entidade; sintaxe; semântica.  CORRETO
Os tokens; expressão; léxica.
Resolução comentada:
A terceira, a quarta e a última afirmativas são verdadeiras. 
Veja a forma correta das afirmativas falsas: 
Primeira – Os modelos CBOW e Skip-Gram são dois modelos para aprender word
embedding a partir de um corpus de dados textuais. Logo, não são modelos de
algoritmos de topic modeling. 
Segunda – O modelo Skip-Gram prevê o contexto dada uma palavra-alvo. Trata-se
de um modelo que funciona bem com pequenos conjuntos de dados.
Resolução comentada:
O PLN possui componentes que permitem o computador compreender a linguagem.
Em primeiro lugar, a frase é analisada morfológica e lexicamente, a fim de verificar se
a palavra está bem formatada e se pertence à linguagem. Em seguida, é realizada a
análise sintática, para verificar a estrutura da frase. Por último, é realizada a análise
semântica para compreender o real significado da frase.
Avaliação enviada com sucessoc
h
e
c
k

Avaliação enviada com sucessoc
h
e
c
k

13/09/2022 11:10 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 2/6
3)
4)
Código da questão: 63226
Na programação de computadores, podemos comparar duas strings (cadeia de
caracteres), e o computador é capaz de dizer se elas são iguais ou não. Mas como fazer
com que, ao procurar por Neymar, o computador nos traga informações sobre futebol?
Simples, isso é possível graças a PLN. Leia e associe as duas colunas referentes a técnicas e
ferramentas de PLN.
Assinale a alternativa que traz a associação correta entre as duas colunas:
Alternativas:
I – B; II – A; III – C.
I – B; II – C; III – A.
I – A; II – C; III – B.
I – C; II – A; III – B.  CORRETO
I – C; II – B; III – A.
Código da questão: 63237
O objetivo da PLN é ser capaz de projetar algoritmos a fim de permitir que os
computadores entendam linguagem natural para realizar alguma tarefa. Existem diversas
técnicas e modelos que contribuem para que esta comunicação entre humanos e
computadores seja facilitada. 
Sobre as técnicas e modelos de processamento de texto em PLN, analise as assertivas a
seguir e identifique as corretas: 
I. O Word2Vec toma como entrada um grande corpus de texto e o vetoriza. A saída é uma
lista de palavras, cada uma com um vetor correspondente. 
II. Word2Vec é uma boa técnica para lidar com ambiguidades. Duas palavras exatamente
iguais, mas em dois contextos diferentes, terão vetores iguais. 
III. O TF-IDF, na LSA, fornece a contagem de cada palavra e a frequência de palavras raras a
fim de fornecer-lhes pesos com base em sua raridade. 
IV. A modelagem de tópicos realiza a contagem de palavras para inferir tópicos em dados
estruturados, gerando um vetor do tamanho do vocabulário. 
V. Dentre as bibliotecas presentes na linguagem Python para modelagem de tópicos,
destaca-se a biblioteca de código aberto Gensim. 
São verdadeiras:
Alternativas:
I, III e V, apenas.  CORRETO
II, IV e V, apenas.
I, IV e V, apenas.
I, II e IV, apenas.
II, III e V, apenas.
Resolução comentada:
Avaliação enviada com sucessoc
h
e
c
k

Avaliação enviada com sucessoc
h
e
c
k

13/09/2022 11:10 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 3/6
5)
6)
Código da questão: 63238
Observe com atenção a citação a seguir:
“A Inteligência Artificial é uma ciência tecnológica que estuda e desenvolve teorias,
métodos, técnicas e aplicações, as quais simulam, expandem e estendem a inteligência
humana” (SMITH; ECKROTH, 2017, p.15. Tradução nossa).
SMITH, R. G.; ECKROTH, J. Building AI applications: Yesterday today and tomorrow. AI Mag.,
v. 38, n. 1, p. 6-22, 2017. 
Leia e associe as duas colunas conforme os conceitos de IA Forte, IA Fraca e
Superinteligência.
Assinale a alternativa que traz a associação correta entre as duas colunas:
Alternativas:
I – C; II – A; III – B.
I – B; II – A; III – C.
I – C; II – B; III – A.
I – A; II – C; III – B.
I – B; II – C; III – A.  CORRETO
Código da questão: 63244
O algoritmo de ________________ requer _______________ para entender as diferenças, por
exemplo, entre imagens de motos e bicicletas; estudar a classificação; e, em seguida, tirar
uma conclusão. As redes neurais presentes no ____________ são capazes de classificar as
imagens de ambos os meios de transporte a partir dos dados processados nas camadas da
rede, sem exigir nenhum ____________. 
Assinale a alternativa que completa adequadamente as lacunas:
Alternativas:
Deep Learning; dados rotulados; algoritmo; dado rotulado.
Resolução comentada:
A assertiva I está correta, pois, durante o treinamento, um vetor é atribuído a cada
palavra. Os componentes desse vetor são ajustados para que palavras semelhantes
(com base em seu contexto) fiquem mais próximas. 
A assertiva II está incorreta, pois Word2Vec não consegue lidar muito bem com
ambiguidades; logo, palavras iguais (ou seja, a mesma palavra), mas em contextos
diferentes, terão vetores diferentes. 
A assertiva III está correta, pois TF-IDF realiza a classificação, fornecendo a contagem
de cada palavra e a frequência que as palavras raras aparecem. Com isso, o
algoritmo é capaz de fornecer pesos com base na raridade da palavra. 
A assertiva IV está incorreta, pois a modelagem de tópicos realiza a contagem de
palavras bem como o agrupamento de padrões de palavras semelhantes, de modo a
poder identificar tópicos em dados não estruturados. 
A assertiva V está correta, pois Gensim é uma biblioteca Python de código aberto
para processamento de linguagem natural com foco na modelagem de tópicos.
Resolução comentada:
Avaliação enviada com sucessoc
h
e
c
k

Avaliação enviada com sucessoc
h
e
c
k

13/09/2022 11:10 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 4/6
7)
8)
Deep Learning; redes neurais; algoritmo; treinamento.
Deep Learning; redes neurais; Machine Learning; treinamento.
Machine Learning; dados rotulados; Deep Learning; treinamento.
Machine Learning; dados rotulados; Deep Learning; dado rotulado.  CORRETO
Código da questão: 63242
Em um olhar detalhado sobre o conteúdo web, é fácilcompreender que nela há uma
estrutura e um conjunto de palavras-chaves que resumem determinados temas. A
__________ de palavras-chaves na __________ ajuda a desvendar esses padrões e temas
usando _______________ ou _______________. 
Assinale a alternativa que completa adequadamente as lacunas:
Alternativas:
Busca; oração; mineração de texto; mineração de dados.
Procura; frase; aprendizado de máquina; mineração de textos.
Extração; mineração de textos; aprendizado supervisionado; não supervisionado. 
CORRETO
Extração; frase; mineração de textos; aprendizado supervisionado.
Procura; frase; aprendizado supervisionado; aprendizado não supervisionado.
Código da questão: 63221
Leia com atenção a definição a seguir: 
A PLN tem, como uma de suas principais tarefas, a classificação de texto. Esta tarefa pode
ser aplicada em diversos casos de uso, como pesquisa na web, chatbots, assistentes
virtuais, entre outros. Inerente à classificação de texto, foi dada uma atenção especial à
técnica de pré-processamento, pois foi uma precursora nas fases posteriores das
estratégias de recuperação de informações. 
Sobre o pré-processamento de texto, assinale a alternativa correta.
Alternativas:
A remoção de stopwords é usada para remover tokens de paradas como pontuações.
A POS Tagging consiste em obter a raiz de uma palavra ao eliminar os seus afixos.
O stemming é um processo para obter a forma canônica de uma palavra.
A lematização elimina os afixos de uma palavra para obter o seu radical.
A tokenização quebra o texto em pedaços, sendo possível eliminar as pontuações. 
CORRETO
Resolução comentada:
Os algoritmos de Machine Learning utilizam-se de dados rotulados e estruturados.
Deste modo, você pode utilizar imagens de bicicletas e de motos e indicar suas
características. Estes dados já serão suficientes para treinar um algoritmo de Machine
Learning e, finalmente, tirar conclusões. Por outro lado, os algoritmos de Deep
Learning possuem uma abordagem diferente para o mesmo problema, utilizando-se
de redes neurais. Os dados de entrada (neste caso, as imagens) são enviadas por
diferentes níveis da rede neural e cada um destes níveis determina as características
específicas da imagem, sem nenhum dado rotulado.
Resolução comentada:
A mineração de textos realiza primeiramente a extração de palavras-chaves e, com a
ajuda do aprendizado supervisionado ou não supervisionado, são encontrados
padrões com base nestas palavras chaves.
Resolução comentada:
A tokenização é responsável por quebrar uma sentença em tokens ou palavras. Com
ela, é possível eliminar as pontuações com a ferramenta NLTK.
Avaliação enviada com sucessoc
h
e
c
k

Avaliação enviada com sucessoc
h
e
c
k

13/09/2022 11:10 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 5/6
9)
10)
Código da questão: 63227
Leia com atenção a citação a seguir: 
“Ao trabalhar com algoritmos supervisionados, os dados de entrada são rotulados e têm
um resultado esperado específico. Você usa o treinamento para criar um modelo no qual
um algoritmo se ajuste aos dados. À medida que o treinamento avança, as previsões ou
classificações tornam-se mais precisas” (MUELLER; MASSARON, 2020, p. 28). 
Fonte: MUELLER, J.; MASSARON, L. Aprendizado Profundo para Leigos. Rio de Janeiro: Alta
Books, 2020. 
Sobre a aprendizagem de máquina, analise as assertivas a seguir e identifique as corretas: 
I. Algoritmos de K-vizinhos mais próximos são usados no aprendizado supervisionado com
o objetivo de relacionar dados, por exemplo, e de categorizar músicas por gênero, artista e
editor. 
II. Algoritmos de regressões lineares são exemplos de aprendizado supervisionado usados
para prever o valor de mercado de uma empresa com base na localização ou no setor. 
III. O agrupamento, ou clustering, é um processo de aprendizado supervisionado que
organiza itens semelhantes e diferentes, porém que identifica relacionamentos entre os
dados. 
IV. A aprendizagem por regras de associação é um algoritmo de aprendizagem
supervisionado para pesquisadores de mercado na busca de relacionamento de dados. 
V. Na mineração de texto, o aprendizado não supervisionado usa dados de treinamento
para tentar encontrar padrões entre palavras-chaves e textos. 
São verdadeiras:
Alternativas:
III e V, apenas.
IV e V, apenas.
I e II, apenas.  CORRETO
II e V, apenas.
III e IV, apenas.
Código da questão: 63224
Em poucas palavras, pré-processar um texto significa colocá-lo em uma forma de modo
que seja possível prever e analisar o seu conteúdo para uma determinada tarefa. A
execução correta das etapas de processamento de texto é a garantia de sucesso no
levantamento de informações ou, então, o pior pesadelo para um analista, pois não
conseguirá obter as informações desejadas. Marque a alternativa que apresenta, segundo o
conteúdo estudado, a sequência ideal para o pré-processamento de texto.
Alternativas:
Segmentação de sentença; tokenização; remoção de stopwords; stemming; lematização;
remoção de pontuações.
Segmentação de sentença; remoção de stopwords; stemming; lematização; remoção de
pontuações; tokenização.
Resolução comentada:
A assertiva I é verdadeira, pois os algoritmos de K-vizinhos mais próximos, em vez de
obter informações complexas a partir dos dados, estabelecem relações entre itens
semelhantes, conforme o exemplo da música citado. 
A assertiva II é verdadeira, pois regressões lineares são algoritmos que preveem o
valor de uma variável desconhecida analisando outras variáveis. 
A assertiva III é falsa, pois o agrupamento é um exemplo de aprendizagem não
supervisionada, pois, em vez de supervisionar o algoritmo com dados rotulados, o
algoritmo trabalha por conta própria para descobrir um novo modelo. 
A assertiva IV é falsa, pois, assim como o agrupamento, a aprendizagem por regra de
associação é um exemplo de aprendizagem não supervisionada. 
A assertiva V é falsa, pois a aprendizagem não supervisionada não usa dados de
treinamento. Em vez disso, esse método tenta encontrar padrões e temas naturais
entre palavras-chaves e texto.
Avaliação enviada com sucessoc
h
e
c
k

Avaliação enviada com sucessoc
h
e
c
k

13/09/2022 11:10 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 6/6
Segmentação de sentença; lematização; stemming; remoção de stopwords; remoção de
pontuações; tokenização.
Segmentação de sentença; stemming; lematização; tokenização; remoção de
pontuações; remoção de stopwords.
Segmentação de sentença; remoção de pontuações; tokenização; remoção de stopwords;
stemming; lematização.  CORRETO
Código da questão: 63233
Resolução comentada:
A primeira etapa é a segmentação ou a tokenização da sentença, cujo objetivo é
definir as sentenças de um texto. A segunda etapa é a remoção de pontuações.
Nesta etapa são removidas as pontuações, como interrogação, vírgulas, entre outros.
A terceira etapa é a tokenização ou segmentação de palavras. O objetivo é separar
as palavras por meio de um caractere de espaço. A quarta etapa é a remoção das
palavras indesejáveis ou stopwords. Em seguida, são realizadas as etapas de
stemming, cujo objetivo é encontrar a raiz de uma palavra e a lematização, que
retorna à forma base da palavra.
Arquivos e Links
Avaliação enviada com sucessoc
h
e
c
k

Avaliação enviada com sucessoc
h
e
c
k
