Logo Passei Direto
Buscar

Quiz de Processamento de Linguagem Natural

Ferramentas de estudo

Questões resolvidas

Um conjunto de treinamento de PLN é relativamente incomum quando olhamos para a gama de projetos de IA, uma vez que estamos falando de textos, ou comentários, ou qualquer dado em forma textual. O nome do conjunto de documentos passados ao processo de mineração de texto, se chama __________:
Lema
Token
Símbolo
Corpus
Radical

Quando fazemos processamento da linguagem natural devemos descartar palavras que se repetem muito e que são tidas como auxiliares, adicionando pouca informação ao modelo.
A esse conjunto de palavras damos o nome de _________.
Clearwords
Sentenças
Tokens
Stopwords
Verbos

Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Um conjunto de treinamento de PLN é relativamente incomum quando olhamos para a gama de projetos de IA, uma vez que estamos falando de textos, ou comentários, ou qualquer dado em forma textual. O nome do conjunto de documentos passados ao processo de mineração de texto, se chama __________:
Lema
Token
Símbolo
Corpus
Radical

Quando fazemos processamento da linguagem natural devemos descartar palavras que se repetem muito e que são tidas como auxiliares, adicionando pouca informação ao modelo.
A esse conjunto de palavras damos o nome de _________.
Clearwords
Sentenças
Tokens
Stopwords
Verbos

Prévia do material em texto

Você acertou 10 de 10
questões
Verifique o seu desempenho e continue
treinando! Você pode refazer o exercício
quantas vezes quiser.
Verificar Desempenho
A
B
C
D
E
1 Marcar para revisão
Ao inspecionarmos as classes gramaticais de
um conjunto de palavras, estamos passando
para nosso algoritmo a noção de estrutura, de
regras e composição linguística. Tal técnica
pertence à área de análise sintática, permitindo
a extração de _________.
POS-Tags
Tokens
Segmentos
Lemas
SOP-Tags
Questão 1 de 10
Corretas (10)
Em branco (0)
1 2 3 4 5
6 7 8 9 10
Lista de exercícios Processament… Sair
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
Gabarito Comentado
A técnica mencionada no enunciado
refere-se à extração de POS-Tags. POS-
Tag, ou Part of Speech Tag, é um processo
de rotulação supervisionada ou semi-
supervisionada de tokens em um texto.
Nesse processo, cada palavra ou "átomo"
do documento é associada a um rótulo de
classe gramatical. Por exemplo, na frase "O
rato roeu a roupa", cada palavra seria
rotulada da seguinte forma: [artigo
definido, substantivo comum, verbo, artigo
definido, substantivo comum]. Portanto, ao
inspecionar as classes gramaticais de um
conjunto de palavras, estamos
essencialmente realizando a extração de
POS-Tags.
2 Marcar para revisão
Um conjunto de treinamento de PLN é
relativamente incomum quando olhamos para a
gama de projetos de IA, uma vez que estamos
falando de textos, ou comentários, ou qualquer
dado em forma textual. O nome do conjunto de
documentos passados ao processo de
mineração de texto, se chama __________:
A
B
C
D
E
Radical
Lema
Símbolo
Token
Corpus
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
Gabarito Comentado
Na área de Processamento de Linguagem
Natural (PLN), o termo "corpus" é usado
para se referir a um conjunto de textos.
Esses textos podem ser de qualquer tipo:
livros, artigos, comentários, entre outros. O
corpus é uma ferramenta essencial para a
mineração de texto, pois fornece o material
necessário para a análise e o treinamento
de modelos de IA. Portanto, cada texto
individual dentro do corpus pode ser
dividido em sentenças, palavras e,
finalmente, caracteres para uma análise
mais detalhada.
3 Marcar para revisão
A
B
C
D
E
Quando fazemos processamento da linguagem
natural, devemos descartar palavras que se
repetem muito e que são tidas como auxiliares,
adicionando pouca informação ao modelo. A
esse conjunto de palavras damos o nome de
_________.
Clearwords
Stopwords
Tokens
Sentenças
Verbos
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
Gabarito Comentado
As palavras que são frequentemente
descartadas durante o processamento da
linguagem natural são chamadas de
'Stopwords'. Essas palavras são
geralmente as mais comuns em uma língua
(como 'é', 'o', 'a', 'em', etc.) e não
contribuem significativamente para o
significado de uma frase, sendo, portanto,
consideradas 'ruído' no processo de
análise. Por isso, são removidas para
melhorar a eficiência do processamento e a
A
B
C
D
E
precisão dos resultados. A alternativa
correta é a letra B, 'Stopwords'.
4 Marcar para revisão
Quando estamos lidando com PLN é preciso
transformar o dado textual em algo
compreensível às máquinas para que elas
possam operar sobre aquele conjunto. Qual
destas é uma opção de transformação para
este cenário?
Regressão
Vetorização
Classificação
Pivot Table
Redução de Dimensionalidade
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
Gabarito Comentado
Na área de Processamento de Linguagem
Natural (PLN), a vetorização é uma técnica
comum para transformar dados textuais em
um formato que as máquinas possam
A
B
C
D
E
entender e operar. Isso é feito
transformando cada token (que pode ser
uma palavra ou uma sentença) em um
vetor ou tensor. Isso pode ser realizado por
meio de técnicas como TF-IDF, Word2Vec
ou Doc2vec. As outras opções
apresentadas na questão, como regressão,
classificação, Pivot Table e redução de
dimensionalidade, são técnicas ou tipos de
aprendizado de máquina, mas não são
métodos diretos para transformar dados
textuais em um formato compreensível
para as máquinas.
5 Marcar para revisão
Spam são conteúdos enviados pelo remetente
sem o consentimento do destinatário. Dentre as
opções abaixo, qual o melhor algoritmo de
detecção de e-mails de spams?
GNB
KMeans
DBScan
Regressor de Vetores de Suporte
PCA
Resposta correta
A
B
C
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
Gabarito Comentado
O algoritmo GNB, também conhecido como
Naive Bayes, é o único classificador entre
as opções apresentadas. Ele foi o primeiro
a ser utilizado na detecção de spams e
ainda é o mais usado atualmente. Isso se
deve à sua simplicidade, que proporciona
resultados satisfatórios e consome menos
recursos computacionais em comparação
com outros algoritmos mais sofisticados.
Portanto, o GNB é a melhor opção para a
detecção de e-mails de spam entre as
alternativas apresentadas.
6 Marcar para revisão
Quando estamos falando de análise de
sentimentos queremos mapear o sentimento
que uma mensagem passa, de positividade,
neutralidade ou negatividade. Normalmente
fazemos isso pela agregação de polaridades de
palavras. Este tipo de tarefa pertence a que
família de problemas de aprendizado de
máquina supervisionado?
Regressão
Classificação
Agregação
D
E
Mineração de Regras de Associação
Mineração de Processos
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
Gabarito Comentado
Entre as opções apresentadas, apenas
Regressão, Classificação e Mineração de
Regras de Associação são métodos válidos
de aprendizado supervisionado. A
Regressão é utilizada para prever um valor
numérico, enquanto a Mineração de Regras
de Associação retorna um conjunto de
combinações possíveis mais comuns. No
entanto, a análise de sentimentos se
enquadra na categoria de Classificação.
Isso porque, apesar de operacionalizar
valores de polarização, o objetivo final é
atribuir um rótulo ou uma classe de
sentimento a um registro. Portanto, a
alternativa correta é a Classificação, que
se refere à rotulação de um registro.
7 Marcar para revisão
Quando nós temos um conjunto de textos aos
quais queremos associar rótulos baseados em
outros textos já rotulados em categorias
específicas, temos um problema de
aprendizado de máquina chamado de:
A
B
C
D
E
Agrupamento
Semi-Supervisionado
Regressão
Classificação
Rotação
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
Gabarito Comentado
Temos aqui um problema de classificação,
uma vez que precisamos aprender uma
associação entre as features do conjunto e
a rotulação já existente para podermos
categorizar novos documentos
8 Marcar para revisão
Quando nos referimos à classificação de textos,
pensamos no NLTK para fazer a parte de NLP,
mas, que biblioteca podemos usar para facilitar
nossa tarefa de classificação de textos?
A
B
C
D
E
NUMPY
POLARS
PANDAS
SKLEARN
DATETIME
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
Gabarito Comentado
A biblioteca SKLEARN é a mais adequada
para facilitar a tarefa de classificação de
textos. Essa biblioteca é amplamente
utilizada em aprendizado de máquina e
fornece ferramentas simples e eficientes
para análise de dados. Ela permite a
implementação de diversos algoritmos de
classificação, incluindo árvores de decisão,
tornando o processo de classificação de
textos mais eficiente e menos complexo.
9 Marcar para revisão
Dado que estamos falando de linguagem,
estamos falando também de cultura, de
expressões idiomáticas e regionalismos.Sendo
A
B
C
D
E
assim, cada modelo de NLP terá cobertura de
acerto para a linguagem dos conjuntos sobre os
quais aprendeu. Nesse caso, o que devemos
variar ou unir (por concatenação de conjunto de
dados)?
Sentenças
Tokens
Corpus
Vocabulário
Dicionário
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
Gabarito Comentado
A alternativa correta é 'Corpus'. Isso
porque, em processamento de linguagem
natural (NLP), o corpus é um conjunto de
textos escritos ou falados que servem
como base para o aprendizado do modelo.
Quanto mais variado for esse conjunto,
mais o modelo estará apto a compreender
diferentes contextos, expressões
idiomáticas e regionalismos. Portanto, ao
unir diferentes corpus, estamos ampliando
a capacidade do modelo de compreender e
A
B
C
D
E
processar diversas linguagens e suas
nuances.
10 Marcar para revisão
Quando nos referimos à tarefa de juntar
documentos semelhantes em subconjuntos de
forma automática, baseado em similaridades
em suas palavras, escrita ou tema, estamos nos
referindo à clusterização ou agrupamento. Qual
destes algoritmos poderia nos ajudar na
determinação do cálculo da relevância de uma
palavra em uma série ou corpus para um texto?
TF-IDF
KNN
K-Means
Gaussian Naive Bayes
LSTM
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
Gabarito Comentado
O TF-IDF, que é a alternativa correta, é um
cálculo estatístico que tem sido
amplamente adotado em algoritmos de
busca, como o do Google, para determinar
a relevância de um termo para um
documento em um corpus. Ele faz isso ao
analisar a frequência com que um termo
aparece em um documento específico em
comparação com sua frequência em todo o
corpus. Isso ajuda a identificar quais
palavras são mais significativas para um
texto específico, contribuindo para tarefas
como a clusterização ou agrupamento de
documentos semelhantes. Os outros
algoritmos listados, como KNN, K-Means,
Gaussian Naive Bayes e LSTM, têm
diferentes aplicações e não são
especificamente projetados para calcular a
relevância de uma palavra em um corpus.

Mais conteúdos dessa disciplina