7396 - PROCESSAMENTO DE LINGUAGEM NATURAL E RECONHECIMENTO DE VOZ

Processamento de Linguagem Natural

•

ESTÁCIO EAD

0

Israele Holanda

23/11/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Processamento de Linguagem Natural

117 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Quando estamos lidando com PLN é preciso transformar o dado textual em algo compreensível às máquinas para
que elas possam operar sobre aquele conjunto. Qual destas é uma opção de transformação para este cenário?
Quando nos referimos a tarefa de juntar documentos semelhantes em subconjuntos de forma automática baseado
em similaridades em suas palavras, escrita ou tema, estamos nos referindo a clusterização ou agrupamento. Qual
destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou
corpus para um texto?
Um conjunto de treinamento de PLN é relativamente incomum quando olhamos para a gama de projetos de IA,
uma vez que estamos falando de textos, ou comentários, ou qualquer dado em forma textual. O nome do conjunto
de documentos passados ao processo de mineração de texto, se chama __________:
7396 - PROCESSAMENTO DE LINGUAGEM NATURAL E RECONHECIMENTO DE VOZ
 
1.
Redução de Dimensionalidade
Regressão
Vetorização
Pivot Table
Classificação
Data Resp.: 04/10/2023 20:57:08
Explicação:
Para fazermos um texto ser compreensível às máquinas precisamos transformar cada token (palavra ou
sentença) em um vetor ou tensor, e isto pode ser feito através de TF-IDF ou técnicas de Word2Vec ou Doc2vec.
Demais opções fornecidas são técnicas de aprendizado de máquina ou tipos de aprendizado.
 
2.
LSTM
K-Means
Gaussian Naive Bayes
KNN
TF-IDF
Data Resp.: 04/10/2023 20:57:12
Explicação:
TF-IDF é um cálculo estatístico adotado pelo algoritmo do Google para medir quais termos são mais relevantes
para um tópico, analisando a frequência com que aparecem em uma página, em comparação à sua frequência
em um conjunto maior de páginas.
 
3.
Radical
Corpus
Símbolo
Lema
Token
Data Resp.: 04/10/2023 20:57:14
Explicação:
Um conjunto de textos é um corpus, cada texto por sua vez se divide em sentenças, palavras e por fim
caracteres
Dentro do processamento de linguagem natural temos uma subdivisão de áreas de especialização, ou tarefas que
procuram entender: a estrutura do texto, sentido passado nas mensagens, e referências e co-referências. São
assim chamadas então respectivamente de:
Ao inspecionarmos as classes gramaticais de um conjunto de palavras estamos passando para nosso algoritmo a
noção de estrutura, de regras e composição linguística. Tal técnica pertence a área de análise sintática, permitindo
a extração de _________.
Dado que estamos falando de linguagem, estamos falando também de cultura, de expressões idiomáticas, e
regionalismos. Sendo assim, cada modelo de NLP terá cobertura de acerto para a linguagem dos conjuntos sobre
os quais aprendeu. Sendo assim, nesse caso, o que devemos variar ou unir (por concatenação de conjunto de
dados)?
 
4.
Análise Univariável, Análise Semântica, e Análise Pragmática
Análise Sintática, Análise Semântica, e Análise Pragmática
Análise Sintática, Análise Semântica, e Análise de Predicados
Análise Sintática, Análise Clínica, e Análise Pragmática
Análise Sintática, Análise Pragmática, e Análise Semântica
Data Resp.: 04/10/2023 20:36:40
Explicação:
A opção que descreve respectivamente os objetivos das tarefas de NLP é a opção Análise Sintática, Análise
Semântica, e Análise Pragmática..
¿ Análise sintática - identifica cada classe gramatical de cada token, ou seja, se uma palavra é verbo,
substantivo etc.;
¿ Análise semântica - entende o sentido do uso das palavras, em que, normalmente, entra a análise de
sentimentos;
¿ Análise pragmática - relaciona e constrói sentenças e referências, como a desambiguação de termos, a
relação de palavras etc
 
5.
Lemas
Tokens
SOP-Tags
POS-Tags
Segmentos
Data Resp.: 04/10/2023 20:57:22
Explicação:
POS_Tag ou Part of Speech Tag é a rotulação supervisionada ou semi-supervisionada de tokens de um texto,
onde para cada átomo do documento se associa um rótulo de classe gramatical, e.g.: O rato roeu a roupa é
POS-Tageado como [artigo definido, substantivo comum, verbo, artigo definido, substantivo comum, artigo
definido, substantivo comum].
 
6.
Vocabulário
Tokens
Corpus
Dicionário
Sentenças
Data Resp.: 04/10/2023 20:57:35
Spam são conteúdos enviados pelo remetente sem o consentimento do destinatário. Dentre as opções abaixo, qual
o melhor algoritmo de detecção de e-mails de spams?
Quando estamos falando de análise de sentimentos queremos mapear o sentimento que uma mensagem passa, de
positividade, neutralidade ou negatividade. Normalmente fazemos isso pela agregação de polaridades de palavras.
Este tipo de tarefa pertence a que família de problemas de aprendizado de máquina supervisionado?
Quando fazemos processamento da linguagem natural devemos descartar palavras que se repetem muito e que
são tidas como auxiliares, adicionando pouca informação ao modelo. A esse conjunto de palavras damos o nome
de _________.
Explicação:
Precisaremos combinar corpus, uma vez que quanto mais variado for o conjunto de treinamento mais apto
estará o modelo. Logo ao incorporarmos diferentes corpus o modelo será capaz de compreender ambas as
linguagens
 
7.
GNB
DBScan
KMeans
Regressor de Vetores de Suporte
PCA
Data Resp.: 04/10/2023 20:58:20
Explicação:
O algoritmo de Naive Bayes não só é o único classificador dentre as opções como foi o primeiro utilizado na
detecção de spams, e o mais usado atualmente dada sua simplicidade que atinge resultados satisfatórios e
gasta menos recursos computacionais se comparado com outros mais sofisticados
 
8.
Regressão
Mineração de Regras de Associação
Mineração de Processos
Agregação
Classificação
Data Resp.: 04/10/2023 20:58:17
Explicação:
Primeiro que dentre as opções, somente Regressão, Classificação, e Mineração de Regras de Associação são
opções válidas no que tange aprendizado supervisionado. Dentre estas, regressão se ocupa de predizer um
valor numérico, e mineração de regras de associação retornam um conjunto de combinações possíveis mais
comuns. Sendo assim, a opção correta é Classificação, que é de fato a rotulação de um registro. Ainda que a
análise de sentimentos seja operacionalizada por valores de polarização, no fim estamos tentando atribuir um
rótulo ou uma classe de sentimento a um registro.
 
9.
Verbos
Sentenças
Tokens
Clearwords
Stopwords
Data Resp.: 04/10/2023 20:37:29
Quando nos referimos a classificação de textos, pensamos no NLTK para fazer a parte de NLP, mas, que biblioteca
podemos usar para facilitar nossa tarefa de classificação de textos?
Explicação:
São chamadas stopwords justamente por indicarem esse comportamento de não agregar muita informação
sendo necessário parar para retirá-las e por normalmente causarem pausas cognitivas ao lermos textos.
 
10.
DATETIME
SKLEARN
POLARS
NUMPY
PANDAS
Data Resp.: 04/10/2023 20:58:14
Explicação:
Precisaríamos da biblioteca SKLEARN para podermos implementar com facilidade classificadores como árvores
de decisão