Natural Language Processing - Apol 2 - Nota 80

Processamento de Linguagem Natural

•

UNINTER

Rodrigo Coelho Ascenção

19/03/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Processamento de Linguagem Natural

117 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Questão 1/10 - Natural Language Processing
Na aula 4 de Natural Language Processing vimos os modelos de recuperação de
documentos binário, vetorial e probabilístico.
Sobre o modelo vetorial, assinale a alternativa que contém a descrição correta.
A Caracteriza-se por atribuir pesos para cada termo, podendo ser ou valor 0 (zero)
ou valor 1 (um).
B Atribui pesos binários, o que permite o cálculo de graus de similaridade entre cada
documento armazenado.
C Considera o processo de recuperação de documentos através de uma descrição
de probabilidades de se encontrar determinado termo em documentos de uma
coleção.
D Caracteriza-se pelo cálculo do grau de similaridade, mediante a razão dos
documentos relevantes para o usuário pelos documentos não relevantes.
E Pode ter seus pesos de palavras e de documentos feitos pelo método TF-IDF em
conjunto com o ranqueamento dos termos por graus de similaridade.
Você assinalou essa alternativa (E)
Questão 2/10 - Natural Language Processing
Na aula 5, sobre classificação e avaliação de documentos, o conceito de classificação foi
apresentado como a tarefa de escolher o rótulo de classe correto para uma determinada
entrada de dados.
Vimos que para NLP os tipos de classificadores mais utilizados sãos os supervisionados.
Sobre eles, assinale a alternativa que contenha a afirmação VERDADEIRA sobre o que é
necessário para realizarmos este tipo de classificação.
A Um classificador é dito supervisionado quando utilizamos um corpus de
treinamento com dados rotulados para cada entrada, sendo que é comum a
divisão do corpus em duas partes: uma chamada de conjunto de treinamento e
outra de conjunto de teste. As classes são definidas pelos rótulos existentes nos
dados do conjunto de treinamento.
Você assinalou essa alternativa (A)
B Um classificador é dito supervisionado quando utilizamos um corpus de
treinamento com dados anotados para cada tipo de estrutura gramatical, sendo
que é comum a divisão do corpus em três partes: uma para a criação da
gramática, uma chamada de conjunto de treinamento e outra de conjunto de teste.
As classes são definidas automaticamente pelo algoritmo de treinamento e não
depende nem das anotações e nem dos rótulos dos dados.
C Um classificador é dito supervisionado quando, após as etapas de criação e
treinamento, em uso é necessário fornecermos o rótulo do texto em análise, para
classificação. As classes são definidas pelos rótulos existentes nos dados
conforme fornecimento durante a utilização do modelo.
D Um classificador é dito supervisionado pois é necessário estarmos sempre atentos
às suas funções de classificação, devido à baixa confiabilidade, sendo necessário
o prévio conhecimento dos rótulos de todos os textos a serem classificados.
E Um classificador é dito supervisionado pois ao realizarmos um classificador de
sequências, utilizamos mais de um modelo de classificador, o que causa a
supervisão de um modelo por outro durante a etapa de treinamento, mesmo com
uso de dados não rotulados.
Questão 3/10 - Natural Language Processing
O tema 5 da aula 6 versa sobre as unidades recorrentes com porta (GRU), que possuem
uma dinâmica de funcionamento semelhante à LSTM.
Sobre a semelhança entre LSTM e GRU, marque a alternativa que possui uma afirmação
correta.
Você não pontuou essa questão
A Ambos possuem células com 3 (três) entradas e 3 (três) saídas de sinal, porém
nas GRU, as saídas st e yt não são usadas, o que causa uma simplificação dos
modelos com GRU e maior agilidade nos treinamentos.
Você assinalou essa alternativa (A)
B Enquanto nas LSTM as células podem ser interligadas em forma de malha,
gerando uma rede com múltiplas camadas, nas GRU temos apenas a
possibilidade de criar redes de camada única de células, o que reduz bastante a
complexidade ao passo em que se mantém a performance, na maioria dos casos.
C Tanto nas GRU quanto nas LSTM temos a possibilidade de criação de malhas de
múltiplas camadas, porém com o número menor de portas de entradas e saídas
das LSTM, temos uma maior performance e velocidade de treinamento, se
comparadas às GRU.
D As GRU possuem apenas 2 (duas) entradas e 1 (uma) saída, ao passo que as
LSTM possuem 3 (três) entradas e 3 (três) saídas de sinal. Isto se reflete em uma
menor complexidade das GRU, o que causa uma velocidade maior no treinamento,
porém com performance bastante inferior às LSTM.
E As GRU podem ser interpretadas como uma generalização das LSTM e possuem
funcionamento muito parecido, porém a complexidade da rede das GRU é muito
superior às LSTM, o que causa uma performance muito maior das GRU tanto em
treinamentos quanto em utilização.
Questão 4/10 - Natural Language Processing
Na aula 6, o conceito do perceptron multicamada (MLP) foi apresentado como um tipo de
rede neural artificial. Sendo as MLPs o tipo mais simples de FNN (feed-Forward Neural
Networks)
Sobre a função de ativação, assinale a alternativa CORRETA.
A Em uma MLP usamos com bastante frequência a função sinal como função de
ativação, pois esta nos permite uma mudança suave na ativação dos neurônios.
B Em uma MLP usamos a função de ativação tangencial hiperbólica, pois ela nos
permite manter os valores de saída na faixa entre 0 e 1, ao passo que converge
mais rapidamente que a função sigmoide.
C O uso de função de ativação não linear não é feito em uma MLP, tendo em vista a
sua simplicidade, sendo o tipo de rede neural artificial mais simples entre as FNN.
D Um dos tipos mais utilizados de função de ativação não linear nas MLP é a função
logística, também chamada de função sigmoide. Esta função resulta em saídas
dentro da faixa de 0 a 1 e proporciona uma mudança mais suave na ativação dos
neurônios, se comparada à função sinal.
Você assinalou essa alternativa (D)
E Em uma MLP, a função de ativação é utilizada apenas nos neurônios da camada
de entrada e normalmente são do tipo função sigmoidal.
Questão 5/10 - Natural Language Processing
Na aula 5 foi apresentado o uso do método word_tokenize(texto) da biblioteca NLTK. Este
método realiza a tokenização do texto colocado como argumento deste método.
Sobre a tokenização, é correto afirmar que:
A É a criação de uma estrutura de dados do tipo lista com cada palavra e pontuação
como um elemento desta lista, sem repetições, gerando elementos únicos,
incluindo os caracteres especiais como “\r” e “\n”.
B É a criação de uma estrutura de dados do tipo lista com cada palavra e pontuação
como um elemento desta lista, com repetições, gerando um token para cada
palavra ou pontuação do texto, excluindo-se os espaços em branco e caracteres
especiais como “\r” e “\n”.
Você assinalou essa alternativa (B)
C É a criação de uma estrutura de dados do tipo lista com as palavras reduzidas aos
seus radicais, excluindo-se palavras repetidas, pontuações e caracteres especiais
como “\r” e “\n”.
D É a criação de uma estrutura de dados do tipo lista com as palavras reduzidas aos
seus radicais, incluindo todas as palavras repetidas, pontuações e caracteres
especiais como “\r” e “\n”.
E É a criação de uma estrutura de dados do tipo dicionário com as palavras como
chaves e a contagem de suas ocorrências como o valor, excluindo-se caracteres
especiais como “\r” e “\n”.
Questão 6/10 - Natural Language Processing
Na aula 5, sobre classificação e avaliação de documentos, foram apresentadas algumas
tarefas que podem ser enquadradas na classificação supervisionada.
Sobre estas tarefas, assinale a alternativa que contém a afirmação CORRETA:
Você não pontuou essa questão
A Identificação de gênero em discurso pode ser enquadrado como classificação
supervisionada, pois a partir do uso de corpora, pode-se construir classificadores
que marcarão automaticamente novos documentos com rótulos de categorias
apropriados.
Você assinalou essa alternativa (A)
B Classificação de documentos pode ser enquadrado como classificação
supervisionada quando realizamos o treinamento de um classificador com dados
rotulados para descobrirmos quais sufixos de palavras podem indicar alguma
informação relevante, como,por exemplo, o tempo e a pessoa de um verbo.
C Anotação ou marcação (tagging) de parte do discurso (part-of-speech) pode ser
enquadrado como classificação supervisionada quando treinamos um classificador
com dados não rotulados, para descobrirmos quais sufixos de palavras podem
indicar alguma informação relevante.
D Exploração de contexto pode ser enquadrado como classificação supervisionada
quando usamos um conjunto de dados rotulados para treinar um modelo que
identifica as características contextuais, como, por exemplo, ao marcar a palavra
"partir", sabendo-se que a palavra anterior é "a", permitindo determinar que ela
atua como uma locução adverbial, não como um verbo.
E Classificação de sequências pode ser enquadrado como classificação
supervisionada quando usamos dados não rotulados para criar um modelo que
classifica entradas relacionadas de forma sequencial.
Questão 7/10 - Natural Language Processing
Na aula 6, o conceito de redes convolucionais foi apresentada em conjunto suas principais
camadas para classificação de palavras.
Estas camadas são:
( ) Softmax (Classificação)
( ) Max-pooling (no tempo)
( ) Sentença de entrada
( ) Tabela de Lookup
( ) FCL (Totalmente conectada)
( ) Camada de Convolução
Marque a alternativa que contém a ordem correta das camadas de uma CNN para
classificação de palavras.
A 6 – 4 – 1 – 2 – 5 – 3
Você assinalou essa alternativa (A)
B 5 – 4 – 1 – 3 – 2 – 6
C 6 – 2 – 1 – 3 – 5 – 4
D 1 – 4 – 6 – 3 – 5 – 2
E 1 – 5 – 6 – 2 – 4 – 3
Questão 8/10 - Natural Language Processing
Na aula 4 de Natural Language Processing vimos as métricas de Jaro e Jaro-Winkler. A
métrica de Jaro mede a distância de edição entre duas sequências ou termos. A métrica
Jaro-Winkler é uma variante da métrica Jaro e é amplamente utilizada nas áreas de
extração de informações, vinculação de registros, vinculação de entidades, uma vez que
funciona bem na correspondência de nomes pessoais e de entidades.
Qual das alternativas abaixo possui a declaração correta sobre os principais componentes
do algoritmo de distância de Jaro?
A Cálculo dos graus de similaridade, identificação de caracteres comuns nos dois
termos e contagem da quantidade de aparições de um termo em um corpus.
B Cálculo dos comprimentos dos termos, identificação de termos comuns no corpus
e contagem da quantidade de aparições de um termo em um corpus.
C Cálculo dos comprimentos dos termos, identificação de caracteres comuns nos
dois termos e contagem de transposições de caracteres.
Você assinalou essa alternativa (C)
D Cálculo dos graus de similaridade, identificação de caracteres comuns nos dois
termos e contagem de transposições de caracteres.
E Cálculo dos graus de caracteres, identificação de similaridades comuns nos termos
e contagem de caracteres.
Questão 9/10 - Natural Language Processing
Na aula 5, o tema 2 nos apresenta a biblioteca NLTK para uso em tarefas de linguagem
natural para Python. Esta biblioteca define uma estrutura que busca facilitar o estudo em
NLP.
Sobre os diversos módulos da NLTK, mostrados nesta aula, qual deles é utilizado para nos
dar uma ideia de precisão e eficiência do nosso modelo criado e treinado?
A tokenize
B Chunk
C parse
D Metrics
Você assinalou essa alternativa (D)
E app
Questão 10/10 - Natural Language Processing
Na aula 4 de Natural Language Processing vimos as métricas para comparação de
palavras.
Sobre a motivação do uso deste tipo de métrica, assinale a alternativa que contém a
afirmação correta.
A O uso de métricas para comparação de palavras se dá pois devemos reduzir a
quantidade de uso de memória no tratamento de linguagem natural em aplicações
como em um chatbot.
B O uso de métricas para comparação de palavras se dá pois devemos garantir que
as palavras sejam analisadas de forma exata, conforme sua grafia definida pela
gramática, sem abrirmos margem para erros de ortografia do usuário.
C O uso de métricas para comparação de palavras se dá pois devemos garantir uma
quantidade mínima de palavras diferentes para que a análise possa ser feita de
forma não enviesada.
D O uso de métricas para comparação de palavras se dá pois devemos considerar
que erros de ortografia podem ocorrer em situações como chatbots e nosso
processamento deve ser o mais robusto e insensível a erros humanos de
ortografia.
Você assinalou essa alternativa (D)
E O uso de métricas para comparação de palavras se dá pois devemos saber a
distância entre palavras de cada léxico, com objetivo de mensurarmos o grau de
complexidade de um determinado texto em um corpus.