Baixe o app para aproveitar ainda mais
Prévia do material em texto
13/09/2022 11:10 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 1/6 Processamento de linguagem natural Professor(a): Ariel da Silva Dias (Mestrado acadêmico) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! Sobre topic modeling, analise as afirmativas a seguir e assinale-as com V (verdadeiro) ou F (falso): ( ) Os principais modelos de algoritmos de topic modeling são Continuos Bag of Words (CBOW) e Skip-Gram. ( ) O modelo Skip-Gram prevê uma palavra dado um determinado contexto, sendo ideal para grandes conjuntos de dados. ( ) O modelo CBOW prevê a probabilidade de uma palavra dado um contexto que pode ser uma palavra única ou um grupo de palavras. ( ) A relação entre as palavras menina e mulher, no mesmo contexto, são detectadas pela medida da similaridade de cosseno. ( ) Word embedding é uma técnica em que cada palavra é mapeada, individualmente, para um vetor. Assinale a alternativa que contenha a sequência correta de V e F: Alternativas: F – F – V – V – V. CORRETO F – V – F – V – F. V – F – F – V – V. V – F – V – V – F. V – V – F – V – F. Código da questão: 63236 Após uma frase ser analisada para extrair ___________ e entender a __________, a análise ____________ conclui o significado da frase em uma forma livre de contexto, como uma frase independente. O significado inferido pode não ser a intenção real do significado implícito. Alternativas: Os tokens; sintaxe; sintática. A entidade; oração; sintática. Os tokens; sintaxe; léxica. A entidade; sintaxe; semântica. CORRETO Os tokens; expressão; léxica. Resolução comentada: A terceira, a quarta e a última afirmativas são verdadeiras. Veja a forma correta das afirmativas falsas: Primeira – Os modelos CBOW e Skip-Gram são dois modelos para aprender word embedding a partir de um corpus de dados textuais. Logo, não são modelos de algoritmos de topic modeling. Segunda – O modelo Skip-Gram prevê o contexto dada uma palavra-alvo. Trata-se de um modelo que funciona bem com pequenos conjuntos de dados. Resolução comentada: O PLN possui componentes que permitem o computador compreender a linguagem. Em primeiro lugar, a frase é analisada morfológica e lexicamente, a fim de verificar se a palavra está bem formatada e se pertence à linguagem. Em seguida, é realizada a análise sintática, para verificar a estrutura da frase. Por último, é realizada a análise semântica para compreender o real significado da frase. Avaliação enviada com sucessoc h e c k Avaliação enviada com sucessoc h e c k 13/09/2022 11:10 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 2/6 3) 4) Código da questão: 63226 Na programação de computadores, podemos comparar duas strings (cadeia de caracteres), e o computador é capaz de dizer se elas são iguais ou não. Mas como fazer com que, ao procurar por Neymar, o computador nos traga informações sobre futebol? Simples, isso é possível graças a PLN. Leia e associe as duas colunas referentes a técnicas e ferramentas de PLN. Assinale a alternativa que traz a associação correta entre as duas colunas: Alternativas: I – B; II – A; III – C. I – B; II – C; III – A. I – A; II – C; III – B. I – C; II – A; III – B. CORRETO I – C; II – B; III – A. Código da questão: 63237 O objetivo da PLN é ser capaz de projetar algoritmos a fim de permitir que os computadores entendam linguagem natural para realizar alguma tarefa. Existem diversas técnicas e modelos que contribuem para que esta comunicação entre humanos e computadores seja facilitada. Sobre as técnicas e modelos de processamento de texto em PLN, analise as assertivas a seguir e identifique as corretas: I. O Word2Vec toma como entrada um grande corpus de texto e o vetoriza. A saída é uma lista de palavras, cada uma com um vetor correspondente. II. Word2Vec é uma boa técnica para lidar com ambiguidades. Duas palavras exatamente iguais, mas em dois contextos diferentes, terão vetores iguais. III. O TF-IDF, na LSA, fornece a contagem de cada palavra e a frequência de palavras raras a fim de fornecer-lhes pesos com base em sua raridade. IV. A modelagem de tópicos realiza a contagem de palavras para inferir tópicos em dados estruturados, gerando um vetor do tamanho do vocabulário. V. Dentre as bibliotecas presentes na linguagem Python para modelagem de tópicos, destaca-se a biblioteca de código aberto Gensim. São verdadeiras: Alternativas: I, III e V, apenas. CORRETO II, IV e V, apenas. I, IV e V, apenas. I, II e IV, apenas. II, III e V, apenas. Resolução comentada: Avaliação enviada com sucessoc h e c k Avaliação enviada com sucessoc h e c k 13/09/2022 11:10 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 3/6 5) 6) Código da questão: 63238 Observe com atenção a citação a seguir: “A Inteligência Artificial é uma ciência tecnológica que estuda e desenvolve teorias, métodos, técnicas e aplicações, as quais simulam, expandem e estendem a inteligência humana” (SMITH; ECKROTH, 2017, p.15. Tradução nossa). SMITH, R. G.; ECKROTH, J. Building AI applications: Yesterday today and tomorrow. AI Mag., v. 38, n. 1, p. 6-22, 2017. Leia e associe as duas colunas conforme os conceitos de IA Forte, IA Fraca e Superinteligência. Assinale a alternativa que traz a associação correta entre as duas colunas: Alternativas: I – C; II – A; III – B. I – B; II – A; III – C. I – C; II – B; III – A. I – A; II – C; III – B. I – B; II – C; III – A. CORRETO Código da questão: 63244 O algoritmo de ________________ requer _______________ para entender as diferenças, por exemplo, entre imagens de motos e bicicletas; estudar a classificação; e, em seguida, tirar uma conclusão. As redes neurais presentes no ____________ são capazes de classificar as imagens de ambos os meios de transporte a partir dos dados processados nas camadas da rede, sem exigir nenhum ____________. Assinale a alternativa que completa adequadamente as lacunas: Alternativas: Deep Learning; dados rotulados; algoritmo; dado rotulado. Resolução comentada: A assertiva I está correta, pois, durante o treinamento, um vetor é atribuído a cada palavra. Os componentes desse vetor são ajustados para que palavras semelhantes (com base em seu contexto) fiquem mais próximas. A assertiva II está incorreta, pois Word2Vec não consegue lidar muito bem com ambiguidades; logo, palavras iguais (ou seja, a mesma palavra), mas em contextos diferentes, terão vetores diferentes. A assertiva III está correta, pois TF-IDF realiza a classificação, fornecendo a contagem de cada palavra e a frequência que as palavras raras aparecem. Com isso, o algoritmo é capaz de fornecer pesos com base na raridade da palavra. A assertiva IV está incorreta, pois a modelagem de tópicos realiza a contagem de palavras bem como o agrupamento de padrões de palavras semelhantes, de modo a poder identificar tópicos em dados não estruturados. A assertiva V está correta, pois Gensim é uma biblioteca Python de código aberto para processamento de linguagem natural com foco na modelagem de tópicos. Resolução comentada: Avaliação enviada com sucessoc h e c k Avaliação enviada com sucessoc h e c k 13/09/2022 11:10 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 4/6 7) 8) Deep Learning; redes neurais; algoritmo; treinamento. Deep Learning; redes neurais; Machine Learning; treinamento. Machine Learning; dados rotulados; Deep Learning; treinamento. Machine Learning; dados rotulados; Deep Learning; dado rotulado. CORRETO Código da questão: 63242 Em um olhar detalhado sobre o conteúdo web, é fácilcompreender que nela há uma estrutura e um conjunto de palavras-chaves que resumem determinados temas. A __________ de palavras-chaves na __________ ajuda a desvendar esses padrões e temas usando _______________ ou _______________. Assinale a alternativa que completa adequadamente as lacunas: Alternativas: Busca; oração; mineração de texto; mineração de dados. Procura; frase; aprendizado de máquina; mineração de textos. Extração; mineração de textos; aprendizado supervisionado; não supervisionado. CORRETO Extração; frase; mineração de textos; aprendizado supervisionado. Procura; frase; aprendizado supervisionado; aprendizado não supervisionado. Código da questão: 63221 Leia com atenção a definição a seguir: A PLN tem, como uma de suas principais tarefas, a classificação de texto. Esta tarefa pode ser aplicada em diversos casos de uso, como pesquisa na web, chatbots, assistentes virtuais, entre outros. Inerente à classificação de texto, foi dada uma atenção especial à técnica de pré-processamento, pois foi uma precursora nas fases posteriores das estratégias de recuperação de informações. Sobre o pré-processamento de texto, assinale a alternativa correta. Alternativas: A remoção de stopwords é usada para remover tokens de paradas como pontuações. A POS Tagging consiste em obter a raiz de uma palavra ao eliminar os seus afixos. O stemming é um processo para obter a forma canônica de uma palavra. A lematização elimina os afixos de uma palavra para obter o seu radical. A tokenização quebra o texto em pedaços, sendo possível eliminar as pontuações. CORRETO Resolução comentada: Os algoritmos de Machine Learning utilizam-se de dados rotulados e estruturados. Deste modo, você pode utilizar imagens de bicicletas e de motos e indicar suas características. Estes dados já serão suficientes para treinar um algoritmo de Machine Learning e, finalmente, tirar conclusões. Por outro lado, os algoritmos de Deep Learning possuem uma abordagem diferente para o mesmo problema, utilizando-se de redes neurais. Os dados de entrada (neste caso, as imagens) são enviadas por diferentes níveis da rede neural e cada um destes níveis determina as características específicas da imagem, sem nenhum dado rotulado. Resolução comentada: A mineração de textos realiza primeiramente a extração de palavras-chaves e, com a ajuda do aprendizado supervisionado ou não supervisionado, são encontrados padrões com base nestas palavras chaves. Resolução comentada: A tokenização é responsável por quebrar uma sentença em tokens ou palavras. Com ela, é possível eliminar as pontuações com a ferramenta NLTK. Avaliação enviada com sucessoc h e c k Avaliação enviada com sucessoc h e c k 13/09/2022 11:10 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 5/6 9) 10) Código da questão: 63227 Leia com atenção a citação a seguir: “Ao trabalhar com algoritmos supervisionados, os dados de entrada são rotulados e têm um resultado esperado específico. Você usa o treinamento para criar um modelo no qual um algoritmo se ajuste aos dados. À medida que o treinamento avança, as previsões ou classificações tornam-se mais precisas” (MUELLER; MASSARON, 2020, p. 28). Fonte: MUELLER, J.; MASSARON, L. Aprendizado Profundo para Leigos. Rio de Janeiro: Alta Books, 2020. Sobre a aprendizagem de máquina, analise as assertivas a seguir e identifique as corretas: I. Algoritmos de K-vizinhos mais próximos são usados no aprendizado supervisionado com o objetivo de relacionar dados, por exemplo, e de categorizar músicas por gênero, artista e editor. II. Algoritmos de regressões lineares são exemplos de aprendizado supervisionado usados para prever o valor de mercado de uma empresa com base na localização ou no setor. III. O agrupamento, ou clustering, é um processo de aprendizado supervisionado que organiza itens semelhantes e diferentes, porém que identifica relacionamentos entre os dados. IV. A aprendizagem por regras de associação é um algoritmo de aprendizagem supervisionado para pesquisadores de mercado na busca de relacionamento de dados. V. Na mineração de texto, o aprendizado não supervisionado usa dados de treinamento para tentar encontrar padrões entre palavras-chaves e textos. São verdadeiras: Alternativas: III e V, apenas. IV e V, apenas. I e II, apenas. CORRETO II e V, apenas. III e IV, apenas. Código da questão: 63224 Em poucas palavras, pré-processar um texto significa colocá-lo em uma forma de modo que seja possível prever e analisar o seu conteúdo para uma determinada tarefa. A execução correta das etapas de processamento de texto é a garantia de sucesso no levantamento de informações ou, então, o pior pesadelo para um analista, pois não conseguirá obter as informações desejadas. Marque a alternativa que apresenta, segundo o conteúdo estudado, a sequência ideal para o pré-processamento de texto. Alternativas: Segmentação de sentença; tokenização; remoção de stopwords; stemming; lematização; remoção de pontuações. Segmentação de sentença; remoção de stopwords; stemming; lematização; remoção de pontuações; tokenização. Resolução comentada: A assertiva I é verdadeira, pois os algoritmos de K-vizinhos mais próximos, em vez de obter informações complexas a partir dos dados, estabelecem relações entre itens semelhantes, conforme o exemplo da música citado. A assertiva II é verdadeira, pois regressões lineares são algoritmos que preveem o valor de uma variável desconhecida analisando outras variáveis. A assertiva III é falsa, pois o agrupamento é um exemplo de aprendizagem não supervisionada, pois, em vez de supervisionar o algoritmo com dados rotulados, o algoritmo trabalha por conta própria para descobrir um novo modelo. A assertiva IV é falsa, pois, assim como o agrupamento, a aprendizagem por regra de associação é um exemplo de aprendizagem não supervisionada. A assertiva V é falsa, pois a aprendizagem não supervisionada não usa dados de treinamento. Em vez disso, esse método tenta encontrar padrões e temas naturais entre palavras-chaves e texto. Avaliação enviada com sucessoc h e c k Avaliação enviada com sucessoc h e c k 13/09/2022 11:10 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2624424/4558301 6/6 Segmentação de sentença; lematização; stemming; remoção de stopwords; remoção de pontuações; tokenização. Segmentação de sentença; stemming; lematização; tokenização; remoção de pontuações; remoção de stopwords. Segmentação de sentença; remoção de pontuações; tokenização; remoção de stopwords; stemming; lematização. CORRETO Código da questão: 63233 Resolução comentada: A primeira etapa é a segmentação ou a tokenização da sentença, cujo objetivo é definir as sentenças de um texto. A segunda etapa é a remoção de pontuações. Nesta etapa são removidas as pontuações, como interrogação, vírgulas, entre outros. A terceira etapa é a tokenização ou segmentação de palavras. O objetivo é separar as palavras por meio de um caractere de espaço. A quarta etapa é a remoção das palavras indesejáveis ou stopwords. Em seguida, são realizadas as etapas de stemming, cujo objetivo é encontrar a raiz de uma palavra e a lematização, que retorna à forma base da palavra. Arquivos e Links Avaliação enviada com sucessoc h e c k Avaliação enviada com sucessoc h e c k
Compartilhar