Prévia do material em texto
Questão 1/10 - Natural Language Processing Para a aprendizagem da gramática probabilística, as sentenças deverão estar em um formato específico. Assinale a alternativa CORRETA que corresponde a esse formato: A Devem estar em formato de lista com cada sentenças como um elemento da lista, sem que seja necessário fazer o processamento das listas em árvores sintáticas. B As sentenças devem estar divididas (splitted) em palavras e depois devem ser construídas as árvores de análise. Você assinalou essa alternativa (B) C Deve existir uma figura ChartParser para cada sentença. D Devem estar armazenadas em uma lista de homologações. E A gramática probabilística não precisa de preparação das sentenças para existir. Questão 2/10 - Natural Language Processing No estudo sobre NLP é muito importante compreender os conceitos básicos de gramática da linguagem em análise. A gramática é um conjunto finito de regras que especificam uma linguagem, na qual as palavras são organizadas em uma estrutura lógica, de forma a expressar um significado. Neste contexto, analise as afirmativas abaixo e assinale a correta. A É possível utilizar uma GLC (gramática livre de contexto) criada a partir de 4 ou 5 frases curtas para analisar qualquer sentença gramaticalmente correta na mesma língua a qual pertence a GLC. B É possível utilizar uma GLC (gramática livre de contexto) criada a partir de uma linguagem para analisar qualquer sentença gramaticalmente correta de outra linguagem, desde que sejam de mesma finalidade, como linguagens de programação ou linguagens de comunicação falada. C É possível utilizar apenas uma GLC (gramática livre de contexto) suficientemente grande para encontrar o contexto de textos diversos, desde que estes pertençam a mesma linguagem usada na criação da GLC. D É possível utilizar uma GLC (gramática livre de contexto) suficientemente grande para analisar qualquer sentença gramaticalmente correta na mesma língua a qual pertence a GLC. Você assinalou essa alternativa (D) E Uma GLC (gramática livre de contexto) possui dados estatísticos referentes a cada palavra em um determinado texto. Questão 3/10 - Natural Language Processing De acordo com Nadkarni et al., no artigo intitulado “Natural language processing: an introduction” e visto no material didático, a linguagem natural é caracterizada por sua frequente ambiguidade, natureza irrestrita e imenso tamanho, possibilitando infinitas de combinação de símbolos. Levando em consideração esta natureza da linguagem natural, quais dois problemas surgem ao tentarmos utilizar uma abordagem padrão de análise de dados? A 1 – A abordagem padrão de análise de dados não nos permite encontrar o significado de um texto de forma simples ou com poucas regras, pois as combinações possíveis entre palavras e significados diferentes para cada palavra geram a necessidade de regras cada vez mais específicas, inviabilizando suas criações. 2 – Quando temos textos extremamente abreviados ou anotações feitas rapidamente e que não possuem uma estrutura, como no exemplo de anotações feitas por um médico ao longo de um atendimento a um paciente, as combinações de símbolos (palavras abreviadas) e a redução ou inexistência de uso das regras gramaticais (anotações sem conectores ou com palavras faltando), impedem que uma análise padrão consiga extrair qualquer informação do texto, porém uma pessoa compreenderia o texto rapidamente e sem dificuldades. Você assinalou essa alternativa (A) B 1 – A abordagem padrão de análise de dados não nos permite extrair a sintaxe de um texto de forma simples ou com poucas regras, pois as combinações possíveis entre palavras geram a necessidade de muito poder computacional, inviabilizando sua utilização. 2 – Quando temos textos extremamente abreviados ou anotações feitas rapidamente e que não possuem uma estrutura, como no exemplo de anotações feitas por um médico ao longo de um atendimento a um paciente, as combinações possíveis entre símbolos se reduzem e causam um aumento na velocidade de processamento dos dados, impedindo o processamento de uma grande quantidade de textos ao mesmo tempo. C 1 – A abordagem padrão de análise de dados nos permite encontrar dados estatísticos sobre cada palavra e com isso conseguimos encontrar o assunto principal de cada texto, porém muitas palavras repetidas em um texto podem induzir ao erro quando não levamos em consideração a sintaxe da linguagem. 2 – Quando temos textos extremamente abreviados ou anotações feitas rapidamente e que não possuem uma estrutura, como no exemplo de anotações feitas por um médico ao longo de um atendimento a um paciente, as combinações de símbolos (palavras abreviadas) e a redução ou inexistência de uso das regras gramaticais (anotações sem conectores ou com palavras faltando), impedem que uma análise padrão consiga extrair qualquer informação do texto, porém uma pessoa compreenderia o texto rapidamente e sem dificuldades. D 1 – A abordagem padrão de análise de dados permite encontrarmos apenas o significado geral do texto, mas não dados estatísticos de cada palavra. 2 – Quando temos textos extremamente abreviados ou anotações feitas rapidamente, uma nova gramática, mais simples, surge e com isso novas regras precisam ser criadas, dificultando o processamento dos textos. E 1 – A abordagem padrão de análise de dados não nos permite gerar nuvens de palavras nem realizarmos análises matemáticas nos textos. 2 – Quando temos textos extremamente abreviados ou anotações feitas rapidamente as análises de dados padrão nos retornam significados menos complexos, apesar de corretos, o que causa uma redução na extração de semântica. Questão 4/10 - Natural Language Processing Uma gramática livre de contexto determinística (GLCD) e uma gramática livre de contexto probabilística (GLCP) podem ser construídas por meio de aprendizagem utilizando conjuntos distintos de dados previamente tratados. Uma GLCP é criada a partir de uma_______________________________. Marque a alternativa abaixo que complete corretamente a afirmativa. A análise sintática de um corpus obrigatoriamente anotado e que utilize como base um GLCD, criado a partir de um corpus não anotado através da contagem de palavras e suas ocorrências nas sentenças. B contagem de palavras e suas ocorrências nas sentenças de um texto ou corpus não anotado, tendo como base uma análise sintática executada com uma GLCD criada a partir de um corpus anotado que pode ser igual ou diferente do corpus em análise. Você assinalou essa alternativa (B) C GLCD em conjunto com uma análise probabilística de cada termo de cada sentença. Este processo só é possível com a utilização de corpus e textos anotados, tanto para a criação do GLCP quanto para o GLCD. D rede neural recorrente (RNN) previamente treinada com as probabilidades de surgimento de cada palavra na linguagem do corpus em análise. Esta RNN identifica cada palavra e gera a GLCP. E estratégia de pré-treinamento intensivo de camadas para criação de uma RNA (rede neural artificial) com base em um corpus anotado. Este processo tem como resultado uma rede neural treinada que pode identificar qual a próxima palavra com maior probabilidade em um texto. Questão 5/10 - Natural Language Processing Na atribuição de pesos para termos de indexação na RI, quando um termo aparece em todos os documentos de uma coleção acaba não sendo tão significativo quanto um termo que aparece em poucos documentos. Para obter esse efeito, é necessário fazer a atribuição de pesos aos termos de indexação Sobre este tema, marque a alternativa que contenha a afirmativa CORRETA. A Os pesos de termos de indexação não possuem correlação nenhuma com a importância de um termo descrevendo um documento ou os documentos de uma coleção. B É possível concluir que diferentes termos podem ter importâncias iguais e, portanto, podem ser ponderados de forma igual. C Afrequência de termos (TF) de indexação é a primeira forma de atribuição de pesos e o peso de um termo é proporcional à frequência deste termo em um documento. Você assinalou essa alternativa (C) D A noção por trás da frequência inversa de documentos (IDF) relaciona-se ao fata de que a indexação dos termos em um documento é obtida de uma forma mais efetiva considerando- se a especificidade de cada documento. E O TF leva em conta a frequência de aparecimento de um termo em todo o conjunto de documentos, ao passo que o IDF leva em consideração a frequência de um termo apenas em um documento e gera um peso diferente do mesmo termo para cada documento. Questão 6/10 - Natural Language Processing Vimos que RI (Recuperação de Informação) se refere à localização de materiais (geralmente documentos) de natureza não estruturada (geralmente texto) que satisfazem uma necessidade de informações em grandes coleções geralmente armazenadas em computadores. Um sistema de RI pode ser composto por: ( ) Uma coleção de documentos: o que pode ser tratado como documento – parágrafo, um texto completou um conjunto de textos. ( ) Linguagem de consulta: subconjunto coletado com base na busca efetuada relevante aos termos colocados na consulta. ( ) Um conjunto de resultados: que pode ser na forma de uma simples lista ordenada por relevância, ou um mapa tridimensional em cores com os documentos relacionados em rede. ( ) Apresentação dos resultados: conforme um conjunto de regras para a definição da consulta que especifica aquilo que o usuário quer pesquisar. Marque a alternativa que contenha a ordem correta. A V V V V B V V V F C V V F F D V F F F Você assinalou essa alternativa (D) E F F F F Questão 7/10 - Natural Language Processing Até a década de 1980, os métodos com caráter determinísticos para PLN eram predominantes, porém no início dos anos 1990 ocorre uma reorientação fundamental na forma como os PLN eram realizados. Sabendo que esta alteração no foco das metodologias ocorreu entre 1980 e 1990, assinale a alternativa que apresenta corretamente qual foi esta nova abordagem adotada. A A nova abordagem foi focada em uma análise mais criteriosa com métodos de caráter determinístico, no qual o uso de probabilidades era raramente utilizado, focando o PLN na busca de resultados o mais precisos possível. B A partir da década de 1990, a abordagem para PLN passou a ser menos determinística e bastante focada no rigor gramatical envolvido nos textos. O uso de corpora (grandes quantidades de textos) era fundamental, pois como eles não possuíam as anotações referentes as respostas corretas, os métodos de PLN tinham a oportunidade de identificar e criar estas anotações de resposta. C Até a década de 1990 o modelo probabilístico era bastante utilizado, porém após a publicação do livro “Estruturas Sintáticas” de Noam Chomsky em 1957, onde o autor questiona a utilidade dos modelos de linguagem probabilísticos, muitos pesquisadores passaram a utilizar modelos determinísticos, o que culminou na substituição dos modelos probabilísticos na década de 1990. Este tipo de modelo não estatístico (determinístico) é o predominante até os dias de hoje em PLN. D Neste período ocorreu a mudança para uma abordagem de aproximações simples e robustas, com avaliação de sentenças de forma menos rigorosa e forte uso de probabilidades com a ascensão dos métodos de Machine Learning. Você assinalou essa alternativa (D) E O PLN passa por uma reorientação fundamental entre as décadas de 1980 e 1990, na qual as técnicas de contagens de palavras e criação de modelos de Machine Learning deixam de ser amplamente utilizados e passamos a utilizar modelos determinísticos baseados em corpora (grandes corpos de textos anotados) que permitiram o treinamento de algoritmos genéticos com base nas respostas anotadas no corpora. Isto marcou o fim da utilização de redes neurais como método de PLN. Questão 8/10 - Natural Language Processing A biblioteca NLYK nos permite usar o método chomsky_normal_form(). Sobre a forma normal de Chomsky, analise a asserção-razão abaixo: I. Toda gramática na forma normal de Chomsky é uma GLC (Gramática Livre de Contexto). PORQUE II. Gramática livre de contexto é a gramática que possui todas as suas regras de formação na forma , no qual todas as regras de produção independem do contexto do símbolo não terminal e o lado esquerdo, quando for um único símbolo não terminal, poderá sempre ser substituído pelo lado direito. Assinale a alternativa que corresponda à análise CORRETA sobre esta asserção- razão. A A primeira afirmativa está correta, mas a segunda está errada. B A primeira afirmativa está errada, mas a segunda está correta. C As duas estão corretas, mas uma não possui correlação nenhuma com a outra. D As duas afirmativas estão corretas e a segunda justifica a primeira. Você assinalou essa alternativa (D) E As duas afirmativas estão incorretas. Questão 9/10 - Natural Language Processing Comunicação através de linguagem natural pode ser modelado como um sistema de diálogo falado, como mostrado em nossos estudos. Para que possamos compreender este tipo de modelagem, alguns conceitos são necessários. Dos conceitos abaixo, assinale aqueles que são afirmações VERDADEIRAS (V) e os que são afirmações FALSAS (F). ( ) Gramática é a associação de significado a uma cadeia válida de símbolos linguísticos. ( ) Semântica é um conjunto finito de regras que especifica uma linguagem. ( ) Pragmática é o significado associado a uma cadeia válida em um contexto específico. ( ) Sintagma é uma subcadeia categorizada de uma cadeia de símbolos linguísticos que juntas formam uma sentença. Selecione a alternativa com a sequência correta. A F V F V B V V F F C V F V F D F F V V Você assinalou essa alternativa (D) E V V V V Questão 10/10 - Natural Language Processing Corpora são grandes coleções de textos escritos por humanos em alguma determinada língua. Para a língua portuguesa dois dos maiores corpora são o corpus MacMorpho e o Floresta Sinta(c)tica Corpus. Ambos estão disponíveis pela biblioteca NLTK e são anotados. Sobre o trabalho de anotação de um corpus, assinale a alternativa correta. A Um corpus anotado é criado automaticamente com base em uma gramática padrão simples e este processo de criação das anotações é o início de nossa análise de NLP. B Um corpus se torna anotado após o treinamento de uma rede neural para que as anotações sejam criadas. Este processo é extremamente automatizado, porém demorado por conta da grande demanda de processamento computacional. C Um corpus se torna anotado após profissionais de linguística e letras realizarem manualmente a análise e inclusão das anotações. Tendo em vista que corpora normalmente possuem mais de um milhão de palavras e as linguagens estão em constante mudança, este t rabalho pode levar anos ou nunca findar. Você assinalou essa alternativa (E) D De forma geral, a estrutura de anotações de um corpus pode variar bastante, sendo desde classificações simples de sentimento das sentenças até anotações de símbolos terminais como verbos, artigos e substantivos. Este trabalho é sempre desenvolvido por profissionais de TI que precisam realizar a análise NLP dos dados. E As anotações de um corpus são informações gerais sobre os contextos de cada sentença e dados estatísticos como quantidades de palavras e distribuição estatística de cada palavra. A criação destas anotações é feita pela equipe de TI que fará o NLP. Questão 3/10 - Natural Language Processing Existem diversos tipos de estruturas comuns para os corpora de textos. O corpus que não possui nenhum tipo de estrutura, ou seja, que é apenas uma coleção de textos sem nenhum tipo de anotação ou separação específica é o corpus com estrutura do tipo_____________. Assinale a alternativa abaixo que completeCORRETAMENTE a frase acima. A isolado. Você assinalou essa alternativa (A) B categorizado. C categorias em superposição. D temporal. E categorias fuzzy. Questão 4/10 - Natural Language Processing Para modelos pequenos, a elaboração de uma gramática consistente demandará uma engenharia que pode se dar em um tempo razoável. No entanto, para gramáticas que pretendam atender a um largo contexto de sentenças possíveis, tal atividade pode ser muito custosa. Neste sentido, assinale V para VERDADEIRO e F para FALSO sobre as afirmativas abaixo: ( ) Modelos probabilísticos de linguagem baseiam-se em uma distribuição calculada a partir de um conjunto de textos para uma palavra ou frase. ( ) Uma das vantagens de se utilizar um modelo probabilístico é que não são necessários dados anotados para o treinamento de um algoritmo de aprendizagem. ( ) Um modelo probabilístico não é dependente da ocorrência das palavras em um corpus. ( ) Uma gramática construída a partir de um modelo probabilístico permite que as probabilidades associadas às regras possam ser utilizadas para escolha da interpretação mais provável. Selecione a alternativa que contém a sequência correta. A V F V V B V F F V Você assinalou essa alternativa (B) C V V F F D F V V F E F V F V Questão 9/10 - Natural Language Processing Em se tratando de coleções muito grandes, o que é comum de ocorrer na web, pode ser recomendado reduzir o conjunto de palavras-chave representativas. Isso pode ser conseguido a partir da eliminação de stopwords (como, por exemplo, artigos, advérbios e preposições). Por que existe este tipo de recomendação, quando analisamos textos muito grandes? A Textos da web possuem muitas palavras repetidas e que podem causar um erro probabilístico quando analisamos através de GLCP. Por este motivo, fazemos a eliminação destes termos repetidos, chamados do stopwords. B As stopwords são palavras que causam a parada inesperada durante os treinamentos de algoritmos de classificação e de stemming. Por este motivo, devemos retirá-las dos textos quando fizermos estes tipos de análise. C Em textos muito grandes existem muitas palavras com pouco sentido semântico e que podem atrapalhar uma análise de contexto. Ao retirarmos palavras que não possuem conteúdo relevante, evidenciamos os sentimentos e significados dos textos. Você assinalou essa alternativa (C) D A eliminação de stopwords deve ser realizada apenas em textos da web, por conterem elementos irrelevantes ao entendimento do discurso, como hashtags, marcações HTML, emojis e outros símbolos. E Em textos muito grandes, a eliminação das stopwords ajuda a reduzir a quantidade de palavras a serem analisadas, principalmente pela característica repetitiva dos textos de WEB. Mesmo eliminando palavras importantes como substantivos e adjetivos, ainda é possível realizar uma análise destes textos e de forma mais leve, computacionalmente falando.