NATURAL LANGUAGE PROCESSING - Apol 1 - Nota 90

Processamento de Linguagem Natural

•

UNINTER

Rodrigo Coelho Ascenção

19/03/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Processamento de Linguagem Natural

117 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Questão 1/10 - Natural Language Processing
Uma gramática livre de contexto determinística (GLCD) e uma gramática livre de contexto
probabilística (GLCP) podem ser construídas por meio de aprendizagem utilizando
conjuntos distintos de dados previamente tratados.
Uma GLCP é criada a partir de uma_______________________________.
Marque a alternativa abaixo que complete corretamente a afirmativa.
Nota: 10.0
A análise sintática de um corpus obrigatoriamente anotado e que utilize como base
um GLCD, criado a partir de um corpus não anotado através da contagem de
palavras e suas ocorrências nas sentenças.
B contagem de palavras e suas ocorrências nas sentenças de um texto ou
corpus não anotado, tendo como base uma análise sintática executada com
uma GLCD criada a partir de um corpus anotado que pode ser igual ou
diferente do corpus em análise.
Você assinalou essa alternativa (B)
Você acertou!
Aula 2, Tema 3 – Gramáticas Probabilísticas. Para gerarmos uma GLCD, é obrigatório o
uso de um corpus anotado. Para criarmos uma GLCP, é obrigatório o uso de uma GLCD
previamente gerada. O corpus que gerará a GLCP não precisa ser anotado. O corpus
usado para criação da GLCP pode ser diferente do corpus usado para criar a GLCD.
Ordem: 1. Obter um corpus suficientemente grande e anotado. 2. Criar uma GLCD deste
primeiro corpus. 3. Obter um corpus diferente e que pode ser anotado ou não. 4. Criar a
GLCP deste segundo corpus utilizando a GLCD feita anteriormente.
C GLCD em conjunto com uma análise probabilística de cada termo de cada
sentença. Este processo só é possível com a utilização de corpus e textos
anotados, tanto para a criação do GLCP quanto para o GLCD.
D rede neural recorrente (RNN) previamente treinada com as probabilidades de
surgimento de cada palavra na linguagem do corpus em análise. Esta RNN
identifica cada palavra e gera a GLCP.
E estratégia de pré-treinamento intensivo de camadas para criação de uma RNA
(rede neural artificial) com base em um corpus anotado. Este processo tem como
resultado uma rede neural treinada que pode identificar qual a próxima palavra
com maior probabilidade em um texto.
Questão 2/10 - Natural Language Processing
As expressões regulares, por meio de uma simbologia padrão, definem uma gramática
regular para uma única cadeia de texto.
Isto explica o que são, mas não por qual a razão elas existem. Marque a alternativa que
apresenta o motivo da existência de expressões regulares.
Nota: 10.0
A As expressões regulares solucionaram, principalmente, o problema de
armazenamento em um léxico de determinados símbolos terminais cujas
combinações tendem ao infinito, como no exemplo do armazenamento de
números, que existem em quantidade infinita e ainda sim precisam ser
representados.
Você assinalou essa alternativa (A)
Você acertou!
Aula 1, Tema 5 – Expressões Regulares.
B As expressões regulares têm o objetivo de definir uma gramática regular para uma
única cadeia de texto, por meio de uma simbologia padrão, para que exista uma
padronização nestas representações. Sem elas ainda seria possível o
armazenamento de todas as possibilidades possíveis de todos os símbolos
terminais em um léxico.
C Apesar de, em sua concepção, as expressões regulares terem sido criadas para
representação de números, o principal motivo da existência delas é para criação
de máscaras para limitação de entradas de dados dentro dos padrões necessários
em um banco de dados ou outro tipo de armazenamento de léxico.
D Expressões regulares existem para criação de máscaras de preenchimento de
dados em bancos de dados. Sua criação se deu em busca de padronização nos
diversos tipos de formatos existentes até a década de 1990.
E Expressões regulares foram criadas para solucionar o problema de excesso de
utilização de memória no armazenamento de dados de um léxico, que facilmente
ocupava todo o armazenamento quando se tentava registrar símbolos terminais de
linguagens com muitas palavras, como o Mandarim e o Português.
Questão 3/10 - Natural Language Processing
Na atribuição de pesos para termos de indexação na RI, quando um termo aparece em
todos os documentos de uma coleção acaba não sendo tão significativo quanto um termo
que aparece em poucos documentos. Para obter esse efeito, é necessário fazer a atribuição
de pesos aos termos de indexação
Sobre este tema, marque a alternativa que contenha a afirmativa CORRETA.
Nota: 0.0Você não pontuou essa questão
A Os pesos de termos de indexação não possuem correlação nenhuma com a
importância de um termo descrevendo um documento ou os documentos de uma
coleção.
B É possível concluir que diferentes termos podem ter importâncias iguais e,
portanto, podem ser ponderados de forma igual.
Você assinalou essa alternativa (B)
C A frequência de termos (TF) de indexação é a primeira forma de atribuição de
pesos e o peso de um termo é proporcional à frequência deste termo em um
documento.
Aula 3, Tema 3.1
D A noção por trás da frequência inversa de documentos (IDF) relaciona-se ao fata
de que a indexação dos termos em um documento é obtida de uma forma mais
efetiva considerando-se a especificidade de cada documento.
E O TF leva em conta a frequência de aparecimento de um termo em todo o conjunto
de documentos, ao passo que o IDF leva em consideração a frequência de um
termo apenas em um documento e gera um peso diferente do mesmo termo para
cada documento.
Questão 4/10 - Natural Language Processing
De acordo com Nadkarni et al., no artigo intitulado “Natural language processing: an
introduction” e visto no material didático, a linguagem natural é caracterizada por sua
frequente ambiguidade, natureza irrestrita e imenso tamanho, possibilitando infinitas de
combinação de símbolos.
Levando em consideração esta natureza da linguagem natural, quais dois problemas
surgem ao tentarmos utilizar uma abordagem padrão de análise de dados?
Nota: 10.0
A 1 – A abordagem padrão de análise de dados não nos permite encontrar o
significado de um texto de forma simples ou com poucas regras, pois as
combinações possíveis entre palavras e significados diferentes para cada
palavra geram a necessidade de regras cada vez mais específicas,
inviabilizando suas criações.
2 – Quando temos textos extremamente abreviados ou anotações feitas
rapidamente e que não possuem uma estrutura, como no exemplo de
anotações feitas por um médico ao longo de um atendimento a um paciente,
as combinações de símbolos (palavras abreviadas) e a redução ou
inexistência de uso das regras gramaticais (anotações sem conectores ou
com palavras faltando), impedem que uma análise padrão consiga extrair
qualquer informação do texto, porém uma pessoa compreenderia o texto
rapidamente e sem dificuldades.
Você assinalou essa alternativa (A)
Você acertou!
AULA 1 – TEMA 1
B 1 – A abordagem padrão de análise de dados não nos permite extrair a sintaxe de
um texto de forma simples ou com poucas regras, pois as combinações possíveis
entre palavras geram a necessidade de muito poder computacional, inviabilizando
sua utilização.
2 – Quando temos textos extremamente abreviados ou anotações feitas
rapidamente e que não possuem uma estrutura, como no exemplo de anotações
feitas por um médico ao longo de um atendimento a um paciente, as combinações
possíveis entre símbolos se reduzem e causam um aumento na velocidade de
processamento dos dados, impedindo o processamento de uma grande
quantidade de textos ao mesmo tempo.
C 1 – A abordagem padrão de análise de dados nos permite encontrar dados
estatísticos sobre cada palavra e com isso conseguimos encontrar o assunto
principal de cada texto, porém muitas palavras repetidas em um texto podem
induzir ao erro quando não levamos em consideração a sintaxe da linguagem.
2 – Quando temos textos extremamente abreviados ou anotações feitas
rapidamente e que não possuem uma estrutura, como no exemplo de anotações
feitas por um médico ao longo de um atendimento a um paciente, as combinações
de símbolos (palavras abreviadas) e a redução ou inexistência de uso das regras
gramaticais(anotações sem conectores ou com palavras faltando), impedem que
uma análise padrão consiga extrair qualquer informação do texto, porém uma
pessoa compreenderia o texto rapidamente e sem dificuldades.
D 1 – A abordagem padrão de análise de dados permite encontrarmos apenas o
significado geral do texto, mas não dados estatísticos de cada palavra.
2 – Quando temos textos extremamente abreviados ou anotações feitas
rapidamente, uma nova gramática, mais simples, surge e com isso novas regras
precisam ser criadas, dificultando o processamento dos textos.
E 1 – A abordagem padrão de análise de dados não nos permite gerar nuvens de
palavras nem realizarmos análises matemáticas nos textos.
2 – Quando temos textos extremamente abreviados ou anotações feitas
rapidamente as análises de dados padrão nos retornam significados menos
complexos, apesar de corretos, o que causa uma redução na extração de
semântica.
Questão 5/10 - Natural Language Processing
O Natural Language Toolkit (NLTK) foi originalmente criado em 2001 como parte de um
curso de linguística computacional no Departamento de Ciência da Computação e da
Informação da Universidade da Pensilvânia. Desde então, ele foi desenvolvido e expandido
com a ajuda de dezenas de colaboradores.
Sobre a criação da biblioteca, marque a opção que apresente, CORRETAMENTE, os 4
principais motivos do projeto NLTK.
Nota: 10.0
A Isolada, Categorizada, categorias em sobreposição e temporal
B Extensibilidade, Consistência, Unicidade, Capacidade.
C Simplicidade, para uso profissional, poucas ferramentas, apenas para estudos.
D Complexidade, solução completa, para grande poder computacional e
Modularidade
E Simplicidade, consistência, extensibilidade, modularidade.
Você assinalou essa alternativa (E)
Você acertou!
Aula 2, Tema 4
Questão 6/10 - Natural Language Processing
Em se tratando de coleções muito grandes, o que é comum de ocorrer na web, pode ser
recomendado reduzir o conjunto de palavras-chave representativas. Isso pode ser
conseguido a partir da eliminação de stopwords (como, por exemplo, artigos, advérbios e
preposições).
Por que existe este tipo de recomendação, quando analisamos textos muito grandes?
Nota: 10.0
A Textos da web possuem muitas palavras repetidas e que podem causar um erro
probabilístico quando analisamos através de GLCP. Por este motivo, fazemos a
eliminação destes termos repetidos, chamados do stopwords.
B As stopwords são palavras que causam a parada inesperada durante os
treinamentos de algoritmos de classificação e de stemming. Por este motivo,
devemos retirá-las dos textos quando fizermos estes tipos de análise.
C Em textos muito grandes existem muitas palavras com pouco sentido
semântico e que podem atrapalhar uma análise de contexto. Ao retirarmos
palavras que não possuem conteúdo relevante, evidenciamos os
sentimentos e significados dos textos.
Você assinalou essa alternativa (C)
Você acertou!
Aula 3, Tema 1.
D A eliminação de stopwords deve ser realizada apenas em textos da web, por
conterem elementos irrelevantes ao entendimento do discurso, como hashtags,
marcações HTML, emojis e outros símbolos.
E Em textos muito grandes, a eliminação das stopwords ajuda a reduzir a quantidade
de palavras a serem analisadas, principalmente pela característica repetitiva dos
textos de WEB. Mesmo eliminando palavras importantes como substantivos e
adjetivos, ainda é possível realizar uma análise destes textos e de forma mais leve,
computacionalmente falando.
Questão 7/10 - Natural Language Processing
Para modelos pequenos, a elaboração de uma gramática consistente demandará uma
engenharia que pode se dar em um tempo razoável. No entanto, para gramáticas que
pretendam atender a um largo contexto de sentenças possíveis, tal atividade pode ser muito
custosa.
Neste sentido, assinale V para VERDADEIRO e F para FALSO sobre as afirmativas abaixo:
( ) Modelos probabilísticos de linguagem baseiam-se em uma distribuição calculada a
partir de um conjunto de textos para uma palavra ou frase.
( ) Uma das vantagens de se utilizar um modelo probabilístico é que não são
necessários dados anotados para o treinamento de um algoritmo de aprendizagem.
( ) Um modelo probabilístico não é dependente da ocorrência das palavras em um corpus.
( ) Uma gramática construída a partir de um modelo probabilístico permite que as
probabilidades associadas às regras possam ser utilizadas para escolha da interpretação
mais provável.
Selecione a alternativa que contém a sequência correta.
Nota: 10.0
A V F V V
B V F F V
Você assinalou essa alternativa (B)
Você acertou!
Aula 2, Tema 2.
C V V F F
D F V V F
E F V F V
Questão 8/10 - Natural Language Processing
Vimos que RI (Recuperação de Informação) se refere à localização de materiais
(geralmente documentos) de natureza não estruturada (geralmente texto) que satisfazem
uma necessidade de informações em grandes coleções geralmente armazenadas em
computadores.
Um sistema de RI pode ser composto por:
( ) Uma coleção de documentos: o que pode ser tratado como documento – parágrafo, um
texto completou um conjunto de textos.
( ) Linguagem de consulta: subconjunto coletado com base na busca efetuada relevante
aos termos colocados na consulta.
( ) Um conjunto de resultados: que pode ser na forma de uma simples lista ordenada por
relevância, ou um mapa tridimensional em cores com os documentos relacionados em rede.
( ) Apresentação dos resultados: conforme um conjunto de regras para a definição da
consulta que especifica aquilo que o usuário quer pesquisar.
Marque a alternativa que contenha a ordem correta.
Nota: 10.0
A V V V V
B V V V F
C V V F F
D V F F F
Você assinalou essa alternativa (D)
Você acertou!
Aula 3, Tema 1
E F F F F
Questão 9/10 - Natural Language Processing
Ao juntarmos a indexação por frequência dos termos (TF) com a indexação por frequência
inversa de documentos (IDF), obtemos o mais popular esquema de atribuição de pesos
para indexação de documentos, o TF-IDF.
Sobre isto, marque a alternativa que contenha uma afirmação CORRETA.
Nota: 10.0
A Para indexarmos palavras em documentos é preferível utilizarmos apenas o TF,
que leva em conta a distribuição estatística de cada termo em cada documento e
se mostra mais efetivo para coleções de documentos de forma geral.
B O uso de combinações distintas dos cálculos de TF e IDF resultam em
conjuntos de pesos TF-IDF diferentes e cada uma pode resultar em uma
busca com maior ou menor precisão de resultados, mas sempre serão
melhores do que a utilização apenas de TF ou de IDF separadamente.
Você assinalou essa alternativa (B)
Você acertou!
Aula 3, Tema 4 e 5.
C Para a criação dos pesos TF, o uso do esquema de pesos binário é o mais usado e
é este esquema que foi usado em nossas demonstrações de aula.
D Ao unirmos o esquema de pesos de normalização logarítmica para TF com o
esquema de pesos unitário de IDF, obtemos o principal esquema de pesos
recomendados para o uso do TF-IDF.
E Durante a aplicação de TF-IDF em uma coleção de documentos, em primeiro lugar
devemos calcular os pesos TF-IDF de todos os elementos, para então obtermos a
matriz de frequências.
Questão 10/10 - Natural Language Processing
Os modelos de recuperação de informação mais utilizados são três: modelo booleano,
modelo vetorial e modelo probabilístico.
Sobre os modelos de recuperação de informação, assinale a alternativa CORRETA.
Nota: 10.0
A O modelo Booleano é baseado em estatística de palavras e compões a maior
parte dos sistemas de RI. Estes modelos utilizam contagem de palavras para
geração de dados estatísticos.
B O modelo Vetorial utiliza vetores de palavras chaves interligados por expressões
lógicas como E, OU e NÃO para realizar uma busca de palavras nos textos e
assim retornar um valor positivo ou negativo resultante da busca.
C O modelo Probabilístico é baseado em estatística de palavras ao gerá-las através
da contagem de palavras. Neste modelo os pesos utilizados para cada termo não
são binários, possibilitando a geração de um grau de similaridadeentre
documentos.
D O modelo Vetorial é baseado em um framework de probabilidades de termos de
indexação nos documentos. Neste caso, dada a consulta de um usuário, não
existirá nenhum documento que não pertencerá ao conjunto de documentos que
contenham exatamente os documentos relevantes ao usuário.
E O modelo Booleano por palavra-chave é característico dos sistemas mais
antigos de RI e é baseado em busca simples de palavras dentro dos
documentos. Se a palavra buscada aparecer no documento, ele será
apresentado, caso contrário, não.
Você assinalou essa alternativa (E)
Você acertou!
Aula 3, Tema 2.