Na aula 5 foi apresentado o uso do método word_tokenize(texto) da biblioteca NLTK. Este método realiza a tokenização do texto colocado como argumen...

Question

Na aula 5 foi apresentado o uso do método word_tokenize(texto) da biblioteca NLTK. Este método realiza a tokenização do texto colocado como argumento deste método. Sobre a tokenização, é correto afirmar que:
A É a criação de uma estrutura de dados do tipo lista com cada palavra e pontuação como um elemento desta lista, com repetições, gerando um token para cada palavra ou pontuação do texto, excluindo-se os espaços em branco e caracteres especiais como “ ” e “
”.
B É a criação de uma estrutura de dados do tipo lista com cada palavra e pontuação como um elemento desta lista, com repetições, gerando um token para cada palavra ou pontuação do texto, excluindo-se os espaços em branco e caracteres especiais como “ ” e “
”.
C É a criação de uma estrutura de dados do tipo lista com as palavras reduzidas aos seus radicais, excluindo-se palavras repetidas, pontuações e caracteres especiais como “ ” e “
”.
D É a criação de uma estrutura de dados do tipo lista com as palavras reduzidas aos seus radicais, incluindo todas as palavras repetidas, pontuações e caracteres especiais como “ ” e “
”.
E É a criação de uma estrutura de dados do tipo dicionário com as palavras como chaves e a contagem de suas ocorrências como o valor, excluindo-se caracteres especiais como “ ” e “
”.
A
B
C
D
E

Ed · Answer

A resposta correta é a alternativa A: "É a criação de uma estrutura de dados do tipo lista com cada palavra e pontuação como um elemento desta lista, com repetições, gerando um token para cada palavra ou pontuação do texto, excluindo-se os espaços em branco e caracteres especiais como “\r” e “”."

A tokenização é o processo de dividir um texto em unidades menores, chamadas tokens. O método word_tokenize(texto) da biblioteca NLTK realiza a tokenização do texto colocado como argumento deste método, gerando uma lista de tokens, onde cada palavra e pontuação são elementos desta lista, com repetições, excluindo-se os espaços em branco e caracteres especiais como “\r” e “”.

Na aula 5 foi apresentado o uso do método word_tokenize(texto) da biblioteca NLTK. Este método realiza a tokenização do texto colocado como argumen...

Processamento de Linguagem Natural

Outros

Essa pergunta também está no material:

Natural Language Processing - Apol 2 - Nota 80

Processamento de Linguagem Natural • Centro Universitário UNINTERCentro Universitário UNINTER

💡 1 Resposta

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

✏️ Responder

Outros materiais

Perguntas relacionadas

Sobre a tokenização, é correto afirmar que: A É a criação de uma estrutura de dados do tipo lista com cada palavra e pontuação como um elemento de...

São formas de fazer tokenização, exceto: a) {2,5} b) {2-5} c) [2,5] d) {2;5}

Na aula 5, o tema 2 nos apresenta a biblioteca NLTK para uso em tarefas de linguagem natural para Python. Esta biblioteca define uma estrutura que ...

Sobre a criação da biblioteca, marque a opção que apresente, CORRETAMENTE, os 4 principais motivos do projeto NLTK. A Isolada, Categorizada, categ...

Materiais relacionados

Outros materiais