A resposta correta é a alternativa A: "É a criação de uma estrutura de dados do tipo lista com cada palavra e pontuação como um elemento desta lista, com repetições, gerando um token para cada palavra ou pontuação do texto, excluindo-se os espaços em branco e caracteres especiais como “\r” e “
”."
A tokenização é o processo de dividir um texto em unidades menores, chamadas tokens. O método word_tokenize(texto) da biblioteca NLTK realiza a tokenização do texto colocado como argumento deste método, gerando uma lista de tokens, onde cada palavra e pontuação são elementos desta lista, com repetições, excluindo-se os espaços em branco e caracteres especiais como “\r” e “
”.
Para escrever sua resposta aqui, entre ou crie uma conta
Processamento de Linguagem Natural
Compartilhar