Buscar

Na aula 5 foi apresentado o uso do método word_tokenize(texto) da biblioteca NLTK. Este método realiza a tokenização do texto colocado como argumen...

Na aula 5 foi apresentado o uso do método word_tokenize(texto) da biblioteca NLTK. Este método realiza a tokenização do texto colocado como argumento deste método. Sobre a tokenização, é correto afirmar que:
A É a criação de uma estrutura de dados do tipo lista com cada palavra e pontuação como um elemento desta lista, com repetições, gerando um token para cada palavra ou pontuação do texto, excluindo-se os espaços em branco e caracteres especiais como “ ” e “
”.
B É a criação de uma estrutura de dados do tipo lista com cada palavra e pontuação como um elemento desta lista, com repetições, gerando um token para cada palavra ou pontuação do texto, excluindo-se os espaços em branco e caracteres especiais como “ ” e “
”.
C É a criação de uma estrutura de dados do tipo lista com as palavras reduzidas aos seus radicais, excluindo-se palavras repetidas, pontuações e caracteres especiais como “ ” e “
”.
D É a criação de uma estrutura de dados do tipo lista com as palavras reduzidas aos seus radicais, incluindo todas as palavras repetidas, pontuações e caracteres especiais como “ ” e “
”.
E É a criação de uma estrutura de dados do tipo dicionário com as palavras como chaves e a contagem de suas ocorrências como o valor, excluindo-se caracteres especiais como “ ” e “
”.
A
B
C
D
E

Essa pergunta também está no material:

Natural Language Processing - Apol 2 - Nota 80
8 pág.

Processamento de Linguagem Natural Centro Universitário UNINTERCentro Universitário UNINTER

💡 1 Resposta

User badge image

Ed Verified user icon

A resposta correta é a alternativa A: "É a criação de uma estrutura de dados do tipo lista com cada palavra e pontuação como um elemento desta lista, com repetições, gerando um token para cada palavra ou pontuação do texto, excluindo-se os espaços em branco e caracteres especiais como “\r” e “
”." A tokenização é o processo de dividir um texto em unidades menores, chamadas tokens. O método word_tokenize(texto) da biblioteca NLTK realiza a tokenização do texto colocado como argumento deste método, gerando uma lista de tokens, onde cada palavra e pontuação são elementos desta lista, com repetições, excluindo-se os espaços em branco e caracteres especiais como “\r” e “
”.

0
Dislike0

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

✏️ Responder

SetasNegritoItálicoSublinhadoTachadoCitaçãoCódigoLista numeradaLista com marcadoresSubscritoSobrescritoDiminuir recuoAumentar recuoCor da fonteCor de fundoAlinhamentoLimparInserir linkImagemFórmula

Para escrever sua resposta aqui, entre ou crie uma conta

User badge image

Outros materiais