Com base nas informações fornecidas, podemos afirmar que: I. A geração de tokens promove a remoção de sinais como pontos, vírgulas, hífens e outros diacríticos durante a análise lexical. Essa afirmação está correta, pois durante o pré-processamento de dados textuais, é comum remover sinais de pontuação e outros caracteres especiais para facilitar a análise. II. Na etapa de representação é realizado o mapeamento entre termos, documentos e corpus para dados numéricos, formando um conjunto de dados que será utilizado pelos modelos. Essa afirmação também está correta, pois na etapa de representação de dados textuais, é necessário converter os termos, documentos e corpus em dados numéricos para que possam ser utilizados em modelos de análise. Portanto, ambas as afirmações estão corretas.
Para escrever sua resposta aqui, entre ou crie uma conta
Compartilhar