Logo Passei Direto
Buscar

Inglês

UNIASSELVI
Os algoritmos de machine learning têm a capacidade de classificar textos com base nas categorias apresentadas por datasets, como o 20newsgroups. A performance desses algoritmos pode variar dependendo das características do texto, como a presença de stopwords. Com base nas informações apresentadas, avalie as asserções a seguir e a relação proposta entre elas:I. A remoção de stopwords pode influenciar a acurácia e a F1 dos modelos de classificação de texto. PORQUE II. Stopwords são palavras comuns que podem não agregar significado em análises de texto e, por consequência, sua presença ou remoção modifica a estrutura de informação do dataset.A respeito dessas asserções, assinale a opção correta:
User badge image
Pedro Fernandes

há 2 anos

Respostas

User badge image

Ed Verified user icon

há 2 anos

Vamos analisar as asserções: I. A remoção de stopwords pode influenciar a acurácia e a F1 dos modelos de classificação de texto. Verdadeiro, a remoção de stopwords pode melhorar a performance dos modelos, pois elimina palavras que não agregam valor informativo. II. Stopwords são palavras comuns que podem não agregar significado em análises de texto e, por consequência, sua presença ou remoção modifica a estrutura de informação do dataset. Verdadeiro, essa definição está correta, pois stopwords são palavras que geralmente não contribuem para o significado e sua remoção pode alterar a análise. Agora, vamos considerar a relação entre as duas asserções. A primeira afirma que a remoção de stopwords pode influenciar a performance dos modelos, e a segunda explica por que isso acontece, ou seja, a presença ou remoção de stopwords afeta a estrutura de informação do dataset. Ambas as asserções são verdadeiras e a segunda justifica a primeira. Portanto, a opção correta é que ambas as asserções são verdadeiras e a segunda justifica a primeira.

Essa resposta te ajudou?

0
Dislike0
User badge image

Mary Camara

há 8 meses

Ambas as asserções são verdadeiras e a segunda justifica a primeira.

Análise da Asserção I:

  • I. A remoção de stopwords pode influenciar a acurácia e a F1 dos modelos de classificação de texto.
  • Verdadeira. Em tarefas de classificação de texto, a acurácia e a pontuação F1 (métricas de desempenho do modelo) podem ser afetadas pela remoção de stopwords. Isso ocorre porque as stopwords (palavras muito frequentes como "e", "de", "o", "a") são geralmente consideradas ruído ou features de baixa relevância para a classificação do tópico. Sua remoção reduz o espaço de features, o que muitas vezes melhora a performance e a eficiência dos modelos, embora, em alguns casos (dependendo do modelo e da tarefa), sua presença possa ser relevante. O fato de que pode influenciar já torna a asserção verdadeira.

Análise da Asserção II:

  • II. Stopwords são palavras comuns que podem não agregar significado em análises de texto e, por consequência, sua presença ou remoção modifica a estrutura de informação do dataset.
  • Verdadeira. Stopwords são, por definição, palavras de alta frequência e de função gramatical que, na maioria dos casos de Processamento de Linguagem Natural (PLN) e mineração de texto, são consideradas de baixo valor semântico para a determinação do tópico ou sentimento do texto. A sua remoção (ou a sua permanência) modifica a representação vetorial do texto (o feature space do dataset), alterando a estrutura de informação que o modelo de machine learning utilizará para aprender.

Relação entre as Asserções (PORQUE):

  • A assertiva I afirma que a remoção de stopwords influencia a performance (acurácia/F1).
  • A assertiva II explica que stopwords são palavras sem muito significado que, ao serem removidas, modificam a estrutura de informação do dataset.
  • A modificação na estrutura da informação do dataset (II) é a causa direta da influência na performance do modelo (I), pois o modelo está aprendendo a partir de uma representação de dados diferente.

Portanto, as asserções I e II são verdadeiras, e a asserção II é uma justificativa correta da asserção I.

A opção correta é a B.

Essa resposta te ajudou?

0
Dislike0

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Mais conteúdos dessa disciplina