Exercícios Módulo 6

Sistemas de Informação

•

FATEC/TQ

0

Lucas Meneses

20/09/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Sistemas de Informação

16.683 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1. Em um processo de classificação de texto, os dados precisam ser pré-processados, com o
objetivo de preparar os recursos para a classificação. Uma entre várias técnicas que pode ser
aplicada sobre os dados é a que converte uma palavra (termo) para sua forma base.
Você acertou!
C. Stemmizar texto.
Stemmizar é a técnica que converte uma palavra flexionada para sua forma base, e filtrar por
expressões regulares é encontrar padrões em um texto. Classificar é atribuir um rótulo a um
ações importantes em um texto.
2. Avaliar o algoritmo de aprendizado de máquina é parte essencial de qualquer projeto. O
modelo de predição pode fornecer resultados satisfatórios quando avaliado usando uma das
métricas, mas pode apresentar resultados ruins quando avaliado em relação a outras
métricas. Por isso, é de extrema importância saber o que cada métrica pretende aferir.

Em relação às métricas de desempenho utilizadas para aferir a eficiência do modelo de predição
ao final da realização do teste, qual métrica demonstra o quanto o modelo foi assertivo apenas
para uma das classes?
Você acertou!
B. Precisão.
A métrica acurácia demonstra o quanto o modelo foi assertivo em geral, enquanto precisão demonstra
o quanto o modelo foi assertivo apenas para uma das classes. Além disso, a métrica revocação
demonstra a frequência dos exemplos que foram encontrados de determinada classe, enquanto F1-
score demonstra a qualidade do modelo de predição pela média harmônica calculada entre precisão e
revocação. Por fim, a matriz de confusão é a base para os cálculos dessas métricas.

3. Antes de aplicar o classificador sobre os recursos, é necessário estar atendo ao problema de
overfitting, ou seja, quando o modelo fica "muito" treinado para os dados e está
"memorizando" os dados em vez de "aprender" e generalizar.
Você acertou!
E. Dividir a amostra em duas partes: treinamento e teste.
Antes de aplicar o classificador sobre o dataset de features, é necessário dividir a amostra de dados em
duas partes: o conjunto de treinamento e o conjunto de teste. Isso permitirá avaliar a precisão e
verificar se o modelo se generaliza bem, ou seja, verificar se o modelo é capaz de predizer bem os dados
que não tinha visto antes; caso contrário, pode ter ocorrido overfitting.

4. Um problema que pode ocorrer na classificação de textos é o fato de alguns termos comuns
acabarem tendo a importância aumentada, artificialmente, pela frequência com que
aparecem no conjunto.
Como esses termos são conhecidos?
Você acertou!
A. Palavras de parada.
As palavras de parada (stop words) são termos comuns que aparecem no texto e geralmente são
filtradas para evitar ruídos. Há, ainda, outros itens que geralmente são removidos, como, por exemplo,
símbolos como caracteres especiais, acentos, pontuações e muitas vezes, também, números.

5. Em um classificador, testar várias configurações diferentes de parâmetros (tune
hyperparameters) de forma manual pode se tornar um problema, uma vez que alguns
classificadores apresentam vários parâmetros que podem ser ajustados. Por exemplo, se um
classificador tem 10 parâmetros, e cada um deles aceita 10 valores diferentes, seriam 100
diferentes configurações.
Existem duas classes da biblioteca Scikit-Learnque ajudam a mitigar o problema. Quais são elas?
Você acertou!
E. RandomSearch e GridSearch.
As classes de Scikit-Learn para auxiliar no ajuste dos parâmetros são as classes RandomSearch e
GridSearch, que permitem testar as combinações de ajustes de forma exaustiva ou randômica. As
classes TfidfVectorizer, TfidfTransformer, DictVectorizer e DictTransform são para gerar os vetores de
características (cada uma com uma abordagem diferente). As classes MultinomialNB, GaussianNB e SVC
são classificadores, e a classe Pipeline é para automatizar as tarefas das etapas da classificação.