Baixe o app para aproveitar ainda mais
Prévia do material em texto
1. Em um processo de classificação de texto, os dados precisam ser pré-processados, com o objetivo de preparar os recursos para a classificação. Uma entre várias técnicas que pode ser aplicada sobre os dados é a que converte uma palavra (termo) para sua forma base. Você acertou! C. Stemmizar texto. Stemmizar é a técnica que converte uma palavra flexionada para sua forma base, e filtrar por expressões regulares é encontrar padrões em um texto. Classificar é atribuir um rótulo a um ações importantes em um texto. 2. Avaliar o algoritmo de aprendizado de máquina é parte essencial de qualquer projeto. O modelo de predição pode fornecer resultados satisfatórios quando avaliado usando uma das métricas, mas pode apresentar resultados ruins quando avaliado em relação a outras métricas. Por isso, é de extrema importância saber o que cada métrica pretende aferir. Em relação às métricas de desempenho utilizadas para aferir a eficiência do modelo de predição ao final da realização do teste, qual métrica demonstra o quanto o modelo foi assertivo apenas para uma das classes? Você acertou! B. Precisão. A métrica acurácia demonstra o quanto o modelo foi assertivo em geral, enquanto precisão demonstra o quanto o modelo foi assertivo apenas para uma das classes. Além disso, a métrica revocação demonstra a frequência dos exemplos que foram encontrados de determinada classe, enquanto F1- score demonstra a qualidade do modelo de predição pela média harmônica calculada entre precisão e revocação. Por fim, a matriz de confusão é a base para os cálculos dessas métricas. 3. Antes de aplicar o classificador sobre os recursos, é necessário estar atendo ao problema de overfitting, ou seja, quando o modelo fica "muito" treinado para os dados e está "memorizando" os dados em vez de "aprender" e generalizar. Você acertou! E. Dividir a amostra em duas partes: treinamento e teste. Antes de aplicar o classificador sobre o dataset de features, é necessário dividir a amostra de dados em duas partes: o conjunto de treinamento e o conjunto de teste. Isso permitirá avaliar a precisão e verificar se o modelo se generaliza bem, ou seja, verificar se o modelo é capaz de predizer bem os dados que não tinha visto antes; caso contrário, pode ter ocorrido overfitting. 4. Um problema que pode ocorrer na classificação de textos é o fato de alguns termos comuns acabarem tendo a importância aumentada, artificialmente, pela frequência com que aparecem no conjunto. Como esses termos são conhecidos? Você acertou! A. Palavras de parada. As palavras de parada (stop words) são termos comuns que aparecem no texto e geralmente são filtradas para evitar ruídos. Há, ainda, outros itens que geralmente são removidos, como, por exemplo, símbolos como caracteres especiais, acentos, pontuações e muitas vezes, também, números. 5. Em um classificador, testar várias configurações diferentes de parâmetros (tune hyperparameters) de forma manual pode se tornar um problema, uma vez que alguns classificadores apresentam vários parâmetros que podem ser ajustados. Por exemplo, se um classificador tem 10 parâmetros, e cada um deles aceita 10 valores diferentes, seriam 100 diferentes configurações. Existem duas classes da biblioteca Scikit-Learnque ajudam a mitigar o problema. Quais são elas? Você acertou! E. RandomSearch e GridSearch. As classes de Scikit-Learn para auxiliar no ajuste dos parâmetros são as classes RandomSearch e GridSearch, que permitem testar as combinações de ajustes de forma exaustiva ou randômica. As classes TfidfVectorizer, TfidfTransformer, DictVectorizer e DictTransform são para gerar os vetores de características (cada uma com uma abordagem diferente). As classes MultinomialNB, GaussianNB e SVC são classificadores, e a classe Pipeline é para automatizar as tarefas das etapas da classificação.
Compartilhar