Buscar

Exercícios Módulo 6

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1. Em um processo de classificação de texto, os dados precisam ser pré-processados, com o 
objetivo de preparar os recursos para a classificação. Uma entre várias técnicas que pode ser 
aplicada sobre os dados é a que converte uma palavra (termo) para sua forma base. 
Você acertou! 
C. Stemmizar texto. 
Stemmizar é a técnica que converte uma palavra flexionada para sua forma base, e filtrar por 
expressões regulares é encontrar padrões em um texto. Classificar é atribuir um rótulo a um 
ações importantes em um texto. 
2. Avaliar o algoritmo de aprendizado de máquina é parte essencial de qualquer projeto. O 
modelo de predição pode fornecer resultados satisfatórios quando avaliado usando uma das 
métricas, mas pode apresentar resultados ruins quando avaliado em relação a outras 
métricas. Por isso, é de extrema importância saber o que cada métrica pretende aferir. 
 
Em relação às métricas de desempenho utilizadas para aferir a eficiência do modelo de predição 
ao final da realização do teste, qual métrica demonstra o quanto o modelo foi assertivo apenas 
para uma das classes? 
Você acertou! 
B. Precisão. 
A métrica acurácia demonstra o quanto o modelo foi assertivo em geral, enquanto precisão demonstra 
o quanto o modelo foi assertivo apenas para uma das classes. Além disso, a métrica revocação 
demonstra a frequência dos exemplos que foram encontrados de determinada classe, enquanto F1-
score demonstra a qualidade do modelo de predição pela média harmônica calculada entre precisão e 
revocação. Por fim, a matriz de confusão é a base para os cálculos dessas métricas. 
 
3. Antes de aplicar o classificador sobre os recursos, é necessário estar atendo ao problema de 
overfitting, ou seja, quando o modelo fica "muito" treinado para os dados e está 
"memorizando" os dados em vez de "aprender" e generalizar. 
Você acertou! 
E. Dividir a amostra em duas partes: treinamento e teste. 
Antes de aplicar o classificador sobre o dataset de features, é necessário dividir a amostra de dados em 
duas partes: o conjunto de treinamento e o conjunto de teste. Isso permitirá avaliar a precisão e 
verificar se o modelo se generaliza bem, ou seja, verificar se o modelo é capaz de predizer bem os dados 
que não tinha visto antes; caso contrário, pode ter ocorrido overfitting. 
 
4. Um problema que pode ocorrer na classificação de textos é o fato de alguns termos comuns 
acabarem tendo a importância aumentada, artificialmente, pela frequência com que 
aparecem no conjunto. 
 Como esses termos são conhecidos? 
Você acertou! 
A. Palavras de parada. 
As palavras de parada (stop words) são termos comuns que aparecem no texto e geralmente são 
filtradas para evitar ruídos. Há, ainda, outros itens que geralmente são removidos, como, por exemplo, 
símbolos como caracteres especiais, acentos, pontuações e muitas vezes, também, números. 
 
5. Em um classificador, testar várias configurações diferentes de parâmetros (tune 
hyperparameters) de forma manual pode se tornar um problema, uma vez que alguns 
classificadores apresentam vários parâmetros que podem ser ajustados. Por exemplo, se um 
classificador tem 10 parâmetros, e cada um deles aceita 10 valores diferentes, seriam 100 
diferentes configurações. 
Existem duas classes da biblioteca Scikit-Learnque ajudam a mitigar o problema. Quais são elas? 
Você acertou! 
E. RandomSearch e GridSearch. 
As classes de Scikit-Learn para auxiliar no ajuste dos parâmetros são as classes RandomSearch e 
GridSearch, que permitem testar as combinações de ajustes de forma exaustiva ou randômica. As 
classes TfidfVectorizer, TfidfTransformer, DictVectorizer e DictTransform são para gerar os vetores de 
características (cada uma com uma abordagem diferente). As classes MultinomialNB, GaussianNB e SVC 
são classificadores, e a classe Pipeline é para automatizar as tarefas das etapas da classificação.

Continue navegando