Prévia do material em texto
Prova- 136: Práticas Avançadas em Modelos Supervisionados Introdução A prova foca em aplicações avançadas e em estratégias de ajuste de modelos supervisionados, explorando temas como regularização, redução de dimensionalidade, validação e métricas de desempenho. Questões 1. O que é o Gradient Boosting e como ele melhora o desempenho dos modelos supervisionados? a) O Gradient Boosting cria várias árvores de decisão de forma sequencial, ajustando cada árvore para corrigir os erros da anterior. b) O Gradient Boosting combina múltiplos modelos em paralelo para melhorar o desempenho. c) O Gradient Boosting usa redes neurais para treinar o modelo. d) O Gradient Boosting é uma técnica de clustering não supervisionado. e) O Gradient Boosting ajusta os dados de entrada antes de treinar o modelo. 2. Qual é a principal vantagem da técnica de PCA (Principal Component Analysis) em aprendizado supervisionado? a) A PCA ajuda a melhorar a precisão do modelo, reduzindo a dimensionalidade dos dados. b) A PCA é usada apenas para ajustar os parâmetros de modelos de redes neurais. c) A PCA permite aumentar o número de características do modelo. d) A PCA é um algoritmo de aprendizagem supervisionada para previsão de valores contínuos. e) A PCA realiza a classificação de dados com base em um conjunto de atributos definidos manualmente. 3. O que é o conceito de underfitting em aprendizado supervisionado? a) Quando o modelo é muito complexo e se ajusta bem aos dados de treinamento, mas não generaliza bem para novos dados. b) Quando o modelo é simples demais e não captura os padrões dos dados de treinamento. c) Quando o modelo está em um estado de overfitting. d) Quando o modelo é otimizado para novas amostras, mas falha nos dados de treinamento. e) Quando o modelo usa poucas variáveis para prever. 4. O que é uma função de perda em modelos supervisionados? a) A função de perda é usada para determinar a complexidade do modelo. b) A função de perda calcula o erro entre as previsões do modelo e os valores reais. c) A função de perda ajusta os parâmetros do modelo para reduzir a variância. d) A função de perda é usada para realizar a validação cruzada. e) A função de perda aumenta o erro para melhorar a generalização do modelo. 5. O que é o conceito de learning rate (taxa de aprendizado) em algoritmos de otimização de modelos supervisionados? a) A taxa de aprendizado define a quantidade de erro permitido durante o treinamento do modelo. b) A taxa de aprendizado ajusta a complexidade do modelo. c) A taxa de aprendizado determina a velocidade com que o modelo ajusta os parâmetros durante o treinamento. d) A taxa de aprendizado aumenta a quantidade de dados utilizados para o treinamento. e) A taxa de aprendizado ajusta a quantidade de rótulos utilizados no treinamento. 6. Como o XGBoost se diferencia do Gradient Boosting tradicional? a) O XGBoost usa uma técnica de regularização para reduzir o overfitting. b) O XGBoost utiliza uma abordagem em paralelo para melhorar a eficiência de treinamento. c) O XGBoost é uma técnica de aprendizado não supervisionado. d) O XGBoost usa menos árvores do que o Gradient Boosting. e) O XGBoost é mais lento do que o Gradient Boosting. 7. O que é o conceito de classificação multiclasse? a) A classificação multiclasse envolve a previsão de mais de duas classes para um modelo supervisionado. b) A classificação multiclasse envolve a previsão de uma única classe para um modelo supervisionado. c) A classificação multiclasse é utilizada apenas em modelos de redes neurais. d) A classificação multiclasse utiliza apenas uma classe de rótulos para o treinamento. e) A classificação multiclasse é uma técnica de redução de dimensionalidade. 8. O que é o conceito de feature engineering em aprendizado supervisionado? a) O feature engineering envolve a criação e modificação de variáveis a partir dos dados brutos para melhorar o desempenho do modelo. b) O feature engineering é um método de validação cruzada de dados. c) O feature engineering envolve apenas a normalização dos dados. d) O feature engineering é utilizado para treinar modelos não supervisionados. e) O feature engineering ajusta automaticamente os parâmetros do modelo. 9. O que é uma matriz de confusão e como ela é útil para avaliação de modelos? a) A matriz de confusão é usada para ajustar os parâmetros do modelo de forma que os erros sejam minimizados. b) A matriz de confusão mostra a comparação entre os valores reais e as previsões do modelo, ajudando a avaliar a acurácia. c) A matriz de confusão é uma técnica de regularização. d) A matriz de confusão ajusta o modelo para reduzir o overfitting. e) A matriz de confusão é usada apenas para modelos de regressão. 10. Como o modelo de regressão logística pode ser utilizado para classificação? a) A regressão logística utiliza uma função logística para estimar a probabilidade de uma classe. b) A regressão logística usa técnicas de agrupamento para separar as classes. c) A regressão logística é uma técnica não supervisionada usada para prever valores contínuos. d) A regressão logística utiliza redes neurais para determinar as classes. e) A regressão logística não pode ser usada para problemas de classificação. Gabarito e Justificativas 1. a) O Gradient Boosting constrói árvores de decisão sequenciais para corrigir os erros das anteriores, melhorando a precisão. 2. a) PCA reduz a dimensionalidade dos dados, ajudando a melhorar a precisão do modelo. 3. b) Underfitting ocorre quando o modelo é simples demais e não captura padrões nos dados de treinamento. 4. b) A função de perda calcula o erro entre as previsões do modelo e os valores reais. 5. c) A taxa de aprendizado determina a velocidade com que o modelo ajusta os parâmetros durante o treinamento. 6. a) O XGBoost adiciona regularização para reduzir o overfitting e melhora a eficiência do treinamento. 7. a) A classificação multiclasse prevê mais de duas classes. 8. a) Feature engineering envolve a criação e modificação de variáveis para melhorar o desempenho do modelo. 9. b) A matriz de confusão ajuda a avaliar a acurácia do modelo ao comparar as previsões com os valores reais. 10. a) A regressão logística usa uma função logística para estimar a probabilidade de uma classe.