Prévia do material em texto
Prova- 165: Fundamentos de Modelos Supervisionados Introdução Esta prova explora os conceitos fundamentais dos modelos supervisionados, incluindo classificação, regressão e técnicas para prevenir o overfitting. Questões 1. O que é uma função de custo em aprendizado supervisionado? a) Uma função usada para ajustar a dimensionalidade dos dados. b) Uma medida da qualidade das previsões do modelo, minimizada durante o treinamento. c) Um algoritmo que realiza clusterização dos dados. d) Uma função utilizada para normalizar os dados de entrada. e) Uma função que determina a quantidade de dados rotulados a ser usado. 2. O que define o algoritmo K-Nearest Neighbors (KNN)? a) Ele classifica os dados com base em distâncias entre os pontos de dados. b) Ele utiliza uma rede neuronal para classificar os dados. c) Ele calcula uma função de ativação para determinar a classe. d) Ele faz previsões baseadas em atributos sequenciais. e) Ele ajusta automaticamente os hiperparâmetros para melhorar a performance. 3. Qual é a principal vantagem do Random Forest sobre uma única árvore de decisão? a) Ele usa uma única árvore, o que melhora a precisão. b) Ele combina múltiplas árvores e faz a média das previsões para melhorar a precisão. c) Ele usa um modelo linear para classificar os dados. d) Ele é mais rápido, pois usa apenas uma árvore. e) Ele não requer dados rotulados para ser treinado. 4. O que caracteriza o algoritmo de regressão linear? a) Ele modela a relação não-linear entre as variáveis. b) Ele prevê valores contínuos com base em uma função linear. c) Ele é usado apenas em problemas de classificação. d) Ele classifica as amostras com base em distâncias. e) Ele trabalha com variáveis dependentes e não depende dos dados de treinamento. 5. O que é underfitting em modelos de aprendizado supervisionado? a) O modelo ajusta muito bem aos dados de treinamento, mas falha em generalizar. b) O modelo tem baixa precisão tanto em dados de treinamento quanto de teste. c) O modelo é altamente complexo e tem alta precisão em dados de teste. d) O modelo não consegue capturar a complexidade dos dados, resultando em desempenho ruim. e) O modelo se adapta automaticamente aos dados rotulados. 6. O que caracteriza a técnica de regularização L1 (Lasso)? a) Penaliza os coeficientes grandes e faz com que muitos coeficientes se aproximem de zero. b) Penaliza os coeficientes pequenos, forçando-os a se aproximarem de zero. c) Ajusta os atributos de forma que o modelo seja mais simples. d) Aumenta a dimensionalidade do conjunto de dados. e) Não interfere nos coeficientes das variáveis. 7. Qual a principal diferença entre classificação e regressão em modelos supervisionados? a) Classificação prevê valores contínuos, enquanto regressão prevê classes discretas. b) Classificação prevê classes discretas, enquanto regressão prevê valores contínuos. c) Classificação e regressão são usadas para o mesmo tipo de problema. d) Classificação usa apenas dados não rotulados, enquanto regressão utiliza dados rotulados. e) Classificação é usada apenas para dados de imagem, enquanto regressão é para dados de texto. 8. Como a validação cruzada ajuda a avaliar um modelo? a) Ela avalia o modelo em dados de treinamento apenas. b) Ela aumenta a quantidade de dados rotulados usados no treinamento. c) Ela divide os dados em várias partes e testa o modelo em diferentes conjuntos, melhorando a generalização. d) Ela ajusta os hiperparâmetros automaticamente. e) Ela elimina atributos irrelevantes do modelo. 9. O que significa overfitting em aprendizado supervisionado? a) O modelo não consegue aprender a partir dos dados de treinamento. b) O modelo se ajusta excessivamente aos dados de treinamento, comprometendo sua capacidade de generalizar para novos dados. c) O modelo apresenta uma baixa precisão em dados de treinamento, mas alta precisão em dados de teste. d) O modelo tem uma alta complexidade e baixa precisão. e) O modelo usa métodos não supervisionados para melhorar a performance. 10. O que caracteriza o método Naive Bayes? a) Ele utiliza uma rede neural para classificar os dados. b) Ele é baseado em probabilidades condicionais e assume que as variáveis são independentes entre si. c) Ele classifica os dados com base em distâncias entre os pontos. d) Ele é utilizado apenas em problemas de regressão. e) Ele ajusta múltiplos modelos para melhorar a precisão. Gabarito e Justificativas 1. b) A função de custo mede a qualidade das previsões, e é minimizada durante o treinamento. 2. a) O KNN classifica os dados com base nas distâncias entre os pontos de dados. 3. b) Random Forest usa múltiplas árvores e faz a média das previsões para melhorar a precisão. 4. b) O algoritmo de regressão linear prevê valores contínuos com base em uma função linear. 5. d) Underfitting ocorre quando o modelo não consegue capturar a complexidade dos dados. 6. a) A regularização L1 (Lasso) penaliza os coeficientes grandes e faz com que muitos coeficientes se aproximem de zero. 7. b) Classificação prevê classes discretas, enquanto regressão prevê valores contínuos. 8. c) Validação cruzada divide os dados em várias partes e testa o modelo em diferentes conjuntos para melhorar a generalização. 9. b) Overfitting ocorre quando o modelo se ajusta excessivamente aos dados de treinamento, prejudicando sua generalização. 10. b) Naive Bayes é baseado em probabilidades condicionais e assume que as variáveis são independentes entre si.