Prévia do material em texto
Prova- 94: Algoritmos de Machine Learning e Técnicas de Modelagem Introdução Esta prova foca nos algoritmos de aprendizado supervisionado e não supervisionado, abordando conceitos de classificação, regressão, clustering, e outras técnicas fundamentais em Machine Learning. Questões 1. O que caracteriza um modelo de aprendizado supervisionado? a) O modelo aprende a partir de dados rotulados, onde as saídas esperadas são fornecidas durante o treinamento. b) O modelo aprende sem rótulos e agrupa dados em diferentes categorias. c) O modelo ajusta seus parâmetros sem interação com os dados. d) O modelo cria rótulos a partir de dados não rotulados. e) O modelo é treinado usando apenas dados numéricos. 2. Em problemas de regressão, o objetivo principal é: a) Prever uma variável contínua a partir de variáveis independentes. b) Agrupar dados em categorias distintas. c) Classificar dados em grupos baseados em características comuns. d) Encontrar uma estrutura sequencial nos dados. e) Identificar a correlação entre variáveis. 3. Qual técnica é usada para ajustar a complexidade de um modelo para evitar overfitting? a) Regularização b) Clusterização c) Aumento de dados d) Regressão logística e) Reamostragem 4. O que caracteriza o algoritmo K-Means? a) Um algoritmo de clustering que agrupa dados em K clusters baseados em características semelhantes. b) Um algoritmo de regressão que ajusta uma linha reta aos dados. c) Um modelo de classificação que usa um conjunto de árvores de decisão. d) Um algoritmo de aprendizado supervisionado utilizado para prever rótulos. e) Um modelo de aprendizado profundo utilizado em análise de imagem. 5. O que é uma matriz de confusão? a) Uma tabela que ajuda a avaliar o desempenho de um modelo de classificação, mostrando as previsões em comparação com as respostas reais. b) Um gráfico que mostra a dispersão dos dados ao longo de diferentes dimensões. c) Um método para calcular a média de erro de um modelo de regressão. d) Uma técnica de validação cruzada utilizada para comparar diferentes modelos. e) Um gráfico de barras usado para visualizar a distribuição de dados em categorias. 6. Qual o objetivo do algoritmo Random Forest? a) Criar um conjunto de árvores de decisão independentes e usar suas previsões para obter um resultado mais robusto. b) Realizar uma busca de parâmetros para encontrar a melhor solução em dados não rotulados. c) Criar um único modelo de regressão linear para prever dados contínuos. d) Agrupar dados em clusters e prever os resultados com base no número de grupos. e) Utilizar redes neurais para classificar dados temporais. 7. O que caracteriza o modelo Support Vector Machine (SVM)? a) SVM busca encontrar a melhor linha ou plano que separa diferentes classes de dados em um espaço de alta dimensão. b) SVM é utilizado para reduzir a dimensionalidade dos dados. c) SVM é um algoritmo de aprendizado não supervisionado para clustering. d) SVM é uma técnica para aprendizado de séries temporais. e) SVM é um modelo de aprendizado supervisionado que se baseia em árvores de decisão. 8. O que é o conceito de feature engineering em Machine Learning? a) O processo de criar e transformar variáveis a partir de dados brutos para melhorar a performance do modelo. b) O processo de reduzir a quantidade de dados para evitar overfitting. c) A técnica de ajuste de parâmetros para otimizar os resultados de um modelo. d) A técnica de validação cruzada para melhorar a precisão do modelo. e) A técnica de usar apenas variáveis contínuas no treinamento do modelo. 9. O que é cross-validation (validação cruzada) em Machine Learning? a) Uma técnica que divide os dados em múltiplas partes para treinar e testar o modelo em diferentes conjuntos. b) Uma técnica para realizar a otimização dos parâmetros do modelo. c) Um processo de criação de novos dados para aumentar a quantidade de dados de treinamento. d) Um método para combinar várias redes neurais em um único modelo. e) Uma técnica para selecionar as melhores variáveis para o modelo. 10. Qual das opções abaixo descreve a principal aplicação do algoritmo Naive Bayes? a) Classificação de dados com base em probabilidades condicionais, assumindo independência entre as características. b) Previsão de variáveis contínuas baseadas em um conjunto de dados temporais. c) Agrupamento de dados em clusters com base em distâncias. d) Redução de dimensionalidade para melhorar a performance do modelo. e) Análise de séries temporais e previsão de tendências. Gabarito e Justificativas 1. a) Modelos supervisionados aprendem com dados rotulados, onde as saídas esperadas são fornecidas durante o treinamento. 2. a) Em regressão, o objetivo é prever uma variável contínua com base em variáveis independentes. 3. a) A regularização é usada para ajustar a complexidade do modelo e evitar overfitting. 4. a) O K-Means é um algoritmo de clustering usado para agrupar dados em K clusters com base em características semelhantes. 5. a) A matriz de confusão é usada para avaliar o desempenho de um modelo de classificação, mostrando previsões versus respostas reais. 6. a) O Random Forest cria um conjunto de árvores de decisão independentes e usa suas previsões para um resultado robusto. 7. a) O SVM busca a melhor linha ou plano para separar classes de dados em um espaço de alta dimensão. 8. a) Feature engineering envolve criar e transformar variáveis para melhorar a performance do modelo. 9. a) Cross-validation divide os dados em múltiplas partes para treinar e testar o modelo em diferentes conjuntos. 10. a) O Naive Bayes é um algoritmo de classificação baseado em probabilidades condicionais, assumindo independência entre as variáveis.