Prévia do material em texto
Prova de Ciência de Dados: Fundamentos e Aplicações de Machine Learning Introdução: Nesta prova, abordaremos os fundamentos e as aplicações de machine learning, explorando técnicas e algoritmos que são essenciais para o desenvolvimento de modelos preditivos e analíticos. A prova foca em conceitos chave, como aprendizado supervisionado e não supervisionado, regularização, avaliação de modelos e o uso de diferentes algoritmos para resolver problemas complexos com dados. O objetivo é avaliar a capacidade do aluno de compreender e aplicar essas técnicas. Questão 1 Qual das seguintes afirmações descreve corretamente o conceito de overfitting? a) O modelo não é capaz de aprender com os dados de treinamento. b) O modelo se ajusta excessivamente aos dados de treinamento, o que afeta a capacidade de generalizar. c) O modelo não consegue prever nada fora do conjunto de validação. d) O modelo funciona bem tanto nos dados de treinamento quanto nos de validação. e) O modelo ignora as variáveis mais importantes do conjunto de dados. Questão 2 O que é cross-validation em aprendizado de máquina? a) A validação do modelo apenas em dados de teste. b) A técnica de divisão dos dados de treinamento em várias partes para avaliar a performance do modelo. c) O ajuste de parâmetros para melhorar a performance em dados de treinamento. d) A avaliação do modelo apenas com dados rotulados. e) A redução da complexidade do modelo para evitar overfitting. Questão 3 Qual algoritmo é tipicamente utilizado para problemas de classificação binária? a) Regressão Linear b) Árvore de Decisão c) K-Means d) Regressão Logística e) Redes Neurais Convolucionais Questão 4 Em aprendizado supervisionado, como é definido o modelo de regressão? a) O modelo prevê valores discretos a partir de variáveis contínuas. b) O modelo não faz previsões, apenas agrupa os dados. c) O modelo prevê valores contínuos com base em variáveis independentes. d) O modelo não precisa de dados rotulados para aprender. e) O modelo classifica os dados em diferentes grupos ou classes. Questão 5 Qual técnica de redução de dimensionalidade é comumente usada para reduzir a complexidade dos dados e melhorar o desempenho de modelos de aprendizado de máquina? a) Regressão Logística b) Análise de Componentes Principais (PCA) c) Redes Neurais d) Algoritmo K-Nearest Neighbors e) Regressão Linear Questão 6 Em um modelo de aprendizado supervisionado, qual é o papel da variável dependente? a) Determinar o número de parâmetros do modelo. b) Representar a entrada para o modelo. c) Servir como a variável que o modelo está tentando prever. d) Ajudar a ajustar os hiperparâmetros do modelo. e) Determinar a complexidade do modelo. Questão 7 O que é o algoritmo de otimização no contexto de aprendizado de máquina? a) Um algoritmo que ajuda a reduzir o tempo de treinamento de um modelo. b) Um algoritmo que ajusta os parâmetros do modelo para minimizar a função de custo. c) Um algoritmo que classifica os dados em diferentes categorias. d) Um algoritmo utilizado para aumentar a quantidade de dados disponíveis. e) Um algoritmo que calcula a acurácia do modelo. Questão 8 Qual técnica de aprendizado de máquina é usada para agrupar dados não rotulados em grupos com base em características semelhantes? a) Regressão Linear b) K-Nearest Neighbors c) K-Means Clustering d) Árvore de Decisão e) Regressão Logística Questão 9 Em redes neurais, o que é uma camada convolucional? a) Uma camada responsável pela classificação dos dados. b) Uma camada que agrupa os dados de entrada em diferentes classes. c) Uma camada que aplica um filtro para extrair características locais dos dados. d) Uma camada que calcula a saída final do modelo. e) Uma camada que realiza a redução de dimensionalidade dos dados. Questão 10 Em que tipo de problema o algoritmo K-Nearest Neighbors (K-NN) é mais indicado? a) Problemas de classificação com grandes conjuntos de dados rotulados. b) Problemas de regressão com dados temporais. c) Problemas de agrupamento de dados com variáveis contínuas. d) Problemas de classificação e regressão baseados na proximidade entre os dados. e) Problemas de classificação binária apenas. Gabarito e Justificativa 1. b) ○ O overfitting ocorre quando o modelo aprende detalhes e ruídos dos dados de treinamento a ponto de prejudicar sua capacidade de generalizar para novos dados. 2. b) ○ Cross-validation é uma técnica de avaliação onde os dados de treinamento são divididos em várias partes, e o modelo é treinado e validado em diferentes subconjuntos, ajudando a medir a performance de forma mais robusta. 3. d) ○ A regressão logística é amplamente utilizada em problemas de classificação binária, onde o objetivo é prever uma variável categórica com duas classes. 4. c) ○ O modelo de regressão é usado para prever valores contínuos com base em variáveis independentes, como a previsão de preços ou temperaturas. 5. b) ○ A Análise de Componentes Principais (PCA) é uma técnica de redução de dimensionalidade que projeta os dados em um espaço de menor dimensionalidade, mantendo a maior parte da variabilidade dos dados. 6. c) ○ A variável dependente é a variável alvo, ou seja, a que o modelo tenta prever a partir das variáveis independentes (entradas). 7. b) ○ O algoritmo de otimização ajusta os parâmetros do modelo (por exemplo, pesos em redes neurais) de forma a minimizar a função de custo, melhorando a precisão do modelo. 8. c) ○ O K-Means Clustering é um algoritmo de aprendizado não supervisionado utilizado para agrupar dados não rotulados em clusters com base em características semelhantes. 9. c) ○ Em redes neurais convolucionais, a camada convolucional aplica filtros para extrair características locais dos dados, especialmente útil em imagens e vídeos. 10. d) ● O K-Nearest Neighbors (K-NN) é um algoritmo de classificação e regressão baseado na proximidade entre os dados, considerando os K vizinhos mais próximos para fazer a previsão.