Prévia do material em texto
Prova de Ciência de Dados: Algoritmos e Técnicas de Aprendizado Supervisionado e Não Supervisionado Introdução: Este teste visa avaliar o conhecimento sobre os fundamentos dos algoritmos de aprendizado supervisionado e não supervisionado, abordando técnicas de classificação, regressão, clustering e avaliação de modelos. As questões são formuladas para explorar o entendimento dos métodos de modelagem e sua aplicação em diferentes cenários. Questão 1 O que define um modelo de aprendizado supervisionado? a) O modelo aprende com dados sem rótulos e busca identificar padrões. b) O modelo é alimentado apenas com rótulos e não aprende a partir dos dados. c) O modelo usa dados rotulados para aprender a mapear entradas em saídas. d) O modelo realiza agrupamento de dados de acordo com características semelhantes. e) O modelo utiliza redes neurais para aprender de maneira não supervisionada. Questão 2 Qual é o principal objetivo de um modelo de regressão linear? a) Classificar os dados em diferentes categorias. b) Estimar a relação entre variáveis independentes e uma variável dependente contínua. c) Agrupar dados em clusters. d) Reduzir a dimensionalidade dos dados. e) Determinar a probabilidade de uma classe. Questão 3 Qual é a principal diferença entre os métodos k-means e DBSCAN para clustering? a) O k-means é adequado para dados esparsos, enquanto o DBSCAN é ideal para dados densos. b) O k-means exige o número de clusters a priori, enquanto o DBSCAN não precisa desse parâmetro. c) O DBSCAN é baseado em distâncias, enquanto o k-means usa médias. d) O k-means é um modelo supervisionado e o DBSCAN é não supervisionado. e) O DBSCAN trabalha melhor com variáveis contínuas, enquanto o k-means funciona melhor com variáveis categóricas. Questão 4 Qual técnica de aprendizado de máquina é mais indicada para lidar com grandes volumes de dados e pouca informação sobre o modelo? a) Redes Neurais Profundas. b) Árvores de Decisão. c) K-vizinhos mais próximos (k-NN). d) Máquinas de Vetores de Suporte (SVM). e) Regressão Logística. Questão 5 Qual é a função de uma função de ativação em redes neurais? a) Reduzir a complexidade do modelo. b) Controlar a taxa de aprendizado do modelo. c) Introduzir não-linearidade ao modelo, ajudando a aprender padrões complexos. d) Estabilizar a convergência do modelo. e) Ajustar a regularização do modelo. Questão 6 No aprendizado de máquina, o que caracteriza um modelo overfitted? a) O modelo é simples e generaliza bem para novos dados. b) O modelo se ajusta demais aos dados de treinamento e perde a capacidade de generalizar para dados novos. c) O modelo tem alta precisão, mas falha em identificar padrões relevantes. d) O modelo apresenta resultados aleatórios em novos dados. e) O modelo é equilibrado entre precisão e simplicidade. Questão 7 Qual é a principal vantagem do algoritmo K-vizinhos mais próximos (k-NN)? a) Ele não exige treinamento, sendo um modelo simples de implementar. b) Ele é particularmente eficiente para dados de alta dimensão. c) Ele é adequado apenas para problemas de classificação binária. d) Ele ajusta automaticamente os hiperparâmetros. e) Ele é ideal para dados temporais e sequenciais. Questão 8 Em problemas de classificação binária, o que é a matriz de confusão? a) Uma representação gráfica das distribuições das classes. b) Uma matriz que ajuda a visualizar o erro de classificação de um modelo. c) Um gráfico que ilustra o erro quadrático médio. d) Um método para reduzir o viés do modelo. e) Um algoritmo que realiza o balanceamento das classes. Questão 9 Qual é o objetivo do algoritmo Principal Component Analysis (PCA)? a) Maximizar a acurácia de um modelo. b) Reduzir a dimensionalidade dos dados ao transformar variáveis correlacionadas em componentes principais. c) Aumentar a complexidade dos dados de entrada para melhorar o desempenho do modelo. d) Agrupar dados em clusters com base em características comuns. e) Transformar dados em uma forma de fácil visualização. Questão 10 No contexto de redes neurais, o que é uma camada oculta? a) A camada responsável por produzir a saída do modelo. b) A camada responsável por conectar as entradas aos neurônios da rede. c) As camadas intermediárias entre a camada de entrada e a camada de saída, responsáveis por realizar cálculos complexos. d) A camada que regula a taxa de aprendizado do modelo. e) A camada que realiza a regularização do modelo. Gabarito e Justificativa 1. c) ○ O aprendizado supervisionado utiliza dados rotulados para ensinar o modelo a mapear entradas para saídas. Este é o objetivo principal desse tipo de aprendizado. 2. b) ○ A regressão linear busca modelar a relação entre variáveis independentes e uma variável dependente contínua, usando uma equação linear. 3. b) ○ O k-means exige que o número de clusters seja especificado, enquanto o DBSCAN identifica automaticamente clusters baseados na densidade dos pontos de dados. 4. a) ○ As redes neurais profundas são amplamente utilizadas para lidar com grandes volumes de dados e problemas complexos, especialmente em aprendizado não supervisionado. 5. c) ○ As funções de ativação introduzem não-linearidade em redes neurais, permitindo que o modelo aprenda padrões complexos. 6. b) ○ O overfitting ocorre quando o modelo se ajusta excessivamente aos dados de treinamento e perde a capacidade de generalizar para novos dados. 7. a) ○ O k-NN é simples e não exige treinamento explícito, o que o torna fácil de implementar, mas com desvantagens em termos de desempenho computacional em grandes conjuntos de dados. 8. b) ○ A matriz de confusão ajuda a visualizar o desempenho do modelo de classificação, destacando as predições corretas e incorretas para cada classe. 9. b) ○ O PCA é uma técnica de redução de dimensionalidade que transforma variáveis correlacionadas em um novo conjunto de variáveis chamadas componentes principais, preservando a maior parte da variação dos dados. 10. c) ● As camadas ocultas são responsáveis por realizar o processamento intermediário dos dados dentro da rede neural, entre a camada de entrada e a camada de saída.