Prévia do material em texto
Prova de Ciência de Dados: Fundamentos e Algoritmos de Aprendizado Introdução: Esta prova aborda os conceitos fundamentais e os principais algoritmos de aprendizado de máquina. Ela é focada em testar o entendimento dos participantes sobre as técnicas de modelagem, avaliação de performance, e manipulação de dados. A prova é composta por questões sobre abordagens supervisionadas, não supervisionadas, e de aprendizado profundo. Questão 1 O que é o conceito de Overfitting em modelos de aprendizado de máquina? a) Quando o modelo é muito simples e não consegue capturar a variabilidade dos dados. b) Quando o modelo é treinado apenas com dados de teste. c) Quando o modelo se ajusta excessivamente aos dados de treinamento, perdendo capacidade de generalização. d) Quando o modelo tem desempenho muito inferior aos dados de treinamento. e) Quando o modelo é incapaz de identificar padrões nos dados de treinamento. Questão 2 O que caracteriza um algoritmo de aprendizado supervisionado? a) O modelo é treinado sem a necessidade de dados rotulados. b) O modelo usa dados rotulados para aprender a prever uma variável alvo. c) O algoritmo realiza análise de dados sem definir categorias. d) O modelo é utilizado para agrupar dados sem rótulos. e) O algoritmo busca maximizar uma recompensa por meio de tentativas e erros. Questão 3 Qual é o objetivo do Principal Component Analysis (PCA)? a) Dividir os dados em clusters com base em similaridade. b) Ajustar os hiperparâmetros do modelo para obter melhores resultados. c) Reduzir a dimensionalidade dos dados mantendo a maior variação possível. d) Classificar dados em grupos de acordo com um modelo supervisionado. e) Melhorar a precisão dos modelos de aprendizado profundo. Questão 4 Em qual cenário o algoritmo de K-means pode ser ineficaz? a) Quando os clusters são bem definidos e linearmente separáveis. b) Quando os dados possuem uma distribuição não-linear ou formas complexas. c) Quando se trabalha com poucos dados de treinamento. d) Quando se tem um grande número de variáveis. e) Quando o número de clusters é muito baixo. Questão 5 Qual das opções abaixo é uma característica do algoritmo de Random Forest? a) Usa um único modelo base para realizar as predições. b) Combina múltiplos modelos base para realizar predições mais robustas. c) Realiza clustering para agrupar dados semelhantes. d) Utiliza uma rede neural para melhorar a classificação. e) Realiza redução de dimensionalidade em dados de alta variabilidade. Questão 6 O que é bagging e como ele melhora a performance de um modelo de aprendizado de máquina? a) Uma técnica que combina múltiplos modelos fracos para criar um modelo forte. b) Uma técnica de regularização que evita overfitting. c) Uma forma de avaliar modelos de aprendizado com validação cruzada. d) Uma abordagem para aumentar o número de variáveis no modelo. e) Um método para transformar dados não rotulados em dados rotulados. Questão 7 Em que tipo de problema o algoritmo de Support Vector Machine (SVM) é mais eficaz? a) Problemas de regressão com uma única variável independente. b) Problemas de classificação com dados altamente dimensionais. c) Problemas de clustering com dados não rotulados. d) Problemas de predição sequencial com dados temporais. e) Problemas de redução de dimensionalidade com dados contínuos. Questão 8 Qual a principal característica das Redes Neurais Artificiais (ANNs)? a) Elas podem realizar aprendizado supervisionado ou não supervisionado. b) São compostas por camadas de neurônios interconectados, que aprendem padrões nos dados. c) Elas apenas são aplicáveis a problemas de clustering. d) Elas são limitadas a resolver problemas de regressão. e) Elas são baseadas em árvores de decisão. Questão 9 Qual é a função principal da curva de aprendizado em modelos de aprendizado de máquina? a) Ajustar os parâmetros do modelo para obter a melhor performance. b) Avaliar como o modelo se comporta com diferentes tamanhos de conjuntos de dados de treinamento. c) Identificar o número de variáveis mais relevantes para o modelo. d) Medir o desempenho do modelo em dados de validação. e) Definir o número de iterações necessárias para o treinamento. Questão 10 Em aprendizado supervisionado, o que é cross-validation e qual é sua principal vantagem? a) Um método de validação de dados que utiliza apenas uma parte do conjunto de dados para avaliação. b) Uma técnica de validação que divide os dados em múltiplos subconjuntos para testar e treinar o modelo, ajudando a evitar o overfitting. c) Uma técnica de validação de dados para medir a variância dos dados. d) Um método de validação que realiza a predição usando um único modelo para todos os dados. e) Uma técnica para combinar diferentes algoritmos de aprendizado em um único modelo. Gabarito e Justificativa 1. c) ○ O overfitting ocorre quando o modelo se ajusta excessivamente aos dados de treinamento, capturando até o ruído, e perde a capacidade de generalizar para novos dados. 2. b) ○ O aprendizado supervisionado utiliza dados rotulados para ensinar o modelo a prever uma variável alvo com base em exemplos conhecidos. 3. c) ○ O PCA (Análise de Componentes Principais) é uma técnica de redução de dimensionalidade, que busca manter a maior variabilidade dos dados com menos variáveis. 4. b) ○ O K-means pode ser ineficaz quando os dados possuem formas complexas ou não-lineares, pois o algoritmo assume que os clusters são separáveis por distâncias euclidianas. 5. b) ○ O Random Forest utiliza múltiplos modelos base (árvores de decisão) para fazer predições mais robustas e melhorar a performance, especialmente ao lidar com dados complexos. 6. a) ○ O bagging (Bootstrap Aggregating) combina múltiplos modelos fracos para formar um modelo forte, diminuindo a variância e evitando o overfitting. 7. b) ○ O SVM é eficaz em problemas de classificação, especialmente quando os dados são de alta dimensionalidade e é necessário encontrar um hiperplano que os separe. 8. b) ○ As Redes Neurais Artificiais são compostas por camadas de neurônios interconectados que aprendem padrões complexos nos dados, sendo amplamente usadas em classificação e regressão. 9. b) ○ A curva de aprendizado mostra como o desempenho do modelo melhora à medida que mais dados de treinamento são usados, ajudando a identificar o ponto de saturação. 10. b) ● Cross-validation divide o conjunto de dados em múltiplos subconjuntos, utilizando cada um para teste enquanto os outros são usados para treino, garantindo uma avaliação mais robusta e evitando overfitting.