Prévia do material em texto
Prova de Ciência de Dados: Fundamentos e Aplicações de Machine Learning Introdução: Esta prova foca nos conceitos e nas aplicações práticas de algoritmos de aprendizado de máquina, como classificação, regressão, clustering e redução de dimensionalidade. Testa também o entendimento sobre avaliação de modelos e técnicas de otimização. Questão 1 O que caracteriza um modelo de Support Vector Machine (SVM)? a) O SVM tenta minimizar a distância entre as amostras e a linha de decisão. b) O SVM é uma técnica de clustering utilizada para agrupar dados semelhantes. c) O SVM é um algoritmo de redução de dimensionalidade. d) O SVM tenta encontrar a linha ou o hiperplano que separa as classes de forma que a margem de separação seja maximizada. e) O SVM só funciona com dados contínuos e não pode lidar com variáveis categóricas. Questão 2 Em qual situação o algoritmo de k-means não é recomendado? a) Quando os dados têm muitas variáveis numéricas correlacionadas. b) Quando os clusters têm formas não esféricas ou distribuições diferentes. c) Quando os dados têm uma estrutura hierárquica clara. d) Quando há muitas variáveis categóricas no conjunto de dados. e) Quando o número de amostras é muito pequeno. Questão 3 Em problemas de classificação, o que é o Recall? a) A proporção de previsões corretas feitas pelo modelo. b) A medida de erro do modelo, indicando a diferença entre as previsões e os valores reais. c) A capacidade do modelo de identificar todas as instâncias positivas. d) A medida da área sob a curva ROC. e) A média ponderada entre precisão e sensibilidade. Questão 4 Qual é o objetivo da técnica de ensemble learning? a) Combinar múltiplos modelos para melhorar a performance geral. b) Ajustar o número de clusters em um modelo de agrupamento. c) Reduzir a complexidade do modelo ajustando os dados de entrada. d) Realizar a classificação de dados em grupos distintos. e) Encontrar o valor ideal de parâmetros em um modelo. Questão 5 O que é um modelo linear? a) Um modelo que assume uma relação linear entre as variáveis independentes e a variável dependente. b) Um modelo que utiliza redes neurais para prever variáveis contínuas. c) Um modelo de aprendizado não supervisionado. d) Um modelo que classifica os dados em grupos sem usar variáveis dependentes. e) Um modelo que lida com dados temporais e sequenciais. Questão 6 O que é o método de regressão logística? a) Um modelo utilizado para prever variáveis contínuas. b) Um algoritmo utilizado para prever probabilidades, especialmente em problemas de classificação binária. c) Um método de aprendizado não supervisionado para agrupamento de dados. d) Um método de redução de dimensionalidade de dados. e) Um modelo de aprendizado profundo baseado em redes neurais. Questão 7 Qual é a vantagem do algoritmo Gradient Boosting sobre modelos tradicionais? a) Ele é mais rápido e simples de treinar. b) Ele constrói modelos sequenciais onde cada novo modelo corrige os erros dos anteriores. c) Ele é ideal para problemas de clustering. d) Ele só pode ser usado para problemas de regressão. e) Ele não requer um pré-processamento de dados. Questão 8 Qual é a principal vantagem do uso do bagging em modelos de aprendizado? a) Aumenta a variabilidade do modelo. b) Reduz a variância do modelo ao treinar múltiplos modelos em subconjuntos de dados. c) Melhora a acurácia ao combinar múltiplas variáveis. d) Reduz a complexidade do modelo usando apenas uma árvore de decisão. e) Aumenta a precisão do modelo em grandes bases de dados. Questão 9 Qual é o papel da função de ativação em redes neurais? a) Ajustar os parâmetros do modelo. b) Definir a estrutura das redes neurais. c) Introduzir não linearidade no modelo, permitindo aprender relações complexas. d) Realizar o pré-processamento dos dados. e) Dividir os dados em conjuntos de treino e teste. Questão 10 Qual é a principal limitação do algoritmo Naive Bayes? a) Ele não pode lidar com dados contínuos. b) Ele assume que todas as variáveis independentes são independentes, o que pode não ser verdadeiro na prática. c) Ele não é capaz de lidar com problemas de classificação. d) Ele não pode lidar com dados desbalanceados. e) Ele requer uma grande quantidade de dados de treinamento para funcionar corretamente. Gabarito e Justificativa 1. d) ○ O SVM busca o hiperplano que maximiza a margem de separação entre as classes, o que é um dos seus principais diferenciais. 2. b) ○ O K-means funciona melhor quando os clusters têm formas esféricas e distribuições similares. 3. c) ○ O Recall mede a capacidade do modelo de identificar corretamente as instâncias positivas. 4. a) ○ O ensemble learning combina múltiplos modelos para melhorar o desempenho, reduzindo erros e aumentando a robustez do modelo final. 5. a) ○ Um modelo linear assume uma relação linear entre as variáveis independentes e a variável dependente, como na regressão linear. 6. b) ○ A regressão logística é usada para prever probabilidades em problemas de classificação binária. 7. b) ○ O Gradient Boosting constrói modelos sequenciais que corrigem os erros dos modelos anteriores, melhorando a precisão ao longo do tempo. 8. b) ○ O bagging reduz a variância do modelo ao treinar múltiplos modelos em subconjuntos dos dados, criando uma votação para determinar a previsão final. 9. c) ○ A função de ativação introduz não linearidade no modelo de redes neurais, permitindo que o modelo aprenda padrões complexos. 10. b) ● A principal limitação do Naive Bayes é sua suposição de que todas as variáveis independentes são independentes, o que pode não ser o caso na prática.