Prévia do material em texto
Prova de Ciência de Dados: Algoritmos Avançados e Modelos de Predição Introdução: Esta prova foca em técnicas avançadas de aprendizado supervisionado e não supervisionado, incluindo algoritmos de classificação, redes neurais, validação de modelos, e regularização. Questão 1 O algoritmo Support Vector Machine (SVM) é ideal para problemas em que: a) As classes são bem separadas linearmente. b) O número de dados é muito grande e é necessário um tempo de treinamento rápido. c) Não existem rótulos para os dados. d) As classes possuem uma separação não linear que pode ser modelada com um kernel. e) A tarefa principal é regressão linear. Questão 2 O que é o Overfitting em aprendizado de máquina? a) Quando o modelo não consegue aprender os padrões dos dados de treinamento. b) Quando o modelo se ajusta excessivamente aos dados de treinamento, perdendo a capacidade de generalizar para novos dados. c) Quando o modelo tem uma baixa precisão em dados de treinamento e de teste. d) Quando o modelo é muito simples e não consegue capturar os padrões. e) Quando o modelo falha na previsão dos dados de treino devido ao uso de um kernel inadequado. Questão 3 Qual o principal benefício do Gradient Boosting? a) Ele melhora a performance do modelo criando múltiplos modelos de forma independente. b) Ele cria um único modelo altamente complexo e ajustado. c) Ele aumenta a performance de um modelo corrigindo os erros dos modelos anteriores de forma sequencial. d) Ele simplifica o modelo ao utilizar apenas os melhores atributos. e) Ele aumenta a dimensionalidade dos dados para melhorar a performance. Questão 4 Qual a principal característica do algoritmo K-Nearest Neighbors (KNN)? a) KNN é um algoritmo de aprendizado supervisionado que classifica novos pontos de dados com base em sua proximidade aos pontos de dados de treinamento. b) KNN é um algoritmo de aprendizado não supervisionado utilizado para agrupamento de dados. c) KNN é um algoritmo que realiza regressão linear para prever valores contínuos. d) KNN não requer dados rotulados para funcionar corretamente. e) KNN é uma técnica de redução de dimensionalidade. Questão 5 Qual é a técnica utilizada para evitar que um modelo de aprendizado de máquina sofra Overfitting? a) Utilizar dados sintéticos durante o treinamento. b) Aumentar o número de variáveis no modelo. c) Aplicar técnicas de regularização, como L2 (Ridge) ou L1 (Lasso). d) Treinar o modelo com dados de teste para aumentar sua precisão. e) Utilizar um único modelo para análise e não um ensemble de modelos. Questão 6 Quando se utiliza o algoritmo Random Forest, qual é a principal vantagem sobre outros algoritmos como Decision Trees? a) O Random Forest é mais rápido para treinamento em grandes volumes de dados. b) O Random Forest é mais simples e fácil de interpretar do que uma árvore de decisão única. c) O Random Forest reduz o risco de overfitting ao combinar múltiplas árvores de decisão. d) O Random Forest é mais adequado para problemas de regressão contínua. e) O Random Forest não precisa de pré-processamento dos dados. Questão 7 O que caracteriza a técnica de Principal Component Analysis (PCA)? a) PCA é usada para reduzir a dimensionalidade dos dados ao transformar as variáveis originais em um novo conjunto de variáveis ortogonais, chamadas de componentes principais. b) PCA é uma técnica de classificação utilizada para prever rótulos de classes. c) PCA é usada para reduzir a quantidade de outliers em um conjunto de dados. d) PCA é uma técnica de regularização para evitar overfitting. e) PCA seleciona variáveis que têm maior impacto nas previsões do modelo. Questão 8 Qual a principal diferença entre aprendizado supervisionado e aprendizado não supervisionado? a) No aprendizado supervisionado, os dados de entrada não são rotulados, enquanto no aprendizado não supervisionado, os dados de entrada são rotulados. b) No aprendizado supervisionado, o modelo aprende com rótulos de saída, enquanto no aprendizado não supervisionado, o modelo tenta encontrar padrões ou grupos nos dados sem rótulos. c) No aprendizado supervisionado, o modelo não é treinado em nenhum dado, ao contrário do aprendizado não supervisionado, que utiliza dados rotulados. d) No aprendizado supervisionado, o modelo usa apenas dados contínuos, enquanto no aprendizado não supervisionado utiliza apenas dados discretos. e) No aprendizado supervisionado, os dados de entrada e saída são usados simultaneamente, enquanto no aprendizado não supervisionado, apenas dados de entrada são usados. Questão 9 Em qual situação o algoritmo Naive Bayes funciona melhor? a) Quando as variáveis independentes são fortemente correlacionadas. b) Quando o número de classes é muito grande e não é possível determinar uma solução eficiente. c) Quando as variáveis de entrada são independentes e seguem uma distribuição normal. d) Quando o modelo precisa de múltiplas camadas ocultas para aprendizado profundo. e) Quando o modelo requer otimização de gradiente para melhorar o desempenho. Questão 10 O que é a técnica de Cross-Validation? a) Uma técnica de ajuste de hiperparâmetros. b) Uma técnica de validação de modelos que divide o conjunto de dados em várias partes para treinar e testar o modelo. c) Uma técnica de pré-processamento de dados para reduzir o impacto de outliers. d) Uma técnica de aumento de dados para melhorar a precisão do modelo. e) Uma técnica para avaliar o desempenho de um modelo de regressão linear. Gabarito e Justificativa 1. d) ○ O SVM é eficaz quando a separação entre as classes não é linear, e a técnica de kernel permite transformar os dados para encontrar uma separação mais eficiente. 2. b) ○ Overfitting ocorre quando o modelo aprende tanto os padrões quanto o ruído dos dados de treinamento, o que prejudica sua capacidade de generalizar para dados novos. 3. c) ○ O Gradient Boosting é um método sequencial em que cada modelo posterior tenta corrigir os erros dos modelos anteriores, melhorando a performance geral. 4. a) ○ O K-Nearest Neighbors (KNN) é um algoritmo de classificação baseado na proximidade dos dados, onde a classe de um novo ponto de dados é determinada pela maioria dos seus vizinhos mais próximos. 5. c) ○ A regularização L2 (Ridge) e L1 (Lasso) são técnicas que penalizam grandes coeficientes e ajudam a evitar overfitting ao simplificar o modelo. 6. c) ○ O Random Forest combina múltiplas árvores de decisão, o que ajuda a reduzir o risco de overfitting que ocorre em uma única árvore de decisão. 7. a) ○ PCA é uma técnica usada para reduzir a dimensionalidade dos dados, transformando as variáveis originais em componentes principais ortogonais, mantendo a maior parte da variação dos dados. 8. b) ○ No aprendizado supervisionado, o modelo aprende com rótulos de saída, enquanto no aprendizado não supervisionado, o modelo busca padrões ou agrupamentos nos dados sem rótulos. 9. c) ○ O Naive Bayes funciona melhor quando as variáveis de entrada são independentes e seguem uma distribuição normal, já que faz suposições de independência entre as variáveis. 10. b) ● O Cross-Validation é uma técnica de validação de modelos em que o conjunto de dados é dividido em várias partes, utilizando diferentes divisões para treinar e testar o modelo, garantindo uma avaliação robusta.