Prévia do material em texto
Prova de Ciência de Dados: Análise de Dados e Modelos Preditivos Introdução: Esta prova abrange temas relacionados à análise de dados e à construção de modelos preditivos em Ciência de Dados. As questões abordam o uso de algoritmos de aprendizado supervisionado e não supervisionado, técnicas de avaliação de modelos, e a compreensão de como otimizar os resultados. Avaliaremos também as abordagens de manipulação de dados, especialmente no contexto de séries temporais e dados desbalanceados. Questão 1 Qual técnica é utilizada para prever valores futuros de séries temporais? a) K-means clustering. b) Regressão Linear. c) Redes neurais convolucionais (CNN). d) ARIMA (AutoRegressive Integrated Moving Average). e) PCA (Principal Component Analysis). Questão 2 Em aprendizado supervisionado, o que é o overfitting? a) O modelo é incapaz de aprender a partir dos dados de treinamento. b) O modelo se ajusta de forma excessiva aos dados de treinamento, mas falha em generalizar para dados não vistos. c) O modelo não possui capacidade suficiente para aprender de forma eficaz. d) O modelo apresenta erro reduzido tanto nos dados de treinamento quanto nos de teste. e) O modelo é excessivamente simples e não consegue captar a complexidade dos dados. Questão 3 Em um modelo de classificação, qual é o impacto de se usar um conjunto de dados desbalanceado? a) O modelo pode ter seu desempenho prejudicado, especialmente nas classes minoritárias. b) O modelo pode ser mais eficiente na classificação das classes maioritárias. c) Não há impacto no desempenho do modelo. d) O modelo sempre terá um desempenho melhor nas classes minoritárias. e) O modelo se torna incapaz de identificar as classes maioritárias. Questão 4 Qual é a principal vantagem do uso de Random Forest em relação a uma árvore de decisão simples? a) O Random Forest utiliza apenas uma árvore de decisão, mas ajustada com maior precisão. b) O Random Forest combina várias árvores de decisão para melhorar a precisão e reduzir o risco de overfitting. c) O Random Forest é mais simples de interpretar do que uma única árvore de decisão. d) O Random Forest é mais eficaz para problemas de regressão do que para classificação. e) O Random Forest sempre apresenta melhor desempenho com menos dados de treinamento. Questão 5 O que significa o termo Acurácia no contexto de avaliação de modelos? a) A capacidade do modelo em distinguir entre diferentes classes. b) A proporção de previsões corretas feitas pelo modelo. c) A quantidade de dados usados para o treinamento do modelo. d) O tempo que o modelo leva para realizar as previsões. e) A medida da complexidade do modelo. Questão 6 Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior quantidade de variação possível? a) K-means. b) PCA (Principal Component Analysis). c) Regressão Linear. d) SVM (Support Vector Machines). e) Random Forest. Questão 7 Em que situações é recomendável utilizar o algoritmo K-Means? a) Quando você precisa de uma abordagem supervisionada para classificação. b) Quando você quer reduzir a dimensionalidade dos dados. c) Quando você deseja encontrar grupos ou clusters em dados não rotulados. d) Quando você precisa prever uma variável contínua. e) Quando você está trabalhando com redes neurais profundas. Questão 8 O que é feature engineering? a) A criação de novas variáveis a partir dos dados originais, para melhorar o desempenho do modelo. b) A técnica de aumentar o número de parâmetros em um modelo. c) O processo de eliminar dados irrelevantes do conjunto. d) A utilização de algoritmos de otimização para ajustar os hiperparâmetros. e) A técnica de dividir os dados em subconjuntos para validação. Questão 9 Qual é o principal propósito da técnica de normalização dos dados? a) Melhorar a complexidade computacional do modelo. b) Fazer com que os dados tenham uma distribuição normal. c) Ajustar os valores dos dados para uma escala uniforme, evitando que variáveis com grandes amplitudes dominem o modelo. d) Aumentar o número de observações no conjunto de dados. e) Garantir que as variáveis se mantenham em seu intervalo original. Questão 10 Qual é a principal função do algoritmo XGBoost? a) Ajudar na redução da dimensionalidade dos dados. b) Realizar uma combinação de modelos fracos para formar um modelo robusto e preciso. c) Agrupar os dados em diferentes categorias. d) Calcular a importância das variáveis do modelo. e) Prever valores contínuos em séries temporais. Gabarito e Justificativa 1. d) ○ ARIMA (AutoRegressive Integrated Moving Average) é uma técnica de previsão para séries temporais, comumente usada para prever valores futuros com base em observações passadas. 2. b) ○ O overfitting ocorre quando o modelo se ajusta excessivamente aos dados de treinamento, falhando em generalizar para novos dados, o que leva a uma baixa performance em dados de teste. 3. a) ○ Em um conjunto de dados desbalanceado, o modelo pode ser tendencioso para a classe maioritária, prejudicando sua capacidade de identificar corretamente as classes minoritárias. 4. b) ○ O Random Forest utiliza várias árvores de decisão e combina seus resultados para melhorar a precisão e reduzir o risco de overfitting, proporcionando melhores resultados em comparação com uma árvore de decisão simples. 5. b) ○ A acurácia mede a proporção de previsões corretas realizadas pelo modelo, ou seja, a quantidade de previsões acertadas em relação ao total de previsões feitas. 6. b) ○ O PCA (Principal Component Analysis) é uma técnica usada para reduzir a dimensionalidade dos dados, preservando a maior quantidade possível de variação nos dados originais. 7. c) ○ O K-Means é um algoritmo de clustering utilizado para identificar grupos ou clusters em dados não rotulados. Ele não é utilizado em problemas supervisionados. 8. a) ○ Feature engineering é o processo de criar novas variáveis a partir dos dados existentes, com o objetivo de melhorar a performance do modelo de aprendizado de máquina. 9. c) ○ A normalização ajusta os valores dos dados para uma escala uniforme, evitando que variáveis com grandes magnitudes influenciem demais o modelo. 10. b) ● O XGBoost é um algoritmo de aprendizado baseado em boosting que combina múltiplos modelos fracos (geralmente árvores de decisão) para formar um modelo forte e preciso, sendo muito eficaz em tarefas de classificação e regressão.