Prévia do material em texto
Prova de Ciência de Dados: Algoritmos e Processamento de Dados Introdução: Nesta prova, exploraremos os conceitos essenciais de Ciência de Dados, com foco em algoritmos de aprendizado de máquina, processamento de dados e avaliação de modelos. O objetivo é testar o conhecimento do aluno em diferentes técnicas, abordagens e desafios típicos de projetos de dados no mundo real. Questão 1 O que é o conceito de regularização em modelos de aprendizado de máquina? a) A prática de treinar o modelo com dados rotulados. b) A técnica que diminui o erro de treinamento, mas aumenta o erro de generalização. c) A técnica de adicionar uma penalidade à função de erro para evitar o overfitting. d) A técnica que ajusta os hiperparâmetros do modelo. e) A técnica que reduz a quantidade de dados para treinar o modelo. Questão 2 Em que tipo de problema é mais utilizado o algoritmo de clustering? a) Classificação supervisionada de dados. b) Agrupamento de dados em diferentes categorias sem rótulos. c) Predição de séries temporais. d) Análise de correlação entre variáveis. e) Redução de dimensionalidade de dados. Questão 3 O que caracteriza o algoritmo K-means? a) Ele realiza aprendizado supervisionado com base em rótulos de dados. b) Ele busca agrupar dados em um número fixo de clusters baseados na distância euclidiana. c) Ele ajusta os parâmetros do modelo automaticamente. d) Ele utiliza redes neurais para análise de dados. e) Ele busca prever valores contínuos em dados. Questão 4 O que é a técnica de feature engineering em Ciência de Dados? a) A técnica que busca reduzir a dimensionalidade dos dados. b) A técnica que trata dados faltantes ou incompletos. c) A técnica de construir novas variáveis a partir de variáveis existentes para melhorar o modelo. d) A técnica que utiliza modelos complexos para prever resultados. e) A técnica de aplicar transformações nos dados para acelerar o treinamento. Questão 5 Qual é o objetivo da validação cruzada em modelos de aprendizado de máquina? a) Melhorar a precisão do modelo utilizando apenas um conjunto de dados. b) Verificar se o modelo é capaz de se ajustar a diferentes padrões de dados. c) Avaliar o desempenho do modelo em diferentes conjuntos de dados de treinamento e teste. d) Testar a capacidade do modelo de reduzir a dimensionalidade. e) Ajustar os hiperparâmetros do modelo de forma automática. Questão 6 O que são outliers em um conjunto de dados? a) Dados que são bastante semelhantes à média do conjunto. b) Dados que são irrelevantes para a análise e podem ser descartados. c) Dados que estão muito distantes da média e podem afetar a qualidade do modelo. d) Dados que são rotulados incorretamente. e) Dados que não fazem parte do conjunto de treinamento. Questão 7 O que é um modelo de aprendizado supervisionado? a) Um modelo que aprende padrões a partir de dados não rotulados. b) Um modelo que não utiliza qualquer tipo de dado para fazer predições. c) Um modelo que é treinado com dados rotulados para prever um valor ou classe. d) Um modelo que é capaz de identificar clusters em dados não estruturados. e) Um modelo que faz predições sem o uso de qualquer técnica de aprendizado. Questão 8 Qual é a principal vantagem do algoritmo de árvores de decisão? a) Ele é altamente flexível e pode ser utilizado para qualquer tipo de problema. b) Ele pode lidar bem com dados faltantes e outliers. c) Ele é simples de interpretar, visualizando facilmente as decisões tomadas. d) Ele é capaz de gerar redes neurais profundas. e) Ele é um modelo de aprendizado supervisionado com alta acurácia. Questão 9 Qual a função do gradient descent no treinamento de modelos de aprendizado de máquina? a) Ajustar os dados para que se adequem à normalidade. b) Minimizar a função de erro ajustando os parâmetros do modelo. c) Agrupar dados com base em características semelhantes. d) Identificar os melhores dados para treinamento. e) Fazer predições diretamente sem precisar de treinamento. Questão 10 Em aprendizado de máquina, qual é o conceito de confusion matrix? a) Uma matriz que auxilia na visualização de dados de entrada. b) Uma tabela usada para avaliar o desempenho de um modelo de classificação, mostrando as previsões verdadeiras e falsas. c) Uma técnica usada para reduzir a dimensionalidade dos dados. d) Uma abordagem para normalizar os dados antes do treinamento. e) Uma técnica de clustering para categorizar dados. Gabarito e Justificativa 1. c) ○ A regularização adiciona uma penalidade à função de erro para controlar a complexidade do modelo e evitar o overfitting, tornando o modelo mais generalizável. 2. b) ○ O clustering é uma técnica de aprendizado não supervisionado usada para agrupar dados em diferentes categorias, sem a necessidade de rótulos. 3. b) ○ O K-means é um algoritmo de clustering que agrupa dados em um número fixo de clusters com base na proximidade dos pontos aos centros dos clusters. 4. c) ○ Feature engineering envolve a criação de novas variáveis ou transformações nas variáveis existentes para melhorar a capacidade preditiva do modelo. 5. c) ○ A validação cruzada divide os dados em vários subconjuntos, treinando o modelo em um subconjunto e avaliando-o em outro, ajudando a garantir que o modelo seja robusto e não sobreajustado. 6. c) ○ Outliers são valores que estão muito distantes da média dos dados e podem distorcer o treinamento do modelo, afetando sua performance. 7. c) ○ No aprendizado supervisionado, o modelo é treinado com dados rotulados (dados de entrada com respostas conhecidas) para aprender a prever uma saída ou classe. 8. c) ○ As árvores de decisão são simples de interpretar porque cada nó da árvore representa uma decisão baseada em uma característica, facilitando a visualização do processo de decisão. 9. b) ○ O gradient descent é um algoritmo de otimização usado para minimizar a função de erro, ajustando os parâmetros do modelo de forma iterativa. 10. b) ● A confusion matrix é uma tabela que compara as previsões do modelo com as classes reais, ajudando a medir a precisão, recall, e F1-score do modelo de classificação.