Prévia do material em texto
Prova de Ciência de Dados: Métodos e Ferramentas Introdução: A prova aborda métodos, ferramentas e práticas da Ciência de Dados, desafiando seus conhecimentos em algoritmos, bibliotecas e técnicas usadas no dia a dia do profissional da área. Questão 1 Qual das seguintes linguagens é mais amplamente utilizada em Ciência de Dados? a) Java b) Python c) C++ d) Ruby e) SQL Questão 2 O que é cross-validation? a) Um método para normalizar dados. b) Uma técnica para particionar dados e avaliar o desempenho de um modelo. c) Uma forma de balancear classes no conjunto de dados. d) Um algoritmo para criar árvores de decisão. e) Um método de análise de séries temporais. Questão 3 Qual é a função principal da biblioteca Pandas no Python? a) Treinar redes neurais. b) Criar gráficos interativos. c) Manipular e analisar dados estruturados. d) Processar imagens para visão computacional. e) Realizar análises estatísticas avançadas. Questão 4 Em um modelo de regressão linear, o que representa o coeficiente de uma variável independente? a) O impacto médio daquela variável na variável dependente. b) A acurácia do modelo. c) O número de outliers identificados. d) A variância explicada pelo modelo. e) O número de observações no conjunto de dados. Questão 5 Qual ferramenta é popularmente usada para criar dashboards interativos em Ciência de Dados? a) Power BI b) NumPy c) TensorFlow d) Jupyter Notebook e) R Studio Questão 6 Qual algoritmo é adequado para problemas de classificação binária? a) Regressão Logística b) PCA c) K-Means d) Análise de Séries Temporais e) Apriori Questão 7 Qual das seguintes opções descreve corretamente bagging em aprendizado de máquina? a) Combinação de múltiplos modelos independentes para reduzir variância. b) Método para selecionar variáveis mais relevantes. c) Técnica para transformar variáveis categóricas em numéricas. d) Estratégia de normalização de dados. e) Método exclusivo para redes neurais. Questão 8 O que significa o termo data pipeline? a) Uma ferramenta de visualização de dados. b) Um fluxo automatizado para coletar, processar e armazenar dados. c) Um algoritmo de aprendizado supervisionado. d) Um método para validação cruzada. e) Um conjunto de modelos usados para predição. Questão 9 Qual é a principal aplicação da biblioteca Matplotlib? a) Processamento de linguagem natural. b) Criação de visualizações estáticas de dados. c) Análise de redes neurais. d) Manipulação de dados em tempo real. e) Treinamento de algoritmos de classificação. Questão 10 O que é o método train-test split? a) Uma técnica para lidar com overfitting. b) Uma forma de dividir os dados em subconjuntos para treinamento e validação. c) Um algoritmo para árvores de decisão. d) Uma abordagem para criar gráficos de dispersão. e) Um método para extrair variáveis categóricas. Gabarito e Justificativa 1. b) ○ Python é amplamente usado devido à sua versatilidade e ampla biblioteca de ferramentas. 2. b) ○ Cross-validation avalia o desempenho de modelos particionando os dados. 3. c) ○ Pandas facilita a manipulação e análise de dados tabulares. 4. a) ○ O coeficiente indica o impacto médio de uma variável na resposta do modelo. 5. a) ○ Power BI é amplamente utilizado para criar dashboards interativos. 6. a) ○ A Regressão Logística é amplamente utilizada para classificação binária. 7. a) ○ Bagging combina modelos independentes para reduzir variância e melhorar a robustez. 8. b) ○ Data pipeline automatiza o fluxo de dados, do início ao armazenamento. 9. b) ○ Matplotlib é uma biblioteca focada em visualizações estáticas. 10. b) ○ O método divide os dados para treinar e testar os modelos.