Logo Passei Direto
Buscar

Prova de Ciência de Dados_ Métodos e Ferramentas

User badge image
Tocurioso

em

Ferramentas de estudo

Questões resolvidas

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Prévia do material em texto

Prova de Ciência de Dados: Métodos e Ferramentas
Introdução:
A prova aborda métodos, ferramentas e práticas da Ciência de Dados, desafiando seus 
conhecimentos em algoritmos, bibliotecas e técnicas usadas no dia a dia do profissional da 
área.
Questão 1
Qual das seguintes linguagens é mais amplamente utilizada em Ciência de Dados?
a) Java
b) Python
c) C++
d) Ruby
e) SQL
Questão 2
O que é cross-validation?
a) Um método para normalizar dados.
b) Uma técnica para particionar dados e avaliar o desempenho de um modelo.
c) Uma forma de balancear classes no conjunto de dados.
d) Um algoritmo para criar árvores de decisão.
e) Um método de análise de séries temporais.
Questão 3
Qual é a função principal da biblioteca Pandas no Python?
a) Treinar redes neurais.
b) Criar gráficos interativos.
c) Manipular e analisar dados estruturados.
d) Processar imagens para visão computacional.
e) Realizar análises estatísticas avançadas.
Questão 4
Em um modelo de regressão linear, o que representa o coeficiente de uma variável 
independente?
a) O impacto médio daquela variável na variável dependente.
b) A acurácia do modelo.
c) O número de outliers identificados.
d) A variância explicada pelo modelo.
e) O número de observações no conjunto de dados.
Questão 5
Qual ferramenta é popularmente usada para criar dashboards interativos em Ciência de 
Dados?
a) Power BI
b) NumPy
c) TensorFlow
d) Jupyter Notebook
e) R Studio
Questão 6
Qual algoritmo é adequado para problemas de classificação binária?
a) Regressão Logística
b) PCA
c) K-Means
d) Análise de Séries Temporais
e) Apriori
Questão 7
Qual das seguintes opções descreve corretamente bagging em aprendizado de máquina?
a) Combinação de múltiplos modelos independentes para reduzir variância.
b) Método para selecionar variáveis mais relevantes.
c) Técnica para transformar variáveis categóricas em numéricas.
d) Estratégia de normalização de dados.
e) Método exclusivo para redes neurais.
Questão 8
O que significa o termo data pipeline?
a) Uma ferramenta de visualização de dados.
b) Um fluxo automatizado para coletar, processar e armazenar dados.
c) Um algoritmo de aprendizado supervisionado.
d) Um método para validação cruzada.
e) Um conjunto de modelos usados para predição.
Questão 9
Qual é a principal aplicação da biblioteca Matplotlib?
a) Processamento de linguagem natural.
b) Criação de visualizações estáticas de dados.
c) Análise de redes neurais.
d) Manipulação de dados em tempo real.
e) Treinamento de algoritmos de classificação.
Questão 10
O que é o método train-test split?
a) Uma técnica para lidar com overfitting.
b) Uma forma de dividir os dados em subconjuntos para treinamento e validação.
c) Um algoritmo para árvores de decisão.
d) Uma abordagem para criar gráficos de dispersão.
e) Um método para extrair variáveis categóricas.
Gabarito e Justificativa
1. b)
○ Python é amplamente usado devido à sua versatilidade e ampla biblioteca de
ferramentas.
2. b)
○ Cross-validation avalia o desempenho de modelos particionando os dados.
3. c)
○ Pandas facilita a manipulação e análise de dados tabulares.
4. a)
○ O coeficiente indica o impacto médio de uma variável na resposta do modelo.
5. a)
○ Power BI é amplamente utilizado para criar dashboards interativos.
6. a)
○ A Regressão Logística é amplamente utilizada para classificação binária.
7. a)
○ Bagging combina modelos independentes para reduzir variância e melhorar a
robustez.
8. b)
○ Data pipeline automatiza o fluxo de dados, do início ao armazenamento.
9. b)
○ Matplotlib é uma biblioteca focada em visualizações estáticas.
10. b)
○ O método divide os dados para treinar e testar os modelos.