Logo Passei Direto
Buscar

Prova de Ciência de Dados_ Análise de Dados e Modelos Preditivos

User badge image
Carme Timoteo

em

Ferramentas de estudo

Questões resolvidas

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Prévia do material em texto

Prova de Ciência de Dados: Análise de Dados e Modelos Preditivos
Introdução:
Esta prova abrange temas relacionados à análise de dados e à construção de modelos 
preditivos em Ciência de Dados. As questões abordam o uso de algoritmos de aprendizado 
supervisionado e não supervisionado, técnicas de avaliação de modelos, e a compreensão 
de como otimizar os resultados. Avaliaremos também as abordagens de manipulação de 
dados, especialmente no contexto de séries temporais e dados desbalanceados.
Questão 1
Qual técnica é utilizada para prever valores futuros de séries temporais?
a) K-means clustering.
b) Regressão Linear.
c) Redes neurais convolucionais (CNN).
d) ARIMA (AutoRegressive Integrated Moving Average).
e) PCA (Principal Component Analysis).
Questão 2
Em aprendizado supervisionado, o que é o overfitting?
a) O modelo é incapaz de aprender a partir dos dados de treinamento.
b) O modelo se ajusta de forma excessiva aos dados de treinamento, mas falha em 
generalizar para dados não vistos.
c) O modelo não possui capacidade suficiente para aprender de forma eficaz.
d) O modelo apresenta erro reduzido tanto nos dados de treinamento quanto nos de teste.
e) O modelo é excessivamente simples e não consegue captar a complexidade dos dados.
Questão 3
Em um modelo de classificação, qual é o impacto de se usar um conjunto de dados 
desbalanceado?
a) O modelo pode ter seu desempenho prejudicado, especialmente nas classes 
minoritárias.
b) O modelo pode ser mais eficiente na classificação das classes maioritárias.
c) Não há impacto no desempenho do modelo.
d) O modelo sempre terá um desempenho melhor nas classes minoritárias.
e) O modelo se torna incapaz de identificar as classes maioritárias.
Questão 4
Qual é a principal vantagem do uso de Random Forest em relação a uma árvore de decisão
simples?
a) O Random Forest utiliza apenas uma árvore de decisão, mas ajustada com maior 
precisão.
b) O Random Forest combina várias árvores de decisão para melhorar a precisão e reduzir 
o risco de overfitting.
c) O Random Forest é mais simples de interpretar do que uma única árvore de decisão.
d) O Random Forest é mais eficaz para problemas de regressão do que para classificação.
e) O Random Forest sempre apresenta melhor desempenho com menos dados de 
treinamento.
Questão 5
O que significa o termo Acurácia no contexto de avaliação de modelos?
a) A capacidade do modelo em distinguir entre diferentes classes.
b) A proporção de previsões corretas feitas pelo modelo.
c) A quantidade de dados usados para o treinamento do modelo.
d) O tempo que o modelo leva para realizar as previsões.
e) A medida da complexidade do modelo.
Questão 6
Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior 
quantidade de variação possível?
a) K-means.
b) PCA (Principal Component Analysis).
c) Regressão Linear.
d) SVM (Support Vector Machines).
e) Random Forest.
Questão 7
Em que situações é recomendável utilizar o algoritmo K-Means?
a) Quando você precisa de uma abordagem supervisionada para classificação.
b) Quando você quer reduzir a dimensionalidade dos dados.
c) Quando você deseja encontrar grupos ou clusters em dados não rotulados.
d) Quando você precisa prever uma variável contínua.
e) Quando você está trabalhando com redes neurais profundas.
Questão 8
O que é feature engineering?
a) A criação de novas variáveis a partir dos dados originais, para melhorar o desempenho 
do modelo.
b) A técnica de aumentar o número de parâmetros em um modelo.
c) O processo de eliminar dados irrelevantes do conjunto.
d) A utilização de algoritmos de otimização para ajustar os hiperparâmetros.
e) A técnica de dividir os dados em subconjuntos para validação.
Questão 9
Qual é o principal propósito da técnica de normalização dos dados?
a) Melhorar a complexidade computacional do modelo.
b) Fazer com que os dados tenham uma distribuição normal.
c) Ajustar os valores dos dados para uma escala uniforme, evitando que variáveis com 
grandes amplitudes dominem o modelo.
d) Aumentar o número de observações no conjunto de dados.
e) Garantir que as variáveis se mantenham em seu intervalo original.
Questão 10
Qual é a principal função do algoritmo XGBoost?
a) Ajudar na redução da dimensionalidade dos dados.
b) Realizar uma combinação de modelos fracos para formar um modelo robusto e preciso.
c) Agrupar os dados em diferentes categorias.
d) Calcular a importância das variáveis do modelo.
e) Prever valores contínuos em séries temporais.
Gabarito e Justificativa
1. d)
○ ARIMA (AutoRegressive Integrated Moving Average) é uma técnica de 
previsão para séries temporais, comumente usada para prever valores 
futuros com base em observações passadas.
2. b)
○ O overfitting ocorre quando o modelo se ajusta excessivamente aos dados 
de treinamento, falhando em generalizar para novos dados, o que leva a uma
baixa performance em dados de teste.
3. a)
○ Em um conjunto de dados desbalanceado, o modelo pode ser tendencioso 
para a classe maioritária, prejudicando sua capacidade de identificar 
corretamente as classes minoritárias.
4. b)
○ O Random Forest utiliza várias árvores de decisão e combina seus 
resultados para melhorar a precisão e reduzir o risco de overfitting, 
proporcionando melhores resultados em comparação com uma árvore de 
decisão simples.
5. b)
○ A acurácia mede a proporção de previsões corretas realizadas pelo modelo, 
ou seja, a quantidade de previsões acertadas em relação ao total de 
previsões feitas.
6. b)
○ O PCA (Principal Component Analysis) é uma técnica usada para reduzir a 
dimensionalidade dos dados, preservando a maior quantidade possível de 
variação nos dados originais.
7. c)
○ O K-Means é um algoritmo de clustering utilizado para identificar grupos ou 
clusters em dados não rotulados. Ele não é utilizado em problemas 
supervisionados.
8. a)
○ Feature engineering é o processo de criar novas variáveis a partir dos dados 
existentes, com o objetivo de melhorar a performance do modelo de 
aprendizado de máquina.
9. c)
○ A normalização ajusta os valores dos dados para uma escala uniforme, 
evitando que variáveis com grandes magnitudes influenciem demais o 
modelo.
10. b)
● O XGBoost é um algoritmo de aprendizado baseado em boosting que combina 
múltiplos modelos fracos (geralmente árvores de decisão) para formar um modelo 
forte e preciso, sendo muito eficaz em tarefas de classificação e regressão.

Mais conteúdos dessa disciplina