Logo Passei Direto
Buscar

Prova de Ciência de Dados_ Algoritmos Avançados e Modelos de Predição

User badge image
Carme Timoteo

em

Ferramentas de estudo

Questões resolvidas

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Prévia do material em texto

Prova de Ciência de Dados: Algoritmos Avançados e Modelos de 
Predição
Introdução:
Esta prova foca em técnicas avançadas de aprendizado supervisionado e não 
supervisionado, incluindo algoritmos de classificação, redes neurais, validação de modelos, 
e regularização.
Questão 1
O algoritmo Support Vector Machine (SVM) é ideal para problemas em que:
a) As classes são bem separadas linearmente.
b) O número de dados é muito grande e é necessário um tempo de treinamento rápido.
c) Não existem rótulos para os dados.
d) As classes possuem uma separação não linear que pode ser modelada com um kernel.
e) A tarefa principal é regressão linear.
Questão 2
O que é o Overfitting em aprendizado de máquina?
a) Quando o modelo não consegue aprender os padrões dos dados de treinamento.
b) Quando o modelo se ajusta excessivamente aos dados de treinamento, perdendo a 
capacidade de generalizar para novos dados.
c) Quando o modelo tem uma baixa precisão em dados de treinamento e de teste.
d) Quando o modelo é muito simples e não consegue capturar os padrões.
e) Quando o modelo falha na previsão dos dados de treino devido ao uso de um kernel 
inadequado.
Questão 3
Qual o principal benefício do Gradient Boosting?
a) Ele melhora a performance do modelo criando múltiplos modelos de forma independente.
b) Ele cria um único modelo altamente complexo e ajustado.
c) Ele aumenta a performance de um modelo corrigindo os erros dos modelos anteriores de 
forma sequencial.
d) Ele simplifica o modelo ao utilizar apenas os melhores atributos.
e) Ele aumenta a dimensionalidade dos dados para melhorar a performance.
Questão 4
Qual a principal característica do algoritmo K-Nearest Neighbors (KNN)?
a) KNN é um algoritmo de aprendizado supervisionado que classifica novos pontos de 
dados com base em sua proximidade aos pontos de dados de treinamento.
b) KNN é um algoritmo de aprendizado não supervisionado utilizado para agrupamento de 
dados.
c) KNN é um algoritmo que realiza regressão linear para prever valores contínuos.
d) KNN não requer dados rotulados para funcionar corretamente.
e) KNN é uma técnica de redução de dimensionalidade.
Questão 5
Qual é a técnica utilizada para evitar que um modelo de aprendizado de máquina sofra 
Overfitting?
a) Utilizar dados sintéticos durante o treinamento.
b) Aumentar o número de variáveis no modelo.
c) Aplicar técnicas de regularização, como L2 (Ridge) ou L1 (Lasso).
d) Treinar o modelo com dados de teste para aumentar sua precisão.
e) Utilizar um único modelo para análise e não um ensemble de modelos.
Questão 6
Quando se utiliza o algoritmo Random Forest, qual é a principal vantagem sobre outros 
algoritmos como Decision Trees?
a) O Random Forest é mais rápido para treinamento em grandes volumes de dados.
b) O Random Forest é mais simples e fácil de interpretar do que uma árvore de decisão 
única.
c) O Random Forest reduz o risco de overfitting ao combinar múltiplas árvores de decisão.
d) O Random Forest é mais adequado para problemas de regressão contínua.
e) O Random Forest não precisa de pré-processamento dos dados.
Questão 7
O que caracteriza a técnica de Principal Component Analysis (PCA)?
a) PCA é usada para reduzir a dimensionalidade dos dados ao transformar as variáveis 
originais em um novo conjunto de variáveis ortogonais, chamadas de componentes 
principais.
b) PCA é uma técnica de classificação utilizada para prever rótulos de classes.
c) PCA é usada para reduzir a quantidade de outliers em um conjunto de dados.
d) PCA é uma técnica de regularização para evitar overfitting.
e) PCA seleciona variáveis que têm maior impacto nas previsões do modelo.
Questão 8
Qual a principal diferença entre aprendizado supervisionado e aprendizado não 
supervisionado?
a) No aprendizado supervisionado, os dados de entrada não são rotulados, enquanto no 
aprendizado não supervisionado, os dados de entrada são rotulados.
b) No aprendizado supervisionado, o modelo aprende com rótulos de saída, enquanto no 
aprendizado não supervisionado, o modelo tenta encontrar padrões ou grupos nos dados 
sem rótulos.
c) No aprendizado supervisionado, o modelo não é treinado em nenhum dado, ao contrário 
do aprendizado não supervisionado, que utiliza dados rotulados.
d) No aprendizado supervisionado, o modelo usa apenas dados contínuos, enquanto no 
aprendizado não supervisionado utiliza apenas dados discretos.
e) No aprendizado supervisionado, os dados de entrada e saída são usados 
simultaneamente, enquanto no aprendizado não supervisionado, apenas dados de entrada 
são usados.
Questão 9
Em qual situação o algoritmo Naive Bayes funciona melhor?
a) Quando as variáveis independentes são fortemente correlacionadas.
b) Quando o número de classes é muito grande e não é possível determinar uma solução 
eficiente.
c) Quando as variáveis de entrada são independentes e seguem uma distribuição normal.
d) Quando o modelo precisa de múltiplas camadas ocultas para aprendizado profundo.
e) Quando o modelo requer otimização de gradiente para melhorar o desempenho.
Questão 10
O que é a técnica de Cross-Validation?
a) Uma técnica de ajuste de hiperparâmetros.
b) Uma técnica de validação de modelos que divide o conjunto de dados em várias partes 
para treinar e testar o modelo.
c) Uma técnica de pré-processamento de dados para reduzir o impacto de outliers.
d) Uma técnica de aumento de dados para melhorar a precisão do modelo.
e) Uma técnica para avaliar o desempenho de um modelo de regressão linear.
Gabarito e Justificativa
1. d)
○ O SVM é eficaz quando a separação entre as classes não é linear, e a 
técnica de kernel permite transformar os dados para encontrar uma 
separação mais eficiente.
2. b)
○ Overfitting ocorre quando o modelo aprende tanto os padrões quanto o ruído 
dos dados de treinamento, o que prejudica sua capacidade de generalizar 
para dados novos.
3. c)
○ O Gradient Boosting é um método sequencial em que cada modelo posterior 
tenta corrigir os erros dos modelos anteriores, melhorando a performance 
geral.
4. a)
○ O K-Nearest Neighbors (KNN) é um algoritmo de classificação baseado na 
proximidade dos dados, onde a classe de um novo ponto de dados é 
determinada pela maioria dos seus vizinhos mais próximos.
5. c)
○ A regularização L2 (Ridge) e L1 (Lasso) são técnicas que penalizam grandes
coeficientes e ajudam a evitar overfitting ao simplificar o modelo.
6. c)
○ O Random Forest combina múltiplas árvores de decisão, o que ajuda a 
reduzir o risco de overfitting que ocorre em uma única árvore de decisão.
7. a)
○ PCA é uma técnica usada para reduzir a dimensionalidade dos dados, 
transformando as variáveis originais em componentes principais ortogonais, 
mantendo a maior parte da variação dos dados.
8. b)
○ No aprendizado supervisionado, o modelo aprende com rótulos de saída, 
enquanto no aprendizado não supervisionado, o modelo busca padrões ou 
agrupamentos nos dados sem rótulos.
9. c)
○ O Naive Bayes funciona melhor quando as variáveis de entrada são 
independentes e seguem uma distribuição normal, já que faz suposições de 
independência entre as variáveis.
10. b)
● O Cross-Validation é uma técnica de validação de modelos em que o conjunto de 
dados é dividido em várias partes, utilizando diferentes divisões para treinar e testar 
o modelo, garantindo uma avaliação robusta.

Mais conteúdos dessa disciplina