Prova de Ciência de Dados_ Algoritmos Avançados e Modelos de Predição

Outros

Carme Timoteo

em 11/02/2025

Questões resolvidas

Esta prova foca em técnicas avançadas de aprendizado supervisionado e não supervisionado, incluindo algoritmos de classificação, redes neurais, validação de modelos, e regularização.
O algoritmo Support Vector Machine (SVM) é ideal para problemas em que:
a) As classes são bem separadas linearmente.
b) O número de dados é muito grande e é necessário um tempo de treinamento rápido.
c) Não existem rótulos para os dados.
d) As classes possuem uma separação não linear que pode ser modelada com um kernel.
e) A tarefa principal é regressão linear.

O que é o Overfitting em aprendizado de máquina?
a) Quando o modelo não consegue aprender os padrões dos dados de treinamento.
b) Quando o modelo se ajusta excessivamente aos dados de treinamento, perdendo a capacidade de generalizar para novos dados.
c) Quando o modelo tem uma baixa precisão em dados de treinamento e de teste.
d) Quando o modelo é muito simples e não consegue capturar os padrões.
e) Quando o modelo falha na previsão dos dados de treino devido ao uso de um kernel inadequado.

Qual o principal benefício do Gradient Boosting?
a) Ele melhora a performance do modelo criando múltiplos modelos de forma independente.
b) Ele cria um único modelo altamente complexo e ajustado.
c) Ele aumenta a performance de um modelo corrigindo os erros dos modelos anteriores de forma sequencial.
d) Ele simplifica o modelo ao utilizar apenas os melhores atributos.
e) Ele aumenta a dimensionalidade dos dados para melhorar a performance.

Qual a principal característica do algoritmo K-Nearest Neighbors (KNN)?
a) KNN é um algoritmo de aprendizado supervisionado que classifica novos pontos de dados com base em sua proximidade aos pontos de dados de treinamento.
b) KNN é um algoritmo de aprendizado não supervisionado utilizado para agrupamento de dados.
c) KNN é um algoritmo que realiza regressão linear para prever valores contínuos.
d) KNN não requer dados rotulados para funcionar corretamente.
e) KNN é uma técnica de redução de dimensionalidade.

Qual é a técnica utilizada para evitar que um modelo de aprendizado de máquina sofra Overfitting?
a) Utilizar dados sintéticos durante o treinamento.
b) Aumentar o número de variáveis no modelo.
c) Aplicar técnicas de regularização, como L2 (Ridge) ou L1 (Lasso).
d) Treinar o modelo com dados de teste para aumentar sua precisão.
e) Utilizar um único modelo para análise e não um ensemble de modelos.

Quando se utiliza o algoritmo Random Forest, qual é a principal vantagem sobre outros algoritmos como Decision Trees?
a) O Random Forest é mais rápido para treinamento em grandes volumes de dados.
b) O Random Forest é mais simples e fácil de interpretar do que uma árvore de decisão única.
c) O Random Forest reduz o risco de overfitting ao combinar múltiplas árvores de decisão.
d) O Random Forest é mais adequado para problemas de regressão contínua.
e) O Random Forest não precisa de pré-processamento dos dados.

O que caracteriza a técnica de Principal Component Analysis (PCA)?
a) PCA é usada para reduzir a dimensionalidade dos dados ao transformar as variáveis originais em um novo conjunto de variáveis ortogonais, chamadas de componentes principais.
b) PCA é uma técnica de classificação utilizada para prever rótulos de classes.
c) PCA é usada para reduzir a quantidade de outliers em um conjunto de dados.
d) PCA é uma técnica de regularização para evitar overfitting.
e) PCA seleciona variáveis que têm maior impacto nas previsões do modelo.

Qual a principal diferença entre aprendizado supervisionado e aprendizado não supervisionado?
a) No aprendizado supervisionado, os dados de entrada não são rotulados, enquanto no aprendizado não supervisionado, os dados de entrada são rotulados.
b) No aprendizado supervisionado, o modelo aprende com rótulos de saída, enquanto no aprendizado não supervisionado, o modelo tenta encontrar padrões ou grupos nos dados sem rótulos.
c) No aprendizado supervisionado, o modelo não é treinado em nenhum dado, ao contrário do aprendizado não supervisionado, que utiliza dados rotulados.
d) No aprendizado supervisionado, o modelo usa apenas dados contínuos, enquanto no aprendizado não supervisionado utiliza apenas dados discretos.
e) No aprendizado supervisionado, os dados de entrada e saída são usados simultaneamente, enquanto no aprendizado não supervisionado, apenas dados de entrada são usados.

Em qual situação o algoritmo Naive Bayes funciona melhor?
a) Quando as variáveis independentes são fortemente correlacionadas.
b) Quando o número de classes é muito grande e não é possível determinar uma solução eficiente.
c) Quando as variáveis de entrada são independentes e seguem uma distribuição normal.
d) Quando o modelo precisa de múltiplas camadas ocultas para aprendizado profundo.
e) Quando o modelo requer otimização de gradiente para melhorar o desempenho.

O que é a técnica de Cross-Validation?
a) Uma técnica de ajuste de hiperparâmetros.
b) Uma técnica de validação de modelos que divide o conjunto de dados em várias partes para treinar e testar o modelo.
c) Uma técnica de pré-processamento de dados para reduzir o impacto de outliers.
d) Uma técnica de aumento de dados para melhorar a precisão do modelo.
e) Uma técnica para avaliar o desempenho de um modelo de regressão linear.

Conteúdos escolhidos para você

4 pág.

Prova de Ciência de Dados_ Métodos e Algoritmos de Aprendizado de Máquina

4 pág.

Prova de Ciência de Dados_ Introdução ao Aprendizado Supervisionado e Não Supervisionado

4 pág.

Prova de Algoritmos e Técnicas de Aprendizado de Máquina_ Fundamentos e Aplicações

4 pág.

Prova de Ciência de Dados_ Fundamentos e Algoritmos de Aprendizado

3 pág.

Fundamentos de Machine Learning e Modelagem Preditiva(1)

Perguntas dessa disciplina

Pergunta 1 Qual é a principal característica do aprendizado não supervisionado? a. Aprende a partir de dados sem rótulos. b. Utiliza dados rotulados.

UNIP

O processo de desenvolvimento de um programa envolve a modelagem de dados que serão utilizados nas operações do algoritmo. Cada informação deve ser...

Uma empresa de e-commerce deseja implementar um sistema de recomendação para sugerir produtos aos clientes com base em suas compras anteriores e no co

UNG

De acordo com o Capítulo 6 da Unidade 2, faça as associações corretas de acordo com os conceitos vistos sobre treinamento, otimização e validação d...

Unileya

Associe cada etapa da construção de um modelo de regressão linear múltipla com sua descrição correta, considerando a importância de cada uma para gara

UNICID

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Esta prova foca em técnicas avançadas de aprendizado supervisionado e não supervisionado, incluindo algoritmos de classificação, redes neurais, validação de modelos, e regularização.
O algoritmo Support Vector Machine (SVM) é ideal para problemas em que:
a) As classes são bem separadas linearmente.
b) O número de dados é muito grande e é necessário um tempo de treinamento rápido.
c) Não existem rótulos para os dados.
d) As classes possuem uma separação não linear que pode ser modelada com um kernel.
e) A tarefa principal é regressão linear.

O que é o Overfitting em aprendizado de máquina?
a) Quando o modelo não consegue aprender os padrões dos dados de treinamento.
b) Quando o modelo se ajusta excessivamente aos dados de treinamento, perdendo a capacidade de generalizar para novos dados.
c) Quando o modelo tem uma baixa precisão em dados de treinamento e de teste.
d) Quando o modelo é muito simples e não consegue capturar os padrões.
e) Quando o modelo falha na previsão dos dados de treino devido ao uso de um kernel inadequado.

Qual o principal benefício do Gradient Boosting?
a) Ele melhora a performance do modelo criando múltiplos modelos de forma independente.
b) Ele cria um único modelo altamente complexo e ajustado.
c) Ele aumenta a performance de um modelo corrigindo os erros dos modelos anteriores de forma sequencial.
d) Ele simplifica o modelo ao utilizar apenas os melhores atributos.
e) Ele aumenta a dimensionalidade dos dados para melhorar a performance.

Qual a principal característica do algoritmo K-Nearest Neighbors (KNN)?
a) KNN é um algoritmo de aprendizado supervisionado que classifica novos pontos de dados com base em sua proximidade aos pontos de dados de treinamento.
b) KNN é um algoritmo de aprendizado não supervisionado utilizado para agrupamento de dados.
c) KNN é um algoritmo que realiza regressão linear para prever valores contínuos.
d) KNN não requer dados rotulados para funcionar corretamente.
e) KNN é uma técnica de redução de dimensionalidade.

Qual é a técnica utilizada para evitar que um modelo de aprendizado de máquina sofra Overfitting?
a) Utilizar dados sintéticos durante o treinamento.
b) Aumentar o número de variáveis no modelo.
c) Aplicar técnicas de regularização, como L2 (Ridge) ou L1 (Lasso).
d) Treinar o modelo com dados de teste para aumentar sua precisão.
e) Utilizar um único modelo para análise e não um ensemble de modelos.

Quando se utiliza o algoritmo Random Forest, qual é a principal vantagem sobre outros algoritmos como Decision Trees?
a) O Random Forest é mais rápido para treinamento em grandes volumes de dados.
b) O Random Forest é mais simples e fácil de interpretar do que uma árvore de decisão única.
c) O Random Forest reduz o risco de overfitting ao combinar múltiplas árvores de decisão.
d) O Random Forest é mais adequado para problemas de regressão contínua.
e) O Random Forest não precisa de pré-processamento dos dados.

O que caracteriza a técnica de Principal Component Analysis (PCA)?
a) PCA é usada para reduzir a dimensionalidade dos dados ao transformar as variáveis originais em um novo conjunto de variáveis ortogonais, chamadas de componentes principais.
b) PCA é uma técnica de classificação utilizada para prever rótulos de classes.
c) PCA é usada para reduzir a quantidade de outliers em um conjunto de dados.
d) PCA é uma técnica de regularização para evitar overfitting.
e) PCA seleciona variáveis que têm maior impacto nas previsões do modelo.

Qual a principal diferença entre aprendizado supervisionado e aprendizado não supervisionado?
a) No aprendizado supervisionado, os dados de entrada não são rotulados, enquanto no aprendizado não supervisionado, os dados de entrada são rotulados.
b) No aprendizado supervisionado, o modelo aprende com rótulos de saída, enquanto no aprendizado não supervisionado, o modelo tenta encontrar padrões ou grupos nos dados sem rótulos.
c) No aprendizado supervisionado, o modelo não é treinado em nenhum dado, ao contrário do aprendizado não supervisionado, que utiliza dados rotulados.
d) No aprendizado supervisionado, o modelo usa apenas dados contínuos, enquanto no aprendizado não supervisionado utiliza apenas dados discretos.
e) No aprendizado supervisionado, os dados de entrada e saída são usados simultaneamente, enquanto no aprendizado não supervisionado, apenas dados de entrada são usados.

Em qual situação o algoritmo Naive Bayes funciona melhor?
a) Quando as variáveis independentes são fortemente correlacionadas.
b) Quando o número de classes é muito grande e não é possível determinar uma solução eficiente.
c) Quando as variáveis de entrada são independentes e seguem uma distribuição normal.
d) Quando o modelo precisa de múltiplas camadas ocultas para aprendizado profundo.
e) Quando o modelo requer otimização de gradiente para melhorar o desempenho.

O que é a técnica de Cross-Validation?
a) Uma técnica de ajuste de hiperparâmetros.
b) Uma técnica de validação de modelos que divide o conjunto de dados em várias partes para treinar e testar o modelo.
c) Uma técnica de pré-processamento de dados para reduzir o impacto de outliers.
d) Uma técnica de aumento de dados para melhorar a precisão do modelo.
e) Uma técnica para avaliar o desempenho de um modelo de regressão linear.

Conteúdos escolhidos para você

4 pág.

Prova de Ciência de Dados_ Métodos e Algoritmos de Aprendizado de Máquina

4 pág.

Prova de Ciência de Dados_ Introdução ao Aprendizado Supervisionado e Não Supervisionado

4 pág.

Prova de Algoritmos e Técnicas de Aprendizado de Máquina_ Fundamentos e Aplicações

4 pág.

Prova de Ciência de Dados_ Fundamentos e Algoritmos de Aprendizado

3 pág.

Fundamentos de Machine Learning e Modelagem Preditiva(1)

Perguntas dessa disciplina

Pergunta 1 Qual é a principal característica do aprendizado não supervisionado? a. Aprende a partir de dados sem rótulos. b. Utiliza dados rotulados.

UNIP

O processo de desenvolvimento de um programa envolve a modelagem de dados que serão utilizados nas operações do algoritmo. Cada informação deve ser...

Uma empresa de e-commerce deseja implementar um sistema de recomendação para sugerir produtos aos clientes com base em suas compras anteriores e no co

UNG

De acordo com o Capítulo 6 da Unidade 2, faça as associações corretas de acordo com os conceitos vistos sobre treinamento, otimização e validação d...

Unileya

Associe cada etapa da construção de um modelo de regressão linear múltipla com sua descrição correta, considerando a importância de cada uma para gara

UNICID

Prévia do material em texto

Prova de Ciência de Dados: Algoritmos Avançados e Modelos de
Predição
Introdução:
Esta prova foca em técnicas avançadas de aprendizado supervisionado e não
supervisionado, incluindo algoritmos de classificação, redes neurais, validação de modelos,
e regularização.
Questão 1
O algoritmo Support Vector Machine (SVM) é ideal para problemas em que:
a) As classes são bem separadas linearmente.
b) O número de dados é muito grande e é necessário um tempo de treinamento rápido.
c) Não existem rótulos para os dados.
d) As classes possuem uma separação não linear que pode ser modelada com um kernel.
e) A tarefa principal é regressão linear.
Questão 2
O que é o Overfitting em aprendizado de máquina?
a) Quando o modelo não consegue aprender os padrões dos dados de treinamento.
b) Quando o modelo se ajusta excessivamente aos dados de treinamento, perdendo a
capacidade de generalizar para novos dados.
c) Quando o modelo tem uma baixa precisão em dados de treinamento e de teste.
d) Quando o modelo é muito simples e não consegue capturar os padrões.
e) Quando o modelo falha na previsão dos dados de treino devido ao uso de um kernel
inadequado.
Questão 3
Qual o principal benefício do Gradient Boosting?
a) Ele melhora a performance do modelo criando múltiplos modelos de forma independente.
b) Ele cria um único modelo altamente complexo e ajustado.
c) Ele aumenta a performance de um modelo corrigindo os erros dos modelos anteriores de
forma sequencial.
d) Ele simplifica o modelo ao utilizar apenas os melhores atributos.
e) Ele aumenta a dimensionalidade dos dados para melhorar a performance.
Questão 4
Qual a principal característica do algoritmo K-Nearest Neighbors (KNN)?
a) KNN é um algoritmo de aprendizado supervisionado que classifica novos pontos de
dados com base em sua proximidade aos pontos de dados de treinamento.
b) KNN é um algoritmo de aprendizado não supervisionado utilizado para agrupamento de
dados.
c) KNN é um algoritmo que realiza regressão linear para prever valores contínuos.
d) KNN não requer dados rotulados para funcionar corretamente.
e) KNN é uma técnica de redução de dimensionalidade.
Questão 5
Qual é a técnica utilizada para evitar que um modelo de aprendizado de máquina sofra
Overfitting?
a) Utilizar dados sintéticos durante o treinamento.
b) Aumentar o número de variáveis no modelo.
c) Aplicar técnicas de regularização, como L2 (Ridge) ou L1 (Lasso).
d) Treinar o modelo com dados de teste para aumentar sua precisão.
e) Utilizar um único modelo para análise e não um ensemble de modelos.
Questão 6
Quando se utiliza o algoritmo Random Forest, qual é a principal vantagem sobre outros
algoritmos como Decision Trees?
a) O Random Forest é mais rápido para treinamento em grandes volumes de dados.
b) O Random Forest é mais simples e fácil de interpretar do que uma árvore de decisão
única.
c) O Random Forest reduz o risco de overfitting ao combinar múltiplas árvores de decisão.
d) O Random Forest é mais adequado para problemas de regressão contínua.
e) O Random Forest não precisa de pré-processamento dos dados.
Questão 7
O que caracteriza a técnica de Principal Component Analysis (PCA)?
a) PCA é usada para reduzir a dimensionalidade dos dados ao transformar as variáveis
originais em um novo conjunto de variáveis ortogonais, chamadas de componentes
principais.
b) PCA é uma técnica de classificação utilizada para prever rótulos de classes.
c) PCA é usada para reduzir a quantidade de outliers em um conjunto de dados.
d) PCA é uma técnica de regularização para evitar overfitting.
e) PCA seleciona variáveis que têm maior impacto nas previsões do modelo.
Questão 8
Qual a principal diferença entre aprendizado supervisionado e aprendizado não
supervisionado?
a) No aprendizado supervisionado, os dados de entrada não são rotulados, enquanto no
aprendizado não supervisionado, os dados de entrada são rotulados.
b) No aprendizado supervisionado, o modelo aprende com rótulos de saída, enquanto no
aprendizado não supervisionado, o modelo tenta encontrar padrões ou grupos nos dados
sem rótulos.
c) No aprendizado supervisionado, o modelo não é treinado em nenhum dado, ao contrário
do aprendizado não supervisionado, que utiliza dados rotulados.
d) No aprendizado supervisionado, o modelo usa apenas dados contínuos, enquanto no
aprendizado não supervisionado utiliza apenas dados discretos.
e) No aprendizado supervisionado, os dados de entrada e saída são usados
simultaneamente, enquanto no aprendizado não supervisionado, apenas dados de entrada
são usados.
Questão 9
Em qual situação o algoritmo Naive Bayes funciona melhor?
a) Quando as variáveis independentes são fortemente correlacionadas.
b) Quando o número de classes é muito grande e não é possível determinar uma solução
eficiente.
c) Quando as variáveis de entrada são independentes e seguem uma distribuição normal.
d) Quando o modelo precisa de múltiplas camadas ocultas para aprendizado profundo.
e) Quando o modelo requer otimização de gradiente para melhorar o desempenho.
Questão 10
O que é a técnica de Cross-Validation?
a) Uma técnica de ajuste de hiperparâmetros.
b) Uma técnica de validação de modelos que divide o conjunto de dados em várias partes
para treinar e testar o modelo.
c) Uma técnica de pré-processamento de dados para reduzir o impacto de outliers.
d) Uma técnica de aumento de dados para melhorar a precisão do modelo.
e) Uma técnica para avaliar o desempenho de um modelo de regressão linear.
Gabarito e Justificativa
1. d)
○ O SVM é eficaz quando a separação entre as classes não é linear, e a
técnica de kernel permite transformar os dados para encontrar uma
separação mais eficiente.
2. b)
○ Overfitting ocorre quando o modelo aprende tanto os padrões quanto o ruído
dos dados de treinamento, o que prejudica sua capacidade de generalizar
para dados novos.
3. c)
○ O Gradient Boosting é um método sequencial em que cada modelo posterior
tenta corrigir os erros dos modelos anteriores, melhorando a performance
geral.
4. a)
○ O K-Nearest Neighbors (KNN) é um algoritmo de classificação baseado na
proximidade dos dados, onde a classe de um novo ponto de dados é
determinada pela maioria dos seus vizinhos mais próximos.
5. c)
○ A regularização L2 (Ridge) e L1 (Lasso) são técnicas que penalizam grandes
coeficientes e ajudam a evitar overfitting ao simplificar o modelo.
6. c)
○ O Random Forest combina múltiplas árvores de decisão, o que ajuda a
reduzir o risco de overfitting que ocorre em uma única árvore de decisão.
7. a)
○ PCA é uma técnica usada para reduzir a dimensionalidade dos dados,
transformando as variáveis originais em componentes principais ortogonais,
mantendo a maior parte da variação dos dados.
8. b)
○ No aprendizado supervisionado, o modelo aprende com rótulos de saída,
enquanto no aprendizado não supervisionado, o modelo busca padrões ou
agrupamentos nos dados sem rótulos.
9. c)
○ O Naive Bayes funciona melhor quando as variáveis de entrada são
independentes e seguem uma distribuição normal, já que faz suposições de
independência entre as variáveis.
10. b)
● O Cross-Validation é uma técnica de validação de modelos em que o conjunto de
dados é dividido em várias partes, utilizando diferentes divisões para treinar e testar
o modelo, garantindo uma avaliação robusta.

Prova de Ciência de Dados_ Algoritmos Avançados e Modelos de Predição

Outros

Ferramentas de estudo

Conteúdos escolhidos para você

Prova de Ciência de Dados_ Métodos e Algoritmos de Aprendizado de Máquina

Prova de Ciência de Dados_ Introdução ao Aprendizado Supervisionado e Não Supervisionado

Prova de Algoritmos e Técnicas de Aprendizado de Máquina_ Fundamentos e Aplicações

Prova de Ciência de Dados_ Fundamentos e Algoritmos de Aprendizado

Fundamentos de Machine Learning e Modelagem Preditiva(1)

Perguntas dessa disciplina

Pergunta 1 Qual é a principal característica do aprendizado não supervisionado? a. Aprende a partir de dados sem rótulos. b. Utiliza dados rotulados.

O processo de desenvolvimento de um programa envolve a modelagem de dados que serão utilizados nas operações do algoritmo. Cada informação deve ser...

Uma empresa de e-commerce deseja implementar um sistema de recomendação para sugerir produtos aos clientes com base em suas compras anteriores e no co

De acordo com o Capítulo 6 da Unidade 2, faça as associações corretas de acordo com os conceitos vistos sobre treinamento, otimização e validação d...

Associe cada etapa da construção de um modelo de regressão linear múltipla com sua descrição correta, considerando a importância de cada uma para gara

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

Prova de Ciência de Dados_ Métodos e Algoritmos de Aprendizado de Máquina

Prova de Ciência de Dados_ Introdução ao Aprendizado Supervisionado e Não Supervisionado

Prova de Algoritmos e Técnicas de Aprendizado de Máquina_ Fundamentos e Aplicações

Prova de Ciência de Dados_ Fundamentos e Algoritmos de Aprendizado

Fundamentos de Machine Learning e Modelagem Preditiva(1)

Perguntas dessa disciplina

Pergunta 1 Qual é a principal característica do aprendizado não supervisionado? a. Aprende a partir de dados sem rótulos. b. Utiliza dados rotulados.

O processo de desenvolvimento de um programa envolve a modelagem de dados que serão utilizados nas operações do algoritmo. Cada informação deve ser...

Uma empresa de e-commerce deseja implementar um sistema de recomendação para sugerir produtos aos clientes com base em suas compras anteriores e no co

De acordo com o Capítulo 6 da Unidade 2, faça as associações corretas de acordo com os conceitos vistos sobre treinamento, otimização e validação d...

Associe cada etapa da construção de um modelo de regressão linear múltipla com sua descrição correta, considerando a importância de cada uma para gara

Mais conteúdos dessa disciplina