Prova de Ciência de Dados_ Análise de Dados e Modelos Preditivos

Outros

Carme Timoteo

em 11/02/2025

Questões resolvidas

Esta prova abrange temas relacionados à análise de dados e à construção de modelos preditivos em Ciência de Dados. As questões abordam o uso de algoritmos de aprendizado supervisionado e não supervisionado, técnicas de avaliação de modelos, e a compreensão de como otimizar os resultados. Avaliaremos também as abordagens de manipulação de dados, especialmente no contexto de séries temporais e dados desbalanceados.
Qual técnica é utilizada para prever valores futuros de séries temporais?
a) K-means clustering.
b) Regressão Linear.
c) Redes neurais convolucionais (CNN).
d) ARIMA (AutoRegressive Integrated Moving Average).
e) PCA (Principal Component Analysis).

Em aprendizado supervisionado, o que é o overfitting?
a) O modelo é incapaz de aprender a partir dos dados de treinamento.
b) O modelo se ajusta de forma excessiva aos dados de treinamento, mas falha em generalizar para dados não vistos.
c) O modelo não possui capacidade suficiente para aprender de forma eficaz.
d) O modelo apresenta erro reduzido tanto nos dados de treinamento quanto nos de teste.
e) O modelo é excessivamente simples e não consegue captar a complexidade dos dados.

Em um modelo de classificação, qual é o impacto de se usar um conjunto de dados desbalanceado?
a) O modelo pode ter seu desempenho prejudicado, especialmente nas classes minoritárias.
b) O modelo pode ser mais eficiente na classificação das classes maioritárias.
c) Não há impacto no desempenho do modelo.
d) O modelo sempre terá um desempenho melhor nas classes minoritárias.
e) O modelo se torna incapaz de identificar as classes maioritárias.

Qual é a principal vantagem do uso de Random Forest em relação a uma árvore de decisão simples?
a) O Random Forest utiliza apenas uma árvore de decisão, mas ajustada com maior precisão.
b) O Random Forest combina várias árvores de decisão para melhorar a precisão e reduzir o risco de overfitting.
c) O Random Forest é mais simples de interpretar do que uma única árvore de decisão.
d) O Random Forest é mais eficaz para problemas de regressão do que para classificação.
e) O Random Forest sempre apresenta melhor desempenho com menos dados de treinamento.

O que significa o termo Acurácia no contexto de avaliação de modelos?
a) A capacidade do modelo em distinguir entre diferentes classes.
b) A proporção de previsões corretas feitas pelo modelo.
c) A quantidade de dados usados para o treinamento do modelo.
d) O tempo que o modelo leva para realizar as previsões.
e) A medida da complexidade do modelo.

Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior quantidade de variação possível?
a) K-means.
b) PCA (Principal Component Analysis).
c) Regressão Linear.
d) SVM (Support Vector Machines).
e) Random Forest.

Em que situações é recomendável utilizar o algoritmo K-Means?
a) Quando você precisa de uma abordagem supervisionada para classificação.
b) Quando você quer reduzir a dimensionalidade dos dados.
c) Quando você deseja encontrar grupos ou clusters em dados não rotulados.
d) Quando você precisa prever uma variável contínua.
e) Quando você está trabalhando com redes neurais profundas.

O que é feature engineering?
a) A criação de novas variáveis a partir dos dados originais, para melhorar o desempenho do modelo.
b) A técnica de aumentar o número de parâmetros em um modelo.
c) O processo de eliminar dados irrelevantes do conjunto.
d) A utilização de algoritmos de otimização para ajustar os hiperparâmetros.
e) A técnica de dividir os dados em subconjuntos para validação.

Qual é a principal função do algoritmo XGBoost?
a) Ajudar na redução da dimensionalidade dos dados.
b) Realizar uma combinação de modelos fracos para formar um modelo robusto e preciso.
c) Agrupar os dados em diferentes categorias.
d) Calcular a importância das variáveis do modelo.
e) Prever valores contínuos em séries temporais.

Conteúdos escolhidos para você

3 pág.

Modelos Supervisionados em Classificação e Regressão

4 pág.

Prova 1_ Fundamentos de Algoritmos de Aprendizado Supervisionado e Não Supervisionado

4 pág.

Prova de Ciência de Dados_ Análise Preditiva e Métodos de Modelagem

4 pág.

Prova de Ciência de Dados_ Técnicas de Análise e Modelagem Preditiva

3 pág.

Fundamentos e Aplicações de Ciência de Dados

Perguntas dessa disciplina

Ainda sobre a resolução de problemas, marque a alternativa que apresenta as características correspondentes à etapa referida: A. Identificação do ...

Uma empresa de e-commerce deseja criar um modelo preditivo para prever o número de vendas em determinado período. Para isso, a equipe de análise de...

UNISUAM

Uma equipe de pesquisadores está analisando o desempenho financeiro de empresas e o impacto de certas políticas corporativas. Eles têm acesso a dad...

Durante o avanço dos estudos em redes neurais profundas, identificou-se que modelos lineares não são suficientes para representar relações complexa...

UNIVESP

A preparação dos dados é uma etapa importante no ciclo de vida do desenvolvimento de modelos de machine learning, envolvendo várias técnicas para g...

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Esta prova abrange temas relacionados à análise de dados e à construção de modelos preditivos em Ciência de Dados. As questões abordam o uso de algoritmos de aprendizado supervisionado e não supervisionado, técnicas de avaliação de modelos, e a compreensão de como otimizar os resultados. Avaliaremos também as abordagens de manipulação de dados, especialmente no contexto de séries temporais e dados desbalanceados.
Qual técnica é utilizada para prever valores futuros de séries temporais?
a) K-means clustering.
b) Regressão Linear.
c) Redes neurais convolucionais (CNN).
d) ARIMA (AutoRegressive Integrated Moving Average).
e) PCA (Principal Component Analysis).

Em aprendizado supervisionado, o que é o overfitting?
a) O modelo é incapaz de aprender a partir dos dados de treinamento.
b) O modelo se ajusta de forma excessiva aos dados de treinamento, mas falha em generalizar para dados não vistos.
c) O modelo não possui capacidade suficiente para aprender de forma eficaz.
d) O modelo apresenta erro reduzido tanto nos dados de treinamento quanto nos de teste.
e) O modelo é excessivamente simples e não consegue captar a complexidade dos dados.

Em um modelo de classificação, qual é o impacto de se usar um conjunto de dados desbalanceado?
a) O modelo pode ter seu desempenho prejudicado, especialmente nas classes minoritárias.
b) O modelo pode ser mais eficiente na classificação das classes maioritárias.
c) Não há impacto no desempenho do modelo.
d) O modelo sempre terá um desempenho melhor nas classes minoritárias.
e) O modelo se torna incapaz de identificar as classes maioritárias.

Qual é a principal vantagem do uso de Random Forest em relação a uma árvore de decisão simples?
a) O Random Forest utiliza apenas uma árvore de decisão, mas ajustada com maior precisão.
b) O Random Forest combina várias árvores de decisão para melhorar a precisão e reduzir o risco de overfitting.
c) O Random Forest é mais simples de interpretar do que uma única árvore de decisão.
d) O Random Forest é mais eficaz para problemas de regressão do que para classificação.
e) O Random Forest sempre apresenta melhor desempenho com menos dados de treinamento.

O que significa o termo Acurácia no contexto de avaliação de modelos?
a) A capacidade do modelo em distinguir entre diferentes classes.
b) A proporção de previsões corretas feitas pelo modelo.
c) A quantidade de dados usados para o treinamento do modelo.
d) O tempo que o modelo leva para realizar as previsões.
e) A medida da complexidade do modelo.

Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior quantidade de variação possível?
a) K-means.
b) PCA (Principal Component Analysis).
c) Regressão Linear.
d) SVM (Support Vector Machines).
e) Random Forest.

Em que situações é recomendável utilizar o algoritmo K-Means?
a) Quando você precisa de uma abordagem supervisionada para classificação.
b) Quando você quer reduzir a dimensionalidade dos dados.
c) Quando você deseja encontrar grupos ou clusters em dados não rotulados.
d) Quando você precisa prever uma variável contínua.
e) Quando você está trabalhando com redes neurais profundas.

O que é feature engineering?
a) A criação de novas variáveis a partir dos dados originais, para melhorar o desempenho do modelo.
b) A técnica de aumentar o número de parâmetros em um modelo.
c) O processo de eliminar dados irrelevantes do conjunto.
d) A utilização de algoritmos de otimização para ajustar os hiperparâmetros.
e) A técnica de dividir os dados em subconjuntos para validação.

Qual é a principal função do algoritmo XGBoost?
a) Ajudar na redução da dimensionalidade dos dados.
b) Realizar uma combinação de modelos fracos para formar um modelo robusto e preciso.
c) Agrupar os dados em diferentes categorias.
d) Calcular a importância das variáveis do modelo.
e) Prever valores contínuos em séries temporais.

Conteúdos escolhidos para você

3 pág.

Modelos Supervisionados em Classificação e Regressão

4 pág.

Prova 1_ Fundamentos de Algoritmos de Aprendizado Supervisionado e Não Supervisionado

4 pág.

Prova de Ciência de Dados_ Análise Preditiva e Métodos de Modelagem

4 pág.

Prova de Ciência de Dados_ Técnicas de Análise e Modelagem Preditiva

3 pág.

Fundamentos e Aplicações de Ciência de Dados

Perguntas dessa disciplina

Ainda sobre a resolução de problemas, marque a alternativa que apresenta as características correspondentes à etapa referida: A. Identificação do ...

Uma empresa de e-commerce deseja criar um modelo preditivo para prever o número de vendas em determinado período. Para isso, a equipe de análise de...

UNISUAM

Uma equipe de pesquisadores está analisando o desempenho financeiro de empresas e o impacto de certas políticas corporativas. Eles têm acesso a dad...

Durante o avanço dos estudos em redes neurais profundas, identificou-se que modelos lineares não são suficientes para representar relações complexa...

UNIVESP

A preparação dos dados é uma etapa importante no ciclo de vida do desenvolvimento de modelos de machine learning, envolvendo várias técnicas para g...

Prévia do material em texto

Prova de Ciência de Dados: Análise de Dados e Modelos Preditivos
Introdução:
Esta prova abrange temas relacionados à análise de dados e à construção de modelos
preditivos em Ciência de Dados. As questões abordam o uso de algoritmos de aprendizado
supervisionado e não supervisionado, técnicas de avaliação de modelos, e a compreensão
de como otimizar os resultados. Avaliaremos também as abordagens de manipulação de
dados, especialmente no contexto de séries temporais e dados desbalanceados.
Questão 1
Qual técnica é utilizada para prever valores futuros de séries temporais?
a) K-means clustering.
b) Regressão Linear.
c) Redes neurais convolucionais (CNN).
d) ARIMA (AutoRegressive Integrated Moving Average).
e) PCA (Principal Component Analysis).
Questão 2
Em aprendizado supervisionado, o que é o overfitting?
a) O modelo é incapaz de aprender a partir dos dados de treinamento.
b) O modelo se ajusta de forma excessiva aos dados de treinamento, mas falha em
generalizar para dados não vistos.
c) O modelo não possui capacidade suficiente para aprender de forma eficaz.
d) O modelo apresenta erro reduzido tanto nos dados de treinamento quanto nos de teste.
e) O modelo é excessivamente simples e não consegue captar a complexidade dos dados.
Questão 3
Em um modelo de classificação, qual é o impacto de se usar um conjunto de dados
desbalanceado?
a) O modelo pode ter seu desempenho prejudicado, especialmente nas classes
minoritárias.
b) O modelo pode ser mais eficiente na classificação das classes maioritárias.
c) Não há impacto no desempenho do modelo.
d) O modelo sempre terá um desempenho melhor nas classes minoritárias.
e) O modelo se torna incapaz de identificar as classes maioritárias.
Questão 4
Qual é a principal vantagem do uso de Random Forest em relação a uma árvore de decisão
simples?
a) O Random Forest utiliza apenas uma árvore de decisão, mas ajustada com maior
precisão.
b) O Random Forest combina várias árvores de decisão para melhorar a precisão e reduzir
o risco de overfitting.
c) O Random Forest é mais simples de interpretar do que uma única árvore de decisão.
d) O Random Forest é mais eficaz para problemas de regressão do que para classificação.
e) O Random Forest sempre apresenta melhor desempenho com menos dados de
treinamento.
Questão 5
O que significa o termo Acurácia no contexto de avaliação de modelos?
a) A capacidade do modelo em distinguir entre diferentes classes.
b) A proporção de previsões corretas feitas pelo modelo.
c) A quantidade de dados usados para o treinamento do modelo.
d) O tempo que o modelo leva para realizar as previsões.
e) A medida da complexidade do modelo.
Questão 6
Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior
quantidade de variação possível?
a) K-means.
b) PCA (Principal Component Analysis).
c) Regressão Linear.
d) SVM (Support Vector Machines).
e) Random Forest.
Questão 7
Em que situações é recomendável utilizar o algoritmo K-Means?
a) Quando você precisa de uma abordagem supervisionada para classificação.
b) Quando você quer reduzir a dimensionalidade dos dados.
c) Quando você deseja encontrar grupos ou clusters em dados não rotulados.
d) Quando você precisa prever uma variável contínua.
e) Quando você está trabalhando com redes neurais profundas.
Questão 8
O que é feature engineering?
a) A criação de novas variáveis a partir dos dados originais, para melhorar o desempenho
do modelo.
b) A técnica de aumentar o número de parâmetros em um modelo.
c) O processo de eliminar dados irrelevantes do conjunto.
d) A utilização de algoritmos de otimização para ajustar os hiperparâmetros.
e) A técnica de dividir os dados em subconjuntos para validação.
Questão 9
Qual é o principal propósito da técnica de normalização dos dados?
a) Melhorar a complexidade computacional do modelo.
b) Fazer com que os dados tenham uma distribuição normal.
c) Ajustar os valores dos dados para uma escala uniforme, evitando que variáveis com
grandes amplitudes dominem o modelo.
d) Aumentar o número de observações no conjunto de dados.
e) Garantir que as variáveis se mantenham em seu intervalo original.
Questão 10
Qual é a principal função do algoritmo XGBoost?
a) Ajudar na redução da dimensionalidade dos dados.
b) Realizar uma combinação de modelos fracos para formar um modelo robusto e preciso.
c) Agrupar os dados em diferentes categorias.
d) Calcular a importância das variáveis do modelo.
e) Prever valores contínuos em séries temporais.
Gabarito e Justificativa
1. d)
○ ARIMA (AutoRegressive Integrated Moving Average) é uma técnica de
previsão para séries temporais, comumente usada para prever valores
futuros com base em observações passadas.
2. b)
○ O overfitting ocorre quando o modelo se ajusta excessivamente aos dados
de treinamento, falhando em generalizar para novos dados, o que leva a uma
baixa performance em dados de teste.
3. a)
○ Em um conjunto de dados desbalanceado, o modelo pode ser tendencioso
para a classe maioritária, prejudicando sua capacidade de identificar
corretamente as classes minoritárias.
4. b)
○ O Random Forest utiliza várias árvores de decisão e combina seus
resultados para melhorar a precisão e reduzir o risco de overfitting,
proporcionando melhores resultados em comparação com uma árvore de
decisão simples.
5. b)
○ A acurácia mede a proporção de previsões corretas realizadas pelo modelo,
ou seja, a quantidade de previsões acertadas em relação ao total de
previsões feitas.
6. b)
○ O PCA (Principal Component Analysis) é uma técnica usada para reduzir a
dimensionalidade dos dados, preservando a maior quantidade possível de
variação nos dados originais.
7. c)
○ O K-Means é um algoritmo de clustering utilizado para identificar grupos ou
clusters em dados não rotulados. Ele não é utilizado em problemas
supervisionados.
8. a)
○ Feature engineering é o processo de criar novas variáveis a partir dos dados
existentes, com o objetivo de melhorar a performance do modelo de
aprendizado de máquina.
9. c)
○ A normalização ajusta os valores dos dados para uma escala uniforme,
evitando que variáveis com grandes magnitudes influenciem demais o
modelo.
10. b)
● O XGBoost é um algoritmo de aprendizado baseado em boosting que combina
múltiplos modelos fracos (geralmente árvores de decisão) para formar um modelo
forte e preciso, sendo muito eficaz em tarefas de classificação e regressão.

Prova de Ciência de Dados_ Análise de Dados e Modelos Preditivos

Outros

Ferramentas de estudo

Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior quantidade de variação possível?
a) K-means.
b) PCA (Principal Component Analysis).
c) Regressão Linear.
d) SVM (Support Vector Machines).
e) Random Forest.

Conteúdos escolhidos para você

Modelos Supervisionados em Classificação e Regressão

Prova 1_ Fundamentos de Algoritmos de Aprendizado Supervisionado e Não Supervisionado

Prova de Ciência de Dados_ Análise Preditiva e Métodos de Modelagem

Prova de Ciência de Dados_ Técnicas de Análise e Modelagem Preditiva

Fundamentos e Aplicações de Ciência de Dados

Perguntas dessa disciplina

Ainda sobre a resolução de problemas, marque a alternativa que apresenta as características correspondentes à etapa referida: A. Identificação do ...

Uma empresa de e-commerce deseja criar um modelo preditivo para prever o número de vendas em determinado período. Para isso, a equipe de análise de...

Uma equipe de pesquisadores está analisando o desempenho financeiro de empresas e o impacto de certas políticas corporativas. Eles têm acesso a dad...

Durante o avanço dos estudos em redes neurais profundas, identificou-se que modelos lineares não são suficientes para representar relações complexa...

A preparação dos dados é uma etapa importante no ciclo de vida do desenvolvimento de modelos de machine learning, envolvendo várias técnicas para g...

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior quantidade de variação possível?
a) K-means.
b) PCA (Principal Component Analysis).
c) Regressão Linear.
d) SVM (Support Vector Machines).
e) Random Forest.

Conteúdos escolhidos para você

Modelos Supervisionados em Classificação e Regressão

Prova 1_ Fundamentos de Algoritmos de Aprendizado Supervisionado e Não Supervisionado

Prova de Ciência de Dados_ Análise Preditiva e Métodos de Modelagem

Prova de Ciência de Dados_ Técnicas de Análise e Modelagem Preditiva

Fundamentos e Aplicações de Ciência de Dados

Perguntas dessa disciplina

Ainda sobre a resolução de problemas, marque a alternativa que apresenta as características correspondentes à etapa referida: A. Identificação do ...

Uma empresa de e-commerce deseja criar um modelo preditivo para prever o número de vendas em determinado período. Para isso, a equipe de análise de...

Uma equipe de pesquisadores está analisando o desempenho financeiro de empresas e o impacto de certas políticas corporativas. Eles têm acesso a dad...

Durante o avanço dos estudos em redes neurais profundas, identificou-se que modelos lineares não são suficientes para representar relações complexa...

A preparação dos dados é uma etapa importante no ciclo de vida do desenvolvimento de modelos de machine learning, envolvendo várias técnicas para g...

Mais conteúdos dessa disciplina

Prova de Ciência de Dados_ Análise de Dados e Modelos Preditivos

Outros

Ferramentas de estudo

Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior quantidade de variação possível?a) K-means.b) PCA (Principal Component Analysis).c) Regressão Linear.d) SVM (Support Vector Machines).e) Random Forest.

Conteúdos escolhidos para você

Modelos Supervisionados em Classificação e Regressão

Prova 1_ Fundamentos de Algoritmos de Aprendizado Supervisionado e Não Supervisionado

Prova de Ciência de Dados_ Análise Preditiva e Métodos de Modelagem

Prova de Ciência de Dados_ Técnicas de Análise e Modelagem Preditiva

Fundamentos e Aplicações de Ciência de Dados

Perguntas dessa disciplina

Ainda sobre a resolução de problemas, marque a alternativa que apresenta as características correspondentes à etapa referida: A. Identificação do ...

Uma empresa de e-commerce deseja criar um modelo preditivo para prever o número de vendas em determinado período. Para isso, a equipe de análise de...

Uma equipe de pesquisadores está analisando o desempenho financeiro de empresas e o impacto de certas políticas corporativas. Eles têm acesso a dad...

Durante o avanço dos estudos em redes neurais profundas, identificou-se que modelos lineares não são suficientes para representar relações complexa...

A preparação dos dados é uma etapa importante no ciclo de vida do desenvolvimento de modelos de machine learning, envolvendo várias técnicas para g...

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior quantidade de variação possível?a) K-means.b) PCA (Principal Component Analysis).c) Regressão Linear.d) SVM (Support Vector Machines).e) Random Forest.

Conteúdos escolhidos para você

Modelos Supervisionados em Classificação e Regressão

Prova 1_ Fundamentos de Algoritmos de Aprendizado Supervisionado e Não Supervisionado

Prova de Ciência de Dados_ Análise Preditiva e Métodos de Modelagem

Prova de Ciência de Dados_ Técnicas de Análise e Modelagem Preditiva

Fundamentos e Aplicações de Ciência de Dados

Perguntas dessa disciplina

Ainda sobre a resolução de problemas, marque a alternativa que apresenta as características correspondentes à etapa referida: A. Identificação do ...

Uma empresa de e-commerce deseja criar um modelo preditivo para prever o número de vendas em determinado período. Para isso, a equipe de análise de...

Uma equipe de pesquisadores está analisando o desempenho financeiro de empresas e o impacto de certas políticas corporativas. Eles têm acesso a dad...

Durante o avanço dos estudos em redes neurais profundas, identificou-se que modelos lineares não são suficientes para representar relações complexa...

A preparação dos dados é uma etapa importante no ciclo de vida do desenvolvimento de modelos de machine learning, envolvendo várias técnicas para g...

Mais conteúdos dessa disciplina

Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior quantidade de variação possível?
a) K-means.
b) PCA (Principal Component Analysis).
c) Regressão Linear.
d) SVM (Support Vector Machines).
e) Random Forest.

Qual técnica é utilizada para reduzir a dimensionalidade dos dados mantendo a maior quantidade de variação possível?
a) K-means.
b) PCA (Principal Component Analysis).
c) Regressão Linear.
d) SVM (Support Vector Machines).
e) Random Forest.