Buscar

CIÊNCIA DE DADOS QUESTIONÁRIO UNIDADE I

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

CIÊNCIA DE DADOS QUESTIONÁRIO UNIDADE I 
Pergunta 1 
1. Imagine uma empresa de varejo que vende produtos eletrônicos. Ela coleta dados de vendas ao longo do 
tempo, incluindo informações como datas de venda, tipos de produtos vendidos, preços, promoções, dados 
climáticos e feriados. O objetivo de um cientista de dados é utilizar técnicas para prever a demanda futura 
dos produtos. Isso ajudará a empresa a otimizar os níveis de estoque, planejar promoções e melhorar a 
eficiência operacional. 
Dado o conhecimento das etapas da ciência de dados, indique qual é a etapa em que são desenvolvidos 
modelos de mineração de dados. 
 a. Coleta de dados. 
 b. Limpeza de dados. 
 c. Modelagem. 
 d. Avaliação. 
 e. Comunicação dos resultados. 
Pergunta 2 
1. Após o uso constante de um modelo para treinamento de máquina, o analista responsável começa a 
observar que mesmo ampliando a complexidade dos problemas, a máquina apresenta um desempenho 
insatisfatório em relação aos dados de treinamento. Ele acredita que isso se deve ao fato de que o modelo 
que está sendo testado é muito simples e, por isso, apresenta dificuldade de capturar padrões. Como 
podemos classificar esse tipo de fenômeno? 
 a. Upperfitting. 
 b. Underfitting. 
 c. Overfitting. 
 d. Hiperfitting. 
 e. Downfitting. 
Pergunta 3 
1. Uma empresa de desenvolvimento de softwares, que inclui entre seus produtos um sistema de envio e 
recebimento de e-mails, optou por criar uma nova versão do sistema com melhorias nos filtros de detecção 
de spam. Para esse propósito, a equipe de engenharia de software recebeu a tarefa de treinar o software. 
Considerando esse exemplo, analise as opções abaixo e indique aquela que explica o objetivo do 
treinamento de um modelo de aprendizado de máquina. 
 a. Ajustar os parâmetros do modelo para maximizar a função de perda. 
 b. Ajustar os parâmetros do modelo para minimizar a função de perda. 
 c. Ajustar os parâmetros do modelo para maximizar a função de recompensa. 
 d. Ajustar os parâmetros do modelo para minimizar a função de recompensa. 
 e. Ajustar os parâmetros do modelo para maximizar a precisão do modelo. 
Pergunta 4 
1. Qual é a suposição feita pelos algoritmos de Naive Bayes? 
 
 
 
 
 
 
 
 
 a. As variáveis são independentes umas das outras ao fazer suas previsões. 
 b. As variáveis são dependentes umas das outras ao fazer suas previsões. 
 c. O relacionamento entre as variáveis é sempre linear. 
 d. O relacionamento entre as variáveis é sempre não linear. 
 e. O modelo deve ser treinado com dados rotulados. 
Pergunta 5 
1. Analise as opções abaixo e indique qual delas corresponde aos parâmetros necessários para se obter bons 
resultados na classificação. 
 a. 
Ter um conjunto de dados representativo e suficientemente grande para treinar o modelo de 
classificação, evitando vieses ou problemas de generalização. 
 b. 
Compreender o contexto, identificar as informações mais relevantes e comunicá-las de forma clara 
e concisa. 
 c. Utilizar técnicas de segmentação de mercado e detecção de fraudes. 
 d. Escolher entre sumarização automática e sumarização manual. 
 e. 
Selecionar cuidadosamente as características relevantes, escolher o algoritmo de classificação 
apropriado, ajustar os hiperparâmetros do modelo e realizar uma avaliação rigorosa. 
Pergunta 6 
1. A sumarização na mineração de dados refere-se ao processo de extrair informações ou conhecimentos 
essenciais e concisos a partir de conjuntos de dados complexos e volumosos. O objetivo é reduzir a 
quantidade de dados sem perder informações críticas. Isso envolve identificar padrões, tendências, 
características principais ou resumos estatísticos que capturem o significado subjacente dos dados. 
Indique qual das alternativas abaixo apresenta de forma correta a diferença entre sumarização automática e 
sumarização manual. 
 a. 
A sumarização automática é realizada por humanos, enquanto a sumarização manual é realizada 
por algoritmos de aprendizado de máquina. 
 b. A sumarização automática é mais precisa e confiável do que a sumarização manual. 
 c. A sumarização automática é mais rápida e eficiente do que a sumarização manual. 
 d. 
A sumarização automática é baseada em regras pré-definidas ou algoritmos, enquanto a 
sumarização manual é baseada na interpretação humana dos dados. 
 e. A sumarização automática é mais cara e complexa do que a sumarização manual. 
Pergunta 7 
1. O que é necessário para avaliar o desempenho de um modelo de aprendizado de máquina? 
 a. Dados de validação ou teste e a definição adequada das características e atributos relevantes. 
 b. A escolha do modelo correto e a otimização dos parâmetros do modelo para minimizar o erro. 
 c. A interpretação correta dos resultados e a seleção de recursos relevantes. 
 d. A qualidade dos dados e a escolha de uma função de perda apropriada. 
 e. Dados de validação ou teste e métricas como acurácia, precisão, recall e F1-score. 
Pergunta 8 
1. Segundo Géron, A. (2017), "A preparação de dados para análise envolve várias etapas importantes para 
garantir que os dados estejam limpos, consistentes e prontos para serem usados em análises ou 
modelagens". Podemos citar como etapas dessa preparação a Coleta de Dados, a Limpeza de Dados, o Pré-
processamento, a Redução de Dimensionalidade, o Tratamento de Outliers, a Codificação de Categorias e a 
Amostragem, entre outras. Com base nas colocações de Géron, indique qual das alternativas abaixo define 
corretamente o pré-processamento de dados: 
 a. Um conjunto de técnicas para a análise de dados. 
 b. Um método para a visualização de dados complexos. 
 c. 
Um processo de limpeza, transformação e redução de dados brutos para torná-los adequados para 
análise. 
 d. Um conjunto de ferramentas para a coleta de dados. 
 e. Um campo de estudo que se concentra na interpretação de dados. 
Pergunta 9 
1. Segundo Laney (2001), Big Data são conjuntos de dados extremamente grandes e complexos que exigem 
tecnologias e métodos específicos para armazenamento, processamento e análise devido ao seu tamanho e 
complexidade. Das alternativas abaixo, qual corresponde às características de um Big Data, segundo 
Laney? 
 a. Intangibilidade, Granularidade e Estruturação. 
 b. Gerar valor, Privacidade, Agrupável. 
 c. Estruturação, Privacidade, Volume. 
 d. Volume, Velocidade e Variedade. 
 e. Variedade, Granularidade e Agrupável. 
Pergunta 10 
1. A descrição a seguir se refere a qual tipo de modelo de machine learning? “É um modelo usado para 
problemas de classificação binária, em que a variável de saída é categórica com duas classes. Ele estima a 
probabilidade de um evento ocorrer, mapeando a entrada para uma função logística.” 
 a. Regressão Linear. 
 b. Regressão Logística. 
 c. Árvores de Decisão. 
 d. Máquinas de Vetores de Suporte (SVM). 
 e. Redes Neurais Artificiais. 
 
 
 
ATIVIDADE TELEAULA I 
Pergunta 1 
1. Analise as afirmações a seguir: 
 
I. O constante crescimento das bases de dados (Big Data) é um problema, porque torna os algoritmos 
desenvolvidos pela Ciência de dados defasados muito rapidamente. 
II. O DOD vem se tornando cada vez mais um diferencial para as grandes corporações, pois permite que a 
tomada de decisão não se baseie apenas no know-how dos executivos seniores. 
III. Os Big Datas são uma ciência diferente da Ciência de Dados, mesmo estando intimamente ligadas, 
uma vez que a primeira estuda apenas bases de dados com grande volume, velocidade e variedade, 
enquanto a segunda bases de dados estruturadas e corporativas. 
 
Analisando as três afirmações, qual das alternativas abaixo está correta? 
 a. Apenas a afirmação I é verdadeira. 
 b. Apenas a afirmação II é verdadeira. 
 c. Apenas a afirmação III é verdadeira. 
 d. Apenas as afirmações II e III são verdadeiras. 
 e. Todas as afirmações são verdadeiras. 
Pergunta 2 
1. Quando falamos em Machine Learning, existem duas categorias de algoritmosutilizados para 
implementação dessa técnica de extração de conhecimento. 
 
Analise as frases a seguir e indique quais delas são verdadeiras em relação a este contexto: 
 
I. O objetivo do aprendizado supervisionado é que a máquina compreenda a relação entre os dados de 
entrada e saída no treinamento para poder prever futuras saídas quando receber dados não treinados. 
II. Quando falamos de aprendizado supervisionado, não existirá a fase de treinamento, a máquina 
aprenderá com os feedbacks dos usuários. 
III. Em ambos os modelos de aprendizado, mesmo após o treinamento, os modelos podem ser mantidos, 
proporcionando um aprendizado contínuo. 
 a. As afirmações I e II são verdadeiras. 
 b. As afirmações I e III são verdadeiras. 
 c. As afirmações II e III são verdadeiras. 
 d. Apenas a afirmação II está correta. 
 e. Nenhuma das afirmações está correta. 
Pergunta 3 
1. Ao falarmos de modelos descritivos de aprendizagem não supervisionada, quais das técnicas abaixo não 
são recomendadas? 
 a. Classificação e Regressão. 
 b. Agrupamento e Associação. 
 c. Agrupamento e Sumarização. 
 d. Associação e Sumarização. 
 e. A fusão das técnicas das alternativas b e c. 
Pergunta 4 
1. Analise as descrições das etapas da mineração de dados e indique qual das alternativas nomeia de forma 
correta cada uma das etapas. 
 
I. Nesta etapa os padrões e conhecimentos descobertos são interpretados para extrair informações 
significativas e compreender seu impacto no problema em questão. 
II. Nesta etapa os dados são convertidos em uma forma adequada para análise. 
III. É a etapa em que os dados brutos são limpos, organizados e preparados para análise. 
 a. I – Avaliação e Interpretação, II – Transformação e III – Pré-processamento. 
 b. I – Seleção de Dados, II – Pré-processamento e III – Mineração de Dados. 
 c. I – Mineração de Dados, II – Transformação e III – Avaliação do Conhecimento. 
 d. I – Utilização do Conhecimento, II – Utilização do Conhecimento e III – Seleção de Dados. 
 e. I – Pré-processamento, II – Mineração de Dados e III – Transformação.

Continue navegando