Baixe o app para aproveitar ainda mais
Prévia do material em texto
30/05/2022 00:19 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/5 Simulado AV Teste seu conhecimento acumulado Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): SORAIA RAQUEL CARDOSO SILVA 202007118502 Acertos: 7,0 de 10,0 20/04/2022 Acerto: 1,0 / 1,0 Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. Oracle Cloud Google Cloud Amazon AWS IBM Cloud Microsft Azure Respondido em 20/04/2022 17:54:01 Explicação: A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado. Acerto: 1,0 / 1,0 A respeito das aplicações de fluxos de dados, selecione a opção correta. Reapresentação de programas de televisão. Serviço de correio eletrônico Serviços sob demanda, como serviços de filme online. Transações bancárias, como o serviço de PIX. Serviços de compras online Respondido em 20/04/2022 17:54:08 Explicação: Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente. Acerto: 0,0 / 1,0 Questão1 a Questão2 a Questão3 a https://simulado.estacio.br/alunos/inicio.asp javascript:voltar(); 30/05/2022 00:19 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/5 A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. MapReduce Camada de ingestão Task manager Mrjob HDFS Respondido em 20/04/2022 17:58:31 Explicação: O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas. Acerto: 0,0 / 1,0 Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop. Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados. O Hadoop utiliza o HDFS para armazenar dados. A estrutura de desenvolvimento no Hadoop é sequencial. O Hadoop não funciona com pequenos volumes de dados. O Hadoop tem apenas uma única distribuição. Respondido em 20/04/2022 17:59:13 Explicação: O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS). Acerto: 1,0 / 1,0 Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A variável "teste" corresponde a um RDD. O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". A utilização do SparkContext é opcional. A execução do trecho de código vai gerar um erro. Respondido em 20/04/2022 18:00:57 Explicação: Gabarito: A variável "teste" corresponde a um RDD. Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a". Questão4 a Questão5 a 30/05/2022 00:19 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/5 Acerto: 1,0 / 1,0 O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento. Mapeamento Separação Agregação Processamento Redução Respondido em 20/04/2022 18:02:16 Explicação: Gabarito: Redução Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Acerto: 0,0 / 1,0 Luis planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente ele deseja começar por um módulo de coleta de dados. Para que ele possa obter um padrão organizado de criação de projeto, qual a sequência desejável de passos que esperamos que Luis siga? Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a lógica do módulo. Respondido em 20/04/2022 18:03:17 Explicação: O passo a passo correto envolve: criar uma pasta para o projeto; levantar um ambiente virtual; instalar as dependências e guardá-las no arquivo requirements.txt; criar uma pasta para o módulo de coleta e criar um arquivo __init__.py em branco e outro para o módulo. As opções que não descrevem todos esses passos estão incompletas ou na ordem incorreta. Acerto: 1,0 / 1,0 No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados? Questão6 a Questão7 a Questão8 a 30/05/2022 00:19 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/5 Atemporais Semi-Estruturados Categóricos Numéricos Temporais Respondido em 20/04/2022 18:03:44 Explicação: O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. Acerto: 1,0 / 1,0 Comopodemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn? Classification Report Gráfico de Matriz de Dispersão Plotly Gráfico de Histograma Regressão Linear Respondido em 20/04/2022 18:04:55 Explicação: O classification report é um dos métodos oferecidos pelo scikit-learn que nos permite usar um conjunto ground truth para comparar contra as predições de um modelo e este calculará as métricas de acurácia, precisão e medida F de cada classe possível e também as mesmas métricas em um nível macro. Acerto: 1,0 / 1,0 As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são) Pesos Camada de Saída Função de Ativação Camadas Escondidas Vieses Respondido em 20/04/2022 18:05:23 Explicação: O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden), pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o conhecimento necessário para discriminar novas observações com base em registros passados. Questão9 a Questão10 a javascript:abre_colabore('38403','280950711','5232382037'); 30/05/2022 00:19 Estácio: Alunos https://simulado.estacio.br/alunos/ 5/5
Compartilhar