Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 - Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. A – count, collect e take. B – map, sample e collect. C – map, filter e union. D – reduce, first e map. E – map, take e reduce 2 - O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta. A – Consiste em uma técnica de programação sequencial B – É uma técnica lenta para processamento de grandes volumes de dados C –Foi substituída no Spark por acesso direto à memória D – Só pode ser aplicada para grandes volumes de dados E – É uma técnica de computação distribuída 3 - Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. A – sample B – filter C –random D – mapRandom E – distinct 4 - Observe o trecho de código abaixo: query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele A – Trata-se de um exemplo de utilização do Spark SQL B – A implementação do trecho de código está errada. C – É possível afirmar que a tabela_teste existe. D – A execução do trecho de código vai funcionar corretamente E – É um exemplo de aplicação de GraphX. 5 – o PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré- requisitos de instalação para utilização do PySpark. A – Hadoop e Spark B – Casandra e Spark C – Java e Python D – Python e Escala E – Java e R 6 - Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster. A – Spark.Catalog B – SparkSession C –DataFrame D – RDD E – SparkContext 7 - Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. A – MLlib B – Spark Learning C –GraphX Learning D – RDDs E – MLSpark 8 - O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento. A – Agregação B – Mapeamento C – Separação D – Redução E – Processamento 9 - Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele A – A utilização do SparkContext é opcional B – A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". C – A variável "teste" corresponde a um RDD. D – A execução do trecho de código vai gerar um erro. E – O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
Compartilhar