Exercício 5 - Princípios de Big Data

Big Data

•

ESTÁCIO

7

0

7

0

nata viana

16/09/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 3 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

6.085 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1 - Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a 
opção correta que contenha apenas funções que podem ser categorizadas como 
transformações no Spark. 
A – count, collect e take. 
B – map, sample e collect. 
C – map, filter e union. 
D – reduce, first e map. 
E – map, take e reduce 
 
2 - O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos 
frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção 
correta. 
A – Consiste em uma técnica de programação sequencial 
B – É uma técnica lenta para processamento de grandes volumes de dados 
C –Foi substituída no Spark por acesso direto à memória 
D – Só pode ser aplicada para grandes volumes de dados 
E – É uma técnica de computação distribuída 
 
3 - Selecione a opção correta que contenha a operação responsável por retornar um 
subconjunto aleatório dos dados de entrada. 
A – sample 
B – filter 
C –random 
D – mapRandom 
E – distinct 
 
 
 
 
 
 
 
 
4 - Observe o trecho de código abaixo: 
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = 
spark.sql(query) 
Selecione a opção correta a respeito dele 
A – Trata-se de um exemplo de utilização do Spark SQL 
B – A implementação do trecho de código está errada. 
C – É possível afirmar que a tabela_teste existe. 
D – A execução do trecho de código vai funcionar corretamente 
E – É um exemplo de aplicação de GraphX. 
 
 
 
 
5 – o PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas 
usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-
requisitos de instalação para utilização do PySpark. 
A – Hadoop e Spark 
B – Casandra e Spark 
C – Java e Python 
D – Python e Escala 
E – Java e R 
 
6 - Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com 
finalidades específicas. Nesse sentido, selecione a opção que contém o componente 
responsável por estabelecer uma conexão com o Cluster. 
A – Spark.Catalog 
B – SparkSession 
C –DataFrame 
D – RDD 
E – SparkContext 
 
 
 
7 - Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com 
finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark 
especializado em aplicações de aprendizado de máquina. 
A – MLlib 
B – Spark Learning 
C –GraphX Learning 
D – RDDs 
E – MLSpark 
 
8 - O paradigma MapReduce é uma estratégia de computação com capacidade de processar 
grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica 
MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao 
longo do processamento. 
A – Agregação 
B – Mapeamento 
C – Separação 
D – Redução 
E – Processamento 
 
9 - Observe o trecho de código abaixo 
import numpy as np from pyspark 
 import SparkContext spark_contexto = SparkContext() 
a = np.array([1, 5, 1, 6, 4, 7, 7]) 
teste = spark_contexto.parallelize(a) 
 
Selecione a opção correta a respeito dele 
A – A utilização do SparkContext é opcional 
B – A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor 
"a". 
C – A variável "teste" corresponde a um RDD. 
D – A execução do trecho de código vai gerar um erro. 
E – O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor 
"a".