4 Principios de Desenvolvimento de Spark

UNINASSAU CARUARU

José Nilson Vieira

em 18/06/2025

Conteúdos escolhidos para você

89 pág.

Desenvolvimento de Front-end - Resumo

ESTÁCIO

65 pág.

Sistemas de Informacao Distribuidos - Blockchain

ESTÁCIO

102 pág.

Exercício 5 - Princípios de Big Data

ESTÁCIO

12 pág.

Linguagens de programação para ciência de dados (Python com Spark)

ANHANGUERA

Perguntas dessa disciplina

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

UniCesumar

A interatividade moderna em aplicações web fundamenta-se na capacidade de atualizar seções específicas da interface sem a necessidade de um ciclo comp

ESTÁCIO EAD

Voce toi contratado(a) como Desenvolvedor(a) Android Senior por uma startup de logistica que esta revolucionando o gerenciamento de armazéns. Seu p...

Uniasselvi

ENADE – BANCO DE DADOS II 5 Considere um banco de dados relacional formado por três tabelas, conforme é apresentado na figura a seguir. As chaves prim

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

UniCesumar

Material

Libere esse material sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

89 pág.

Desenvolvimento de Front-end - Resumo

ESTÁCIO

65 pág.

Sistemas de Informacao Distribuidos - Blockchain

ESTÁCIO

102 pág.

Exercício 5 - Princípios de Big Data

ESTÁCIO

12 pág.

Linguagens de programação para ciência de dados (Python com Spark)

ANHANGUERA

Perguntas dessa disciplina

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

UniCesumar

A interatividade moderna em aplicações web fundamenta-se na capacidade de atualizar seções específicas da interface sem a necessidade de um ciclo comp

ESTÁCIO EAD

Voce toi contratado(a) como Desenvolvedor(a) Android Senior por uma startup de logistica que esta revolucionando o gerenciamento de armazéns. Seu p...

Uniasselvi

ENADE – BANCO DE DADOS II 5 Considere um banco de dados relacional formado por três tabelas, conforme é apresentado na figura a seguir. As chaves prim

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

UniCesumar

Prévia do material em texto

Você acertou 1 de 9 questões
Verifique o seu desempenho e continue
treinando! Você pode refazer o exercício
quantas vezes quiser.
Verificar Desempenho
A
B
C
1 Marcar para revisão
Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A utilização do SparkContext é
opcional.
A linha "spark_contexto.parallelize(a)"
aplica a técnica MapReduce para
processar o vetor "a".
A variável "teste" corresponde a um
RDD.
Questão 1 de 9
Corretas (1)
Incorretas (8)
Em branco (0)
1 2 3 4 5
6 7 8 9
Lista de exercícios Princípios De… Sair
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 1/12
D
E
A execução do trecho de código vai
gerar um erro.
O objetivo do trecho de código é
contar a quantidade de ocorrências
dos valores do vetor "a".
Resposta incorreta
Opa! A alternativa correta é a letra
C. Confira o gabarito comentado!
Gabarito Comentado
O trecho de código apresentado está
sintaticamente correto e seu objetivo é
criar um RDD (Resilient Distributed
Dataset), que é uma estrutura de dados
fundamental do Spark. O RDD é
representado pela variável "teste". Para a
criação do RDD, é obrigatório o uso do
"SparkContext", que é a conexão para
executar operações no Spark. O pacote
"numpy" foi utilizado para a criação do
vetor "a", que posteriormente é
paralelizado para formar o RDD. Portanto, a
alternativa correta é a C: "A variável "teste"
corresponde a um RDD".
2 Marcar para revisão
O paradigma MapReduce é uma estratégia de
computação com capacidade de processar
grandes conjuntos de dados de maneira
distribuída em várias máquinas. Em relação à
técnica MapReduce, selecione a opção que é
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 2/12
A
B
C
D
E
responsável por consolidar os resultados
produzidos ao longo do processamento.
Agregação
Mapeamento
Separação
Redução
Processamento
Resposta incorreta
Opa! A alternativa correta é a letra
D. Confira o gabarito comentado!
Gabarito Comentado
O termo "Redução" é a resposta correta.
No contexto do paradigma MapReduce, a
redução é a etapa que consolida os
resultados produzidos durante o
processamento. Após a fase de
mapeamento e embaralhamento, a função
de redução é aplicada para agrupar os
pares, concluindo assim o processamento
dos dados. Este é um conceito
fundamental na programação distribuída e
é amplamente utilizado em diversos
frameworks, como o Spark, por exemplo.
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 3/12
A
B
C
D
E
3 Marcar para revisão
Os componentes do Spark têm como objetivo
facilitar o desenvolvimento de projetos com
finalidades específicas. Nesse sentido,
selecione a opção que contém o componente
responsável por estabelecer uma conexão com
o Cluster.
Spark.Catalog
SparkSession
DataFrame
RDD
SparkContext
Resposta incorreta
Opa! A alternativa correta é a letra
E. Confira o gabarito comentado!
Gabarito Comentado
O componente SparkContext é o
responsável por estabelecer uma conexão
com o cluster. Ele é fundamental para a
criação de RDDs, acumuladores e variáveis
de transmissão nesse cluster. Por outro
lado, o SparkSession é um ponto de
entrada para que o Spark possa trabalhar
com RDD, DataFrame e Dataset, enquanto
o Spark.Catalog é uma interface para
gerenciar um catálogo de metadados de
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 4/12
A
B
C
D
E
entidades relacionais. Portanto, a
alternativa correta é a E, que menciona o
SparkContext.
4 Marcar para revisão
O MapReduce é uma técnica clássica de
programação e é bastante utilizada por diversos
frameworks, como o Spark, por exemplo. Em
relação à técnica MapReduce, selecione a
opção correta.
Consiste em uma técnica de
programação sequencial
É uma técnica lenta para
processamento de grandes volumes
de dados
Foi substituída no Spark por acesso
direto à memória
Só pode ser aplicada para grandes
volumes de dados
É uma técnica de computação
distribuída
Resposta incorreta
Opa! A alternativa correta é a letra
E. Confira o gabarito comentado!
Gabarito Comentado
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 5/12
A
B
C
Gabarito: É uma técnica de computação
distribuída
Justificativa: A técnica MapReduce é um
modelo de programação que permite a fácil
distribuição de processamento de dados
em um cluster de computadores. Essa
técnica é muito eficiente para lidar com
grandes volumes de dados, sendo
amplamente utilizada em projetos de big
data. No entanto, ela não é exclusiva para
grandes volumes de dados, podendo ser
aplicada também em volumes menores,
embora não seja a mais apropriada para
esses casos devido à sua natureza
distribuída. Portanto, a alternativa correta é
a E: "É uma técnica de computação
distribuída".
5 Marcar para revisão
O PySpark caracteriza-se como uma biblioteca
Spark responsável por executar programas
usando recursos do Apache Spark. Selecione a
opção correta que contenha itens que são pré-
requisitos de instalação para utilização do
PySpark.
Hadoop e Spark
Casandra e Spark
Java e Python
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 6/12
D
E
Python e Escala
Java e R
Resposta incorreta
Opa! A alternativa correta é a letra
C. Confira o gabarito comentado!
Gabarito Comentado
Gabarito: Java e Python
Justificativa: Para a utilização do PySpark,
é necessário cumprir alguns pré-requisitos,
sendo os principais a instalação e
configuração do Java e do Python. Além
disso, é preciso instalar e configurar o
Spark, que é a plataforma na qual o
PySpark será executado. Em alguns casos,
como no Google Colab, é necessário
também instalar o FindSpark e o próprio
PySpark. Portanto, a alternativa correta é a
"C", que menciona Java e Python como
pré-requisitos para a instalação do
PySpark.
6 Marcar para revisão
O Spark é uma ferramenta computacional
voltada para aplicações de Big Data. Selecione
a opção correta a respeito do componente que
pode ser tratado com o Spark SQL.
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 7/12
A
B
C
D
E
DAG
Executor
RDD
Work Node
Tasks
Resposta incorreta
Opa! A alternativa correta é a letra
C. Confira o gabarito comentado!
Gabarito Comentado
Gabarito: RDD
Justificativa: O Spark SQL, um
componente do ecossistema Spark,
oferece suporte à linguagem SQL para
manipulação de RDDs (Resilient Distributed
Datasets). Os RDDs são coleções de
elementos distribuídos que podem ser
processados em paralelo. Por outro lado,
DAGs (Directed Acyclic Graphs) são
abstrações que representam a sequência
de operações a serem executadas. O
Executor é o componente responsável pela
execução de tarefas individuais dentro do
Spark. O Work Node é o conjunto de
máquinas que executam as tarefas, que
são denominadas Tasks, ou seja, são
subdivisões do processo. Portanto, a
alternativa correta é a "C", que menciona o
RDD, o único componente entre as opções
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 8/12
A
B
C
D
E
que pode ser diretamente manipulado pelo
Spark SQL.
7 Marcar para revisão
Selecione a opção correta que contenha a
operação responsável por retornar um
subconjunto aleatório dos dados de entrada.
sample
filter
random
mapRandom
distinct
Resposta incorreta
Opa! A alternativa correta é a letra
A. Confira o gabarito comentado!
Gabarito Comentado
Gabarito: sample
Justificativa: A operação "sample" é a
responsável por retornar um subconjunto
aleatório dos dados de entrada. Ela
pertence à categoria de transformações e
se enquadra em transformações amplas,
uma vez que pode ser necessário realizar
movimentações entre as partições. A
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 9/12
A
B
C
D
E
função "filter", por outro lado, retorna um
subconjunto de dados baseado em uma
condição específica, não envolvendo
aleatoriedade. As funções "random" e
"mapRandom" não são válidas para o
Spark. Por fim, a função "distinct" retorna
um RDD (Resilient Distributed Dataset) com
elementos distintos de um RDD de entrada,
também não envolvendo aleatoriedade.
8 Marcar para revisão
Atualmente, o Apache Spark é o mais bem-
sucedido framework para Big Data. Selecione a
opção correta que contenha apenas funções
que podem ser categorizadas como
transformações no Spark.
count, collect e take.
map, sample e collect.
map, filter e union.
reduce, first e map.
map, take e reduce.
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 10/12
A
B
C
D
E
Gabarito Comentado
As funções map, filter e union são
exemplos de transformações no Apache
Spark. As transformações são operações
que produzem um novo DataFrame a partir
do existente. No caso específico das
funções citadas, elas são classificadas
como transformações estreitas, pois
resultam da aplicação de funções de
mapeamento e de filtragem, onde os dados
se originam de uma única partição.
Portanto, a alternativa correta é a letra C:
map, filter e union.
9 Marcar para revisão
Os componentes do Spark têm como objetivo
facilitar o desenvolvimento de projetos com
finalidades específicas. Selecione a opção que
contém o componente do ecossistema do
Spark especializado em aplicações de
aprendizado de máquina.
MLlib
Spark Learning
GraphX Learning
RDDs
MLSpark
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 11/12
Resposta incorreta
Opa! A alternativa correta é a letra
A. Confira o gabarito comentado!
Gabarito Comentado
O componente MLlib é o componente do
ecossistema do Spark que é utilizado para
implementar algoritmos estatísticos e de
aprendizado de máquina. Ele tem como
objetivo simplificar os pipelines de
aprendizado de máquina em projetos de
big data. As alternativas Spark Learning,
GraphX Learning e MLSpark não são
componentes válidos do Spark. Por outro
lado, os RDDs (Resilient Distributed
Datasets) são componentes do Spark, mas
são utilizados para a criação de conjuntos
de dados resilientes, e não
especificamente para aplicações de
aprendizado de máquina.
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 12/12

4 Principios de Desenvolvimento de Spark

UNINASSAU CARUARU

Ferramentas de estudo

Conteúdos escolhidos para você

Desenvolvimento de Front-end - Resumo

Sistemas de Informacao Distribuidos - Blockchain

QUESTÕES

Exercício 5 - Princípios de Big Data

Linguagens de programação para ciência de dados (Python com Spark)

Perguntas dessa disciplina

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

A interatividade moderna em aplicações web fundamenta-se na capacidade de atualizar seções específicas da interface sem a necessidade de um ciclo comp

Voce toi contratado(a) como Desenvolvedor(a) Android Senior por uma startup de logistica que esta revolucionando o gerenciamento de armazéns. Seu p...

ENADE – BANCO DE DADOS II 5 Considere um banco de dados relacional formado por três tabelas, conforme é apresentado na figura a seguir. As chaves prim

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Conteúdos escolhidos para você

Desenvolvimento de Front-end - Resumo

Sistemas de Informacao Distribuidos - Blockchain

QUESTÕES

Exercício 5 - Princípios de Big Data

Linguagens de programação para ciência de dados (Python com Spark)

Perguntas dessa disciplina

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

A interatividade moderna em aplicações web fundamenta-se na capacidade de atualizar seções específicas da interface sem a necessidade de um ciclo comp

Voce toi contratado(a) como Desenvolvedor(a) Android Senior por uma startup de logistica que esta revolucionando o gerenciamento de armazéns. Seu p...

ENADE – BANCO DE DADOS II 5 Considere um banco de dados relacional formado por três tabelas, conforme é apresentado na figura a seguir. As chaves prim

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

Mais conteúdos dessa disciplina