Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Você acertou 1 de 9 questões
Verifique o seu desempenho e continue
treinando! Você pode refazer o exercício
quantas vezes quiser.
Verificar Desempenho
A
B
C
1 Marcar para revisão
Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A utilização do SparkContext é
opcional.
A linha "spark_contexto.parallelize(a)"
aplica a técnica MapReduce para
processar o vetor "a".
A variável "teste" corresponde a um
RDD.
Questão 1 de 9
Corretas (1)
Incorretas (8)
Em branco (0)
1 2 3 4 5
6 7 8 9
Lista de exercícios Princípios De… Sair
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 1/12
D
E
A execução do trecho de código vai
gerar um erro.
O objetivo do trecho de código é
contar a quantidade de ocorrências
dos valores do vetor "a".
Resposta incorreta
Opa! A alternativa correta é a letra
C. Confira o gabarito comentado!
Gabarito Comentado
O trecho de código apresentado está
sintaticamente correto e seu objetivo é
criar um RDD (Resilient Distributed
Dataset), que é uma estrutura de dados
fundamental do Spark. O RDD é
representado pela variável "teste". Para a
criação do RDD, é obrigatório o uso do
"SparkContext", que é a conexão para
executar operações no Spark. O pacote
"numpy" foi utilizado para a criação do
vetor "a", que posteriormente é
paralelizado para formar o RDD. Portanto, a
alternativa correta é a C: "A variável "teste"
corresponde a um RDD".
2 Marcar para revisão
O paradigma MapReduce é uma estratégia de
computação com capacidade de processar
grandes conjuntos de dados de maneira
distribuída em várias máquinas. Em relação à
técnica MapReduce, selecione a opção que é
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 2/12
A
B
C
D
E
responsável por consolidar os resultados
produzidos ao longo do processamento.
Agregação
Mapeamento
Separação
Redução
Processamento
Resposta incorreta
Opa! A alternativa correta é a letra
D. Confira o gabarito comentado!
Gabarito Comentado
O termo "Redução" é a resposta correta.
No contexto do paradigma MapReduce, a
redução é a etapa que consolida os
resultados produzidos durante o
processamento. Após a fase de
mapeamento e embaralhamento, a função
de redução é aplicada para agrupar os
pares, concluindo assim o processamento
dos dados. Este é um conceito
fundamental na programação distribuída e
é amplamente utilizado em diversos
frameworks, como o Spark, por exemplo.
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 3/12
A
B
C
D
E
3 Marcar para revisão
Os componentes do Spark têm como objetivo
facilitar o desenvolvimento de projetos com
finalidades específicas. Nesse sentido,
selecione a opção que contém o componente
responsável por estabelecer uma conexão com
o Cluster.
Spark.Catalog
SparkSession
DataFrame
RDD
SparkContext
Resposta incorreta
Opa! A alternativa correta é a letra
E. Confira o gabarito comentado!
Gabarito Comentado
O componente SparkContext é o
responsável por estabelecer uma conexão
com o cluster. Ele é fundamental para a
criação de RDDs, acumuladores e variáveis
de transmissão nesse cluster. Por outro
lado, o SparkSession é um ponto de
entrada para que o Spark possa trabalhar
com RDD, DataFrame e Dataset, enquanto
o Spark.Catalog é uma interface para
gerenciar um catálogo de metadados de
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 4/12
A
B
C
D
E
entidades relacionais. Portanto, a
alternativa correta é a E, que menciona o
SparkContext.
4 Marcar para revisão
O MapReduce é uma técnica clássica de
programação e é bastante utilizada por diversos
frameworks, como o Spark, por exemplo. Em
relação à técnica MapReduce, selecione a
opção correta.
Consiste em uma técnica de
programação sequencial
É uma técnica lenta para
processamento de grandes volumes
de dados
Foi substituída no Spark por acesso
direto à memória
Só pode ser aplicada para grandes
volumes de dados
É uma técnica de computação
distribuída
Resposta incorreta
Opa! A alternativa correta é a letra
E. Confira o gabarito comentado!
Gabarito Comentado
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 5/12
A
B
C
Gabarito: É uma técnica de computação
distribuída
Justificativa: A técnica MapReduce é um
modelo de programação que permite a fácil
distribuição de processamento de dados
em um cluster de computadores. Essa
técnica é muito eficiente para lidar com
grandes volumes de dados, sendo
amplamente utilizada em projetos de big
data. No entanto, ela não é exclusiva para
grandes volumes de dados, podendo ser
aplicada também em volumes menores,
embora não seja a mais apropriada para
esses casos devido à sua natureza
distribuída. Portanto, a alternativa correta é
a E: "É uma técnica de computação
distribuída".
5 Marcar para revisão
O PySpark caracteriza-se como uma biblioteca
Spark responsável por executar programas
usando recursos do Apache Spark. Selecione a
opção correta que contenha itens que são pré-
requisitos de instalação para utilização do
PySpark.
Hadoop e Spark
Casandra e Spark
Java e Python
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 6/12
D
E
Python e Escala
Java e R
Resposta incorreta
Opa! A alternativa correta é a letra
C. Confira o gabarito comentado!
Gabarito Comentado
Gabarito: Java e Python
Justificativa: Para a utilização do PySpark,
é necessário cumprir alguns pré-requisitos,
sendo os principais a instalação e
configuração do Java e do Python. Além
disso, é preciso instalar e configurar o
Spark, que é a plataforma na qual o
PySpark será executado. Em alguns casos,
como no Google Colab, é necessário
também instalar o FindSpark e o próprio
PySpark. Portanto, a alternativa correta é a
"C", que menciona Java e Python como
pré-requisitos para a instalação do
PySpark.
6 Marcar para revisão
O Spark é uma ferramenta computacional
voltada para aplicações de Big Data. Selecione
a opção correta a respeito do componente que
pode ser tratado com o Spark SQL.
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 7/12
A
B
C
D
E
DAG
Executor
RDD
Work Node
Tasks
Resposta incorreta
Opa! A alternativa correta é a letra
C. Confira o gabarito comentado!
Gabarito Comentado
Gabarito: RDD
Justificativa: O Spark SQL, um
componente do ecossistema Spark,
oferece suporte à linguagem SQL para
manipulação de RDDs (Resilient Distributed
Datasets). Os RDDs são coleções de
elementos distribuídos que podem ser
processados em paralelo. Por outro lado,
DAGs (Directed Acyclic Graphs) são
abstrações que representam a sequência
de operações a serem executadas. O
Executor é o componente responsável pela
execução de tarefas individuais dentro do
Spark. O Work Node é o conjunto de
máquinas que executam as tarefas, que
são denominadas Tasks, ou seja, são
subdivisões do processo. Portanto, a
alternativa correta é a "C", que menciona o
RDD, o único componente entre as opções
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 8/12
A
B
C
D
E
que pode ser diretamente manipulado pelo
Spark SQL.
7 Marcar para revisão
Selecione a opção correta que contenha a
operação responsável por retornar um
subconjunto aleatório dos dados de entrada.
sample
filter
random
mapRandom
distinct
Resposta incorreta
Opa! A alternativa correta é a letra
A. Confira o gabarito comentado!
Gabarito Comentado
Gabarito: sample
Justificativa: A operação "sample" é a
responsável por retornar um subconjunto
aleatório dos dados de entrada. Ela
pertence à categoria de transformações e
se enquadra em transformações amplas,
uma vez que pode ser necessário realizar
movimentações entre as partições. A
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 9/12
A
B
C
D
E
função "filter", por outro lado, retorna um
subconjunto de dados baseado em uma
condição específica, não envolvendo
aleatoriedade. As funções "random" e
"mapRandom" não são válidas para o
Spark. Por fim, a função "distinct" retorna
um RDD (Resilient Distributed Dataset) com
elementos distintos de um RDD de entrada,
também não envolvendo aleatoriedade.
8 Marcar para revisão
Atualmente, o Apache Spark é o mais bem-
sucedido framework para Big Data. Selecione a
opção correta que contenha apenas funções
que podem ser categorizadas como
transformações no Spark.
count, collect e take.
map, sample e collect.
map, filter e union.
reduce, first e map.
map, take e reduce.
Resposta correta
Parabéns, você selecionou a
alternativa correta. Confira o
gabarito comentado!
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 10/12
A
B
C
D
E
Gabarito Comentado
As funções map, filter e union são
exemplos de transformações no Apache
Spark. As transformações são operações
que produzem um novo DataFrame a partir
do existente. No caso específico das
funções citadas, elas são classificadas
como transformações estreitas, pois
resultam da aplicação de funções de
mapeamento e de filtragem, onde os dados
se originam de uma única partição.
Portanto, a alternativa correta é a letra C:
map, filter e union.
9 Marcar para revisão
Os componentes do Spark têm como objetivo
facilitar o desenvolvimento de projetos com
finalidades específicas. Selecione a opção que
contém o componente do ecossistema do
Spark especializado em aplicações de
aprendizado de máquina.
MLlib
Spark Learning
GraphX Learning
RDDs
MLSpark
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 11/12
Resposta incorreta
Opa! A alternativa correta é a letra
A. Confira o gabarito comentado!
Gabarito Comentado
O componente MLlib é o componente do
ecossistema do Spark que é utilizado para
implementar algoritmos estatísticos e de
aprendizado de máquina. Ele tem como
objetivo simplificar os pipelines de
aprendizado de máquina em projetos de
big data. As alternativas Spark Learning,
GraphX Learning e MLSpark não são
componentes válidos do Spark. Por outro
lado, os RDDs (Resilient Distributed
Datasets) são componentes do Spark, mas
são utilizados para a criação de conjuntos
de dados resilientes, e não
especificamente para aplicações de
aprendizado de máquina.
06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/
https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 12/12

Mais conteúdos dessa disciplina