Observe o trecho de código abaixo:
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = [5, 1, 6, 4, 7, 7]
tes...
Observe o trecho de código abaixo:
import numpy as np from pyspark import SparkContext
spark_contexto = SparkContext() a = [5, 1, 6, 4, 7, 7] teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A) O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor 'a'. A utilização do SparkContext é opcional. B) A linha aplica a técnica MapReduce para processar o vetor 'a'. C) A execução do trecho de código vai gerar um erro. D) A variável 'teste' corresponde a um RDD.
A opção correta é:
D) A variável 'teste' corresponde a um RDD.
O trecho de código cria um objeto RDD (Resilient Distributed Dataset) chamado 'teste' a partir do vetor 'a'. RDD é uma estrutura de dados fundamental no Spark, que permite a distribuição e processamento paralelo dos dados.
0
0
Faça como milhares de estudantes: teste grátis o Passei Direto
Compartilhar