Prévia do material em texto
Você acertou 1 de 9 questões Verifique o seu desempenho e continue treinando! Você pode refazer o exercício quantas vezes quiser. Verificar Desempenho A B C 1 Marcar para revisão Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A utilização do SparkContext é opcional. A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". A variável "teste" corresponde a um RDD. Questão 1 de 9 Corretas (1) Incorretas (8) Em branco (0) 1 2 3 4 5 6 7 8 9 Lista de exercícios Princípios De… Sair 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 1/12 D E A execução do trecho de código vai gerar um erro. O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". Resposta incorreta Opa! A alternativa correta é a letra C. Confira o gabarito comentado! Gabarito Comentado O trecho de código apresentado está sintaticamente correto e seu objetivo é criar um RDD (Resilient Distributed Dataset), que é uma estrutura de dados fundamental do Spark. O RDD é representado pela variável "teste". Para a criação do RDD, é obrigatório o uso do "SparkContext", que é a conexão para executar operações no Spark. O pacote "numpy" foi utilizado para a criação do vetor "a", que posteriormente é paralelizado para formar o RDD. Portanto, a alternativa correta é a C: "A variável "teste" corresponde a um RDD". 2 Marcar para revisão O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 2/12 A B C D E responsável por consolidar os resultados produzidos ao longo do processamento. Agregação Mapeamento Separação Redução Processamento Resposta incorreta Opa! A alternativa correta é a letra D. Confira o gabarito comentado! Gabarito Comentado O termo "Redução" é a resposta correta. No contexto do paradigma MapReduce, a redução é a etapa que consolida os resultados produzidos durante o processamento. Após a fase de mapeamento e embaralhamento, a função de redução é aplicada para agrupar os pares, concluindo assim o processamento dos dados. Este é um conceito fundamental na programação distribuída e é amplamente utilizado em diversos frameworks, como o Spark, por exemplo. 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 3/12 A B C D E 3 Marcar para revisão Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster. Spark.Catalog SparkSession DataFrame RDD SparkContext Resposta incorreta Opa! A alternativa correta é a letra E. Confira o gabarito comentado! Gabarito Comentado O componente SparkContext é o responsável por estabelecer uma conexão com o cluster. Ele é fundamental para a criação de RDDs, acumuladores e variáveis de transmissão nesse cluster. Por outro lado, o SparkSession é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset, enquanto o Spark.Catalog é uma interface para gerenciar um catálogo de metadados de 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 4/12 A B C D E entidades relacionais. Portanto, a alternativa correta é a E, que menciona o SparkContext. 4 Marcar para revisão O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks, como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta. Consiste em uma técnica de programação sequencial É uma técnica lenta para processamento de grandes volumes de dados Foi substituída no Spark por acesso direto à memória Só pode ser aplicada para grandes volumes de dados É uma técnica de computação distribuída Resposta incorreta Opa! A alternativa correta é a letra E. Confira o gabarito comentado! Gabarito Comentado 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 5/12 A B C Gabarito: É uma técnica de computação distribuída Justificativa: A técnica MapReduce é um modelo de programação que permite a fácil distribuição de processamento de dados em um cluster de computadores. Essa técnica é muito eficiente para lidar com grandes volumes de dados, sendo amplamente utilizada em projetos de big data. No entanto, ela não é exclusiva para grandes volumes de dados, podendo ser aplicada também em volumes menores, embora não seja a mais apropriada para esses casos devido à sua natureza distribuída. Portanto, a alternativa correta é a E: "É uma técnica de computação distribuída". 5 Marcar para revisão O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré- requisitos de instalação para utilização do PySpark. Hadoop e Spark Casandra e Spark Java e Python 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 6/12 D E Python e Escala Java e R Resposta incorreta Opa! A alternativa correta é a letra C. Confira o gabarito comentado! Gabarito Comentado Gabarito: Java e Python Justificativa: Para a utilização do PySpark, é necessário cumprir alguns pré-requisitos, sendo os principais a instalação e configuração do Java e do Python. Além disso, é preciso instalar e configurar o Spark, que é a plataforma na qual o PySpark será executado. Em alguns casos, como no Google Colab, é necessário também instalar o FindSpark e o próprio PySpark. Portanto, a alternativa correta é a "C", que menciona Java e Python como pré-requisitos para a instalação do PySpark. 6 Marcar para revisão O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL. 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 7/12 A B C D E DAG Executor RDD Work Node Tasks Resposta incorreta Opa! A alternativa correta é a letra C. Confira o gabarito comentado! Gabarito Comentado Gabarito: RDD Justificativa: O Spark SQL, um componente do ecossistema Spark, oferece suporte à linguagem SQL para manipulação de RDDs (Resilient Distributed Datasets). Os RDDs são coleções de elementos distribuídos que podem ser processados em paralelo. Por outro lado, DAGs (Directed Acyclic Graphs) são abstrações que representam a sequência de operações a serem executadas. O Executor é o componente responsável pela execução de tarefas individuais dentro do Spark. O Work Node é o conjunto de máquinas que executam as tarefas, que são denominadas Tasks, ou seja, são subdivisões do processo. Portanto, a alternativa correta é a "C", que menciona o RDD, o único componente entre as opções 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 8/12 A B C D E que pode ser diretamente manipulado pelo Spark SQL. 7 Marcar para revisão Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. sample filter random mapRandom distinct Resposta incorreta Opa! A alternativa correta é a letra A. Confira o gabarito comentado! Gabarito Comentado Gabarito: sample Justificativa: A operação "sample" é a responsável por retornar um subconjunto aleatório dos dados de entrada. Ela pertence à categoria de transformações e se enquadra em transformações amplas, uma vez que pode ser necessário realizar movimentações entre as partições. A 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 9/12 A B C D E função "filter", por outro lado, retorna um subconjunto de dados baseado em uma condição específica, não envolvendo aleatoriedade. As funções "random" e "mapRandom" não são válidas para o Spark. Por fim, a função "distinct" retorna um RDD (Resilient Distributed Dataset) com elementos distintos de um RDD de entrada, também não envolvendo aleatoriedade. 8 Marcar para revisão Atualmente, o Apache Spark é o mais bem- sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. count, collect e take. map, sample e collect. map, filter e union. reduce, first e map. map, take e reduce. Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 10/12 A B C D E Gabarito Comentado As funções map, filter e union são exemplos de transformações no Apache Spark. As transformações são operações que produzem um novo DataFrame a partir do existente. No caso específico das funções citadas, elas são classificadas como transformações estreitas, pois resultam da aplicação de funções de mapeamento e de filtragem, onde os dados se originam de uma única partição. Portanto, a alternativa correta é a letra C: map, filter e union. 9 Marcar para revisão Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. MLlib Spark Learning GraphX Learning RDDs MLSpark 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 11/12 Resposta incorreta Opa! A alternativa correta é a letra A. Confira o gabarito comentado! Gabarito Comentado O componente MLlib é o componente do ecossistema do Spark que é utilizado para implementar algoritmos estatísticos e de aprendizado de máquina. Ele tem como objetivo simplificar os pipelines de aprendizado de máquina em projetos de big data. As alternativas Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Por outro lado, os RDDs (Resilient Distributed Datasets) são componentes do Spark, mas são utilizados para a criação de conjuntos de dados resilientes, e não especificamente para aplicações de aprendizado de máquina. 06/06/2025, 15:01 estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/68432ceae9ec021803286189/gabarito/ 12/12