SIM1367 PROGRAMAÇÃO AVANÇADA EM BIG DATA EAD21 1 - Atividade 4 (A4)

•

ESTÁCIO

Eduardo Matos

13/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

Prévia do material em texto

Curso SIM1367 PROGRAMAÇÃO AVANÇADA EM BIG DATA EAD21.1 -
202110.119291.05
Teste ATIVIDADE 4 (A4)
Iniciado 13/06/21 02:23
Enviado 13/06/21 03:42
Status Completada
Resultado da
tentativa
10 em 10 pontos 
Tempo decorrido 1 hora, 19 minutos
Resultados
exibidos
Respostas enviadas, Respostas corretas, Comentários
Pergunta 1
Resposta
Selecionada:
Resposta
Correta:
Comentário
da resposta:
É correto afirmar que um problema comum relacionado ao processamento de
dados diz respeito ao tempo total necessário para este fim. E, como as
operações eram realizadas sobre o disco, o que representava 90% do tempo
total de processamento em HDFS, foram criados os Conjuntos Resilientes de
Dados, que implementaram a capacidade de suportar a computação de
processos em memória. 
 
Diante disso, assinale a alternativa correta:
O Apache Spark é uma tecnologia considerada multiplataforma e pode ser
instalada sobre sistemas operacionais como Windows, Linux e IOS.
O Apache Spark é uma tecnologia considerada multiplataforma e pode
ser instalada sobre sistemas operacionais como Windows, Linux e IOS.
Resposta correta. A alternativa está correta, pois o Apache Spark é considerado
uma estrutura especializada, desenvolvida por pesquisadores da Apache
Foundation, com o intuito de implantar a técnica RDD para implementar a
capacidade de suportar a computação de processos em memória, e é uma
ferramenta multiplataforma, ou seja, tanto desenvolvedores que utilizam Linux,
quanto os que utilizam Windows ou IOS podem usufruir dos benefícios do Spark.
Pergunta 2
Resposta
Selecionada:
Resposta
Correta:
O mesmo processo de instalação deve ser cumprido em sistemas diferentes do
Windows. No caso da instalação da ferramenta no sistema Linux, o processo de
configuração é um pouco diferente, dadas as características e peculiaridades de
cada sistema. Por esse motivo, algumas pequenas mudanças no processo de
configuração são necessárias. Além disso, os caminhos dos arquivos e variáveis
são um pouco diferentes entre estes dois sistemas. 
 
A partir do exposto, assinale a alternativa correta:
No Linux, é necessária a utilização da máquina virtual Java na versão 8, no
mínimo, e as configurações de ambiente podem ser feitas no arquivo debashrc.
1 em 1 pontos
1 em 1 pontos
Comentário
da resposta:
No Linux, é necessária a utilização da máquina virtual Java na versão 8,
no mínimo, e as configurações de ambiente podem ser feitas no arquivo
de bashrc.
Resposta correta. A alternativa está correta, pois, em ambientes Linux, todas as
variáveis de ambiente podem ser setadas no arquivo bashrc, que é o local no qual
essas configurações devem ser feitas, necessitando apenas, ao final, executar o
comando source, que fará a releitura do arquivo bash e, consequentemente, a
ativação das alterações realizadas. Para isso, é necessária, também, a versão 8
ou superior da máquina virtual Java.
Pergunta 3
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
Leia o excerto a seguir:
Como já visto, o Spark apresenta uma estruturação complexa, mas que é
relativamente simples de compreender. Além de sua constituição, o Spark tem
um conjunto de componentes responsáveis pelas funções básicas de
processamento, como map , filter , entre outros. O conjunto desses componentes
é responsável direto pelo conjunto de possibilidades que essa ferramenta
disponibiliza, e é extremamente importante conhecê-lo. 
 
Sobre esses componentes, analise as alternativas a seguir:
 
I. O Apache Spark Core é o mecanismo geral de execução Spark, e todos os
outros componentes são construídos sobre ele. 
II. O MLlib é uma biblioteca muito importante para aprendizado de máquina, que
fica no nível superior ao Spark.
III. O Spark SQL permite a realização de streaming analytics através da
utilização da capacidade de agendamento rápido do Spark Core.
IV. O Spark Streaming está no topo da pilha do Spark Core e serve para
promover uma abstração de dados, que é conhecida como SchemaRDD.
 
Está correto o que se afirma em:
I e II, apenas.
I e II, apenas.
Resposta correta. A alternativa está correta, pois o Spark apresenta os
componentes Apache Spark Core, Spark SQL, Spark Streaming e MLlib. Estes
possuem papel importante para o contexto geral do Spark, que acontece todo
sobre o Apache Spark Core, que é a sustentação ou mecanismo geral de
execução do Spark, bem como a biblioteca responsável pelo aprendizado de
máquina.
Pergunta 4
O Spark concentra um conjunto de soluções viáveis e necessárias para a
análise em Big Data. Nesse sentido, oferece vários recursos indispensáveis a
essa tarefa. Isso é possibilitado através de suas APIs: Interface de Programação
de Aplicações, em Português, assuntos já discutidos anteriormente. A
documentação oficial detalha com precisão esses recursos e apresenta testes
inicialmente simples que podem ser realizados. 
 
A respeito das linguagens de programação com as quais o Spark se integra,
analise as afirmativas a seguir:
 
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
I. O Spark apresenta API de integração com a Linguagem Pascal.
II. O Spark apresenta API de integração com a Linguagem Java.
III. O Spark apresenta API de integração com a Linguagem R.
IV. O Spark apresenta API de integração com a Linguagem Scala.
 
É correto o que se afirma em:
II, III e IV, apenas.
II, III e IV, apenas.
Resposta correta. A alternativa está correta, pois o Spark oferece algumas APIs
que possibilitam sua integração com as linguagens comercialmente conhecidas no
campo de desenvolvimento e análise de Big Data. Entre elas estão: o Java; Scala;
o R, que é próprio da área estatística; e o Python, que é a linguagem que você
está utilizando nesse curso, por sua gama de recursos.
Pergunta 5
Resposta
Selecionada:
Resposta
Correta:
Comentário
da resposta:
O Spark é uma tecnologia surpreendente que possibilita tratar questões
computacionais que exigem capacidade de processamento. Portanto, é correto
afirmar que Spark não é um aplicativo, ou uma simples aplicação, mas
apresenta um total de 5 componentes, sendo que 4 deles já foram discutidos em
questões anteriores. 
 
A partir do exposto, assinale a alternativa correta:
O componente que integra o total de 5 componentes do framework Spark e que é
responsável pelo processamento distribuído de gráficos se chama GraphX.
O componente que integra o total de 5 componentes do frameworkSpark
e que é responsável pelo processamento distribuído de gráficos se chama
GraphX.
Resposta correta. A alternativa está correta, pois o Spark apresenta um conjunto
que conta com um total de 5 componentes, e entre eles está o GraphX, que é uma
estrutura responsável pelo processamento distribuído de gráficos e fornece uma
API para expressar a computação gráfica, facilitando o trabalho de análise de
dados que demandam esse tipo de funcionalidade.
Pergunta 6
Resposta
Selecionada:
Resposta
Leia o excerto a seguir:
O RDD é utilizado para que seja possível obter o MapReduce de forma mais
rápida e eficiente. O MapReduce, por sua vez, é uma tecnologia amplamente
utilizada no processamento de grandes conjuntos de dados com algoritmos
paralelos. Os algoritmos são distribuídos em clusters , permitindo que os
usuários escrevam cálculos paralelos com um conjunto de alto nível de
operadores.
 
Acerca da utilização entre cálculos de dois trabalhos de MapReduce, assinale a
alternativa correta:
A forma de reutilizar dados entre cálculos, ou seja, entre dois trabalhos do
MapReduce, é gravando-os em um local de armazenamento externo.
1 em 1 pontos
1 em 1 pontos
Correta:
Comentário
da resposta:
A forma de reutilizar dados entre cálculos, ou seja, entre dois trabalhos
do MapReduce, é gravando-os em um local de armazenamento externo.
Resposta correta. A alternativa está correta, pois o MapReduce, como já sabemos,
é um modelo de programação criado para lidar com grandes volumes de dados em
paralelo, divididos em tarefas independentes, e, por conseguinte, uma das formas
de reutilizar dadosentre cálculos, isto é, entre dois trabalhos do MapReduce, é
gravando-os em um local externo, como o HDFS que compõe a estrutura
do framework Spark.
Pergunta 7
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
Leia o texto a seguir.
O Spark é largamente utilizado por diversas organizações, e isso é possível,
principalmente, pelo fato de o framework oferecer uma interface para
programação em clusters com paralelismo e ser totalmente tolerante a falhas.
Essas características e sua licença aberta são os principais fatores para
diversas descrições do Spark, tal como o Google Spark.
O paralelismo apresenta uma série de características que o tornam
indispensável no campo de estudo de Big Data. Considerando este aspecto,
analise as afirmativas a seguir:
 
I. O paralelismo implica na divisão de uma determinada aplicação, de forma que
ela possa ser executada por vários elementos de processamento.
II. O paralelismo prevê maior eficiência quando propõe a manutenção da
execução sequencial de fluxo de instruções.
III. O paralelismo foi criado em função de uma limitação computacional, para
ampliar o leque de aplicações que podem ser computacionalmente resolvidas de
maneira eficiente.
IV. O paralelismo pode ser utilizado apenas a nível de software .
 
É correto o que se afirma em:
I e III, apenas.
I e III, apenas.
Resposta correta: A alternativa está correta, pois o paralelismo nasceu das
limitações computacionais existentes ao longo do processo evolutivo
doshardwares e softwares, quando havia a necessidade de proporcionar maior
desempenho e possibilitar às aplicações computacionais soluções eficientes,
implementando meios para sua divisão, por vários elementos de processamento.
Pergunta 8
Resposta
Selecionada:
O Spark foi criado a partir de modelos de programação como o MapReduce, o
qual foi popularizado pelo Apache Hadoop, facilitando um elevado grau de
processamento de dados volumétricos. Para lidar com essa realidade, o Spark é
consolidado sobre uma constituição que contribui na tarefa acima mencionada.
Assim, é possível compreender como o Spark pode ser criado com o Hadoop,
para garantir a entrega de suas principais características e vantagens. 
 
Assinale a alternativa correta:
No modelo do Hadoop YARN, não é necessário a instalação ou acesso
ao root (raiz), pois ele ajuda o Spark a integrar o ecossistema Hadoop.
1 em 1 pontos
1 em 1 pontos
Resposta
Correta:
Comentário
da resposta:
No modelo do Hadoop YARN, não é necessário a instalação ou acesso
ao root (raiz), pois ele ajuda o Spark a integrar o ecossistema Hadoop.
Resposta correta. A alternativa está correta, pois o Spark apresenta, através do
diagrama de sua estruturação, as três maneiras de como pode ser criado com o
Hadoop: Standalone, Hadoop YARN e o Spark no MapReduce, que também é
conhecido por Spark In MapReduce. No Yarn, não é necessário instalar com
acesso através de root e sua função é integrar o ecossistema Hadoop com outros
componentes, para que sejam executados no topo da pilha.
Pergunta 9
Resposta
Selecionada:
Resposta
Correta:
Comentário
da resposta:
Já vimos que o RDD apresenta uma coleção distribuída de objetos imutáveis.
Isso significa que permite o reuso de dados distribuídos em várias aplicações e
implementar um mecanismo eficiente de recuperação de falhas em clusters . Os
RDDs podem ser criados de formas distintas, o que reforça sua importância para
a análise de dados. 
 
Sobre as formas distintas de criação que os RDDs podem assumir, assinale a
alternativa correta:
Os RDDs podem ser criados de duas formas: paralelizando uma coleção de
dados ou referenciando um sistema de armazenamento externo.
Os RDDs podem ser criados de duas formas: paralelizando uma coleção
de dados ou referenciando um sistema de armazenamento externo.
Resposta correta. A alternativa está correta, pois os RDDs apresentam um
comportamento próprio por ocasião de sua construção: eles comumente dão
origem a outros RDDs, por conta de sua condição de imutabilidade. Nesse sentido,
eles podem ser criados de duas formas: paralelizando uma coleção existente em
seu driver de programa; ou referenciando um sistema de armazenamento externo,
como um sistema de arquivos compartilhado.
Pergunta 10
Resposta
Selecionada:
Resposta
Correta:
Comentário
da resposta:
O Apache Spark é uma ferramenta para Big Data que tem como principal
vantagem a capacidade de processar grandes conjuntos de dados de forma
paralela e distribuída, estendendo o modelo de programação MapReduce. E, em
sua evolução, essa ferramenta apresenta a implementação do RDD com o
objetivo de superar fragilidades do MapReduce, implantando melhorias, como o
ganho de performance por meio da computação de processos em Memória. 
 
Diante do fragmento textual, assinale a alternativa correta:
Spark foi desenvolvido na linguagem Scala, que é uma linguagem compilada que
roda sobre ambiente virtual, por exemplo, o JVM.
Spark foi desenvolvido na linguagem Scala, que é uma linguagem
compilada que roda sobre ambiente virtual, por exemplo, o JVM.
Resposta correta. A alternativa está correta, pois Scala apresenta como
característica ser multiparadigma, o que significa que ela pode ser utilizada para
programação orientada a objetos e funcional. Ela também é considerada uma
linguagem compilada, ou seja, dispensa o uso de interpretadores durante a
execução do programa criado por ela, mas necessita de um ambiente de
1 em 1 pontos
1 em 1 pontos
gerenciamento virtual, como JVM, para que a aplicação rode perfeitamente sem
apresentar nenhum tipo de problema.