Atividade_04-Respostas - Anhembi Morumbi - Programação Avançada de BigData

•

UAM

2

0

2

0

Dedicado Sempre

05/10/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Programação Avançada

179 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Usuário
Curso
Teste
Iniciado
Enviado
Status
Resultado da
tentativa
CLAYTON ROBERTO DA SILVA PEREIRA
GRA0944 PROGRAMAÇÃO AVANÇADA EM BIG DATA
..........................................................
ATIVIDADE 4 (A4)
Completada
10 em 10 pontos
Tempo decorrido 4 horas, 50 minutos
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
Pergunta 1
Resposta
Selecionada:
Resposta
Correta:
Comentário
da
resposta:
O Spark é uma tecnologia surpreendente que possibilita tratar questões computacionais que
exigem capacidade de processamento. Portanto, é correto afirmar que Spark não é um
aplicativo, ou uma simples aplicação, mas apresenta um total de 5 componentes, sendo que 4
deles já foram discutidos em questões anteriores.
A partir do exposto, assinale a alternativa correta:
O componente que integra o total de 5 componentes do framework Spark e que é
responsável pelo processamento distribuído de grá�cos se chama GraphX.
O componente que integra o total de 5 componentes do framework Spark e
que é responsável pelo processamento distribuído de gráficos se chama
GraphX.
Resposta correta. A alternativa está correta, pois o Spark apresenta um conjunto que conta
com um total de 5 componentes, e entre eles está o GraphX, que é uma estrutura
responsável pelo processamento distribuído de grá�cos e fornece uma API para expressar a
computação grá�ca, facilitando o trabalho de análise de dados que demandam esse tipo de
funcionalidade.
Pergunta 2
Leia o excerto a seguir:
Como já visto, o Spark apresenta uma estruturação complexa, mas que é relativamente
simples de compreender. Além de sua constituição, o Spark tem um conjunto de componentes
responsáveis pelas funções básicas de processamento, como map , �lter , entre outros. O
conjunto desses componentes é responsável direto pelo conjunto de possibilidades que essa
ferramenta disponibiliza, e é extremamente importante conhecê-lo.
Sobre esses componentes, analise as alternativas a seguir:
I. O Apache Spark Core é o mecanismo geral de execução Spark, e todos os outros
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
componentes são construídos sobre ele.
II. O MLlib é uma biblioteca muito importante para aprendizado de máquina, que fica no nível
superior ao Spark.
III. O Spark SQL permite a realização de streaming analytics através da utilização da
capacidade de agendamento rápido do Spark Core.
IV. O Spark Streaming está no topo da pilha do Spark Core e serve para promover uma
abstração de dados, que é conhecida como SchemaRDD.
Está correto o que se afirma em:
I e II, apenas.
I e II, apenas.
Resposta correta. A alternativa está correta, pois o Spark apresenta os componentes Apache
Spark Core, Spark SQL, Spark Streaming e MLlib. Estes possuem papel importante para o
contexto geral do Spark, que acontece todo sobre o Apache Spark Core, que é a sustentação
ou mecanismo geral de execução do Spark, bem como a biblioteca responsável pelo
aprendizado de máquina.
Pergunta 3
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
O Spark concentra um conjunto de soluções viáveis e necessárias para a análise em Big Data.
Nesse sentido, oferece vários recursos indispensáveis a essa tarefa. Isso é possibilitado
através de suas APIs: Interface de Programação de Aplicações, em Português, assuntos já
discutidos anteriormente. A documentação oficial detalha com precisão esses recursos e
apresenta testes inicialmente simples que podem ser realizados.
A respeito das linguagens de programação com as quais o Spark se integra, analise as
afirmativas a seguir:
I. O Spark apresenta API de integração com a Linguagem Pascal.
II. O Spark apresenta API de integração com a Linguagem Java.
III. O Spark apresenta API de integração com a Linguagem R.
IV. O Spark apresenta API de integração com a Linguagem Scala.
É correto o que se afirma em:
II, III e IV, apenas.
II, III e IV, apenas.
Resposta correta. A alternativa está correta, pois o Spark oferece algumas APIs que
possibilitam sua integração com as linguagens comercialmente conhecidas no campo de
desenvolvimento e análise de Big Data. Entre elas estão: o Java; Scala; o R, que é próprio da
área estatística; e o Python, que é a linguagem que você está utilizando nesse curso, por sua
gama de recursos.
Pergunta 4
Uma importante característica do Spark é que ele permite que a computação em cluster ocorra
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
na memória, fato que aumenta consideravelmente a velocidade de processamento das
aplicações executadas por ele. O projeto foi desenvolvido para ser capaz de cobrir uma ampla
variedade de carga de trabalho, o que inclui algoritmos em lote, iterativos, consultas iterativas
e streaming .
A respeito das características e recursos do Spark, analise as afirmativas a seguir:
I. O Spark apresenta como recurso a velocidade, que permite que aplicativos sejam
executados no Hadoop até 100 vezes mais rápido na memória.
II. O Spark apresenta como recurso a velocidade, que permite que aplicativos sejam
executados no Hadoop até 100 vezes mais rápido em disco.
III. O Spark apresenta capacidade de análise restrita e suporta consultas SQL e dados em
fluxo estacionário.
IV. O Spark é considerado multilinguagem, isto é, fornece API para linguagens comercialmente
conhecidas, como o Python, e pode suportar ainda mais linguagens.
É correto o que se afirma em:
I e IV, apenas.
I e IV, apenas.
Resposta correta. A alternativa está correta, pois dentre as várias características existentes na
ferramenta Spark e os principais recursos disponíveis nela está sua capacidade de aumentar
em até 100 vezes a capacidade de execução de aplicações criadas no framework Hadoop e
oferece API para algumas outras linguagens de programação, como o Python, que é uma das
mais utilizadas.
Pergunta 5
Resposta
Selecionada:
Resposta
Correta:
Comentário
da
resposta:
Já vimos que o RDD apresenta uma coleção distribuída de objetos imutáveis. Isso significa que
permite o reuso de dados distribuídos em várias aplicações e implementar um mecanismo
eficiente de recuperação de falhas em clusters . Os RDDs podem ser criados de formas
distintas, o que reforça sua importância para a análise de dados.
Sobre as formas distintas de criação que os RDDs podem assumir, assinale a alternativa
correta:
Os RDDs podem ser criados de duas formas: paralelizando uma coleção de dados ou
referenciando um sistema de armazenamento externo.
Os RDDs podem ser criados de duas formas: paralelizando uma coleção de
dados ou referenciando um sistema de armazenamento externo.
Resposta correta. A alternativa está correta, pois os RDDs apresentam um comportamento
próprio por ocasião de sua construção: eles comumente dão origem a outros RDDs, por
conta de sua condição de imutabilidade. Nesse sentido, eles podem ser criados de duas
formas: paralelizando uma coleção existente em seu driver de programa; ou referenciando
um sistema de armazenamento externo, como um sistema de arquivos compartilhado.
1 em 1 pontos
1 em 1 pontos
Pergunta 6
Resposta
Selecionada:
Resposta
Correta:
Comentário
da
resposta:
O mesmo processo de instalação deve ser cumprido em sistemas diferentes do Windows. No
caso da instalação da ferramenta no sistema Linux, o processo de configuração é um pouco
diferente, dadas as características e peculiaridades de cada sistema. Por esse motivo, algumas
pequenas mudanças no processo de configuração são necessárias. Além disso, os caminhos
dos arquivos e variáveis são um pouco diferentes entre estes dois sistemas.
A partir do exposto, assinale a alternativa correta:
No Linux, é necessária a utilização da máquina virtual Java na versão 8, no mínimo, e as
con�gurações de ambiente podem ser feitas no arquivo de bashrc.
No Linux, é necessária a utilização da máquina virtual Java na versão 8, no
mínimo, e as configuraçõesde ambiente podem ser feitas no arquivo de
bashrc.
Resposta correta. A alternativa está correta, pois, em ambientes Linux, todas as variáveis de
ambiente podem ser setadas no arquivo bashrc, que é o local no qual essas con�gurações
devem ser feitas, necessitando apenas, ao �nal, executar o comando source, que fará a
releitura do arquivo bash e, consequentemente, a ativação das alterações realizadas. Para
isso, é necessária, também, a versão 8 ou superior da máquina virtual Java.
Pergunta 7
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
Leia o texto a seguir.
O Spark é largamente utilizado por diversas organizações, e isso é possível, principalmente,
pelo fato de o framework oferecer uma interface para programação em clusters com
paralelismo e ser totalmente tolerante a falhas. Essas características e sua licença aberta são
os principais fatores para diversas descrições do Spark, tal como o Google Spark.
O paralelismo apresenta uma série de características que o tornam indispensável no campo de
estudo de Big Data. Considerando este aspecto, analise as afirmativas a seguir:
I. O paralelismo implica na divisão de uma determinada aplicação, de forma que ela possa ser
executada por vários elementos de processamento.
II. O paralelismo prevê maior eficiência quando propõe a manutenção da execução sequencial
de fluxo de instruções.
III. O paralelismo foi criado em função de uma limitação computacional, para ampliar o leque
de aplicações que podem ser computacionalmente resolvidas de maneira eficiente.
IV. O paralelismo pode ser utilizado apenas a nível de software .
É correto o que se afirma em:
I e III, apenas.
I e III, apenas.
Resposta correta: A alternativa está correta, pois o paralelismo nasceu das limitações
computacionais existentes ao longo do processo evolutivo dos hardwares e softwares, quando
havia a necessidade de proporcionar maior desempenho e possibilitar às aplicações
1 em 1 pontos
computacionais soluções e�cientes, implementando meios para sua divisão, por vários
elementos de processamento.
Pergunta 8
Resposta
Selecionada:
Resposta
Correta:
Comentário
da
resposta:
Vimos, nas seções anteriores, que o Spark não é um aplicativo, mas sim um framework e,
ainda que deva ser inicializado (para atuar como servidor), isso deve ser feito pelo fato de que
o Spark executa sobre a plataforma do Hadoop. Como framework, o Spark oferece um
conjunto significativo de recursos (componentes) que permite a realização de atividades de
manipulação e processamento de dados, utilizando os conceitos de clusterização para este
fim.
A partir do exposto, assinale a alternativa correta:
Por se tratar de um conjunto de componentes, o Spark pode ser utilizado em possibilidades
que vão além da análise em Big Data.
Por se tratar de um conjunto de componentes, o Spark pode ser utilizado em
possibilidades que vão além da análise em Big Data.
Resposta correta. A alternativa está correta, pois o Spark é, de fato, considerado um
framework, ou seja, possibilita desenvolver e concentrar seus esforços na solução do
problema, mas não necessariamente soluciona-o. Essa característica possibilitou ao Spark
obter o status de uma das melhores ferramentas para análise de Big Data, apesar de não ser
essa sua principal funcionalidade, pois ele vai além da análise de dados.
Pergunta 9
Resposta
Selecionada:
Resposta
Correta:
Comentário
da
resposta:
O Spark foi criado a partir de modelos de programação como o MapReduce, o qual foi
popularizado pelo Apache Hadoop, facilitando um elevado grau de processamento de dados
volumétricos. Para lidar com essa realidade, o Spark é consolidado sobre uma constituição que
contribui na tarefa acima mencionada. Assim, é possível compreender como o Spark pode ser
criado com o Hadoop, para garantir a entrega de suas principais características e vantagens.
Assinale a alternativa correta:
No modelo do Hadoop YARN, não é necessário a instalação ou acesso ao root (raiz), pois ele
ajuda o Spark a integrar o ecossistema Hadoop.
No modelo do Hadoop YARN, não é necessário a instalação ou acesso ao root
(raiz), pois ele ajuda o Spark a integrar o ecossistema Hadoop.
Resposta correta. A alternativa está correta, pois o Spark apresenta, através do diagrama de
sua estruturação, as três maneiras de como pode ser criado com o Hadoop: Standalone,
Hadoop YARN e o Spark no MapReduce, que também é conhecido por Spark In MapReduce.
No Yarn, não é necessário instalar com acesso através de root e sua função é integrar o
ecossistema Hadoop com outros componentes, para que sejam executados no topo da pilha.
1 em 1 pontos
1 em 1 pontos
Pergunta 10
Resposta
Selecionada:
Resposta
Correta:
Comentário
da
resposta:
A instalação e configuração do Apache Spark é um processo minucioso. No ambiente
Windows, isso é necessário, pois há a exigência de manutenção de variáveis de ambiente do
sistema, que são uma espécie de atalho visível para todo o sistema. Elas permitem que outros
programas procurem, por exemplo, por executáveis, e uma dessas variáveis é responsável
pela configuração da máquina virtual Java.
Diante do texto exposto, assinale a alternativa correta:
A variável de ambiente para ser alterada se chama JAVA_HOME, e como pré-requisito de
instalação, é necessário instalar a versão 8, ou superior, da máquina virtual Java.
A variável de ambiente para ser alterada se chama JAVA_HOME, e como pré-
requisito de instalação, é necessário instalar a versão 8, ou superior, da
máquina virtual Java.
Resposta correta. A alternativa está correta, pois, para funcionar perfeitamente, o Apache
Spark necessita da instalação e con�guração da máquina virtual Java como pré-requisito. Esta
máquina virtual deve ser instalada na versão 8, minimamente, ou seja, pode ser instalada
também em versões mais recentes. E, após sua instalação, é necessário con�gurar a variável
de ambiente de usuário do Windows, conhecida como JAVA_HOME, que possibilitará ao Spark
“enxergar” o caminho para a máquina virtual e, consequentemente, seu correto
carregamento e funcionamento.
1 em 1 pontos