Prévia do material em texto
Usuário Curso Teste Iniciado Enviado Status Resultado da tentativa CLAYTON ROBERTO DA SILVA PEREIRA GRA0944 PROGRAMAÇÃO AVANÇADA EM BIG DATA .......................................................... ATIVIDADE 4 (A4) Completada 10 em 10 pontos Tempo decorrido 4 horas, 50 minutos Resultados exibidos Respostas enviadas, Respostas corretas, Comentários Pergunta 1 Resposta Selecionada: Resposta Correta: Comentário da resposta: O Spark é uma tecnologia surpreendente que possibilita tratar questões computacionais que exigem capacidade de processamento. Portanto, é correto afirmar que Spark não é um aplicativo, ou uma simples aplicação, mas apresenta um total de 5 componentes, sendo que 4 deles já foram discutidos em questões anteriores. A partir do exposto, assinale a alternativa correta: O componente que integra o total de 5 componentes do framework Spark e que é responsável pelo processamento distribuído de grá�cos se chama GraphX. O componente que integra o total de 5 componentes do framework Spark e que é responsável pelo processamento distribuído de gráficos se chama GraphX. Resposta correta. A alternativa está correta, pois o Spark apresenta um conjunto que conta com um total de 5 componentes, e entre eles está o GraphX, que é uma estrutura responsável pelo processamento distribuído de grá�cos e fornece uma API para expressar a computação grá�ca, facilitando o trabalho de análise de dados que demandam esse tipo de funcionalidade. Pergunta 2 Leia o excerto a seguir: Como já visto, o Spark apresenta uma estruturação complexa, mas que é relativamente simples de compreender. Além de sua constituição, o Spark tem um conjunto de componentes responsáveis pelas funções básicas de processamento, como map , �lter , entre outros. O conjunto desses componentes é responsável direto pelo conjunto de possibilidades que essa ferramenta disponibiliza, e é extremamente importante conhecê-lo. Sobre esses componentes, analise as alternativas a seguir: I. O Apache Spark Core é o mecanismo geral de execução Spark, e todos os outros 1 em 1 pontos 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: componentes são construídos sobre ele. II. O MLlib é uma biblioteca muito importante para aprendizado de máquina, que fica no nível superior ao Spark. III. O Spark SQL permite a realização de streaming analytics através da utilização da capacidade de agendamento rápido do Spark Core. IV. O Spark Streaming está no topo da pilha do Spark Core e serve para promover uma abstração de dados, que é conhecida como SchemaRDD. Está correto o que se afirma em: I e II, apenas. I e II, apenas. Resposta correta. A alternativa está correta, pois o Spark apresenta os componentes Apache Spark Core, Spark SQL, Spark Streaming e MLlib. Estes possuem papel importante para o contexto geral do Spark, que acontece todo sobre o Apache Spark Core, que é a sustentação ou mecanismo geral de execução do Spark, bem como a biblioteca responsável pelo aprendizado de máquina. Pergunta 3 Resposta Selecionada: Resposta Correta: Comentário da resposta: O Spark concentra um conjunto de soluções viáveis e necessárias para a análise em Big Data. Nesse sentido, oferece vários recursos indispensáveis a essa tarefa. Isso é possibilitado através de suas APIs: Interface de Programação de Aplicações, em Português, assuntos já discutidos anteriormente. A documentação oficial detalha com precisão esses recursos e apresenta testes inicialmente simples que podem ser realizados. A respeito das linguagens de programação com as quais o Spark se integra, analise as afirmativas a seguir: I. O Spark apresenta API de integração com a Linguagem Pascal. II. O Spark apresenta API de integração com a Linguagem Java. III. O Spark apresenta API de integração com a Linguagem R. IV. O Spark apresenta API de integração com a Linguagem Scala. É correto o que se afirma em: II, III e IV, apenas. II, III e IV, apenas. Resposta correta. A alternativa está correta, pois o Spark oferece algumas APIs que possibilitam sua integração com as linguagens comercialmente conhecidas no campo de desenvolvimento e análise de Big Data. Entre elas estão: o Java; Scala; o R, que é próprio da área estatística; e o Python, que é a linguagem que você está utilizando nesse curso, por sua gama de recursos. Pergunta 4 Uma importante característica do Spark é que ele permite que a computação em cluster ocorra 1 em 1 pontos 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: na memória, fato que aumenta consideravelmente a velocidade de processamento das aplicações executadas por ele. O projeto foi desenvolvido para ser capaz de cobrir uma ampla variedade de carga de trabalho, o que inclui algoritmos em lote, iterativos, consultas iterativas e streaming . A respeito das características e recursos do Spark, analise as afirmativas a seguir: I. O Spark apresenta como recurso a velocidade, que permite que aplicativos sejam executados no Hadoop até 100 vezes mais rápido na memória. II. O Spark apresenta como recurso a velocidade, que permite que aplicativos sejam executados no Hadoop até 100 vezes mais rápido em disco. III. O Spark apresenta capacidade de análise restrita e suporta consultas SQL e dados em fluxo estacionário. IV. O Spark é considerado multilinguagem, isto é, fornece API para linguagens comercialmente conhecidas, como o Python, e pode suportar ainda mais linguagens. É correto o que se afirma em: I e IV, apenas. I e IV, apenas. Resposta correta. A alternativa está correta, pois dentre as várias características existentes na ferramenta Spark e os principais recursos disponíveis nela está sua capacidade de aumentar em até 100 vezes a capacidade de execução de aplicações criadas no framework Hadoop e oferece API para algumas outras linguagens de programação, como o Python, que é uma das mais utilizadas. Pergunta 5 Resposta Selecionada: Resposta Correta: Comentário da resposta: Já vimos que o RDD apresenta uma coleção distribuída de objetos imutáveis. Isso significa que permite o reuso de dados distribuídos em várias aplicações e implementar um mecanismo eficiente de recuperação de falhas em clusters . Os RDDs podem ser criados de formas distintas, o que reforça sua importância para a análise de dados. Sobre as formas distintas de criação que os RDDs podem assumir, assinale a alternativa correta: Os RDDs podem ser criados de duas formas: paralelizando uma coleção de dados ou referenciando um sistema de armazenamento externo. Os RDDs podem ser criados de duas formas: paralelizando uma coleção de dados ou referenciando um sistema de armazenamento externo. Resposta correta. A alternativa está correta, pois os RDDs apresentam um comportamento próprio por ocasião de sua construção: eles comumente dão origem a outros RDDs, por conta de sua condição de imutabilidade. Nesse sentido, eles podem ser criados de duas formas: paralelizando uma coleção existente em seu driver de programa; ou referenciando um sistema de armazenamento externo, como um sistema de arquivos compartilhado. 1 em 1 pontos 1 em 1 pontos Pergunta 6 Resposta Selecionada: Resposta Correta: Comentário da resposta: O mesmo processo de instalação deve ser cumprido em sistemas diferentes do Windows. No caso da instalação da ferramenta no sistema Linux, o processo de configuração é um pouco diferente, dadas as características e peculiaridades de cada sistema. Por esse motivo, algumas pequenas mudanças no processo de configuração são necessárias. Além disso, os caminhos dos arquivos e variáveis são um pouco diferentes entre estes dois sistemas. A partir do exposto, assinale a alternativa correta: No Linux, é necessária a utilização da máquina virtual Java na versão 8, no mínimo, e as con�gurações de ambiente podem ser feitas no arquivo de bashrc. No Linux, é necessária a utilização da máquina virtual Java na versão 8, no mínimo, e as configuraçõesde ambiente podem ser feitas no arquivo de bashrc. Resposta correta. A alternativa está correta, pois, em ambientes Linux, todas as variáveis de ambiente podem ser setadas no arquivo bashrc, que é o local no qual essas con�gurações devem ser feitas, necessitando apenas, ao �nal, executar o comando source, que fará a releitura do arquivo bash e, consequentemente, a ativação das alterações realizadas. Para isso, é necessária, também, a versão 8 ou superior da máquina virtual Java. Pergunta 7 Resposta Selecionada: Resposta Correta: Comentário da resposta: Leia o texto a seguir. O Spark é largamente utilizado por diversas organizações, e isso é possível, principalmente, pelo fato de o framework oferecer uma interface para programação em clusters com paralelismo e ser totalmente tolerante a falhas. Essas características e sua licença aberta são os principais fatores para diversas descrições do Spark, tal como o Google Spark. O paralelismo apresenta uma série de características que o tornam indispensável no campo de estudo de Big Data. Considerando este aspecto, analise as afirmativas a seguir: I. O paralelismo implica na divisão de uma determinada aplicação, de forma que ela possa ser executada por vários elementos de processamento. II. O paralelismo prevê maior eficiência quando propõe a manutenção da execução sequencial de fluxo de instruções. III. O paralelismo foi criado em função de uma limitação computacional, para ampliar o leque de aplicações que podem ser computacionalmente resolvidas de maneira eficiente. IV. O paralelismo pode ser utilizado apenas a nível de software . É correto o que se afirma em: I e III, apenas. I e III, apenas. Resposta correta: A alternativa está correta, pois o paralelismo nasceu das limitações computacionais existentes ao longo do processo evolutivo dos hardwares e softwares, quando havia a necessidade de proporcionar maior desempenho e possibilitar às aplicações 1 em 1 pontos computacionais soluções e�cientes, implementando meios para sua divisão, por vários elementos de processamento. Pergunta 8 Resposta Selecionada: Resposta Correta: Comentário da resposta: Vimos, nas seções anteriores, que o Spark não é um aplicativo, mas sim um framework e, ainda que deva ser inicializado (para atuar como servidor), isso deve ser feito pelo fato de que o Spark executa sobre a plataforma do Hadoop. Como framework, o Spark oferece um conjunto significativo de recursos (componentes) que permite a realização de atividades de manipulação e processamento de dados, utilizando os conceitos de clusterização para este fim. A partir do exposto, assinale a alternativa correta: Por se tratar de um conjunto de componentes, o Spark pode ser utilizado em possibilidades que vão além da análise em Big Data. Por se tratar de um conjunto de componentes, o Spark pode ser utilizado em possibilidades que vão além da análise em Big Data. Resposta correta. A alternativa está correta, pois o Spark é, de fato, considerado um framework, ou seja, possibilita desenvolver e concentrar seus esforços na solução do problema, mas não necessariamente soluciona-o. Essa característica possibilitou ao Spark obter o status de uma das melhores ferramentas para análise de Big Data, apesar de não ser essa sua principal funcionalidade, pois ele vai além da análise de dados. Pergunta 9 Resposta Selecionada: Resposta Correta: Comentário da resposta: O Spark foi criado a partir de modelos de programação como o MapReduce, o qual foi popularizado pelo Apache Hadoop, facilitando um elevado grau de processamento de dados volumétricos. Para lidar com essa realidade, o Spark é consolidado sobre uma constituição que contribui na tarefa acima mencionada. Assim, é possível compreender como o Spark pode ser criado com o Hadoop, para garantir a entrega de suas principais características e vantagens. Assinale a alternativa correta: No modelo do Hadoop YARN, não é necessário a instalação ou acesso ao root (raiz), pois ele ajuda o Spark a integrar o ecossistema Hadoop. No modelo do Hadoop YARN, não é necessário a instalação ou acesso ao root (raiz), pois ele ajuda o Spark a integrar o ecossistema Hadoop. Resposta correta. A alternativa está correta, pois o Spark apresenta, através do diagrama de sua estruturação, as três maneiras de como pode ser criado com o Hadoop: Standalone, Hadoop YARN e o Spark no MapReduce, que também é conhecido por Spark In MapReduce. No Yarn, não é necessário instalar com acesso através de root e sua função é integrar o ecossistema Hadoop com outros componentes, para que sejam executados no topo da pilha. 1 em 1 pontos 1 em 1 pontos Pergunta 10 Resposta Selecionada: Resposta Correta: Comentário da resposta: A instalação e configuração do Apache Spark é um processo minucioso. No ambiente Windows, isso é necessário, pois há a exigência de manutenção de variáveis de ambiente do sistema, que são uma espécie de atalho visível para todo o sistema. Elas permitem que outros programas procurem, por exemplo, por executáveis, e uma dessas variáveis é responsável pela configuração da máquina virtual Java. Diante do texto exposto, assinale a alternativa correta: A variável de ambiente para ser alterada se chama JAVA_HOME, e como pré-requisito de instalação, é necessário instalar a versão 8, ou superior, da máquina virtual Java. A variável de ambiente para ser alterada se chama JAVA_HOME, e como pré- requisito de instalação, é necessário instalar a versão 8, ou superior, da máquina virtual Java. Resposta correta. A alternativa está correta, pois, para funcionar perfeitamente, o Apache Spark necessita da instalação e con�guração da máquina virtual Java como pré-requisito. Esta máquina virtual deve ser instalada na versão 8, minimamente, ou seja, pode ser instalada também em versões mais recentes. E, após sua instalação, é necessário con�gurar a variável de ambiente de usuário do Windows, conhecida como JAVA_HOME, que possibilitará ao Spark “enxergar” o caminho para a máquina virtual e, consequentemente, seu correto carregamento e funcionamento. 1 em 1 pontos