Baixe o app para aproveitar ainda mais
Prévia do material em texto
Usuário Curso Teste Iniciado Enviado Status Resultado da tentativa CLAYTON ROBERTO DA SILVA PEREIRA GRA0944 PROGRAMAÇÃO AVANÇADA EM BIG DATA .......................................................... ATIVIDADE 4 (A4) Completada 10 em 10 pontos Tempo decorrido 4 horas, 50 minutos Resultados exibidos Respostas enviadas, Respostas corretas, Comentários Pergunta 1 Resposta Selecionada: Resposta Correta: Comentário da resposta: O Spark é uma tecnologia surpreendente que possibilita tratar questões computacionais que exigem capacidade de processamento. Portanto, é correto afirmar que Spark não é um aplicativo, ou uma simples aplicação, mas apresenta um total de 5 componentes, sendo que 4 deles já foram discutidos em questões anteriores. A partir do exposto, assinale a alternativa correta: O componente que integra o total de 5 componentes do framework Spark e que é responsável pelo processamento distribuído de grá�cos se chama GraphX. O componente que integra o total de 5 componentes do framework Spark e que é responsável pelo processamento distribuído de gráficos se chama GraphX. Resposta correta. A alternativa está correta, pois o Spark apresenta um conjunto que conta com um total de 5 componentes, e entre eles está o GraphX, que é uma estrutura responsável pelo processamento distribuído de grá�cos e fornece uma API para expressar a computação grá�ca, facilitando o trabalho de análise de dados que demandam esse tipo de funcionalidade. Pergunta 2 Leia o excerto a seguir: Como já visto, o Spark apresenta uma estruturação complexa, mas que é relativamente simples de compreender. Além de sua constituição, o Spark tem um conjunto de componentes responsáveis pelas funções básicas de processamento, como map , �lter , entre outros. O conjunto desses componentes é responsável direto pelo conjunto de possibilidades que essa ferramenta disponibiliza, e é extremamente importante conhecê-lo. Sobre esses componentes, analise as alternativas a seguir: I. O Apache Spark Core é o mecanismo geral de execução Spark, e todos os outros 1 em 1 pontos 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: componentes são construídos sobre ele. II. O MLlib é uma biblioteca muito importante para aprendizado de máquina, que fica no nível superior ao Spark. III. O Spark SQL permite a realização de streaming analytics através da utilização da capacidade de agendamento rápido do Spark Core. IV. O Spark Streaming está no topo da pilha do Spark Core e serve para promover uma abstração de dados, que é conhecida como SchemaRDD. Está correto o que se afirma em: I e II, apenas. I e II, apenas. Resposta correta. A alternativa está correta, pois o Spark apresenta os componentes Apache Spark Core, Spark SQL, Spark Streaming e MLlib. Estes possuem papel importante para o contexto geral do Spark, que acontece todo sobre o Apache Spark Core, que é a sustentação ou mecanismo geral de execução do Spark, bem como a biblioteca responsável pelo aprendizado de máquina. Pergunta 3 Resposta Selecionada: Resposta Correta: Comentário da resposta: O Spark concentra um conjunto de soluções viáveis e necessárias para a análise em Big Data. Nesse sentido, oferece vários recursos indispensáveis a essa tarefa. Isso é possibilitado através de suas APIs: Interface de Programação de Aplicações, em Português, assuntos já discutidos anteriormente. A documentação oficial detalha com precisão esses recursos e apresenta testes inicialmente simples que podem ser realizados. A respeito das linguagens de programação com as quais o Spark se integra, analise as afirmativas a seguir: I. O Spark apresenta API de integração com a Linguagem Pascal. II. O Spark apresenta API de integração com a Linguagem Java. III. O Spark apresenta API de integração com a Linguagem R. IV. O Spark apresenta API de integração com a Linguagem Scala. É correto o que se afirma em: II, III e IV, apenas. II, III e IV, apenas. Resposta correta. A alternativa está correta, pois o Spark oferece algumas APIs que possibilitam sua integração com as linguagens comercialmente conhecidas no campo de desenvolvimento e análise de Big Data. Entre elas estão: o Java; Scala; o R, que é próprio da área estatística; e o Python, que é a linguagem que você está utilizando nesse curso, por sua gama de recursos. Pergunta 4 Uma importante característica do Spark é que ele permite que a computação em cluster ocorra 1 em 1 pontos 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: na memória, fato que aumenta consideravelmente a velocidade de processamento das aplicações executadas por ele. O projeto foi desenvolvido para ser capaz de cobrir uma ampla variedade de carga de trabalho, o que inclui algoritmos em lote, iterativos, consultas iterativas e streaming . A respeito das características e recursos do Spark, analise as afirmativas a seguir: I. O Spark apresenta como recurso a velocidade, que permite que aplicativos sejam executados no Hadoop até 100 vezes mais rápido na memória. II. O Spark apresenta como recurso a velocidade, que permite que aplicativos sejam executados no Hadoop até 100 vezes mais rápido em disco. III. O Spark apresenta capacidade de análise restrita e suporta consultas SQL e dados em fluxo estacionário. IV. O Spark é considerado multilinguagem, isto é, fornece API para linguagens comercialmente conhecidas, como o Python, e pode suportar ainda mais linguagens. É correto o que se afirma em: I e IV, apenas. I e IV, apenas. Resposta correta. A alternativa está correta, pois dentre as várias características existentes na ferramenta Spark e os principais recursos disponíveis nela está sua capacidade de aumentar em até 100 vezes a capacidade de execução de aplicações criadas no framework Hadoop e oferece API para algumas outras linguagens de programação, como o Python, que é uma das mais utilizadas. Pergunta 5 Resposta Selecionada: Resposta Correta: Comentário da resposta: Já vimos que o RDD apresenta uma coleção distribuída de objetos imutáveis. Isso significa que permite o reuso de dados distribuídos em várias aplicações e implementar um mecanismo eficiente de recuperação de falhas em clusters . Os RDDs podem ser criados de formas distintas, o que reforça sua importância para a análise de dados. Sobre as formas distintas de criação que os RDDs podem assumir, assinale a alternativa correta: Os RDDs podem ser criados de duas formas: paralelizando uma coleção de dados ou referenciando um sistema de armazenamento externo. Os RDDs podem ser criados de duas formas: paralelizando uma coleção de dados ou referenciando um sistema de armazenamento externo. Resposta correta. A alternativa está correta, pois os RDDs apresentam um comportamento próprio por ocasião de sua construção: eles comumente dão origem a outros RDDs, por conta de sua condição de imutabilidade. Nesse sentido, eles podem ser criados de duas formas: paralelizando uma coleção existente em seu driver de programa; ou referenciando um sistema de armazenamento externo, como um sistema de arquivos compartilhado. 1 em 1 pontos 1 em 1 pontos Pergunta 6 Resposta Selecionada: Resposta Correta: Comentário da resposta: O mesmo processo de instalação deve ser cumprido em sistemas diferentes do Windows. No caso da instalação da ferramenta no sistema Linux, o processo de configuração é um pouco diferente, dadas as características e peculiaridades de cada sistema. Por esse motivo, algumas pequenas mudanças no processo de configuração são necessárias. Além disso, os caminhos dos arquivos e variáveis são um pouco diferentes entre estes dois sistemas. A partir do exposto, assinale a alternativa correta: No Linux, é necessária a utilização da máquina virtual Java na versão 8, no mínimo, e as con�gurações de ambiente podem ser feitas no arquivo de bashrc. No Linux, é necessária a utilização da máquina virtual Java na versão 8, no mínimo, e as configuraçõesde ambiente podem ser feitas no arquivo de bashrc. Resposta correta. A alternativa está correta, pois, em ambientes Linux, todas as variáveis de ambiente podem ser setadas no arquivo bashrc, que é o local no qual essas con�gurações devem ser feitas, necessitando apenas, ao �nal, executar o comando source, que fará a releitura do arquivo bash e, consequentemente, a ativação das alterações realizadas. Para isso, é necessária, também, a versão 8 ou superior da máquina virtual Java. Pergunta 7 Resposta Selecionada: Resposta Correta: Comentário da resposta: Leia o texto a seguir. O Spark é largamente utilizado por diversas organizações, e isso é possível, principalmente, pelo fato de o framework oferecer uma interface para programação em clusters com paralelismo e ser totalmente tolerante a falhas. Essas características e sua licença aberta são os principais fatores para diversas descrições do Spark, tal como o Google Spark. O paralelismo apresenta uma série de características que o tornam indispensável no campo de estudo de Big Data. Considerando este aspecto, analise as afirmativas a seguir: I. O paralelismo implica na divisão de uma determinada aplicação, de forma que ela possa ser executada por vários elementos de processamento. II. O paralelismo prevê maior eficiência quando propõe a manutenção da execução sequencial de fluxo de instruções. III. O paralelismo foi criado em função de uma limitação computacional, para ampliar o leque de aplicações que podem ser computacionalmente resolvidas de maneira eficiente. IV. O paralelismo pode ser utilizado apenas a nível de software . É correto o que se afirma em: I e III, apenas. I e III, apenas. Resposta correta: A alternativa está correta, pois o paralelismo nasceu das limitações computacionais existentes ao longo do processo evolutivo dos hardwares e softwares, quando havia a necessidade de proporcionar maior desempenho e possibilitar às aplicações 1 em 1 pontos computacionais soluções e�cientes, implementando meios para sua divisão, por vários elementos de processamento. Pergunta 8 Resposta Selecionada: Resposta Correta: Comentário da resposta: Vimos, nas seções anteriores, que o Spark não é um aplicativo, mas sim um framework e, ainda que deva ser inicializado (para atuar como servidor), isso deve ser feito pelo fato de que o Spark executa sobre a plataforma do Hadoop. Como framework, o Spark oferece um conjunto significativo de recursos (componentes) que permite a realização de atividades de manipulação e processamento de dados, utilizando os conceitos de clusterização para este fim. A partir do exposto, assinale a alternativa correta: Por se tratar de um conjunto de componentes, o Spark pode ser utilizado em possibilidades que vão além da análise em Big Data. Por se tratar de um conjunto de componentes, o Spark pode ser utilizado em possibilidades que vão além da análise em Big Data. Resposta correta. A alternativa está correta, pois o Spark é, de fato, considerado um framework, ou seja, possibilita desenvolver e concentrar seus esforços na solução do problema, mas não necessariamente soluciona-o. Essa característica possibilitou ao Spark obter o status de uma das melhores ferramentas para análise de Big Data, apesar de não ser essa sua principal funcionalidade, pois ele vai além da análise de dados. Pergunta 9 Resposta Selecionada: Resposta Correta: Comentário da resposta: O Spark foi criado a partir de modelos de programação como o MapReduce, o qual foi popularizado pelo Apache Hadoop, facilitando um elevado grau de processamento de dados volumétricos. Para lidar com essa realidade, o Spark é consolidado sobre uma constituição que contribui na tarefa acima mencionada. Assim, é possível compreender como o Spark pode ser criado com o Hadoop, para garantir a entrega de suas principais características e vantagens. Assinale a alternativa correta: No modelo do Hadoop YARN, não é necessário a instalação ou acesso ao root (raiz), pois ele ajuda o Spark a integrar o ecossistema Hadoop. No modelo do Hadoop YARN, não é necessário a instalação ou acesso ao root (raiz), pois ele ajuda o Spark a integrar o ecossistema Hadoop. Resposta correta. A alternativa está correta, pois o Spark apresenta, através do diagrama de sua estruturação, as três maneiras de como pode ser criado com o Hadoop: Standalone, Hadoop YARN e o Spark no MapReduce, que também é conhecido por Spark In MapReduce. No Yarn, não é necessário instalar com acesso através de root e sua função é integrar o ecossistema Hadoop com outros componentes, para que sejam executados no topo da pilha. 1 em 1 pontos 1 em 1 pontos Pergunta 10 Resposta Selecionada: Resposta Correta: Comentário da resposta: A instalação e configuração do Apache Spark é um processo minucioso. No ambiente Windows, isso é necessário, pois há a exigência de manutenção de variáveis de ambiente do sistema, que são uma espécie de atalho visível para todo o sistema. Elas permitem que outros programas procurem, por exemplo, por executáveis, e uma dessas variáveis é responsável pela configuração da máquina virtual Java. Diante do texto exposto, assinale a alternativa correta: A variável de ambiente para ser alterada se chama JAVA_HOME, e como pré-requisito de instalação, é necessário instalar a versão 8, ou superior, da máquina virtual Java. A variável de ambiente para ser alterada se chama JAVA_HOME, e como pré- requisito de instalação, é necessário instalar a versão 8, ou superior, da máquina virtual Java. Resposta correta. A alternativa está correta, pois, para funcionar perfeitamente, o Apache Spark necessita da instalação e con�guração da máquina virtual Java como pré-requisito. Esta máquina virtual deve ser instalada na versão 8, minimamente, ou seja, pode ser instalada também em versões mais recentes. E, após sua instalação, é necessário con�gurar a variável de ambiente de usuário do Windows, conhecida como JAVA_HOME, que possibilitará ao Spark “enxergar” o caminho para a máquina virtual e, consequentemente, seu correto carregamento e funcionamento. 1 em 1 pontos
Compartilhar