Baixe o app para aproveitar ainda mais
Prévia do material em texto
Frameworks de Big Data: uma visão geral Apresentação Em um mundo que muda cada vez mais rápido, em que as informações são ambíguas e complexas, utilizar ferramentas de Big Data, escolher bons conjuntos de dados e transformá-los em informações e conhecimento, pode ser estrategicamente crítico para a sobrevivência dos negócios. Junto com Big Data, outros termos ganham cada vez mais força, como a inteligência artificial, a aprendizagem de máquina, a aprendizagem profunda, a Internet das coisas, entre outras, que fazem parte da transformação digital que acontece desde que o mundo entrou na era da informação, e colocaram empresas como a Apple, a Google e a Amazon entre as maiores empresas e que geram espaços para profissionais cada vez mais desejados pelo mercado de trabalho. Nesta Unidade de Aprendizagem, você vai aprender sobre os frameworks de Big Data Apache Hadoop e Apache Spark por meio de características de cada um, seus ecossistemas, arquiteturas, forma de processamento, conceitos como MapReduce, RDD, operações como ações e transformações, bem como entender as diferenças entre eles. Bons estudos. Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados: Descrever o ecossistema Hadoop.• Definir no que consiste o Apache Spark.• Analisar como funciona o processamento no Hadoop e no Spark.• Infográfico O Spark é uma ferramenta de Big Data para processamento distribuído ou paralelo, que pode processar grandes conjuntos de dados, para gerar informações e conhecimento a partir de dados estruturados ou não estruturados, que possam ser utilizadas estrategicamente para colocar as empresas em vantagem competitiva. Apesar de o Spark ter diversos componentes que funcionam de forma integrada na própria ferramenta, é possível integrá-lo com ferramentas que são distribuídas separadamente. Neste Infográfico, você saberá mais sobre o processamento distribuído ou paralelo do framework de Big Data Apache Spark, o histórico do Spark, as diferenças de utilizar as linguagens Python ou Scala na programação das aplicações, opções de implantação e de armazenamento, bem como as deficiências de criar aplicações com as linguagens Java e R. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://statics-marketplace.plataforma.grupoa.education/sagah/e7ba4481-d0fa-41e7-bc20-3a212f384453/bf269615-c08c-4008-b04f-68355bdc607e.png Conteúdo do Livro Muitas empresas trabalham com grande quantidade de dados em planilhas ou na realização de cálculos todos os dias e, à medida que o volume de dados cresce, pode se tornar inviável trabalhar com eles manualmente, em planilhas que utilizem funções automatizadas de forma rápida ou até mesmo com o uso de programação em um único computador com bibliotecas mais robustas, como em Python ou R, especialmente quando se trata de milhões de dados, que podem ser recebidos por diversas fontes distintas, como sensores, bancos de dados de grandes sistemas com muitos usuários simultâneos, logs de servidores, entre outras. Para resolver esses problemas, em que não é possível realizar milhões de processamentos por minuto, surgiu o conceito de Big Data, que é utilizado em aplicações que usam tecnologias específicas, como no caso de aplicações de decodificação de genoma e análise de proteínas em biomedicina, análise do mercado financeiro e fraudes em sistemas bancários, modelagem molecular, recomendações em redes sociais em tempo real, além de diversas outras que já fazem parte da vida dos usuários sem que se deem conta. No capítulo Frameworks de Big Data: uma visão geral, da obra Framework de Big Data, você vai conhecer uma visão geral sobre frameworks de Big Data Apache Hadoop e Apache Spark, o histórico e o ecossistema do Hadoop, o ecossistema do Apache Spark, os detalhes de ambos por meio das suas arquiteturas de processamento, bem como o MapReduce do Hadoop comparado ao Spark, além de conceitos como o RDD, as suas operações como ações, transformações e funções lambda. Boa Leitura. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://statics-marketplace.plataforma.grupoa.education/sagah/52ed3f3b-a7bf-4236-8068-f7bbb5aa07ba/67b53ddc-3081-4c3f-9358-ea217ccf0349.pdf Dica do Professor Com o avanço da tecnologia, grandes volumes de dados passaram a ser criados pelas empresas, pelas estruturas de sistemas e pela popularização da tecnologia, que ganha cada dia mais espaço entre as pessoas, chegando a dimensões que ultrapassam os petabytes todos os dias. Tal quantidade de dados passou a precisar de tecnologias específicas para que seja processada e, com isso, surgiram os frameworks de Big Data. Na Dica do Professor, você verá o que motiva a utilização do framework de Big Data Apache Hadoop, o caso de uso do The New York Times, bem como as vantagens e as desvantagens no uso desse framework. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/81ebf48c7b7d97a8f668c5bf3a55ab32 Exercícios 1) Os sistemas distribuídos têm dois desafios principais, o primeiro deles é a possibilidade de falha de um dos equipamentos de hardware que armazena os dados e o segundo tem relação com a análise combinando dados lidos de discos distintos. Marque a opção que representa os dois principais recursos do Hadoop para lidar com esses desafios: A) HDFS e Hive. B) Avro e Mahout. C) HDFS e MapReduce. D) Pig e MapReduce. E) Hive e Pig. 2) Quando grandes volumes de dados são armazenados, eles são replicados em outros servidores, pois cada um deles tem diversos elementos com probabilidade de falha. Tais falhas precisam ser detectadas rapidamente e resolvidas eficientemente, de forma que seja evitada a parada do sistema de arquivos como um todo. Marque a opção que representa os dois processos principais da arquitetura do HDFS, estruturada em mestre e escravo: A) Namenode e SecondaryNameNode. B) Namenode e Datanode. C) Datanode e JobTracker. D) JobTracker e TaskTracker. E) TaskTracker e SecondaryNameNode. 3) O Apache Spark é uma ferramenta utilizada no processamento de grandes conjuntos de dados de forma paralela e distribuída, e sua arquitetura é constituída de três partes principais. Marque a opção que representa os três principais componentes que constituem a arquitetura do Apache Spark: A) Driver Program, Cluster Manager e Executor. B) Cluster Manager, Workers e Cache. C) Driver Program, Executor e Task. D) Spark Context, Executor e Cache. E) Driver Program, Cluster Manager e Workers. 4) Assim como a sua arquitetura, para trabalhar com o Apache Spark é importante conhecer os componentes do modelo de programação do Spark, como o RDD – Resilient Distrubuted Datasets, as operações e o Spark Context. Marque a opção que representa o conceito do RDD: A) Abstraem um conjunto de objetos distribuídos e geralmente são executados na memória principal. B) São transformações ou ações realizadas em um conjunto de objetos ou dados. C) É o contexto ou objeto que conecta o Spark ao programa que é desenvolvido para lidar com grandes volumes de dados. D) Componente opcional que é necessário quando o Spark é executado de forma distribuída. E) São as máquinas que executam as tarefas que são enviadas pelo Driver Program. 5) Tanto o Hadoop quanto o Spark são ferramentas utilizadas para trabalhar com Big Data, de forma que processam grandes volumes de dados. Marque a opção verdadeira em relação ao processamento no Apache Hadoop e no Apache Spark: A) O Hadoop apresenta uma performance melhor do que o Spark, sendo até 100x maior. B) O Hadoop herda o modelo de programação MapReduce popularizado pelo Spark. C) Enquanto o Spark precisa de ferramenta de terceiros, o Hadoop tem o MLlib para aprendizado de máquina. D) Tanto no Hadoop quanto no Spark, os módulos de processamento sãointegrados na própria ferramenta. E) O Hadoop pode criar todas as combinações de dados rapidamente. No entanto, o Spark é melhor para juntar grandes volumes. Na prática Cada empresa tem um cenário específico e suas necessidades comerciais são determinantes para a escolha de tecnologias adequadas para que tenham uma vantagem competitiva ou até mesmo para que possam crescer independente de terem concorrência direta ou não. Com isso, conceitos como Big Data se tornam cada vez mais populares entre as pessoas, sejam elas do meio tecnológico ou do meio empresarial. Veja, Na Prática, algumas características que devem ser levadas em consideração na escolha entre as ferramentas de Big Data Apache Hadoop, MapReduce ou Apache Spark. Conteúdo interativo disponível na plataforma de ensino! Saiba mais Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor: Cinco coisas que você precisa saber sobre Hadoop e Apache Spark Acesse o site Computerworld e entenda as características do Hadoop e do Spark em comparação um com o outro, bem como o motivo de que em muitos casos eles são vistos não como concorrentes, mas como complementares. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. Uma proposta de comparação de ferramentas para análise de grandes conjuntos de dados: aplicação a repositório sobre monitoramento da camada de ozônio Veja, neste artigo, a comparação de processamento de dados da camada de ozônio coletados a partir da OMI - Ozone Monitoring Instrument, entre o Apache Hadoop e outras ferramentas, de forma a identificar as diferenças entre as ferramentas, bem como as dificuldades e as possibilidades com cada uma delas em relação ao problema apresentado no artigo. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. Análise de ferramentas que implementam o paradigma MapReduce em um problema de recuperação de informação Saiba mais sobre a comparação entre o Apache Hadoop e o Apache Spark, por meio do MapReduce como forma de redução do tempo de processamento em um problema que trata da complexidade do cálculo da similaridade, utilizada como estratégia de consulta para a recuperação de informação. https://computerworld.com.br/2015/12/16/cinco-coisas-que-voce-precisa-saber-sobre-hadoop-e-apache-spark/ https://sol.sbc.org.br/index.php/eradrs/article/view/4749/4666 Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://sol.sbc.org.br/index.php/eradrs/article/view/2975/2937
Compartilhar