Baixe o app para aproveitar ainda mais
Prévia do material em texto
Hadoop vs Spark Abstract. The work describes a research that brings the comparison between Hadoop and Spark. Presenting their respective definitions and applications. The article also discusses the comparison between the two big data structures. Resumo. O trabalho descreve uma pesquisa que traz a comparação entre Hadoop e Spark. Apresentando suas respectivas definições e aplicações. O artigo também debate a comparação entre as duas estruturas de big data. 1. Introdução O Apache Spark e o Apache Hadoop são ferramentas de big data , que ajudam processar alto volume, alta velocidade e alta variedade de dados. Essas ferramentas utilizam do processamento paralelo, que é o uso simultâneo de mais de um processador para resolver um problema e do processamento distribuído, que nada mais é que o uso simultâneo de mais de um computador para resolver o problema. 2. Desenvolvimento Apache Hadoop e Apache Spark são estruturas de código aberto para processamento de big data, cada uma delas se adapta melhor a um tipo de problema. O Hadoop possui um sistema de arquivos distribuídos, permitindo que os arquivos de dados sejam armazenados em várias máquinas, usa o MapReduce para processar dados e tem um excelente desempenho para processamento em lote. Já o Spark utiliza conjuntos de dados distribuídos resilientes(RDDS), não fornece armazenamento distribuído e sim paralelo, além de ser ideal para processamento iterativo. Os programas Spark são executados iterativamente cerca de 100 vezes mais rápido do que o Hadoop na memória e 10 vezes mais rápido no disco . O processamento na memória do Spark é responsável pela velocidade do Spark. O Hadoop MapReduce, em vez disso, grava dados em um disco que é lido na próxima iteração. Como os dados são recarregados do disco após cada iteração, eles são significativamente mais lentos do que o Spark . Figura 1 - Comparação de Hadoop e Spark: Fonte: https://phoenixnap.com/kb/hadoop-vs-spark https://phoenixnap.com/kb/hadoop-vs-spark 3. Conclusões O presente artigo confrontou o Apache Hadoop e o Spark, embora o Spark tenha vindo para resolver as limitações do Hadoop, sendo mais rápido e mais amigável o Hadoop também desempenha um papel importante na análise de big data. 4. Referências IBM Cloud Education. (2021) “Hadoop vc. Spark: What’s the difference?”, https://www.ibm.com/cloud/blog/hadoop-vs-spark Goran, Jevtic. (2020) “Hadoop vs Spark - Detailed Comparison”, https://phoenixnap.com/kb/hadoop-vs-spark Gimino, Anderson. (2019) “Spark vs. Hadoop MapReduce: Qual estrutura de big data escolher”, https://medium.com/mangue-data/spark-vs-hadoop-mapreduce-qual-estrutura-de-big-data- escolher-b8927de07f7e https://www.ibm.com/cloud/blog/hadoop-vs-spark https://phoenixnap.com/kb/hadoop-vs-spark https://medium.com/mangue-data/spark-vs-hadoop-mapreduce-qual-estrutura-de-big-data-escolher-b8927de07f7e https://medium.com/mangue-data/spark-vs-hadoop-mapreduce-qual-estrutura-de-big-data-escolher-b8927de07f7e
Compartilhar