Buscar

Artigo Hadoop vs Spark

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 3 páginas

Prévia do material em texto

Hadoop vs Spark
Abstract. The work describes a research that brings the comparison between
Hadoop and Spark. Presenting their respective definitions and applications. The
article also discusses the comparison between the two big data structures.
Resumo. O trabalho descreve uma pesquisa que traz a comparação entre Hadoop e
Spark. Apresentando suas respectivas definições e aplicações. O artigo também
debate a comparação entre as duas estruturas de big data.
1. Introdução
O Apache Spark e o Apache Hadoop são ferramentas de big data , que ajudam processar alto
volume, alta velocidade e alta variedade de dados. Essas ferramentas utilizam do
processamento paralelo, que é o uso simultâneo de mais de um processador para resolver um
problema e do processamento distribuído, que nada mais é que o uso simultâneo de mais de
um computador para resolver o problema.
2. Desenvolvimento
Apache Hadoop e Apache Spark são estruturas de código aberto para processamento de big
data, cada uma delas se adapta melhor a um tipo de problema.
O Hadoop possui um sistema de arquivos distribuídos, permitindo que os arquivos de dados
sejam armazenados em várias máquinas, usa o MapReduce para processar dados e tem um
excelente desempenho para processamento em lote. Já o Spark utiliza conjuntos de dados
distribuídos resilientes(RDDS), não fornece armazenamento distribuído e sim paralelo, além
de ser ideal para processamento iterativo.
Os programas Spark são executados iterativamente cerca de 100 vezes mais rápido do que o
Hadoop na memória e 10 vezes mais rápido no disco . O processamento na memória do Spark
é responsável pela velocidade do Spark. O Hadoop MapReduce, em vez disso, grava dados
em um disco que é lido na próxima iteração. Como os dados são recarregados do disco após
cada iteração, eles são significativamente mais lentos do que o Spark .
Figura 1 - Comparação de Hadoop e Spark:
Fonte: https://phoenixnap.com/kb/hadoop-vs-spark
https://phoenixnap.com/kb/hadoop-vs-spark
3. Conclusões
O presente artigo confrontou o Apache Hadoop e o Spark, embora o Spark tenha vindo para
resolver as limitações do Hadoop, sendo mais rápido e mais amigável o Hadoop também
desempenha um papel importante na análise de big data.
4. Referências
IBM Cloud Education. (2021) “Hadoop vc. Spark: What’s the difference?”,
https://www.ibm.com/cloud/blog/hadoop-vs-spark
Goran, Jevtic. (2020) “Hadoop vs Spark - Detailed Comparison”,
https://phoenixnap.com/kb/hadoop-vs-spark
Gimino, Anderson. (2019) “Spark vs. Hadoop MapReduce: Qual estrutura de big data
escolher”,
https://medium.com/mangue-data/spark-vs-hadoop-mapreduce-qual-estrutura-de-big-data-
escolher-b8927de07f7e
https://www.ibm.com/cloud/blog/hadoop-vs-spark
https://phoenixnap.com/kb/hadoop-vs-spark
https://medium.com/mangue-data/spark-vs-hadoop-mapreduce-qual-estrutura-de-big-data-escolher-b8927de07f7e
https://medium.com/mangue-data/spark-vs-hadoop-mapreduce-qual-estrutura-de-big-data-escolher-b8927de07f7e

Outros materiais