Resenha Hadoop

Big Data

•

Humanas / Sociais

0

Thalita dos Santos Lima

07/06/2021

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.955 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1 
 
 
 
 
 
 
 
UNIVERSIDADE ESTÁCIO DE SÁ 
MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS 
 
 
Resenha Crítica de Caso 
Thalita dos Santos Lima Farinon 
 
 
 
Trabalho da disciplina Ecossistema Hadoop 
 Tutor: Prof.ª. Sheila Mello 
 
 
Curitiba/PR 
2020
http://portal.estacio.br/
 
 
 2 
 
 
HELLO HADOOP WORD – PRIMEIRA PASSOS COM HADOOP E MAP REDUCE 
 
Referência: 
Marku Vinicius da Silva, Hello Hadoop World - Primeiros passos com Hadoop e 
MapReduce, 9 de novembro de 2017. 
 
 
INTRODUÇÃO 
 
 Nas empresas de analises de informações, muito se ouve dizer os termos Big 
Data, Hadoop, MapReduce. Essas “informações” ou dados sevem ser manipulados e 
o processamentos de Big Data, necessita de uma ferramenta que tenha atividades 
especiais para essa manipulação de dados, e aí que surge o Hadoop e, por 
conseguinte o MapReduce, que será exemplificado a seguir. 
 
DESENVOLVIMENTO 
 
 Quando precisamos tomar posicionamento para uma tomada de decisão mais 
correta, precisamos de um levantamento de dados que nos de o máximo de 
informações, para que esse processo tenha informações mais coerentes com a 
realidade, usamos o processo de Big Data Analytics. 
O Big Data Analystics é onde concentra todos os dados em um lugar que 
chamamos de Data Warehouse, que é onde concentra a maior dos dados resultantes 
de uma rede de sistemas distribuídos. 
O desenvolvimento de software (framework), que se encontra nessa análise de 
caso é o Hadoop. 
Hadoop é uma plataforma é uma plataforma de código aberto (open-source), 
para computação distribuída, ele é totalmente tolerante a falhas desenvolvido e 
mantido pela Apache Software Foundation. É por meio do Hadoop que se permite o 
 
 
 3 
 
 
processamento de grandes conjuntos de dados através de vários (também chamados 
de clusters) computadores usando modelos de programação mais simples. 
Os seguintes modelos da estrutura de software Hadoop são: 
Commom; que contém as bibliotecas e arquivos comuns e necessários para 
todos os módulos Hadoop. 
Distributed File System (HDFS); sistema de arquivos distribuído projetado 
para armazenar arquivos muito grandes, utilizando clusters de servidores. 
Yarn; uma plataforma de gerenciamento responsável pela orquestração dos 
recursos computacionais disponíveis no cluster. 
MapReduce; um modelo de programação desenvolvido para processar 
grandes volumes de dados em paralelo, dividindo assim o trabalho em um conjunto 
de tarefas independentes. 
 MapReduce, um modelo de programação desenhado para processar grandes 
volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas 
independentes. O Hadoop pode rodar o programa MapReduce escrito em várias 
linguagens utilizando todo o poder de processamento do cluster. O Hadoop executa 
dividindo em dois trabalhos o Maps e Reduces, então as tarefas são agendadas pelo 
YARN e executadas pelo nos de clusters. 
 Os dados são divididos, entradas em um tamanho fixo (já que os datasets são 
muito grandes para ficar na memória) e os associa em uma tarefa tipo Map para criar 
cada split. Logo associado o Map com o input Split, executara a função definida pelo 
executor para cada registro do slipt em um ou mais nós de cluster. 
 Finalizando a fase de Map, então esses resultados serão direcionados para 
uma ou mais tarefas do tipo Reduce, aplicando sempre a função de quem executou 
para o agrupamento dos dados e então armazenar em HDFS. 
 O HDFS é um projeto da Apache Software Foundation e um subprojeto Apache 
Hadoop. O Hadoop é ideal para armazenar grandes quantidades de dados, e usa o 
HDFS como sistema de armazenamento, já que necessita de um tamanho grande 
para esse armazenamento. 
 
 
 4 
 
 
 
CONCLUSÃO 
 O Hadoop é uma implementação de código aberto do paradigma de 
programação MapReduce. O Map Reduce é um paradigma de programação para 
processar e analisar grandes conjuntos de dados. 
 A estabilidade e desempenho nos tratamentos de dados para cada nó em um 
cluster Hadoop permite armazenar, gerenciar, processar e analisar dados em grandes 
escalas. Além de nos oferecer mais flexibilidades e confiabilidade em um baixo custo.