Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 UNIVERSIDADE ESTÁCIO DE SÁ MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS Resenha Crítica de Caso Thalita dos Santos Lima Farinon Trabalho da disciplina Ecossistema Hadoop Tutor: Prof.ª. Sheila Mello Curitiba/PR 2020 http://portal.estacio.br/ 2 HELLO HADOOP WORD – PRIMEIRA PASSOS COM HADOOP E MAP REDUCE Referência: Marku Vinicius da Silva, Hello Hadoop World - Primeiros passos com Hadoop e MapReduce, 9 de novembro de 2017. INTRODUÇÃO Nas empresas de analises de informações, muito se ouve dizer os termos Big Data, Hadoop, MapReduce. Essas “informações” ou dados sevem ser manipulados e o processamentos de Big Data, necessita de uma ferramenta que tenha atividades especiais para essa manipulação de dados, e aí que surge o Hadoop e, por conseguinte o MapReduce, que será exemplificado a seguir. DESENVOLVIMENTO Quando precisamos tomar posicionamento para uma tomada de decisão mais correta, precisamos de um levantamento de dados que nos de o máximo de informações, para que esse processo tenha informações mais coerentes com a realidade, usamos o processo de Big Data Analytics. O Big Data Analystics é onde concentra todos os dados em um lugar que chamamos de Data Warehouse, que é onde concentra a maior dos dados resultantes de uma rede de sistemas distribuídos. O desenvolvimento de software (framework), que se encontra nessa análise de caso é o Hadoop. Hadoop é uma plataforma é uma plataforma de código aberto (open-source), para computação distribuída, ele é totalmente tolerante a falhas desenvolvido e mantido pela Apache Software Foundation. É por meio do Hadoop que se permite o 3 processamento de grandes conjuntos de dados através de vários (também chamados de clusters) computadores usando modelos de programação mais simples. Os seguintes modelos da estrutura de software Hadoop são: Commom; que contém as bibliotecas e arquivos comuns e necessários para todos os módulos Hadoop. Distributed File System (HDFS); sistema de arquivos distribuído projetado para armazenar arquivos muito grandes, utilizando clusters de servidores. Yarn; uma plataforma de gerenciamento responsável pela orquestração dos recursos computacionais disponíveis no cluster. MapReduce; um modelo de programação desenvolvido para processar grandes volumes de dados em paralelo, dividindo assim o trabalho em um conjunto de tarefas independentes. MapReduce, um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes. O Hadoop pode rodar o programa MapReduce escrito em várias linguagens utilizando todo o poder de processamento do cluster. O Hadoop executa dividindo em dois trabalhos o Maps e Reduces, então as tarefas são agendadas pelo YARN e executadas pelo nos de clusters. Os dados são divididos, entradas em um tamanho fixo (já que os datasets são muito grandes para ficar na memória) e os associa em uma tarefa tipo Map para criar cada split. Logo associado o Map com o input Split, executara a função definida pelo executor para cada registro do slipt em um ou mais nós de cluster. Finalizando a fase de Map, então esses resultados serão direcionados para uma ou mais tarefas do tipo Reduce, aplicando sempre a função de quem executou para o agrupamento dos dados e então armazenar em HDFS. O HDFS é um projeto da Apache Software Foundation e um subprojeto Apache Hadoop. O Hadoop é ideal para armazenar grandes quantidades de dados, e usa o HDFS como sistema de armazenamento, já que necessita de um tamanho grande para esse armazenamento. 4 CONCLUSÃO O Hadoop é uma implementação de código aberto do paradigma de programação MapReduce. O Map Reduce é um paradigma de programação para processar e analisar grandes conjuntos de dados. A estabilidade e desempenho nos tratamentos de dados para cada nó em um cluster Hadoop permite armazenar, gerenciar, processar e analisar dados em grandes escalas. Além de nos oferecer mais flexibilidades e confiabilidade em um baixo custo.
Compartilhar