Baixe o app para aproveitar ainda mais
Prévia do material em texto
Pergunta 1 6 em 10 pontos MapReduce é uma técnica ou uma forma de programação que se utiliza de duas funções: Map e Reduce. A ideia central deste paradigma é fazer o mapeamento de um conjunto de dados, executando um paralelismo desses dados para reduzir o que chamamos de tuplas (conjunto entre chave e valor dos dados), resultando uma diminuição no tempo de processamento de informação que possui grande volume de dados. Para que essa técnica seja corretamente empregada em dados reais, é necessário seguir um passo a passo capaz de gerenciar conjuntos de dados distintos, tornando todos eles em um fluxo único. Descreva de maneira prática, por meio de uma descrição textual ou de um infográfico, um problema real onde o MapReduce poderia ser aplicado a fim de solucionar tal problema. Resposta Selecionada: Hadoop é um framework open-source para processamento de dados massivos em larga escala com o grande poder de processamento e a capacidade de lidar quase ilimitadamente com tarefas e trabalhos ocorrendo ao mesmo tempo, ele é composto por dois componentes principais, que é o HDFS e um framework chamado MapReduce. O MapReduce é um modelo de programação para processamento de dados, ele transforma dados massivos em dados menores através de um algoritimo paralelo e distribuído, normalmente em cluster de computadores. Hadoop MapReduce é, portanto uma técnica que permite que usuários criem programas e aplicações divididos em componentes, com essa divisão a aplicação passa a funcionar estando em cluster, com duas subdivisões de código: Map e Reduce. “O Hadoop MapReduce é uma parte essencial do framework, uma vez que é o responsável pelo processamento de dados.”* Exemplo: Podemos pegar uma planilha em CSV com milhões de linhas e dados e de diversos tamanhos, como por exemplo 1,7 GB de dados e compactar esses dados transformando em 300 MB. Para que isso ocorra primeiramente será necessário identificar a necessidade do negócio para a tomada de decisão/pesquisa desejada. Podemos usar o caso abaixo para demonstrar a explicação acima. O banco XPTO possui em seu banco de dados a relação de todos os financiamentos habitacionais realizados e estão separados por ativos e cancelados. O mesmo necessita saber dos financiamentos ativos realizados nos últimos 5 anos de todas as cidades e valor total de financiamento. Para que isso seja realizado, usaremos o programa MapReduce na linguagem Python. Dividiremos em 3 etapas Map, Sort e Reduce No Map, o Job fara a leitura da planilha com os dados dos financiamentos (dado bruto), o Job fara a leitura de cada linha do arquivo e passara os valores encontrados para o método mapper do programa MapReduce e serão tratados pelo método mapper que foi implementado no programa. No Sort, os dados que foram extraídos no Map serão classificados e unificados. No Reduce, será feito a leitura dos dados mapeados, organizando á gerar a lista com os dados, conforme solicitado. * https://www.devmedia.com.br/hadoop-mapreduce-introducao-a-big-data/30034
Compartilhar