Baixe o app para aproveitar ainda mais
Prévia do material em texto
30/05/2020 Blackboard Learn https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 1/1 Pergunta 1 Resposta Selecionada: MapReduce é uma técnica ou uma forma de programação que se utiliza de duas funções: Map e Reduce. A ideia central deste paradigma é fazer o mapeamento de um conjunto de dados, executando um paralelismo desses dados para reduzir o que chamamos de tuplas (conjunto entre chave e valor dos dados), resultando uma diminuição no tempo de processamento de informação que possui grande volume de dados. Para que essa técnica seja corretamente empregada em dados reais, é necessário seguir um passo a passo capaz de gerenciar conjuntos de dados distintos, tornando todos eles em um fluxo único. Descreva de maneira prática, por meio de uma descrição textual ou de um infográfico, um problema real onde o MapReduce poderia ser aplicado a fim de solucionar tal problema. O Hadoop é um framework de código aberto para processamento de dados em larga escala composto por dois componentes principais: um sistema distribuído de arquivos conhecido como HDFS e um framework distribuído de processamento chamado MapReduce. O MapReduce é um modelo de programação para processamento de dados, ele transforma dados maiores em dados menores através de um Job. Esse Job executa pequenos programas com poucas linhas de códigos em uma variedade de linguagem como Python, Java, C++ e outras. Hadoop MapReduce é, portanto uma técnica que permite que usuários criem programas e aplicações divididos em componentes, com essa divisão a aplicação passa a funcionar estando em cluster, com duas subdivisões de código: Map e Reduce. Exemplo: Podemos pegar uma planilha em CSV com milhões de linhas e dados e de diversos tamanhos, como por exemplo 1,7 GB de dados e compactar esses dados transformando em 300 MB. Para que isso ocorra primeiramente será necessário identificar a necessidade do negócio para a tomada de decisão/pesquisa desejada. Podemos usar o caso abaixo para demonstrar a explicação acima. O banco XPTO possui em seu banco de dados a relação de todos os financiamentos habitacionais realizados e estão separados por ativos e cancelados. O mesmo necessita saber dos financiamentos ativos realizados nos últimos 5 anos de todas as cidades e valor total de financiamento. Para que isso seja realizado, usaremos o programa MapReduce na linguagem Python. Dividiremos em 3 etapas Fase 1: Map Fase 2: Sort Fase 3: Reduce Na fase 1 o Job fara a leitura da planilha com os dados dos financiamentos (dado bruto), o Job fara a leitura de cada linha do arquivo e passara os valores encontrados para o método mapper do programa MapReduce e serão tratados pelo método mapper que foi implementado no programa. Na fase 2 os dados que obtivemos na fase 1 serão classificados e unificados. Na fase 3 o Job fara a leitura dos dados mapeados, ordenados e agrupados e gerarA a lista com os dados conforme solicitado. Requer avaliação
Compartilhar