Buscar

Atividade 1 - FRAMEWORKS PARA BIGDATA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

30/05/2020 Blackboard Learn
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 1/1
Pergunta 1
Resposta
Selecionada:
MapReduce é uma técnica ou uma forma de programação que se utiliza de duas funções: Map e Reduce. A
ideia central deste paradigma é fazer o mapeamento de um conjunto de dados, executando um paralelismo
desses dados para reduzir o que chamamos de tuplas (conjunto entre chave e valor dos dados), resultando
uma diminuição no tempo de processamento de informação que possui grande volume de dados.
 
Para que essa técnica seja corretamente empregada em dados reais, é necessário seguir um passo a passo
capaz de gerenciar conjuntos de dados distintos, tornando todos eles em um fluxo único.
Descreva de maneira prática, por meio de uma descrição textual ou de um infográfico, um problema real
onde o MapReduce poderia ser aplicado a fim de solucionar tal problema.
O Hadoop é um framework de código aberto para processamento de dados em larga
escala composto por dois componentes principais: um sistema distribuído de arquivos
conhecido como HDFS e um framework distribuído de processamento chamado
MapReduce.
O MapReduce é um modelo de programação para processamento de dados, ele
transforma dados maiores em dados menores através de um Job. Esse Job executa
pequenos programas com poucas linhas de códigos em uma variedade de linguagem
como Python, Java, C++ e outras.
 
Hadoop MapReduce é, portanto uma técnica que permite que usuários criem programas e
aplicações divididos em componentes, com essa divisão a aplicação passa a funcionar
estando em cluster, com duas subdivisões de código: Map e Reduce.
 
Exemplo: Podemos pegar uma planilha em CSV com milhões de linhas e dados e de
diversos tamanhos, como por exemplo 1,7 GB de dados e compactar esses dados
transformando em 300 MB.
Para que isso ocorra primeiramente será necessário identificar a necessidade do negócio
 para a tomada de decisão/pesquisa desejada.
Podemos usar o caso abaixo para demonstrar a explicação acima.
 
O banco XPTO possui em seu banco de dados a relação de todos os financiamentos
habitacionais realizados e estão separados por ativos e cancelados.
O mesmo necessita saber dos financiamentos ativos realizados nos últimos 5 anos de
todas as cidades e valor total de financiamento.
Para que isso seja realizado, usaremos o programa MapReduce na linguagem Python.
Dividiremos em 3 etapas
Fase 1: Map
Fase 2: Sort
Fase 3: Reduce
Na fase 1 o Job fara a leitura da planilha com os dados dos financiamentos (dado bruto), o
Job fara a leitura de cada linha do arquivo e passara os valores encontrados para o
método mapper do programa MapReduce e serão tratados pelo método mapper que foi
implementado no programa.
Na fase 2 os dados que obtivemos na fase 1 serão classificados e unificados.
Na fase 3 o Job fara a leitura dos dados mapeados, ordenados e agrupados e gerarA a lista
com os dados conforme solicitado.
Requer avaliação

Continue navegando