A1 FRAMEWORKS PARA BIG DATA

•

UAM

1

0

1

0

Tiago Custódio

02/10/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 3 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.903 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pergunta 1 
6 em 10 pontos
	
	
	
	MapReduce é uma técnica ou uma forma de programação que se utiliza de duas funções: Map e Reduce. A ideia central deste paradigma é fazer o mapeamento de um conjunto de dados, executando um paralelismo desses dados para reduzir o que chamamos de tuplas (conjunto entre chave e valor dos dados), resultando uma diminuição no tempo de processamento de informação que possui grande volume de dados.
 
Para que essa técnica seja corretamente empregada em dados reais, é necessário seguir um passo a passo capaz de gerenciar conjuntos de dados distintos, tornando todos eles em um fluxo único. 
Descreva de maneira prática, por meio de uma descrição textual ou de um infográfico, um problema real onde o MapReduce poderia ser aplicado a fim de solucionar tal problema.
	
	
	
	
		Resposta Selecionada: 
	Hadoop  é  um  framework  open-source para  processamento  de  dados  massivos em  larga escala  com o grande poder de processamento e a capacidade de lidar quase ilimitadamente com tarefas e trabalhos ocorrendo ao mesmo tempo, ele é composto  por  dois  componentes  principais, que é o HDFS  e  um  framework chamado MapReduce.
 
O  MapReduce  é  um  modelo  de  programação  para  processamento  de  dados,  ele
transforma  dados  massivos em  dados  menores  através  de  um  algoritimo paralelo e distribuído, normalmente em cluster de computadores.
 
Hadoop MapReduce é, portanto uma técnica que permite que usuários criem programas e
aplicações  divididos  em  componentes,  com  essa  divisão  a  aplicação  passa  a funcionar
estando em cluster, com duas subdivisões de código: Map e Reduce.
 
“O Hadoop MapReduce é uma parte essencial do framework, uma vez que é o responsável pelo processamento de dados.”* 
 
 
Exemplo:  Podemos  pegar  uma  planilha  em  CSV  com  milhões  de  linhas  e  dados  e  de
diversos  tamanhos,  como  por  exemplo  1,7  GB  de  dados  e  compactar  esses  dados
transformando em 300 MB.
Para  que  isso  ocorra  primeiramente  será  necessário  identiﬁcar  a  necessidade  do  negócio para a tomada de decisão/pesquisa desejada.
Podemos usar o caso abaixo para demonstrar a explicação acima.
O  banco  XPTO  possui  em  seu  banco  de  dados  a  relação  de  todos  os  ﬁnanciamentos
habitacionais realizados e estão separados por ativos e cancelados.
O  mesmo  necessita  saber  dos  ﬁnanciamentos  ativos  realizados  nos  últimos  5  anos  de todas as cidades e valor total de ﬁnanciamento.
Para que isso seja realizado, usaremos o programa MapReduce na linguagem Python.
Dividiremos em 3 etapas
Map, Sort e Reduce
No Map, o  Job fara  a leitura da  planilha com  os dados  dos ﬁnanciamentos  (dado bruto), o Job  fara  a  leitura  de  cada  linha  do  arquivo  e  passara  os  valores  encontrados  para  o método  mapper  do  programa  MapReduce  e  serão  tratados  pelo  método  mapper  que  foi implementado no programa.
No Sort, os dados que foram extraídos no Map serão classiﬁcados e uniﬁcados.
No Reduce, será feito a leitura dos dados mapeados, organizando á gerar a lista
com os dados, conforme solicitado.
 
* https://www.devmedia.com.br/hadoop-mapreduce-introducao-a-big-data/30034