Buscar

Trabalho de Ecosistema Hadoop

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE ESTÁCIO DE SÁ
MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS 
Resenha Crítica de Caso Hello Hadoop World – Primeiros passos com Hadoop e MapReduce
Ana Paula Lopes de Souza
Trabalho da disciplina Ecosistema Hadoop
 
 Tutor: Prof. Regina Lucia Napolitano Felicio Felix Batista
Natal
2020
HELLO HADOOP WORLD – PRIMEIROS PASSOS COM HADOOP E MAPREDUCE
Referência: SILVA, Marku Vinicius da. Hello Hadoop World – Primeiros passos com Hadoop e MapReduce. Disponível na biblioteca virtual da Estácio, acesso em 02 de março de 2020).
O artigo produzido por Marku vem nos mostrar o que é o ecossistema desenvolvido pelo Apache Sotware Foundation: Hadoop. Ele também faz uma demonstração de um programa MapReduce, feito em Java, para processar o dataset MovieLens. Marku explica de forma bem detalhada e fácil de compreender o funcionamento do Hadoop e do MapReduce.
Inicialmente é feito uma descrição do que o Hadoop, explicando que ele é um software open-source, feito para computação distribuída, escalável e tolerante a falhas.
Marku explica que o Hadoop é capaz de realizar o processamento de uma grande quantidade de dados, possui uma larga escalabilidade, fala também sofre o fato da biblioteca do Hadoop ser capaz de detectar e tratar falhas na camada de aplicação.
Vemos como é composto o Hadoop da versão 2.2.x em diante: Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop Yarn e Hadoop MapReduce. Como o artigo nos demonstra um MapReduce, ele explica pontualmente que o MapReduce é um modelo de programação distribuída para processamento massivo de dados e que ele é um conceito simples, mas não é simples utilizá-lo.
O artigo explica o passo a passo de uma execução de um MapReduce. Iniciando com a execução de um job dividido em Maps e Reduces, posteriormente as tarefas são agendadas pelo YARN e então executadas nos nós do cluster. O Hadoop pega os dados input e faz uma associação a um Map para cada split, depois realizará a função do job e no final os resultados são enviados para uma ou mais tarefas Reduce.
No artigo é utilizado o dataset MovieLens-1M, que foi feito pelo DataSet MovieLens Group Lens, uma instituição de pesquisa ligada à Universidade de Minnesota. Essa instituição coleta e disponibiliza dados de filmes, usuários e avações do site MovieLens e o MovieLens-1M é composto por 1 milhão de avaliações de 6 mil usuários para 4 mil filmes e foi disponibilizado em 02/2003.
Os dados são disponibilizados em um formato movies.dat e os registros estão com os seguintes cabeçalhos: MovieID, Title e Genre. O autor quer analisar o dataset e saber quantos filmes foram lançados por ano e qual o comportamento do índice de lançamento por ano ao longo do período registrado.
O autor irá utilizar a linguagem Java com a IDE Eclipse, versão Oxygen, e o Maven. O autor mostra em código com ficará o arquivo pom.xml e também como fica o código de uma classe Mapper que irá ler os registros do arquivo movies.dat e parseá-los para pegar cada ano de lançamento dos títulos. Também é exibido o código de uma classe Reducer que irá juntar as informações dos filmes, somando o número de lançamentos por ano utilizando os resultados da classe Mapper. Posteriormente esses dados voltam para o MapReduce finalizar o processo. Depois disso um job é exibido e o projeto já pode ser buildado e executado no cluster Hadoop através do comando “mvn clean install”.
É utilizado a distribuição Cloudera através da Cloudera QuickStart VM, que é um single-node cluster virtualizado e que já possui os componentes do Hadoop instalados e configurados. O arquivo movies.dat deve ser enviado para o HDFS para ser gerenciado pelo Hadoop. O autor mostra como são os comandos para criar a estrutura de diretórios e a cópia do arquivo movies.dat. Depois disso o programa MapReduce já pode ser executado e para executar o job é só executar a linha de comando hadoop jar <jar do projeto> <classe driver> <path input> <path output>, se tudo estiver correto o hadoop iniciará a execução do job MapReduce e já será possível acompanhar a execução do job pelo Yarn Resource Manager.
Após o processamento ser feito e armazenado no HDFS, o resultado já pode ser disponibilizado em diretório local e ser iniciado a análise para os questionamentos da pesquisa. O comando para deixar o resultado acessível localmente é “hdfs dfs -get /user/data/movielens-dataset/output/part-r-00000 resultset.tsv” e após a execução será disponibilizado em um diretório local o arquivo resultset.tsv.
Com isso vimos o que é o Hadoop, como ele funciona e o que o MapReduce pode auxiliar. Nos foi exibido de maneira clara e objetiva como implementar um MapReduce utilizando Java para fazer o processamento do dataset MovieLens-M1 da instituição DataSet MovieLens Group Lens.
O autor nos mostra o resultado das análises do dataset, mostrando respostas para as 2 perguntas iniciais do artigo. Ele explica as análises e utiliza gráficos para nos mostrar visualmente as informações.

Continue navegando