Buscar

Falar de Big Data Analytics é se voltar ao imenso universo de dados e obter respostas ou ter um direcionamento em uma tomada de decisão

Prévia do material em texto

Falar de Big Data Analytics é se voltar ao imenso universo de dados e obter respostas ou ter um direcionamento em uma tomada de decisão. Com a utilização de algumas plataformas, a interpretação de Penta ou HegaByte de dados pode ser mais assertiva. 
O Hadoop, desenvolvido pela Apache Software Foundation, é uma solução de software open-source que traz o tratamento da manipulação de dados no universo Big Data, por meio da linguagem Java, proporcionando a comunicação entre uma máquina até um clusters (computadores que executam de forma conjunta uma determinada tarefa). A plataforma aposta na detecção e no tratamento de falhas na implementação dos códigos e consta com 04 módulos: Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop Yarn e Hadoop MapReduce.
O MapReduce consiste em uma tarefa (job) que divide os dados enviados em larga escala pelo Hadoop, conhecida também como processamento paralelo e distribuído, lendo códigos de várias linguagens como Java, Python, Scala e etc que será distribuído em unidades de trabalho e processado por um cluster. 
Analisando um dataset disponível pela MovieLens, que traz informações sobre avaliações de filmes por usuários, trazendo respostas para duas principais perguntas: 1) Quantos filmes foram lançados por ano? 2) Qual o comportamento do índice de lançamentos por ano ao longo do período registrado?
Utilizando a linguagem Java, rodando no Eclipse e gerenciando as dependências do Hadoop pelo Maven, foi criado uma classe nomeada como Mapper, responsável por ler cada registro no arquivo movies.dat e logo em seguida, fragmentando os dados no ano de lançamento e o título do filme. 
Com a classe Reducer, os dados foram agregados, somando os filmes lançados por ano a partir da divisão apresentada pela classe Mapper. A implementação di agendamento no YARN, roda a tarefa em si.
A compilação do código foi realizada através de uma virtualização de um cluster Hadoop, através da Cloudera QuickSamart VM, onde após realizar a execução trouxemos 5 arquivos armazenados localmente. O envio do arquivo movie.dat para o HDFS, distribui os arquivos de entrada e através da execução do MapReduce.
Após a finalização da execução, podemos rodar uma linha de código que exibe como resultado um arquivo (resultset.tsv) que ficará disponível para acesso. Nesse arquivo vamos analisar e responder as duas perguntas levantadas anteriormente.
Como resposta da primeira pergunta - 1) Quantos filmes foram lançados por ano? – podemos notar que a partir da década de 80 foi a que obteve um maior destaque na quantidade de filmes lançados. Para a resposta da segunda pergunta - 2) Qual o comportamento do índice de lançamentos por ano ao longo do período registrado? – observamos um comportamento de um aumento significativo entre os anos de 1980 a 200, onde nesse espaço de tempo, houve 100 títulos lançados no ano de 1993 e posteriormente teve seus lançamentos dobrados e triplicados nos anos de 1994 e 1995, mantendo essa margem até o ano de 1999.

Continue navegando