Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de grandes volumes de dados utilizando o framework Hadoop Raimundo de Acacio Leonel Junior, Tércio Jorge da Silva, Ticiana Linhares Coelho da Silva Sistemas corporativos, serviços e sistemas Web, redes sociais, transações financeiras, e-commerce entre outros, produzem juntos um grande volume de dados, alcançando a escala de petabytes diários. Estima-se para 2015 um volume em escala ainda maior, zettabytes de dados gerados no mundo inteiro. Além disso, de 2012 até 2020, o volume de dados armazenados na Internet deverá dobrar a cada dois anos. Nesse contexto, surge a necessidade de gerenciar e analisar tais dados, além de fornecer alto desempenho no processamento. Para tratar estes problemas, tem-se adotado abordagens que paralelizam e distribuem o armazenamento e processamento dos dados. Entre essas abordagens destacam-se: a migração/construção de aplicações para ambientes de computação em nuvem, sistemas baseados em Distributed Hash Table (DHT) ou estrutura de arrays multidimensionais. Outra solução consiste na utilização do paradigma MapReduce, concebido para apoiar o processamento distribuído de grandes conjuntos de dados em clusters de servidores e sua implementação de código livre Hadoop. O Hadoop possui dois elementos principais: (i) o modelo de programação MapReduce que divide o processamento em duas funções: a Map, que recebe dados de entrada e os processa para produzir pares de chaves e valores; e a Reduce, que recebe esses pares de chaves e valores produzidos pela função Map e os combina, ou agrega, para produzir os resultados finais; (ii) outro elemento é o HDFS que é um sistema de arquivos distribuído que possui mecanismos de segurança, tolerância a falhas, integridade, consistência e desempenho no tratamento dos dados. Este trabalho tem como objetivo apresentar os principais conhecimentos obtidos a partir do estudo do framework Hadoop, bem como um estudo de caso que utiliza o Hadoop para realizar análise dos dados de maneira eficaz e eficiente. A análise a priori será feita utilizando técnicas de mineração de dados. Tais técnicas visam encontrar um padrão consistente, sumarizar os dados, extrair conhecimento ou realizar predições. Os dados manipulados no estudo de caso dizem respeito a uma base de ensino superior, eles são abertos e podem ser obtidos por meio do portal dados.gov. A análise a ser feita consiste em caracterizar o perfil dos alunos que ingressam no ensino superior. Neste trabalho, primeiramente, foi feito um estudo do framework Hadoop, bem como quais os principais conceitos envolvidos. A instalação do Hadoop já foi realizada em algumas máquinas e testada por meio da execução de um exemplo de contagem de palavras. O próximo passo é trabalhar na análise dos dados do estudo de caso, aplicando um algoritmo de mineração de dados de forma paralelizada e distribuída. Por fim, uma análise dos resultados deverá ser feita a fim de se obter informações sobre a eficiência do processamento. O conhecimento adquirido em todo esse processo é importante e pode ser repetido utilizando outras bases e/ou outros algoritmos. Palavras-Chave: Hadoop. MapReduce. Análise de dados. Processamento distribuído. http://dados.gov/
Compartilhar