Buscar

AnalisGrandVolumDados-189

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Análise de grandes volumes de dados utilizando o framework Hadoop 
Raimundo de Acacio Leonel Junior, Tércio Jorge da Silva, Ticiana Linhares Coelho da 
Silva 
 
Sistemas corporativos, serviços e sistemas Web, redes sociais, transações financeiras, e-commerce entre 
outros, produzem juntos um grande volume de dados, alcançando a escala de petabytes diários. Estima-se 
para 2015 um volume em escala ainda maior, zettabytes de dados gerados no mundo inteiro. Além disso, 
de 2012 até 2020, o volume de dados armazenados na Internet deverá dobrar a cada dois anos. Nesse 
contexto, surge a necessidade de gerenciar e analisar tais dados, além de fornecer alto desempenho no 
processamento. Para tratar estes problemas, tem-se adotado abordagens que paralelizam e distribuem o 
armazenamento e processamento dos dados. Entre essas abordagens destacam-se: a migração/construção 
de aplicações para ambientes de computação em nuvem, sistemas baseados em Distributed Hash Table 
(DHT) ou estrutura de arrays multidimensionais. Outra solução consiste na utilização do paradigma 
MapReduce, concebido para apoiar o processamento distribuído de grandes conjuntos de dados em 
clusters de servidores e sua implementação de código livre Hadoop. O Hadoop possui dois elementos 
principais: (i) o modelo de programação MapReduce que divide o processamento em duas funções: a 
Map, que recebe dados de entrada e os processa para produzir pares de chaves e valores; e a Reduce, que 
recebe esses pares de chaves e valores produzidos pela função Map e os combina, ou agrega, para 
produzir os resultados finais; (ii) outro elemento é o HDFS que é um sistema de arquivos distribuído que 
possui mecanismos de segurança, tolerância a falhas, integridade, consistência e desempenho no 
tratamento dos dados. Este trabalho tem como objetivo apresentar os principais conhecimentos obtidos a 
partir do estudo do framework Hadoop, bem como um estudo de caso que utiliza o Hadoop para realizar 
análise dos dados de maneira eficaz e eficiente. A análise a priori será feita utilizando 
técnicas de mineração de dados. Tais técnicas visam encontrar um padrão consistente, sumarizar os 
dados, extrair conhecimento ou realizar predições. Os dados manipulados no estudo de caso dizem 
respeito a uma base de ensino superior, eles são abertos e podem ser obtidos por meio do portal 
dados.gov. A análise a ser feita consiste em caracterizar o perfil dos alunos que ingressam no ensino 
superior. Neste trabalho, primeiramente, foi feito um estudo do framework Hadoop, bem como quais os 
principais conceitos envolvidos. A instalação do Hadoop já foi realizada em algumas máquinas e testada 
por meio da execução de um exemplo de contagem de palavras. O próximo passo é trabalhar na análise 
dos dados do estudo de caso, aplicando um algoritmo de mineração de dados de forma paralelizada e 
distribuída. Por fim, uma análise dos resultados deverá ser feita a fim de se obter informações sobre a 
eficiência do processamento. O conhecimento adquirido em todo esse processo é importante e pode ser 
repetido utilizando outras bases e/ou outros algoritmos. 
 
 
Palavras-Chave: Hadoop. MapReduce. Análise de dados. Processamento distribuído. 
 
http://dados.gov/

Outros materiais