AnalisGrandVolumDados-189

•

Humanas / Sociais

Lendo Artigos

14/02/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Administração

592.151 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Análise de grandes volumes de dados utilizando o framework Hadoop
Raimundo de Acacio Leonel Junior, Tércio Jorge da Silva, Ticiana Linhares Coelho da
Silva

Sistemas corporativos, serviços e sistemas Web, redes sociais, transações financeiras, e-commerce entre
outros, produzem juntos um grande volume de dados, alcançando a escala de petabytes diários. Estima-se
para 2015 um volume em escala ainda maior, zettabytes de dados gerados no mundo inteiro. Além disso,
de 2012 até 2020, o volume de dados armazenados na Internet deverá dobrar a cada dois anos. Nesse
contexto, surge a necessidade de gerenciar e analisar tais dados, além de fornecer alto desempenho no
processamento. Para tratar estes problemas, tem-se adotado abordagens que paralelizam e distribuem o
armazenamento e processamento dos dados. Entre essas abordagens destacam-se: a migração/construção
de aplicações para ambientes de computação em nuvem, sistemas baseados em Distributed Hash Table
(DHT) ou estrutura de arrays multidimensionais. Outra solução consiste na utilização do paradigma
MapReduce, concebido para apoiar o processamento distribuído de grandes conjuntos de dados em
clusters de servidores e sua implementação de código livre Hadoop. O Hadoop possui dois elementos
principais: (i) o modelo de programação MapReduce que divide o processamento em duas funções: a
Map, que recebe dados de entrada e os processa para produzir pares de chaves e valores; e a Reduce, que
recebe esses pares de chaves e valores produzidos pela função Map e os combina, ou agrega, para
produzir os resultados finais; (ii) outro elemento é o HDFS que é um sistema de arquivos distribuído que
possui mecanismos de segurança, tolerância a falhas, integridade, consistência e desempenho no
tratamento dos dados. Este trabalho tem como objetivo apresentar os principais conhecimentos obtidos a
partir do estudo do framework Hadoop, bem como um estudo de caso que utiliza o Hadoop para realizar
análise dos dados de maneira eficaz e eficiente. A análise a priori será feita utilizando
técnicas de mineração de dados. Tais técnicas visam encontrar um padrão consistente, sumarizar os
dados, extrair conhecimento ou realizar predições. Os dados manipulados no estudo de caso dizem
respeito a uma base de ensino superior, eles são abertos e podem ser obtidos por meio do portal
dados.gov. A análise a ser feita consiste em caracterizar o perfil dos alunos que ingressam no ensino
superior. Neste trabalho, primeiramente, foi feito um estudo do framework Hadoop, bem como quais os
principais conceitos envolvidos. A instalação do Hadoop já foi realizada em algumas máquinas e testada
por meio da execução de um exemplo de contagem de palavras. O próximo passo é trabalhar na análise
dos dados do estudo de caso, aplicando um algoritmo de mineração de dados de forma paralelizada e
distribuída. Por fim, uma análise dos resultados deverá ser feita a fim de se obter informações sobre a
eficiência do processamento. O conhecimento adquirido em todo esse processo é importante e pode ser
repetido utilizando outras bases e/ou outros algoritmos.

Palavras-Chave: Hadoop. MapReduce. Análise de dados. Processamento distribuído.

http://dados.gov/