Engenharia de Computação em Hadoop

•

USP-BR

Laura Mendes

27/04/2024

Prévia do material em texto

LAURA 2024.1 
 
Engenharia de Computação em Hadoop 
 
A Engenharia de Computação em Hadoop é uma área da engenharia de computação que se concentra 
no desenvolvimento, implementação e otimização de sistemas distribuídos de processamento de dados 
baseados na plataforma Apache Hadoop. O Hadoop é um framework open-source projetado para lidar com 
grandes volumes de dados de forma distribuída e escalável. Abaixo estão alguns aspectos importantes da 
Engenharia de Computação em Hadoop: 
 
Arquitetura de Hadoop: Compreensão da arquitetura básica do Hadoop, incluindo os componentes 
principais como o Hadoop Distributed File System (HDFS) para armazenamento distribuído de dados e o 
MapReduce para processamento paralelo de dados. Isso também pode incluir componentes adicionais, como 
YARN (Yet Another Resource Negotiator) para gerenciamento de recursos e Apache Hadoop Common para 
funcionalidades compartilhadas. 
 
Configuração e Implantação: Instalação e configuração de clusters Hadoop, incluindo a definição de 
nós mestre e escravo, configuração de parâmetros de desempenho e segurança, e implantação de serviços 
adicionais, como o HBase para armazenamento de dados NoSQL e o Hive para consulta de dados usando SQL-
like queries. 
 
Desenvolvimento de Aplicações: Desenvolvimento de aplicações e pipelines de dados utilizando 
MapReduce e outras APIs disponíveis no ecossistema Hadoop, como Spark, Pig e Hive. Isso envolve a escrita de 
código Java, Scala, Python ou SQL para implementar algoritmos de processamento de dados e transformar 
grandes conjuntos de dados de entrada em resultados úteis. 
 
Otimização de Desempenho: Otimização de algoritmos e configurações para melhorar o desempenho 
de aplicações Hadoop, incluindo a paralelização eficiente de tarefas, a minimização de transferências de dados 
entre nós e a utilização de técnicas de particionamento e compactação para reduzir o tempo de processamento. 
 
Gerenciamento de Dados: Gerenciamento de dados armazenados no HDFS, incluindo a ingestão, 
armazenamento e recuperação de grandes volumes de dados estruturados e não estruturados. Isso pode incluir 
a definição de esquemas de dados, a implementação de políticas de retenção e o gerenciamento de metadados 
usando ferramentas como Apache Ambari e Apache Ranger. 
 
Segurança e Autenticação: Implementação de medidas de segurança para proteger dados e recursos no 
ambiente Hadoop contra acessos não autorizados e ataques cibernéticos. Isso inclui a configuração de 
autenticação, autorização e criptografia de dados, bem como a implementação de políticas de segurança e 
auditoria. 
 
Monitoramento e Diagnóstico: Monitoramento do desempenho e estado do cluster Hadoop em tempo 
real, incluindo a coleta de métricas de utilização de recursos, o registro de eventos e alertas de falhas, e a análise 
de logs para identificar e resolver problemas de desempenho ou disponibilidade. 
 
Escalabilidade e Elasticidade: Dimensionamento do cluster Hadoop conforme a demanda de 
processamento e armazenamento de dados cresce, incluindo a adição e remoção de nós conforme necessário 
para lidar com picos de carga ou expansão do volume de dados. 
 
A Engenharia de Computação em Hadoop desempenha um papel fundamental na análise e 
processamento de grandes conjuntos de dados em uma variedade de aplicações, desde análise de dados 
empresariais até ciência de dados e inteligência artificial. Ao integrar conhecimentos de sistemas distribuídos, 
programação paralela, bancos de dados e segurança da informação, essa disciplina proporciona soluções 
escaláveis e eficientes para os desafios complexos relacionados à computação em ambientes Hadoop.