Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

TEMA 1 – HIVE
Q: O que é o Hive e como ele funciona dentro do ecossistema Hadoop?
E:
· É um Data Warehouse open source com sintaxe parecida com SQL (HiveQL).
· Traduz HiveQL em tarefas MapReduce ou Tez.
· Facilita consultas analíticas complexas (OLAP).
· Usa “schema on read”, adaptando a estrutura dos dados apenas na leitura.
· Armazena metadados em banco relacional (Derby ou MySQL).
· Suporta views, particionamento e funções definidas pelo usuário.
· Limitações: sem update/insert/delete tradicionais, não há transações padrão.
C: O Hive é um sistema de Data Warehouse dentro do Hadoop que traduz comandos parecidos com SQL (HiveQL) em tarefas MapReduce ou Tez. Ele facilita consultas analíticas sobre grandes volumes de dados. Usa “schema on read”, ou seja, os dados são estruturados apenas na leitura, o que o torna ideal para dados semiestruturados. Embora tenha limitações quanto a transações e alterações, ele é poderoso para análise OLAP.
TEMA 2 – INTEGRAÇÃO COM BANCOS RELACIONAIS (SQOOP)
Q: O que é o Sqoop e como ele realiza importações de bancos relacionais para o Hadoop?
E:
· Transfere grandes volumes de dados entre bancos relacionais e Hadoop.
· Usa MapReduce para paralelismo e tolerância a falhas.
· Permite customizações: delimitadores, formatos, número de Mappers etc.
· Suporte a importações incrementais com append ou lastmodified.
· Pode salvar parâmetros como “jobs” para reuso (sqoop-job).
· Integra com Hive diretamente via parâmetro --hive.
C: O Sqoop é uma ferramenta que importa dados de bancos relacionais como MySQL para o Hadoop, usando MapReduce para eficiência. Suporta importações completas ou incrementais, permite personalizar diversos aspectos da operação, e pode jogar os dados direto no Hive. É possível salvar os comandos como jobs para reuso e automação.
TEMA 3 – BANCO DE DADOS NÃO RELACIONAIS (NoSQL)
Q: O que são bancos NoSQL e como eles diferem dos relacionais?
E:
· Renunciam à linguagem SQL tradicional e ao modelo relacional.
· Suportam escalabilidade horizontal (vs. vertical dos relacionais).
· Baseiam-se no Teorema CAP: garantem 2 entre 3 (Consistência, Disponibilidade e Tolerância à Partição).
· Modelos principais: chave-valor, documentos, colunas, grafos.
· Cada modelo tem estruturas e usos específicos.
C: Bancos NoSQL são sistemas de banco de dados não relacionais que priorizam flexibilidade, escalabilidade e performance para grandes volumes de dados. Eles seguem o Teorema CAP e não exigem estrutura rígida como os relacionais. Existem diferentes modelos como chave-valor, documentos, colunas e grafos, cada um com suas vantagens conforme o tipo de dado e aplicação.
Q: O que é o HBase e como ele funciona no Hadoop?
E:
· Banco NoSQL baseado em colunas, projetado sobre o HDFS.
· Usa API Java (CRUD): Get, Put, Scan.
· Fortemente consistente (acesso imediato aos dados escritos).
· Usa RegionServers para distribuir dados em regiões.
· HMaster gerencia os RegionServers, Zookeeper auxilia na coordenação.
C: O HBase é um banco NoSQL baseado em colunas que roda sobre o HDFS. Ele permite leitura e escrita consistente de dados em larga escala. Seus dados são divididos em regiões gerenciadas pelos RegionServers. O HMaster e o Zookeeper garantem o funcionamento e a resiliência do sistema.
TEMA 4 – BANCOS NOSQL EXTERNOS
Q: O que é o Cassandra e como ele se integra com o Hadoop?
E:
· Banco NoSQL baseado em chave-valor, com linguagem CQL.
· Escalável, distribuído, prioriza disponibilidade e tolerância a falhas (consistência eventual).
· Integra com Hadoop, Hive, Pig, Oozie.
· Usa protocolo Gossip para comunicação entre nós (sem nó mestre).
C: O Cassandra é um banco NoSQL distribuído que usa chave-valor e a linguagem CQL. Ele é altamente disponível e tolerante a falhas, abrindo mão da consistência imediata. Usa o protocolo Gossip para manter os nós sincronizados e se integra nativamente com ferramentas do Hadoop como Hive e Pig.
Q: O que é o MongoDB e quais suas características?
E:
· Banco NoSQL baseado em documentos (JSON-like).
· Estrutura flexível, aceita documentos com campos diferentes na mesma coleção.
· Suporta dados embutidos (denormalizados) ou referenciados.
· Usa conjuntos de replicação para alta disponibilidade.
· Pode ser particionado (sharded cluster).
· Integra com Hadoop e possui framework de agregação.
C: O MongoDB é um banco de dados baseado em documentos com estrutura flexível. Ele permite que documentos em uma mesma coleção tenham campos diferentes e oferece replicação e particionamento para escalar e manter a disponibilidade. Suporta modelos embutidos e referenciados e se integra bem com o ecossistema Hadoop.
TEMA 5 – MOTORES DE CONSULTAS SQL
Q: Quais são os principais motores SQL para dados NoSQL e Hadoop?
E:
· Drill: consulta SQL sobre vários formatos (HBase, Hive, MongoDB, arquivos etc.). Usa JSON e roda sem esquema. Distribuído via Drillbit.
· Phoenix: roda sobre HBase, permite SQL com transações ACID e baixa latência. Usa coprocessadores.
· Presto: consulta analítica interativa sobre múltiplas fontes (Hive, MongoDB, PostgreSQL etc.). Usa arquitetura coordenador + trabalhadores.
C: Drill, Phoenix e Presto são motores de consulta SQL voltados para ambientes de Big Data. O Drill permite consultar diferentes fontes sem definir esquemas; o Phoenix traduz SQL para operações no HBase, garantindo transações e baixa latência; o Presto executa SQL distribuído sobre várias fontes ao mesmo tempo, sendo ideal para análises OLAP.
·

Mais conteúdos dessa disciplina