QEC Aula 3 BIG DATA

Engenharias

Kristhian Anderson

em 14/05/2025

Conteúdos escolhidos para você

30 pág.

exercicios de nosql para estacio

ESTÁCIO EAD

45 pág.

RESUMO - Tópicos de Big Data em Python

ESTÁCIO

Perguntas dessa disciplina

Questão 2 Sem resposta Empresas de e-commerce precisam analisar dados de comportamento de clientes para personalizar ofertas. Para isso, é fundamental

Anhanguera

Pergunta 320 pts Como o PostgreSQL foi um dos primeiros bancos de dados a tratar de questões espaciais, selecionamos ele para construir o banco de dad

UVA

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) A utilização da DQL proporciona aos usuários a capacidade de formu

ENADE – BANCO DE DADOS II 5 Considere um banco de dados relacional formado por três tabelas, conforme é apresentado na figura a seguir. As chaves prim

ETAPA 1 - Apresentação do Desafio Profissional. Você foi contratado recentemente como Analista de Banco de Dados pela "MedLife Clínicas", uma rede ...

UniCesumar

Material

Conteúdos escolhidos para você

30 pág.

exercicios de nosql para estacio

ESTÁCIO EAD

45 pág.

RESUMO - Tópicos de Big Data em Python

ESTÁCIO

Perguntas dessa disciplina

Questão 2 Sem resposta Empresas de e-commerce precisam analisar dados de comportamento de clientes para personalizar ofertas. Para isso, é fundamental

Anhanguera

Pergunta 320 pts Como o PostgreSQL foi um dos primeiros bancos de dados a tratar de questões espaciais, selecionamos ele para construir o banco de dad

UVA

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) A utilização da DQL proporciona aos usuários a capacidade de formu

ENADE – BANCO DE DADOS II 5 Considere um banco de dados relacional formado por três tabelas, conforme é apresentado na figura a seguir. As chaves prim

ETAPA 1 - Apresentação do Desafio Profissional. Você foi contratado recentemente como Analista de Banco de Dados pela "MedLife Clínicas", uma rede ...

UniCesumar

Prévia do material em texto

TEMA 1 – HIVE
Q: O que é o Hive e como ele funciona dentro do ecossistema Hadoop?
E:
· É um Data Warehouse open source com sintaxe parecida com SQL (HiveQL).
· Traduz HiveQL em tarefas MapReduce ou Tez.
· Facilita consultas analíticas complexas (OLAP).
· Usa “schema on read”, adaptando a estrutura dos dados apenas na leitura.
· Armazena metadados em banco relacional (Derby ou MySQL).
· Suporta views, particionamento e funções definidas pelo usuário.
· Limitações: sem update/insert/delete tradicionais, não há transações padrão.
C: O Hive é um sistema de Data Warehouse dentro do Hadoop que traduz comandos parecidos com SQL (HiveQL) em tarefas MapReduce ou Tez. Ele facilita consultas analíticas sobre grandes volumes de dados. Usa “schema on read”, ou seja, os dados são estruturados apenas na leitura, o que o torna ideal para dados semiestruturados. Embora tenha limitações quanto a transações e alterações, ele é poderoso para análise OLAP.
TEMA 2 – INTEGRAÇÃO COM BANCOS RELACIONAIS (SQOOP)
Q: O que é o Sqoop e como ele realiza importações de bancos relacionais para o Hadoop?
E:
· Transfere grandes volumes de dados entre bancos relacionais e Hadoop.
· Usa MapReduce para paralelismo e tolerância a falhas.
· Permite customizações: delimitadores, formatos, número de Mappers etc.
· Suporte a importações incrementais com append ou lastmodified.
· Pode salvar parâmetros como “jobs” para reuso (sqoop-job).
· Integra com Hive diretamente via parâmetro --hive.
C: O Sqoop é uma ferramenta que importa dados de bancos relacionais como MySQL para o Hadoop, usando MapReduce para eficiência. Suporta importações completas ou incrementais, permite personalizar diversos aspectos da operação, e pode jogar os dados direto no Hive. É possível salvar os comandos como jobs para reuso e automação.
TEMA 3 – BANCO DE DADOS NÃO RELACIONAIS (NoSQL)
Q: O que são bancos NoSQL e como eles diferem dos relacionais?
E:
· Renunciam à linguagem SQL tradicional e ao modelo relacional.
· Suportam escalabilidade horizontal (vs. vertical dos relacionais).
· Baseiam-se no Teorema CAP: garantem 2 entre 3 (Consistência, Disponibilidade e Tolerância à Partição).
· Modelos principais: chave-valor, documentos, colunas, grafos.
· Cada modelo tem estruturas e usos específicos.
C: Bancos NoSQL são sistemas de banco de dados não relacionais que priorizam flexibilidade, escalabilidade e performance para grandes volumes de dados. Eles seguem o Teorema CAP e não exigem estrutura rígida como os relacionais. Existem diferentes modelos como chave-valor, documentos, colunas e grafos, cada um com suas vantagens conforme o tipo de dado e aplicação.
Q: O que é o HBase e como ele funciona no Hadoop?
E:
· Banco NoSQL baseado em colunas, projetado sobre o HDFS.
· Usa API Java (CRUD): Get, Put, Scan.
· Fortemente consistente (acesso imediato aos dados escritos).
· Usa RegionServers para distribuir dados em regiões.
· HMaster gerencia os RegionServers, Zookeeper auxilia na coordenação.
C: O HBase é um banco NoSQL baseado em colunas que roda sobre o HDFS. Ele permite leitura e escrita consistente de dados em larga escala. Seus dados são divididos em regiões gerenciadas pelos RegionServers. O HMaster e o Zookeeper garantem o funcionamento e a resiliência do sistema.
TEMA 4 – BANCOS NOSQL EXTERNOS
Q: O que é o Cassandra e como ele se integra com o Hadoop?
E:
· Banco NoSQL baseado em chave-valor, com linguagem CQL.
· Escalável, distribuído, prioriza disponibilidade e tolerância a falhas (consistência eventual).
· Integra com Hadoop, Hive, Pig, Oozie.
· Usa protocolo Gossip para comunicação entre nós (sem nó mestre).
C: O Cassandra é um banco NoSQL distribuído que usa chave-valor e a linguagem CQL. Ele é altamente disponível e tolerante a falhas, abrindo mão da consistência imediata. Usa o protocolo Gossip para manter os nós sincronizados e se integra nativamente com ferramentas do Hadoop como Hive e Pig.
Q: O que é o MongoDB e quais suas características?
E:
· Banco NoSQL baseado em documentos (JSON-like).
· Estrutura flexível, aceita documentos com campos diferentes na mesma coleção.
· Suporta dados embutidos (denormalizados) ou referenciados.
· Usa conjuntos de replicação para alta disponibilidade.
· Pode ser particionado (sharded cluster).
· Integra com Hadoop e possui framework de agregação.
C: O MongoDB é um banco de dados baseado em documentos com estrutura flexível. Ele permite que documentos em uma mesma coleção tenham campos diferentes e oferece replicação e particionamento para escalar e manter a disponibilidade. Suporta modelos embutidos e referenciados e se integra bem com o ecossistema Hadoop.
TEMA 5 – MOTORES DE CONSULTAS SQL
Q: Quais são os principais motores SQL para dados NoSQL e Hadoop?
E:
· Drill: consulta SQL sobre vários formatos (HBase, Hive, MongoDB, arquivos etc.). Usa JSON e roda sem esquema. Distribuído via Drillbit.
· Phoenix: roda sobre HBase, permite SQL com transações ACID e baixa latência. Usa coprocessadores.
· Presto: consulta analítica interativa sobre múltiplas fontes (Hive, MongoDB, PostgreSQL etc.). Usa arquitetura coordenador + trabalhadores.
C: Drill, Phoenix e Presto são motores de consulta SQL voltados para ambientes de Big Data. O Drill permite consultar diferentes fontes sem definir esquemas; o Phoenix traduz SQL para operações no HBase, garantindo transações e baixa latência; o Presto executa SQL distribuído sobre várias fontes ao mesmo tempo, sendo ideal para análises OLAP.
·

QEC Aula 3 BIG DATA

Engenharias

Ferramentas de estudo

Conteúdos escolhidos para você

Introdução a Banco de Dados

editpad-1741642353306

Ingestao semana 2

exercicios de nosql para estacio

RESUMO - Tópicos de Big Data em Python

Perguntas dessa disciplina

Questão 2 Sem resposta Empresas de e-commerce precisam analisar dados de comportamento de clientes para personalizar ofertas. Para isso, é fundamental

Pergunta 320 pts Como o PostgreSQL foi um dos primeiros bancos de dados a tratar de questões espaciais, selecionamos ele para construir o banco de dad

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) A utilização da DQL proporciona aos usuários a capacidade de formu

ENADE – BANCO DE DADOS II 5 Considere um banco de dados relacional formado por três tabelas, conforme é apresentado na figura a seguir. As chaves prim

ETAPA 1 - Apresentação do Desafio Profissional. Você foi contratado recentemente como Analista de Banco de Dados pela "MedLife Clínicas", uma rede ...

Conteúdos escolhidos para você

Introdução a Banco de Dados

editpad-1741642353306

Ingestao semana 2

exercicios de nosql para estacio

RESUMO - Tópicos de Big Data em Python

Perguntas dessa disciplina

Questão 2 Sem resposta Empresas de e-commerce precisam analisar dados de comportamento de clientes para personalizar ofertas. Para isso, é fundamental

Pergunta 320 pts Como o PostgreSQL foi um dos primeiros bancos de dados a tratar de questões espaciais, selecionamos ele para construir o banco de dad

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) A utilização da DQL proporciona aos usuários a capacidade de formu

ENADE – BANCO DE DADOS II 5 Considere um banco de dados relacional formado por três tabelas, conforme é apresentado na figura a seguir. As chaves prim

ETAPA 1 - Apresentação do Desafio Profissional. Você foi contratado recentemente como Analista de Banco de Dados pela "MedLife Clínicas", uma rede ...

Mais conteúdos dessa disciplina