Buscar

Banco de Dados para Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

BANCO DE DAOS PARA 
BIG DATA
2020
Prof. Geomar André Schreiner
GABARITO DAS 
AUTOATIVIDADES
2
BANCO DE DAOS PARA BIG DATA
UNIDADE 1
TÓPICO 1 
1 Considere as seguintes características do projeto de um Banco de Dados:
I- Alta disponibilidade e esquema rígido.
II- Relaxamento das propriedades ACID aliado à alta disponibilidade.
III- Linguagem de consulta padrão.
IV- Escalonamento horizontal.
Sobre as características que os BDs NoSQL possuem, assinale a alternativa 
CORRETA:
a) ( ) I, apenas.
b) ( ) III e IV, apenas.
c) ( ) II e I, apenas.
d) (x) I, II e IV, apenas.
2 Disserte sobre os motivos que culminaram com o surgimento dos BDs 
NoSQL e quais as estruturas de dados que esses BDs utilizam.
R.: É esperado que o acadêmico disserte sobre os problemas do emprego dos 
bancos de dados relacionais, principalmente no que se refere à escalabilidade 
dos dados e à necessidade e custo de se utilizar o escalonamento vertical. 
Considerando as estruturas, devem ser abordados os tipos de bancos de da-
dos NoSQL: orientados a grafos, orientado a colunas, orientado a documentos 
e orientado a chave-valor.
3 O surgimento dos BDs NoSQL diminui de alguma forma a relevância 
dos BDs relacionais?
R.: Espera-se que o acadêmico disserte o fato de que, apesar do advento dos ban-
cos de dados NoSQL, os bancos de dados relacionais ainda são muito utilizados.
TÓPICO 2
1 Cite as principais características do modelo NoSQL chave-valor expli-
cando como o BD dá suporte a elas.
3
BANCO DE DAOS PARA BIG DATA
R.: Espera-se que o acadêmico descreva, de modo geral, o funcionamento de 
um banco de dados chave-valor.
2 Descreva uma aplicação real para um BD chave-valor. Defina em qual 
problema você usaria esse tipo de BD e argumente sobre o motivo de 
sua decisão.
R.: Espera-se que o acadêmico disserte sobre alguma aplicação que precisa 
retornar consultas rápidas dando suporte a vários usuários. 
TÓPICO 3
1 Elenque os pontos positivos e negativos da utilização dos BDs Orien-
tados a Documentos, explicando sua visão do motivo pelo qual esse é 
um ponto positivo ou negativo do modelo de dados.
R: Espera-se que o educando disserte brevemente sobre as características 
dos BDs orientados a documentos apresentando quais considera como pontos 
positivos e quais são pontos negativos.
2 Compare três características do modelo orientado a documento com 
características do modelo chave-valor.
R: Espera-se que o educando apresente as características do modelo NoSQL 
chave-valor e comparar com características do BDs NoSQL orientados a docu-
mentos. Características que devem aparecer são a capacidade de consulta e o 
modelo de dados. A ideia é que o educando demonstre que entende quando é 
melhor utilizar um modelo de dados ou outro.
3 Imagine que estamos montando uma aplicação que envolve dados 
oriundos de diferentes tipos de sensores. Alguns sensores retornam 
informações referentes à temperatura, outros à umidade do ar, outros 
à intensidade do vento, mas todos consideram local, data e hora da 
coleta das informações. Justifique se você considera ou não essa uma 
aplicação em que deve ser utilizado o modelo orientado a documentos 
para persistência dos dados.
R: O educando deve fomentar sua decisão em usar ou não um BD NoSQL orien-
tado a documento. A ideia que o educando escreva que irá utilizar os BDs pela 
4
BANCO DE DAOS PARA BIG DATA
sua estrutura interna, e flexibilidade que essa estrutura proporciona. Além dis-
so, também são validos argumentos que considerem sua linguagem de consulta 
já que outros modelos de dados possuem linguagens mais limitadas.
TÓPICO 4
1 Com base nos conhecimentos discutidos neste tópico apresente as 
principais características do modelo orientado a colunas.
R: Espera-se que o educando seja capaz de listar as principais características 
deste modelo de dados defendendo o porquê de cada uma destas caracterís-
ticas serem um ponto positivo.
2 Já que conhecemos afundo o modelo de dados orientado a documen-
tos e o modelo orientado a colunas. Descreva as principais diferenças 
entre esses dois modelos e quais as implicações técnicas no uso de 
cada um deles.
R: É esperado que o educando liste as principais características de ambos os 
modelos de dados e as compare. Devem constar as características básicas de 
cada modelo de dados: estrutura de organização e flexibilidade do esquema. 
Além disso devem ser colocadas as características de consulta, importante 
citar que a linguagem de sistemas colunares é direcionada a chave enquanto 
ao modelo orientado a documentos é mais flexível e permite consultas em 
qualquer nível da hierarquia.
TÓPICO 5
1 Considerando todos os modelos de dados que conhecemos no decor-
rer da unidade, qual a principal diferença no armazenamento do mode-
lo orientado a grafos para os demais? Justifique.
R: Espera-se que o educando disserte sobre as principais diferenças do mo-
delo de grafos perante aos demais. Na resposta deve constar algum relato 
sobre a organização dos dados em um grafo e o armazenamento baseado nas 
5
BANCO DE DAOS PARA BIG DATA
arestas. Além disso, a resposta deve conter a aplicabilidade deste modelo de 
dados em modelar relacionamentos entre informações.
2 Modelos de dados orientados a grafos são otimizados para lidar com 
dados conectados. Como sistemas de recomendação podem se benefi-
ciar da estrutura desses BDs?
R: O educando deve dissertar sobre as características básicas de um modelo 
de recomendação. A resposta deve conter argumentos como a facilidade de 
representar os relacionamentos de pessoas com produtos (filmes, calçados, 
etc), e realizar consultas como: buscar os produtos que meus amigos gosta-
ram ou mesmo buscar os filmes que meus amigos gostaram.
6
BANCO DE DAOS PARA BIG DATA
UNIDADE 2
TÓPICO 1
1 Big data é uma expressão relativamente nova. Com o avanço da Tec-
nologia da Informação e Comunicação (TIC), lidar com quantidades enor-
mes de dados tem se tornado algo comum em empresas e instituições 
públicas. Sobre o conceito de big data, qual é a alternativa correta?
a) ( ) É uma forma de lidar com dados em formato binário.
b) (x) Trata-se da descoberta de informação baseada em dados da ins-
tituição ou da empresa.
c) ( ) É uma metodologia na qual a quantidade de dados é o mais importante.
d) ( ) É uma expressão que descreve grande volume de dados estruturados.
e) ( ) O big data pode ser analisado para obter dados baseados em informa-
ções estratégicas de uma empresa.
2 Existem diferentes tipos de dados: estruturados, não estruturados e 
semiestruturados. Sobre os tipos de dados, analise as afirmações a seguir:
I- Dados tratados e prontos para uso
II- Dados de arquivo de texto
III- Arquivos de imagem, vídeo e áudio
IV- Arquivo de tipo heterogêneo
V- Dados de um formulário de cadastro 
Quais afirmativas contêm dados do tipo estruturado?
a) ( ) I e II.
b) ( ) II e II
c) ( ) I, II e III
d) ( ) II e IV.
e) (x) I e V.
3 O particionamento de dados é a forma de fragmentar ou particionar 
os dados em diferentes meios físicos. A forma de armazenamento de 
dados utilizando um formato comumente aceito em se tratanto de big 
data é o que se encontra em qual alternativa?
a) (x) Sistemas distribuídos.
b) ( ) Sistema particionado.
c) ( ) Sistema gerenciador de banco de dados.
7
BANCO DE DAOS PARA BIG DATA
TÓPICO 2
1 Quando se deseja criar aplicações utilizando o Hadoop MapReduce é 
necessário usar interfaces específicas. Assinale a alternativa que re-
presenta apenas interfaces de aplicações Hadoop MapReduce:
a) ( ) Job, Counter, JavaRDD e JavaPairRDD.
b) ( ) Mapper, JavaRDD, Reduce e Counter.
c) ( ) Job, Counter, Partitioner e JavaRDD.
d) (x) Mapper, Reducer, Partitioner e Counter.
e) ( ) Partitioner, JavaPairRDD, Job e Reducer.
2 Uma aplicação que utilize o Apache Spark para solucionar um desafio 
de Big Data tem operações de transformação e de ação. Assinale a al-
ternativa que representa apenas funções de transformação:
d) ( ) Sistemas computacionais.
e) ( ) Sistema de gestãode servidores.
4 Mannino (2014) exemplifica o uso do processamento em bancos de 
dados paralelos com a necessidade da junção de grandes tabelas em 
bancos de dados relacionais. O autor ainda apresenta dois importantes 
fatores que fazem com que o processamento em servidores de bancos 
de dados de maneira paralela: scaleup e speedup. Sobre essas duas 
palavras, analise as afirmações a seguir:
I- Envolve a quantidade de trabalhos que podem ser realizados
II- Trata do aumento da capacidade computacional
III- Tem a ver com tempo de resposta de uma transação com dados
IV- Tem a ver com a escalabilidade
Das afirmações acima, quais afirmativas estão corretas no que se refere ao 
scaleup?
a) ( ) I e II.
b) ( ) II e III.
c) ( ) I e IV.
d) ( ) I, II e III.
e) (x) I, II e IV.
8
BANCO DE DAOS PARA BIG DATA
a) ( ) Map, count e saveAsTextFile.
b) (x) Map, groupByKey e filter.
c) ( ) Count, groupByKey e union.
d) ( ) Filter, saveAsTextFile e join.
e) ( ) Join, collect e intersection.
3 Com o MapReduce é possível processar um conjunto de dados muito 
grande em paralelo e de forma distribuída. Assinale a alternativa que 
representa a afirmação verdadeira sobre as características e o funcio-
namento do MapReduce.
a) ( ) O MapReduce pode processar conjuntos de dados que chegam a até 
alguns gigabytes de dados.
b) ( ) Para utilizar o MapReduce é necessário utilizar servidores poderosos, 
pouco acessíveis aos usuários comuns.
c) (x) Com o MapReduce é possível distribuir os dados em clusters que 
podem chegar a milhares de nós.
d) ( ) Mesmo com o MapReduce é necessário cuidar de problemas como to-
lerância a falhas e confiabilidade.
e) ( ) No MapReduce o agendamento e o monitoramento de tarefas são de 
total responsabilidade do programador.
TÓPICO 3
1 O Spark Streaming fornece uma abstração de alto nível para repre-
sentar um fluxo contínuo de dados. Marque a opção que representa a 
abstração de alto nível fornecida pelo Spark Streaming.
a) (x) DStream.
b) ( ) RDD.
c) ( ) Flatmap.
d) ( ) Receiver.
e) ( ) Reduce.
2 O Spark Streaming e o Spark Structured Streaming são frameworks 
para lidar com fluxos contínuos de dados em tempo real, à medida que 
os dados chegam. Marque a opção correta a respeito da diferença entre 
o Spark Streaming e o Spark Structured Streaming.
9
BANCO DE DAOS PARA BIG DATA
a) ( ) Enquanto o Spark Streaming utiliza as APIs Dataframe e Dataset, que 
internamente funcionam com RDDS, o Structured Streaming utiliza API 
DStream.
b) ( ) RDDs do Spark são mais otimizados do que os Dataframes do Structu-
red Stream quando se trata de processamento.
c) ( ) Ambos apresentam tratamento a falhas, embora o Spark Streaming 
utilize duas condições a mais e seja mais completo para tratar falhas.
d) (x) Para armazenar os resultados, o Spark Streaming utiliza o con-
ceito de microlotes, e o Structured Streaming atualiza uma tabe-
la de resultados.
e) ( ) O Structured Streaming só controla o tempo de ingestão do dado, en-
quanto o Spark Streaming suporta controle do tempo com base no ho-
rário de acontecimentos.
3 O Spark Streaming é considerado um framework que torna simples 
a criação de aplicações em fluxos de dados. Marque a opção que repre-
senta uma característica do Spark Streaming.
a) ( ) Ingestão de única fonte.
b) ( ) Sem tolerância a falhas.
c) (x) É facilmente escalável.
d) ( ) Apresenta alta latência.
e) ( ) Não processa lotes.
4 Para criar uma aplicação utilizando o Spark Streaming, é necessário 
seguir algumas etapas, sendo uma delas a criação de objetos de tipos 
específicos. Marque a opção que representa o tipo do objeto em que é 
configurado o local de execução da aplicação, o número de threads e o 
nome da aplicação.
a) ( ) JavaStreamingContext.
b) (x) SparkConf.
c) ( ) JavaReceiverInputDStream.
d) ( ) JavaDStream.
e) ( ) JavaPairDStream.
TÓPICO 4
1 Sabe-se que, independente de qual seja, as formas de armazenamen-
to de dados devem ser capazes de gravar, armazenar e permitir a leitu-
ra de informações. Entretanto, quando se trata de um grande volume 
10
BANCO DE DAOS PARA BIG DATA
de dados, apenas isso não é o suficiente. É necessário que sejam cober-
tos pelo menos outros três pontos cruciais para a manipulação de big 
data. Quais são eles?
a) ( ) Tamanho, volume e preço.
b) ( ) Volume, variedade e tamanho.
c) ( ) Velocidade, rapidez e volume.
d) (x) Volume, variedade e velocidade.
e) ( ) Volume, variedade e preço.
2 Cada framework de armazenamento guarda os dados em um deter-
minado formato, de acordo com a arquitetura para a qual foi projetado. 
Esses dados podem ser armazenados em forma de arquivo, bloco ou 
objeto. Qual é a característica de um "objeto"?
a) (x) Possuir metadado e dado.
b) ( ) Ser dividido em diferentes partes de tamanhos iguais.
c) ( ) Estar dentro de pastas.
d) ( ) Ter tamanho inferior a 1 GB.
e) ( ) Ter tamanho superior a 60 GB.
3 O armazenamento em nuvem vem ganhando cada vez mais espaço. 
Os serviços prestados pela Amazon (S3), Microsoft (Azure) e Google 
(Cloud Storage) são alguns dos principais do mercado. Entre eles exis-
tem muitas coisas em comum, mas um se distingue principalmente por:
a) ( ) Preço.
b) ( ) Elasticidade.
c) (x) Abordagem de armazenamento.
d) ( ) Quantidade de disponibilidade.
e) ( ) Durabilidade.
11
BANCO DE DAOS PARA BIG DATA
UNIDADE 3
TÓPICO 1
1 Dentro de uma empresa existem dados sensíveis que requerem um 
maior cuidado de quem tem acesso e pode manipulá-los. Os sistemas 
de gerenciamento de identidade e acesso armazenam informações so-
bre as pessoas de uma empresa (nome, cargo, função e nível de acesso) 
e também sobre os dados (onde estão contidos, quais flags têm, qual 
o tipo de dado, entre outros), juntamente com as regras que regem o 
acesso a esses recursos.
Você trabalha como analista de dados em uma empresa que desenvolve 
softwares relacionados à área de gestão de pessoas. A empresa está 
desenvolvendo uma nova versão do software, e você foi convidado a 
ajudar na escolha de um banco de dados NoSQL para esta solução.
Levando em consideração que o acesso a esse tipo de documento deve 
ser rápido e garantir que o usuário tenha seguido todas as regras de-
terminadas, qual seria o melhor tipo de sistema de banco de dados en-
tre documento, chave-valor, grafos e colunas para essa situação?
R.: O melhor sistema seria o de banco de dados orientado a grafos. A justifi-
cativa para este modelo é que além de armazenar estruturas complexas, é 
capaz de suportar estruturas hierárquicas e não hierárquicas entre os dados, 
além de percorrer milhares de relacionamentos em um curto espaço de tempo 
e realizar as consultas em diferentes “direções”, sendo possível buscar não 
só a quais recursos um usuário tem acesso, mas também quais usuários têm 
acesso a um determinado recurso.
2 Os bancos de dados não relacionais abrangem inúmeras soluções de ar-
mazenamento que não utilizam apenas SQL, sendo representados prin-
cipalmente por quatro tipos. Quanto a esses tipos, é correto afirmar que: 
a) ( ) O modelo de documento é um modelo estruturado em que cada campo 
tem um tipo de valor fixo.
b) ( ) O modelo de chave-valor é aquele em que há uma chave (senha para 
liberar cada conteúdo.
c) (x) O modelo de grafos é utilizado principalmente quando há a ne-
cessidade de identificar uma conectividade entre os dados.
d) ( ) O modelo de colunas é totalmente não estruturado e só pode ser utili-
zado para dados desse tipo.
12
BANCO DE DAOS PARA BIG DATA
e) ( ) O modelo de grafos é aquele em que gráficos podem ser armazenados 
e não têm nenhuma conectividade de documentos.
3 CouchDB é um sistema de banco de dados muito utilizado para aplica-
ções on-line em diferentes dispositivos. Isso ocorre porque:
a) ( ) Embora pago, o CouchDB é acessível e possível de desenvolver em 
diferentes plataformas.
b) ( ) Para acessar em diferentes computadores é necessário utilizar um dis-
positivo como pen drive para ter acesso aos dados.
c ) ( ) É possível fazer manualmente a sincronização sempreque fizer uma 
alteração nos dados, acessando os dispositivos um a um.
d) (x) A replicação é bidirecional e há um controle de alteração de ar-
quivos para garantir que não haja conflito de versões.
e) ( ) Na verdade, não é possível fazer a sincronização entre diferentes dis-
positivos.
4 MongoDb é o banco de dados NoSQL mais utilizado do mundo. Sobre 
ele, é possível afirmar que:
a) (x) É um banco orientado a documentos.
b) ( ) Suporta apenas dados estruturados.
c) ( ) Não agrupa os dados de nenhuma forma.
d) ( ) É orientado a grafos.
5 Para que um banco de dados seja mantido, é necessário que seja pos-
sível realizar quatro funções básicas. Quais são elas? 
a) ( ) Copiar, colar, recortar e apagar.
b) (x) Criar, consultar, atualizar e apagar.
c) ( ) Apagar, destruir, escrever e copiar.
d) ( ) Clonar, atualizar, resetar e apagar.
TÓPICO 2
1 Empresas de todos os tamanhos estão adotando a rápida moderni-
zação de aplicativos voltados para o usuário como parte de uma estra-
tégia de transformação digital. A infraestrutura de banco de dados re-
lacional, de que esses aplicativos dependem, repentinamente precisa 
13
BANCO DE DAOS PARA BIG DATA
suportar tamanhos de dados e volumes de transações muito maiores 
do que o planejado inicialmente. Um SGBD monolítico pode ficar rapida-
mente sobrecarregado em um cenário de big data.
Suponha que a empresa em que você trabalha tem máquinas que che-
gam a armazenar até 2 milhões de registros de dados de clientes. Com 
esse aumento repentino, o SGBD está atingindo um ponto de interrup-
ção e, provavelmente, ultrapassará 2,5 milhões de usuários em breve. 
Assim, a empresa precisa de uma solução que trate o problema do sur-
gimento de um grande conjunto de dados.
Como profissional de dados, indique ao menos uma solução para que as 
consultas de dados e a sobrecarga sobre os servidores seja resolvida, 
mantendo os dados acessíveis e seguros.
R.: Nesse cenário, existem boas possibilidades diante do grande volume de 
dados.
A primeira é dividir o banco de dados em dois. A princípio, cada novo banco de 
dados teria parte dos registros, tendo ambos 1 milhão de registros, por exem-
plo. Uma vez que cada um tenha a capacidade de 2 milhões de registros (como 
o primeiro banco tinha), isso implica a expansão da capacidade de armazena-
mento de 2 para 4 milhões de registros, garantindo bom tempo de uso.
Outra possibilidade é a migração dos dados para um banco de dados distri-
buído, por meio da clusterização. Cada nó do cluster fica responsável por ar-
mazenar parte dos dados, o que distribui a carga de consultas entre cada nó, 
deixando os dados em partições menores, reduzindo também o tempo de res-
posta em cada consulta aos dados.
Mais uma possibilidade seria a migração dos dados para um sistema de ar-
quivos distribuído como o HDFS. Ele faz parte do ecossistema Hadoop e, em 
conjunto com algum banco de dados NoSQL, como o Hive ou HBase (ambos 
sob licença da fundação Apache), pode ser utilizado para armazenar os dados 
em cluster. Assim, com os dados armazenados em um banco que se adapte 
a dados não estruturados, um indexador, como o ElasticSearch ou o Apache 
Solr, permite aceleração nas consultas de dados mais críticos.
2 Um dos maiores desafios em sistemas de armazenamento de dados é 
a escalabilidade: a capacidade de crescimento de maneira escalar. Esse 
é um dos problemas mais comuns e importantes que toda empresa en-
frenta. Lida-se com negócios em crescimento, causando armazenamen-
to exponencial de dados, com necessidade e grande demanda de dispo-
nibilidade deles. Em termos de dados e sistemas, analise as afirmações 
a seguir sobre escalabilidade:
I- Característica de um sistema que descreve sua capacidade de lidar e exe-
cutar bem sob aumento ou expansão.
14
BANCO DE DAOS PARA BIG DATA
II- Capacidade de lidar com crescimento sem ser prejudicada por sua estrutu-
ra ou recursos disponíveis.
III- Possibilidade de atender a diversas demandas ao mesmo tempo.
IV- Está diretamente ligada a bancos de dados relacionais.
Está correto o que se afirma em:
a) ( ) I e II, apenas.
b) ( ) I e III, apenas.
c) ( ) II, III e IV.
d) (x) I, II e III.
3 Sharding é uma arquitetura de bancos de dados relativamente nova. 
Considerada revolucionária por profissionais da área, tem sido adotada 
por desenvolvedores e equipes responsáveis por projetos que lidam com 
dados de variados tipos. Sobre o conceito de sharding, pode-se afirmar: 
a) (x) Define uma abordagem acessível para escala horizontal dos dados.
b) ( ) A arquitetura do sharding é semelhante à arquitetura tradicional do 
banco de dados em seus principais aspectos.
c) ( ) Com o sharding, os servidores de banco de dados são ampliados, au-
mentando o número de máquinas em um datacenter.
d) ( ) O sharding envolve dividir os dados em dois ou mais blocos menores, 
chamados clusters lógicos.
4 Diferentes tipos de bancos de dados usam sharding como forma de 
oferecer suporte a implantações com conjuntos de dados muito gran-
des e operações de alto rendimento. Os sistemas de banco de dados 
com grandes conjuntos de dados ou aplicativos de alto rendimento po-
dem desafiar a capacidade de um único servidor. Sharding pode ser 
uma alternativa para um conhecido método de aceleração de consultas 
a bancos de dados. Esse método é conhecido como:
a) ( ) Chave primária.
b) ( ) Chave estrangeira.
c) (x) Índices.
d) ( ) NoSQL.
e) ( ) shard keys.
5 Cluster é um termo na língua inglesa que pode ser traduzido como 
“aglomerar” ou “aglomeração”. Em computação, é o termo que pode 
definir um sistema que junta vários computadores em comum, a fim de 
transformar seu conjunto em uma única máquina com a soma de todas 
as capacidades reunidas. Sobre clusters, avalie as afirmações a seguir:
15
BANCO DE DAOS PARA BIG DATA
I- Requer o uso de supercomputadores em sua composição.
II- Ao unir vários computadores, é simulado um supercomputador.
III- Cada computador em um cluster é chamado de node ou nó.
IV- O computador principal é chamado de node master .
Sendo assim, é correto o que se afirma em:
a) ( ) I, apenas
b) ( ) I e II, apenas
c) ( ) II, III e IV.
d) ( ) I, III e IV.
e) ( ) I, II, III e IV.
TÓPICO 3
1 Quando um aplicativo é desenvolvido, há uma estrutura de bancos 
de dados por trás dele com um tamanho e configurações predefinidos 
inicialmente. Com o grande fluxo de informações na Internet, o cenário 
de aplicações digitais pode mudar do dia para a noite, e aquele aplica-
tivo pouco utilizado pode começar a ter mais usuários e um tráfego de 
dados muito maior do que, até aquele momento, pode suportar. Consi-
dere a seguinte situação:
Você trabalha na empresa que desenvolveu e administra um aplicativo, 
e lhe foi atribuída a função de realizar o escalonamento do banco de 
dados por trás dele. Algumas pessoas da equipe acham que você deve 
escalonar horizontalmente, enquanto outras acham que o escalonamen-
to vertical é melhor. Veja, a seguir, mais informações sobre o aplicativo.
FONTE: O Autor
16
BANCO DE DAOS PARA BIG DATA
R.: a) Levando em consideração a população mundial, mesmo com a restrição 
de idade, o número potencial de usuários é muito alto, podendo crescer rapi-
damente ao longo do tempo. Nesse ponto, utilizar o sharding seria uma vanta-
gem, já que pode ser mais fácil fragmentar dados do que enfrentar a logística 
de comprar novas máquinas, configurá-las e integrá-las.
b) A desvantagem é que realizar esse método aumenta a complexidade do 
banco, já que é necessário acessar informações de diferentes servidores para 
encontrar usuários que "dão match" em determinada busca, mas que não ne-
cessariamente estão no mesmo bloco de dados.
Por exemplo: os dados podem ser agrupados por idade em uma escala de 10 
em 10 anos, mas a pessoa X de 19 anos quer encontrar alguém que seja 15 
anos mais velho, então será preciso acessar o Bloco 1 (18-27 anos) e o Bloco 
2 (28-37 anos).
2 O particionamento horizontal de um banco de dados (ou shardind) é 
realizado utilizando estruturas que permitem aidentificação de cada 
partição. Quanto a essas, as três mais comuns são:
a) ( ) Chave, hash e hash consistente.
b) ( ) Hash, zona e intervalo.
c) (x) Hash, intervalo e diretório.
d) ( ) Chave, intervalo e faixas.
e) ( ) Intervalo, zona e localização.
3 O particionamento de dados está intimamente ligado à replicação. 
Quantos a esses dois processos, é verdade que:
a) ( ) Apenas o conceito está associado, mas na prática não há ligação entre 
eles.
b) ( ) Apesar de terem nomes distintos, significam a mesma coisa.
c) ( ) Se a replicação não ocorrer, não há nenhum prejuízo para o sistema.
d) (x) A integração do sharding com a replicação promove a alta dispo-
nibilidade.
e) ( ) A utilização do sharding torna o processo de replicação desnecessário.
4 O Apache Cassandra utiliza uma estrutura de hash consistente para 
particionar os dados. Quanto a essa estrutura, escolha a alternativa 
correta:
a) ( ) É organizado em uma estrutura visualizada como um cubo.
b) ( ) Acaba gerando alta movimentação de dados.
c) ( ) É organizado em uma estrutura visualizada como uma estrela.
d) ( ) No particionamento do Cassandra, o número de tokens é limitado a 100.
e) (x) É organizado em uma estrutura visualizada como um anel.
17
BANCO DE DAOS PARA BIG DATA
5 Para realizar o sharding, o MongoDB necessita de uma estrutura míni-
ma com três componentes: shards, roteadores de consulta e servidores 
de configuração. Quanto a esses componentes, é verdade que:
a) (x) Os roteadores de consulta são a interface entre o aplicativo 
cliente e os shards propriamente ditos.
b) ( ) Os roteadores de consulta utilizam informações fornecidas pelos pró-
prios shards.
c) ( ) Os servidores de configuração armazenam os dados e metadados de 
forma conjunta.
d) ( ) Os shards armazenam metadados dos dados que estão nos servidores.
e) ( ) Os shards armazenam unicamente o dado bruto não particionado.

Outros materiais