Logo Passei Direto
Buscar

Exercícios Big Data

Ferramentas de estudo

Questões resolvidas

Você trabalha em uma empresa de tecnologia que está avaliando a adoção do Hadoop como parte de sua infraestrutura de Big Data. Sua equipe foi encarregada de analisar as vantagens e desvantagens dessa tecnologia para decidir se ela é a melhor escolha para os novos projetos de processamento de grandes volumes de dados. Ao estudar a arquitetura do Hadoop, você precisa entender como a escalabilidade e a segurança afetam sua implementação prática.
Ao considerar a adoção do Hadoop para projetos de Big Data em sua empresa, quais são os principais aspectos a serem avaliados em relação à escalabilidade e segurança dessa tecnologia?
A O Hadoop oferece escalabilidade horizontal limitada, mas compensa isso com um sistema de segurança robusto e fácil de configurar, garantindo proteção total contra ameaças cibernéticas.
B A escalabilidade do Hadoop permite adicionar mais nós ao cluster de forma eficiente, mas a segurança pode ser comprometida devido à complexidade de configurar controles de acesso e proteção de dados.
C O Hadoop não é projetado para escalar além de um certo limite de dados, mas apresenta mecanismos de segurança avançados que protegem todas as operações realizadas nos clusters.
D A arquitetura Hadoop é escalável, mas para manter a segurança dos dados, é necessário utilizar sistemas externos, uma vez que o Hadoop não oferece suporte nativo para criptografia de dados em repouso.
E A escalabilidade do Hadoop é garantida apenas em clusters de pequeno porte, enquanto a segurança é gerenciada automaticamente por meio de políticas predefinidas no sistema.

Você está trabalhando como administrador de dados em uma empresa que lida com grandes volumes de informações. Recentemente, a empresa decidiu adotar o Hadoop Distributed File System (HDFS) para gerenciar e processar seus dados. No entanto, você também precisa manter sistemas de banco de dados relacionais (RDBMS) como o SQL Server e o MySQL. Para garantir que você utilize cada tecnologia da melhor maneira possível, é crucial entender as principais diferenças entre HDFS e RDBMS.
Quais são as principais diferenças entre HDFS e RDBMS, considerando suas aplicações e estruturas de gerenciamento de dados?
A O HDFS é projetado para armazenar dados em tabelas com relações definidas, enquanto o RDBMS armazena dados em grandes blocos distribuídos sem integridade relacional.
B O HDFS gerencia dados em um ambiente distribuído, sendo ideal para aplicações de Big Data, enquanto o RDBMS é utilizado para gerenciar dados estruturados em um ambiente de arquitetura cliente-servidor.
C O HDFS aplica regras de integridade para relacionar dados em diferentes tabelas, enquanto o RDBMS gerencia dados sem a necessidade de tais regras.
D O HDFS é mais adequado para aplicações de banco de dados tradicionais que exigem alta integridade e velocidade na recuperação de dados, enquanto o RDBMS é ideal para armazenar grandes volumes de dados não estruturados.
E O HDFS é uma substituição direta para RDBMS em todos os cenários de gerenciamento de dados, pois oferece a mesma eficiência e confiabilidade na recuperação de dados.

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Questões resolvidas

Você trabalha em uma empresa de tecnologia que está avaliando a adoção do Hadoop como parte de sua infraestrutura de Big Data. Sua equipe foi encarregada de analisar as vantagens e desvantagens dessa tecnologia para decidir se ela é a melhor escolha para os novos projetos de processamento de grandes volumes de dados. Ao estudar a arquitetura do Hadoop, você precisa entender como a escalabilidade e a segurança afetam sua implementação prática.
Ao considerar a adoção do Hadoop para projetos de Big Data em sua empresa, quais são os principais aspectos a serem avaliados em relação à escalabilidade e segurança dessa tecnologia?
A O Hadoop oferece escalabilidade horizontal limitada, mas compensa isso com um sistema de segurança robusto e fácil de configurar, garantindo proteção total contra ameaças cibernéticas.
B A escalabilidade do Hadoop permite adicionar mais nós ao cluster de forma eficiente, mas a segurança pode ser comprometida devido à complexidade de configurar controles de acesso e proteção de dados.
C O Hadoop não é projetado para escalar além de um certo limite de dados, mas apresenta mecanismos de segurança avançados que protegem todas as operações realizadas nos clusters.
D A arquitetura Hadoop é escalável, mas para manter a segurança dos dados, é necessário utilizar sistemas externos, uma vez que o Hadoop não oferece suporte nativo para criptografia de dados em repouso.
E A escalabilidade do Hadoop é garantida apenas em clusters de pequeno porte, enquanto a segurança é gerenciada automaticamente por meio de políticas predefinidas no sistema.

Você está trabalhando como administrador de dados em uma empresa que lida com grandes volumes de informações. Recentemente, a empresa decidiu adotar o Hadoop Distributed File System (HDFS) para gerenciar e processar seus dados. No entanto, você também precisa manter sistemas de banco de dados relacionais (RDBMS) como o SQL Server e o MySQL. Para garantir que você utilize cada tecnologia da melhor maneira possível, é crucial entender as principais diferenças entre HDFS e RDBMS.
Quais são as principais diferenças entre HDFS e RDBMS, considerando suas aplicações e estruturas de gerenciamento de dados?
A O HDFS é projetado para armazenar dados em tabelas com relações definidas, enquanto o RDBMS armazena dados em grandes blocos distribuídos sem integridade relacional.
B O HDFS gerencia dados em um ambiente distribuído, sendo ideal para aplicações de Big Data, enquanto o RDBMS é utilizado para gerenciar dados estruturados em um ambiente de arquitetura cliente-servidor.
C O HDFS aplica regras de integridade para relacionar dados em diferentes tabelas, enquanto o RDBMS gerencia dados sem a necessidade de tais regras.
D O HDFS é mais adequado para aplicações de banco de dados tradicionais que exigem alta integridade e velocidade na recuperação de dados, enquanto o RDBMS é ideal para armazenar grandes volumes de dados não estruturados.
E O HDFS é uma substituição direta para RDBMS em todos os cenários de gerenciamento de dados, pois oferece a mesma eficiência e confiabilidade na recuperação de dados.

Prévia do material em texto

HADOOP e armazenamento de dados
Desafio 1
Você foi contratado por uma empresa de tecnologia que lida com grandes volumes de dados diariamente. Sua primeira tarefa é configurar um sistema eficiente de armazenamento e processamento desses dados. Ao analisar
as tecnologias disponíveis, você percebe que a empresa utiliza o Hadoop. É importante entender como essa tecnologia funciona para que você possa otimizar o sistema e garantir que os dados sejam processados de forma
eficiente. Como a arquitetura Hadoop, com seu sistema de cluster, possibilita o armazenamento e o processamento eficiente de grandes volumes de dados?
A O Hadoop utiliza uma arquitetura de rede ponto a ponto, onde todos os nós possuem o mesmo papel,
permitindo a distribuição uniforme de dados entre eles.
B A arquitetura Hadoop é baseada em um sistema mestre-escravo, onde o nó mestre coordena as operações e os
nós escravos realizam o processamento e o armazenamento dos dados em paralelo.
C O Hadoop armazena e processa dados através de um sistema de hierarquia de memória, onde os dados mais
acessados são mantidos em cache para processamento rápido.
D A arquitetura Hadoop opera com um único nó central que gerencia todo o processamento, armazenando dados
de forma sequencial em cada nó adicional.
E O Hadoop processa grandes volumes de dados usando uma arquitetura de anel, onde cada nó pode atuar como
mestre e escravo dependendo da tarefa atribuída.
Parabéns! A alternativa B está correta.
Desafio 2
Você trabalha em uma empresa de tecnologia que está avaliando a adoção do Hadoop como parte de sua infraestrutura de Big Data. Sua equipe foi encarregada de analisar as vantagens e desvantagens dessa tecnologia para
decidir se ela é a melhor escolha para os novos projetos de processamento de grandes volumes de dados. Ao estudar a arquitetura do Hadoop, você precisa entender como a escalabilidade e a segurança afetam sua
implementação prática. Ao considerar a adoção do Hadoop para projetos de Big Data em sua empresa, quais são os principais aspectos a serem avaliados em relação à escalabilidade e segurança dessa tecnologia?
A O Hadoop oferece escalabilidade horizontal limitada, mas compensa isso com um sistema de segurança
robusto e fácil de configurar, garantindo proteção total contra ameaças cibernéticas.
B A escalabilidade do Hadoop permite adicionar mais nós ao cluster de forma eficiente, mas a segurança pode
ser comprometida devido à complexidade de configurar controles de acesso e proteção de dados.
C O Hadoop não é projetado para escalar além de um certo limite de dados, mas apresenta mecanismos de
segurança avançados que protegem todas as operações realizadas nos clusters.
D A arquitetura Hadoop é escalável, mas para manter a segurança dos dados, é necessário utilizar sistemas
externos, uma vez que o Hadoop não oferece suporte nativo para criptografia de dados em repouso.
E A escalabilidade do Hadoop é garantida apenas em clusters de pequeno porte, enquanto a segurança é
gerenciada automaticamente por meio de políticas predefinidas no sistema.
Responda
A) O Hadoop utiliza uma arquitetura de rede ponto a ponto: Incorreta. Embora as arquiteturas ponto a ponto
permitam que todos os nós desempenhem o mesmo papel, o Hadoop segue uma arquitetura mestre-escravo, onde
o nó mestre distribui tarefas aos nós escravos, que processam os dados. Esse modelo é fundamental para o
funcionamento eficiente do Hadoop, pois permite a divisão das tarefas em partes menores, processadas em
paralelo, o que não é característico de uma arquitetura ponto a ponto.
 
B) A arquitetura Hadoop é baseada em um sistema mestre-escravo: Correta. O Hadoop implementa um sistema de
cluster que segue a arquitetura mestre-escravo. Nesse sistema, o nó mestre (ou NameNode) é responsável por
gerenciar os metadados e a distribuição das tarefas de processamento entre os nós escravos (ou DataNodes). Esses
nós escravos realizam o processamento e armazenam os dados de forma distribuída. Essa abordagem permite ao
Hadoop lidar com grandes volumes de dados, processando-os de forma paralela e eficiente.
 
C) O Hadoop armazena e processa dados através de um sistema de hierarquia de memória: Incorreta. Embora a
hierarquia de memória seja uma técnica usada em algumas tecnologias de processamento de dados, o Hadoop não
segue esse modelo. O foco do Hadoop está na distribuição e processamento paralelo dos dados através de uma
arquitetura mestre-escravo, e não no uso de cache em hierarquia de memória.
 
D) A arquitetura Hadoop opera com um único nó central: Incorreta. O Hadoop não depende de um único nó
central para gerenciar todo o processamento. Em vez disso, ele distribui o processamento e o armazenamento de
dados entre vários nós escravos, coordenados por um nó mestre. Isso permite a escalabilidade e a eficiência no
processamento de grandes volumes de dados, ao contrário do que seria esperado em um sistema com um único nó
central.
 
E) O Hadoop processa grandes volumes de dados usando uma arquitetura de anel: Incorreta. A arquitetura em
anel é típica de alguns sistemas distribuídos, mas o Hadoop utiliza uma arquitetura mestre-escravo. No sistema
Hadoop, o nó mestre gerencia as tarefas e os nós escravos as executam, o que difere da abordagem onde todos os
nós podem atuar tanto como mestres quanto como escravos.
Para saber mais sobre esse conteúdo, acesse: 
 
Módulo 1:
 
A ARQUITETURA HADOOP
 
“O Hadoop é uma tecnologia de framework de software livre desenvolvida pela Apache Foundation, sendo
aplicado no armazenamento e no processamento de dados de grandes volumes, ou seja, em Big Data. Além da
distribuição livre da Apache, o Hadoop possui outras distribuições, como: [...] a tecnologia Hadoop possui um
sistema de cluster que funciona basicamente como uma arquitetura mestre-escravo. Essa estrutura permite
armazenar e processar grandes volumes de dados em paralelo.”
Parabéns! A alternativa B está correta.
Desafio 3
Você está trabalhando como administrador de dados em uma empresa que lida com grandes volumes de informações. Recentemente, a empresa decidiu adotar o Hadoop Distributed File System (HDFS) para gerenciar e
processar seus dados. No entanto, você também precisa manter sistemas de banco de dados relacionais (RDBMS) como o SQL Server e o MySQL. Para garantir que você utilize cada tecnologia da melhor maneira
possível, é crucial entender as principais diferenças entre HDFS e RDBMS. Quais são as principais diferenças entre HDFS e RDBMS, considerando suas aplicações e estruturas de gerenciamento de dados?
A O HDFS é projetado para armazenar dados em tabelas com relações definidas, enquanto o RDBMS armazena
dados em grandes blocos distribuídos sem integridade relacional.
B O HDFS gerencia dados em um ambiente distribuído, sendo ideal para aplicações de Big Data, enquanto o
RDBMS é utilizado para gerenciar dados estruturados em um ambiente de arquitetura cliente-servidor.
C O HDFS aplica regras de integridade para relacionar dados em diferentes tabelas, enquanto o RDBMS
gerencia dados sem a necessidade de tais regras.
D
O HDFS é mais adequado para aplicações de banco de dados tradicionais que exigem alta integridade e
velocidade na recuperação de dados, enquanto o RDBMS é ideal para armazenar grandes volumes de dados
não estruturados.
E O HDFS é uma substituição direta para RDBMS em todos os cenários de gerenciamento de dados, pois
oferece a mesma eficiência e confiabilidade na recuperação de dados.
Parabéns! A alternativa B está correta.
Responda
A) O Hadoop oferece escalabilidade horizontal limitada, mas compensa isso com um sistema de segurança
robusto: Incorreta. O Hadoop é conhecido por sua alta escalabilidade, especialmente em termos de escalabilidade
horizontal, permitindo que novos nós sejam adicionados ao cluster conforme necessário. No entanto, a segurança
é um desafio, pois o Hadoop não oferece um sistema de segurança robusto e fácil de configurar. A configuração
de controles de acesso e a proteção de dados exigem um esforço significativo e um conhecimentoprofundo da
infraestrutura.
 
B) A escalabilidade do Hadoop permite adicionar mais nós ao cluster de forma eficiente, mas a segurança pode
ser comprometida: Correta. O Hadoop foi projetado para ser altamente escalável, permitindo a adição de novos
nós para processar grandes volumes de dados. No entanto, a segurança é uma área que pode ser desafiadora,
especialmente porque o Hadoop não oferece configurações de segurança prontas para uso. A configuração de
controles de acesso, autenticação e criptografia pode ser complexa e, se não for feita corretamente, pode expor o
sistema a vulnerabilidades.
 
C) O Hadoop não é projetado para escalar além de um certo limite de dados: Incorreta. O Hadoop é projetado
justamente para escalar eficientemente, permitindo o processamento de quantidades massivas de dados.
Entretanto, os mecanismos de segurança no Hadoop são complexos e muitas vezes precisam ser complementados
com soluções externas para garantir a proteção adequada dos dados.
 
D) A arquitetura Hadoop é escalável, mas a segurança dos dados é gerenciada por sistemas externos: Incorreta.
Embora seja verdade que o Hadoop seja altamente escalável, ele oferece suporte nativo para certas funções de
segurança, como autenticação Kerberos e criptografia. No entanto, a configuração dessas funcionalidades não é
trivial, e muitos optam por sistemas adicionais para garantir uma segurança robusta.
 
E) A escalabilidade do Hadoop é garantida apenas em clusters de pequeno porte: Incorreta. O Hadoop é escalável
em clusters de qualquer porte, desde pequenos até extremamente grandes. No entanto, a segurança não é
gerenciada automaticamente; requer configurações manuais cuidadosas e compreensão profunda dos mecanismos
internos do Hadoop.
Para saber mais sobre esse conteúdo, acesse: 
 
Módulo 1:
 
VANTAGENS E DESVANTAGENS DO HADOOP
 
"Como vimos até agora, a arquitetura Hadoop é complexa: utilizá-lo para desenvolver um projeto exige bastante
estudo. Por outro lado, as aplicações de Big Data fazem parte do nosso cotidiano; por isso, precisamos investir na
compreensão das tecnologias para desenvolver soluções. Nesse sentido, vamos analisar as vantagens e as
desvantagens da tecnologia do Hadoop para termos uma visão mais clara da aplicação dessa tecnologia na
resolução de problemas práticos. [...] Escalabilidade: o Hadoop foi projetado desde o início para trabalhar com
grandes volumes de dados. Para isso, os componentes da sua arquitetura lidam com diferentes aspectos do
armazenamento e do processamento de dados distribuídos em diferentes nós da infraestrutura que aplicamos na
solução. [...] Devido à complexidade das alternativas das aplicações Big Data de modo geral, os aspectos
relacionados à segurança são um grande desafio.".
Responda
A) O HDFS é projetado para armazenar dados em tabelas com relações definidas: Incorreta. O HDFS não utiliza
tabelas com relações definidas para o armazenamento de dados. Em vez disso, ele armazena grandes volumes de
dados distribuídos em blocos através de um ambiente distribuído. O RDBMS, por outro lado, é que utiliza tabelas
com relações e regras de integridade para garantir a consistência dos dados.
 
B) O HDFS gerencia dados em um ambiente distribuído: Correta. O HDFS foi desenvolvido para trabalhar com
grandes volumes de dados em um ambiente distribuído, característico das aplicações de Big Data. Ele divide os
dados em blocos distribuídos entre vários nós, o que permite alta escalabilidade e desempenho em operações
massivas de dados. Já o RDBMS é otimizado para gerenciar dados estruturados em um ambiente de arquitetura
cliente-servidor, utilizando tabelas e regras de integridade para assegurar a consistência e a rápida recuperação
dos dados.
 
Desafio 4
Você foi contratado como analista de dados em uma empresa que está expandindo suas operações de Big Data. Durante uma reunião, os gestores discutiram a necessidade de centralizar grandes volumes de dados de
diferentes tipos. Para isso, mencionaram a implementação de um Data Lake. Agora, é sua responsabilidade compreender melhor o que é um Data Lake e como ele pode ser utilizado na prática. O que é um Data Lake e
quais são suas principais características em comparação com os modelos tradicionais de armazenamento de dados, como o data warehouse?
A Um Data Lake é uma ferramenta de análise de dados que organiza informações exclusivamente em tabelas
relacionais para facilitar a consulta por meio de SQL.
B O Data Lake é uma arquitetura de armazenamento que centraliza grandes volumes de dados em seu formato
original, organizados em uma estrutura hierárquica semelhante à dos data warehouses.
C Um Data Lake armazena dados em seu formato original, sejam eles estruturados, semiestruturados ou não
estruturados, utilizando uma arquitetura plana de objetos de armazenamento que facilita consultas eficientes.
D O Data Lake é uma plataforma de visualização de dados que converte automaticamente dados não estruturados
em estruturas hierárquicas para análises complexas.
E Um Data Lake é uma variação dos data warehouses, onde os dados são armazenados de forma estruturada e
categorizada em pastas e arquivos para facilitar o acesso.
Parabéns! A alternativa C está correta.
C) O HDFS aplica regras de integridade para relacionar dados: Incorreta. O HDFS não se concentra em manter
relações e integridade entre dados como os RDBMS fazem. O foco do HDFS é a distribuição e a capacidade de
lidar com grandes volumes de dados de maneira eficiente, sem a necessidade de regras de integridade que são
essenciais em bancos de dados relacionais.
 
D) O HDFS é mais adequado para aplicações de banco de dados tradicionais: Incorreta. O HDFS é projetado
especificamente para aplicações de Big Data e não é adequado para as necessidades de bancos de dados
tradicionais que requerem integridade relacional e recuperação rápida de dados. Os RDBMS são ideais para essas
aplicações, onde a consistência e a integridade dos dados são prioritárias.
 
E) O HDFS é uma substituição direta para RDBMS em todos os cenários: Incorreta. O HDFS não substitui
diretamente os RDBMS em todos os cenários. Enquanto o HDFS é excelente para armazenar grandes volumes de
dados distribuídos em aplicações de Big Data, o RDBMS continua sendo a melhor opção para gerenciar dados
estruturados com requisitos rigorosos de integridade e rapidez na recuperação de dados.
Para saber mais sobre esse conteúdo, acesse: 
 
Módulo 2:
 
DIFERENÇAS ENTRE HDFS E RDBMS
 
"Os RDBMS são sistemas de gerenciamento de banco de dados relacionais. Como exemplos de sistemas
RDBMS, temos o Oracle, o SQL Server da Microsoft, o MySQL e o PostgreSQL. Eles utilizam tabelas para fazer
o armazenamento dos dados e das regras de integridade, que servem para relacionar as tabelas entre si e restringir
as ações que podemos realizar sobre os dados. [...] Todas essas propriedades são fundamentais para um projeto de
banco de dados. Portanto, podemos entender que os objetivos dos RDBMS são armazenar, gerenciar e recuperar
os dados da forma mais rápida e confiável possível em um ambiente de arquitetura cliente-servidor. No caso do
HDFS, os dados estão contextualizados em um ambiente distribuído; devido às características intrínsecas das
aplicações de Big Data, o gerenciamento deles é bem mais complexo. Isso nos mostra que há situações em que é
mais adequado aplicar um modelo do que o outro, ou seja, o HDFS não é uma substituição do RDBMS.".
Responda
A) Um Data Lake é uma ferramenta de análise de dados que organiza informações exclusivamente em tabelas
relacionais: Incorreta. O Data Lake não se limita a tabelas relacionais. Na verdade, ele armazena dados em seu
formato original, sem a necessidade de organização prévia em tabelas, o que o diferencia dos sistemas tradicionais
de gerenciamento de banco de dados, como o RDBMS.
 
B) O Data Lake é uma arquitetura de armazenamento que centraliza grandes volumes de dados em uma estrutura
hierárquica: Incorreta. Embora o Data Lake centralize grandes volumes de dados, sua arquitetura não é
hierárquica,como no caso dos data warehouses. Em vez disso, o Data Lake utiliza uma arquitetura plana, na qual
os dados são armazenados como objetos, permitindo uma maior flexibilidade no armazenamento e na consulta de
dados.
 
C) Um Data Lake armazena dados em seu formato original: Correta. O Data Lake é projetado para armazenar
grandes volumes de dados em seu formato bruto, sejam eles estruturados, semiestruturados ou não estruturados.
Utilizando uma arquitetura plana com objetos de armazenamento, o Data Lake permite que as consultas sejam
realizadas de maneira eficiente, sem a necessidade de transformar os dados antes do armazenamento,
diferentemente do que ocorre em um data warehouse.
 
D) O Data Lake é uma plataforma de visualização de dados que converte dados não estruturados: Incorreta. O
Data Lake não é uma plataforma de visualização nem converte automaticamente dados não estruturados em
formatos hierárquicos. Ele simplesmente armazena dados em seu formato original, e a análise é feita
posteriormente, conforme a necessidade.
 
E) Um Data Lake é uma variação dos data warehouses, onde os dados são armazenados de forma estruturada:
Incorreta. Diferentemente dos data warehouses, que estruturam os dados em pastas e arquivos, o Data Lake
armazena os dados de forma plana, em seu formato original. Essa abordagem permite uma maior flexibilidade e
escalabilidade, especialmente em ambientes de Big Data.
Para saber mais sobre esse conteúdo, acesse: 
 
Módulo 3:
 
INTRODUÇÃO E CONTEXTUALIZAÇÃO
 
“O Data Lake – que, em português, seria traduzido como 'lago de dados' – é um local da aplicação de Big Data
que centraliza um grande volume de dados no formato original, sejam eles dados estruturados, não estruturados e
até semiestruturados. Esses dados são armazenados em objetos – conhecidos como object storage – que contêm
tags de metadados e um identificador único. Essa estrutura de entidade dos dados permite que possamos analisá-
los e buscar por padrões, pois as consultas são realizadas com bastante eficiência. Tais objetos de armazenamento
podem ser consultados pelas demais aplicações de Big Data. É natural compararmos os aspectos da arquitetura do
Data Lake com os modelos dos bancos de dados tradicionais chamados de data warehouse (armazém de dados). A
arquitetura do data warehouse é hierárquica, pois os dados são armazenados em arquivos ou pastas. Já o Data
Desafio 5
Você está participando de uma reunião estratégica na empresa em que trabalha, onde o time de tecnologia está avaliando a implementação de um Data Lake para melhorar o armazenamento e a análise de grandes volumes
de dados. Durante a discussão, foram levantadas algumas características do Data Lake, e cabe a você identificar quais dessas características são verdadeiras. Sobre o Data Lake, considere as seguintes afirmações:
 
I. O Data Lake armazena dados em seu formato original, sejam eles estruturados, semiestruturados ou não estruturados.
 
II. A arquitetura do Data Lake é hierárquica, onde os dados são organizados em arquivos e pastas para facilitar a recuperação.
 
III. O Data Lake utiliza objetos de armazenamento que contêm tags de metadados e um identificador único, permitindo consultas eficientes.
 
Quais das afirmações acima estão corretas?
A Apenas a afirmativa I está correta.
B Apenas as afirmativas I e III estão corretas.
C Apenas a afirmativa II está correta.
D Apenas as afirmativas II e III estão corretas.
E Todas as afirmativas estão corretas.
Parabéns! A alternativa B está correta.
Lake usa uma arquitetura plana por meio dos objetos de armazenamento de dados. De acordo com Singh e Ahmad
(2019), os benefícios de seu uso são: […]”
Responda
I. O Data Lake armazena dados em seu formato original, sejam eles estruturados, semiestruturados ou não
estruturados: Correta. Um dos principais atributos do Data Lake é sua capacidade de armazenar dados em seu
estado bruto, sem a necessidade de transformação prévia. Isso inclui dados de diferentes tipos e formatos, o que o
torna uma solução flexível e escalável para grandes volumes de dados.
 
II. A arquitetura do Data Lake é hierárquica, onde os dados são organizados em arquivos e pastas para facilitar a
recuperação: Incorreta. Diferente dos data warehouses, que utilizam uma estrutura hierárquica para organizar
dados em arquivos e pastas, o Data Lake adota uma arquitetura plana. Isso significa que os dados são
armazenados em objetos, e não em uma estrutura rígida, permitindo uma maior flexibilidade e eficiência nas
consultas.
 
III. O Data Lake utiliza objetos de armazenamento que contêm tags de metadados e um identificador único,
permitindo consultas eficientes: Correta. No Data Lake, os dados são armazenados em objetos que são
identificados unicamente e acompanhados por tags de metadados. Essas características facilitam a organização e a
recuperação dos dados, tornando as consultas mais rápidas e eficientes.
Para saber mais sobre esse conteúdo, acesse: 
 
Módulo 3:
 
INTRODUÇÃO E CONTEXTUALIZAÇÃO
 
“O Data Lake – que, em português, seria traduzido como 'lago de dados' – é um local da aplicação de Big Data
que centraliza um grande volume de dados no formato original, sejam eles dados estruturados, não estruturados e
até semiestruturados. Esses dados são armazenados em objetos – conhecidos como object storage – que contêm
tags de metadados e um identificador único. Essa estrutura de entidade dos dados permite que possamos analisá-
los e buscar por padrões, pois as consultas são realizadas com bastante eficiência. Tais objetos de armazenamento
podem ser consultados pelas demais aplicações de Big Data. É natural compararmos os aspectos da arquitetura do
Data Lake com os modelos dos bancos de dados tradicionais chamados de data warehouse (armazém de dados). A
arquitetura do data warehouse é hierárquica, pois os dados são armazenados em arquivos ou pastas. Já o Data
Lake usa uma arquitetura plana por meio dos objetos de armazenamento de dados. De acordo com Singh e Ahmad
(2019), os benefícios de seu uso são: […]”

Mais conteúdos dessa disciplina