Exercícios Big Data

ESTÁCIO

Monique Praciano

em 13/10/2025

Questões resolvidas

Você foi contratado por uma empresa de tecnologia que lida com grandes volumes de dados diariamente. Sua primeira tarefa é configurar um sistema eficiente de armazenamento e processamento desses dados. Ao analisar as tecnologias disponíveis, você percebe que a empresa utiliza o Hadoop. É importante entender como essa tecnologia funciona para que você possa otimizar o sistema e garantir que os dados sejam processados de forma eficiente.
Como a arquitetura Hadoop, com seu sistema de cluster, possibilita o armazenamento e o processamento eficiente de grandes volumes de dados?
A O Hadoop utiliza uma arquitetura de rede ponto a ponto, onde todos os nós possuem o mesmo papel, permitindo a distribuição uniforme de dados entre eles.
B A arquitetura Hadoop é baseada em um sistema mestre-escravo, onde o nó mestre coordena as operações e os nós escravos realizam o processamento e o armazenamento dos dados em paralelo.
C O Hadoop armazena e processa dados através de um sistema de hierarquia de memória, onde os dados mais acessados são mantidos em cache para processamento rápido.
D A arquitetura Hadoop opera com um único nó central que gerencia todo o processamento, armazenando dados de forma sequencial em cada nó adicional.
E O Hadoop processa grandes volumes de dados usando uma arquitetura de anel, onde cada nó pode atuar como mestre e escravo dependendo da tarefa atribuída.

Você trabalha em uma empresa de tecnologia que está avaliando a adoção do Hadoop como parte de sua infraestrutura de Big Data. Sua equipe foi encarregada de analisar as vantagens e desvantagens dessa tecnologia para decidir se ela é a melhor escolha para os novos projetos de processamento de grandes volumes de dados. Ao estudar a arquitetura do Hadoop, você precisa entender como a escalabilidade e a segurança afetam sua implementação prática.
Ao considerar a adoção do Hadoop para projetos de Big Data em sua empresa, quais são os principais aspectos a serem avaliados em relação à escalabilidade e segurança dessa tecnologia?
A O Hadoop oferece escalabilidade horizontal limitada, mas compensa isso com um sistema de segurança robusto e fácil de configurar, garantindo proteção total contra ameaças cibernéticas.
B A escalabilidade do Hadoop permite adicionar mais nós ao cluster de forma eficiente, mas a segurança pode ser comprometida devido à complexidade de configurar controles de acesso e proteção de dados.
C O Hadoop não é projetado para escalar além de um certo limite de dados, mas apresenta mecanismos de segurança avançados que protegem todas as operações realizadas nos clusters.
D A arquitetura Hadoop é escalável, mas para manter a segurança dos dados, é necessário utilizar sistemas externos, uma vez que o Hadoop não oferece suporte nativo para criptografia de dados em repouso.
E A escalabilidade do Hadoop é garantida apenas em clusters de pequeno porte, enquanto a segurança é gerenciada automaticamente por meio de políticas predefinidas no sistema.

Você está trabalhando como administrador de dados em uma empresa que lida com grandes volumes de informações. Recentemente, a empresa decidiu adotar o Hadoop Distributed File System (HDFS) para gerenciar e processar seus dados. No entanto, você também precisa manter sistemas de banco de dados relacionais (RDBMS) como o SQL Server e o MySQL. Para garantir que você utilize cada tecnologia da melhor maneira possível, é crucial entender as principais diferenças entre HDFS e RDBMS.
Quais são as principais diferenças entre HDFS e RDBMS, considerando suas aplicações e estruturas de gerenciamento de dados?
A O HDFS é projetado para armazenar dados em tabelas com relações definidas, enquanto o RDBMS armazena dados em grandes blocos distribuídos sem integridade relacional.
B O HDFS gerencia dados em um ambiente distribuído, sendo ideal para aplicações de Big Data, enquanto o RDBMS é utilizado para gerenciar dados estruturados em um ambiente de arquitetura cliente-servidor.
C O HDFS aplica regras de integridade para relacionar dados em diferentes tabelas, enquanto o RDBMS gerencia dados sem a necessidade de tais regras.
D O HDFS é mais adequado para aplicações de banco de dados tradicionais que exigem alta integridade e velocidade na recuperação de dados, enquanto o RDBMS é ideal para armazenar grandes volumes de dados não estruturados.
E O HDFS é uma substituição direta para RDBMS em todos os cenários de gerenciamento de dados, pois oferece a mesma eficiência e confiabilidade na recuperação de dados.

Você foi contratado como analista de dados em uma empresa que está expandindo suas operações de Big Data. Durante uma reunião, os gestores discutiram a necessidade de centralizar grandes volumes de dados de diferentes tipos. Para isso, mencionaram a implementação de um Data Lake. Agora, é sua responsabilidade compreender melhor o que é um Data Lake e como ele pode ser utilizado na prática.
O que é um Data Lake e quais são suas principais características em comparação com os modelos tradicionais de armazenamento de dados, como o data warehouse?
A Um Data Lake é uma ferramenta de análise de dados que organiza informações exclusivamente em tabelas relacionais para facilitar a consulta por meio de SQL.
B O Data Lake é uma arquitetura de armazenamento que centraliza grandes volumes de dados em seu formato original, organizados em uma estrutura hierárquica semelhante à dos data warehouses.
C Um Data Lake armazena dados em seu formato original, sejam eles estruturados, semiestruturados ou não estruturados, utilizando uma arquitetura plana de objetos de armazenamento que facilita consultas eficientes.
D O Data Lake é uma plataforma de visualização de dados que converte automaticamente dados não estruturados em estruturas hierárquicas para análises complexas.
E Um Data Lake é uma variação dos data warehouses, onde os dados são armazenados de forma estruturada e categorizada em pastas e arquivos para facilitar o acesso.

Você está participando de uma reunião estratégica na empresa em que trabalha, onde o time de tecnologia está avaliando a implementação de um Data Lake para melhorar o armazenamento e a análise de grandes volumes de dados. Durante a discussão, foram levantadas algumas características do Data Lake, e cabe a você identificar quais dessas características são verdadeiras. Sobre o Data Lake, considere as seguintes afirmacoes:
Quais das afirmações acima estão corretas?
I. O Data Lake armazena dados em seu formato original, sejam eles estruturados, semiestruturados ou não estruturados.
II. A arquitetura do Data Lake é hierárquica, onde os dados são organizados em arquivos e pastas para facilitar a recuperação.
III. O Data Lake utiliza objetos de armazenamento que contêm tags de metadados e um identificador único, permitindo consultas eficientes.
A Apenas a afirmativa I está correta.
B Apenas as afirmativas I e III estão corretas.
C Apenas a afirmativa II está correta.
D Apenas as afirmativas II e III estão corretas.
E Todas as afirmativas estão corretas.

Conteúdos escolhidos para você

7 pág.

hadoop-e-armazenamento-de-dados

ESTÁCIO EAD

3 pág.

Arquitetura Big Data e Integração de Dados

IFPE

100 pág.

Tema 03 Hadoop e armazenamento de dados

ESTÁCIO EAD

60 pág.

Tema 2- Hadoop e armazenamento de dados

ESTÁCIO

Perguntas dessa disciplina

Uma empresa de tecnologia está em fase de crescimento e precisa implementar um sistema de gerenciamento de dados. Eles lidam com um grande volume de i

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

ESTÁCIO

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

ESTÁCIO

Questão 8/10 - Big Data Ler em voz alta Leia com atenção o texto a seguir, que trata da variedade dos dados encontrados na rede, um dos dez “Vs” do Bi

Analise as informações a seguir: I. Apesar de o termo NoSQL ter surgido posteriormente ao aparecimento de boa parte dos bancos de dados considerad...

UNIFAVENI

Material

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Questões resolvidas

Você foi contratado por uma empresa de tecnologia que lida com grandes volumes de dados diariamente. Sua primeira tarefa é configurar um sistema eficiente de armazenamento e processamento desses dados. Ao analisar as tecnologias disponíveis, você percebe que a empresa utiliza o Hadoop. É importante entender como essa tecnologia funciona para que você possa otimizar o sistema e garantir que os dados sejam processados de forma eficiente.
Como a arquitetura Hadoop, com seu sistema de cluster, possibilita o armazenamento e o processamento eficiente de grandes volumes de dados?
A O Hadoop utiliza uma arquitetura de rede ponto a ponto, onde todos os nós possuem o mesmo papel, permitindo a distribuição uniforme de dados entre eles.
B A arquitetura Hadoop é baseada em um sistema mestre-escravo, onde o nó mestre coordena as operações e os nós escravos realizam o processamento e o armazenamento dos dados em paralelo.
C O Hadoop armazena e processa dados através de um sistema de hierarquia de memória, onde os dados mais acessados são mantidos em cache para processamento rápido.
D A arquitetura Hadoop opera com um único nó central que gerencia todo o processamento, armazenando dados de forma sequencial em cada nó adicional.
E O Hadoop processa grandes volumes de dados usando uma arquitetura de anel, onde cada nó pode atuar como mestre e escravo dependendo da tarefa atribuída.

Você trabalha em uma empresa de tecnologia que está avaliando a adoção do Hadoop como parte de sua infraestrutura de Big Data. Sua equipe foi encarregada de analisar as vantagens e desvantagens dessa tecnologia para decidir se ela é a melhor escolha para os novos projetos de processamento de grandes volumes de dados. Ao estudar a arquitetura do Hadoop, você precisa entender como a escalabilidade e a segurança afetam sua implementação prática.
Ao considerar a adoção do Hadoop para projetos de Big Data em sua empresa, quais são os principais aspectos a serem avaliados em relação à escalabilidade e segurança dessa tecnologia?
A O Hadoop oferece escalabilidade horizontal limitada, mas compensa isso com um sistema de segurança robusto e fácil de configurar, garantindo proteção total contra ameaças cibernéticas.
B A escalabilidade do Hadoop permite adicionar mais nós ao cluster de forma eficiente, mas a segurança pode ser comprometida devido à complexidade de configurar controles de acesso e proteção de dados.
C O Hadoop não é projetado para escalar além de um certo limite de dados, mas apresenta mecanismos de segurança avançados que protegem todas as operações realizadas nos clusters.
D A arquitetura Hadoop é escalável, mas para manter a segurança dos dados, é necessário utilizar sistemas externos, uma vez que o Hadoop não oferece suporte nativo para criptografia de dados em repouso.
E A escalabilidade do Hadoop é garantida apenas em clusters de pequeno porte, enquanto a segurança é gerenciada automaticamente por meio de políticas predefinidas no sistema.

Você está trabalhando como administrador de dados em uma empresa que lida com grandes volumes de informações. Recentemente, a empresa decidiu adotar o Hadoop Distributed File System (HDFS) para gerenciar e processar seus dados. No entanto, você também precisa manter sistemas de banco de dados relacionais (RDBMS) como o SQL Server e o MySQL. Para garantir que você utilize cada tecnologia da melhor maneira possível, é crucial entender as principais diferenças entre HDFS e RDBMS.
Quais são as principais diferenças entre HDFS e RDBMS, considerando suas aplicações e estruturas de gerenciamento de dados?
A O HDFS é projetado para armazenar dados em tabelas com relações definidas, enquanto o RDBMS armazena dados em grandes blocos distribuídos sem integridade relacional.
B O HDFS gerencia dados em um ambiente distribuído, sendo ideal para aplicações de Big Data, enquanto o RDBMS é utilizado para gerenciar dados estruturados em um ambiente de arquitetura cliente-servidor.
C O HDFS aplica regras de integridade para relacionar dados em diferentes tabelas, enquanto o RDBMS gerencia dados sem a necessidade de tais regras.
D O HDFS é mais adequado para aplicações de banco de dados tradicionais que exigem alta integridade e velocidade na recuperação de dados, enquanto o RDBMS é ideal para armazenar grandes volumes de dados não estruturados.
E O HDFS é uma substituição direta para RDBMS em todos os cenários de gerenciamento de dados, pois oferece a mesma eficiência e confiabilidade na recuperação de dados.

Você foi contratado como analista de dados em uma empresa que está expandindo suas operações de Big Data. Durante uma reunião, os gestores discutiram a necessidade de centralizar grandes volumes de dados de diferentes tipos. Para isso, mencionaram a implementação de um Data Lake. Agora, é sua responsabilidade compreender melhor o que é um Data Lake e como ele pode ser utilizado na prática.
O que é um Data Lake e quais são suas principais características em comparação com os modelos tradicionais de armazenamento de dados, como o data warehouse?
A Um Data Lake é uma ferramenta de análise de dados que organiza informações exclusivamente em tabelas relacionais para facilitar a consulta por meio de SQL.
B O Data Lake é uma arquitetura de armazenamento que centraliza grandes volumes de dados em seu formato original, organizados em uma estrutura hierárquica semelhante à dos data warehouses.
C Um Data Lake armazena dados em seu formato original, sejam eles estruturados, semiestruturados ou não estruturados, utilizando uma arquitetura plana de objetos de armazenamento que facilita consultas eficientes.
D O Data Lake é uma plataforma de visualização de dados que converte automaticamente dados não estruturados em estruturas hierárquicas para análises complexas.
E Um Data Lake é uma variação dos data warehouses, onde os dados são armazenados de forma estruturada e categorizada em pastas e arquivos para facilitar o acesso.

Você está participando de uma reunião estratégica na empresa em que trabalha, onde o time de tecnologia está avaliando a implementação de um Data Lake para melhorar o armazenamento e a análise de grandes volumes de dados. Durante a discussão, foram levantadas algumas características do Data Lake, e cabe a você identificar quais dessas características são verdadeiras. Sobre o Data Lake, considere as seguintes afirmacoes:
Quais das afirmações acima estão corretas?
I. O Data Lake armazena dados em seu formato original, sejam eles estruturados, semiestruturados ou não estruturados.
II. A arquitetura do Data Lake é hierárquica, onde os dados são organizados em arquivos e pastas para facilitar a recuperação.
III. O Data Lake utiliza objetos de armazenamento que contêm tags de metadados e um identificador único, permitindo consultas eficientes.
A Apenas a afirmativa I está correta.
B Apenas as afirmativas I e III estão corretas.
C Apenas a afirmativa II está correta.
D Apenas as afirmativas II e III estão corretas.
E Todas as afirmativas estão corretas.

Conteúdos escolhidos para você

7 pág.

hadoop-e-armazenamento-de-dados

ESTÁCIO EAD

3 pág.

Arquitetura Big Data e Integração de Dados

IFPE

100 pág.

Tema 03 Hadoop e armazenamento de dados

ESTÁCIO EAD

60 pág.

Tema 2- Hadoop e armazenamento de dados

ESTÁCIO

Perguntas dessa disciplina

Uma empresa de tecnologia está em fase de crescimento e precisa implementar um sistema de gerenciamento de dados. Eles lidam com um grande volume de i

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

ESTÁCIO

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

ESTÁCIO

Questão 8/10 - Big Data Ler em voz alta Leia com atenção o texto a seguir, que trata da variedade dos dados encontrados na rede, um dos dez “Vs” do Bi

Analise as informações a seguir: I. Apesar de o termo NoSQL ter surgido posteriormente ao aparecimento de boa parte dos bancos de dados considerad...

UNIFAVENI

Prévia do material em texto

HADOOP e armazenamento de dados
Desafio 1
Você foi contratado por uma empresa de tecnologia que lida com grandes volumes de dados diariamente. Sua primeira tarefa é configurar um sistema eficiente de armazenamento e processamento desses dados. Ao analisar
as tecnologias disponíveis, você percebe que a empresa utiliza o Hadoop. É importante entender como essa tecnologia funciona para que você possa otimizar o sistema e garantir que os dados sejam processados de forma
eficiente. Como a arquitetura Hadoop, com seu sistema de cluster, possibilita o armazenamento e o processamento eficiente de grandes volumes de dados?
A O Hadoop utiliza uma arquitetura de rede ponto a ponto, onde todos os nós possuem o mesmo papel,
permitindo a distribuição uniforme de dados entre eles.
B A arquitetura Hadoop é baseada em um sistema mestre-escravo, onde o nó mestre coordena as operações e os
nós escravos realizam o processamento e o armazenamento dos dados em paralelo.
C O Hadoop armazena e processa dados através de um sistema de hierarquia de memória, onde os dados mais
acessados são mantidos em cache para processamento rápido.
D A arquitetura Hadoop opera com um único nó central que gerencia todo o processamento, armazenando dados
de forma sequencial em cada nó adicional.
E O Hadoop processa grandes volumes de dados usando uma arquitetura de anel, onde cada nó pode atuar como
mestre e escravo dependendo da tarefa atribuída.
Parabéns! A alternativa B está correta.
Desafio 2
Você trabalha em uma empresa de tecnologia que está avaliando a adoção do Hadoop como parte de sua infraestrutura de Big Data. Sua equipe foi encarregada de analisar as vantagens e desvantagens dessa tecnologia para
decidir se ela é a melhor escolha para os novos projetos de processamento de grandes volumes de dados. Ao estudar a arquitetura do Hadoop, você precisa entender como a escalabilidade e a segurança afetam sua
implementação prática. Ao considerar a adoção do Hadoop para projetos de Big Data em sua empresa, quais são os principais aspectos a serem avaliados em relação à escalabilidade e segurança dessa tecnologia?
A O Hadoop oferece escalabilidade horizontal limitada, mas compensa isso com um sistema de segurança
robusto e fácil de configurar, garantindo proteção total contra ameaças cibernéticas.
B A escalabilidade do Hadoop permite adicionar mais nós ao cluster de forma eficiente, mas a segurança pode
ser comprometida devido à complexidade de configurar controles de acesso e proteção de dados.
C O Hadoop não é projetado para escalar além de um certo limite de dados, mas apresenta mecanismos de
segurança avançados que protegem todas as operações realizadas nos clusters.
D A arquitetura Hadoop é escalável, mas para manter a segurança dos dados, é necessário utilizar sistemas
externos, uma vez que o Hadoop não oferece suporte nativo para criptografia de dados em repouso.
E A escalabilidade do Hadoop é garantida apenas em clusters de pequeno porte, enquanto a segurança é
gerenciada automaticamente por meio de políticas predefinidas no sistema.
Responda
A) O Hadoop utiliza uma arquitetura de rede ponto a ponto: Incorreta. Embora as arquiteturas ponto a ponto
permitam que todos os nós desempenhem o mesmo papel, o Hadoop segue uma arquitetura mestre-escravo, onde
o nó mestre distribui tarefas aos nós escravos, que processam os dados. Esse modelo é fundamental para o
funcionamento eficiente do Hadoop, pois permite a divisão das tarefas em partes menores, processadas em
paralelo, o que não é característico de uma arquitetura ponto a ponto.

B) A arquitetura Hadoop é baseada em um sistema mestre-escravo: Correta. O Hadoop implementa um sistema de
cluster que segue a arquitetura mestre-escravo. Nesse sistema, o nó mestre (ou NameNode) é responsável por
gerenciar os metadados e a distribuição das tarefas de processamento entre os nós escravos (ou DataNodes). Esses
nós escravos realizam o processamento e armazenam os dados de forma distribuída. Essa abordagem permite ao
Hadoop lidar com grandes volumes de dados, processando-os de forma paralela e eficiente.

C) O Hadoop armazena e processa dados através de um sistema de hierarquia de memória: Incorreta. Embora a
hierarquia de memória seja uma técnica usada em algumas tecnologias de processamento de dados, o Hadoop não
segue esse modelo. O foco do Hadoop está na distribuição e processamento paralelo dos dados através de uma
arquitetura mestre-escravo, e não no uso de cache em hierarquia de memória.

D) A arquitetura Hadoop opera com um único nó central: Incorreta. O Hadoop não depende de um único nó
central para gerenciar todo o processamento. Em vez disso, ele distribui o processamento e o armazenamento de
dados entre vários nós escravos, coordenados por um nó mestre. Isso permite a escalabilidade e a eficiência no
processamento de grandes volumes de dados, ao contrário do que seria esperado em um sistema com um único nó
central.

E) O Hadoop processa grandes volumes de dados usando uma arquitetura de anel: Incorreta. A arquitetura em
anel é típica de alguns sistemas distribuídos, mas o Hadoop utiliza uma arquitetura mestre-escravo. No sistema
Hadoop, o nó mestre gerencia as tarefas e os nós escravos as executam, o que difere da abordagem onde todos os
nós podem atuar tanto como mestres quanto como escravos.
Para saber mais sobre esse conteúdo, acesse:

Módulo 1:

A ARQUITETURA HADOOP

“O Hadoop é uma tecnologia de framework de software livre desenvolvida pela Apache Foundation, sendo
aplicado no armazenamento e no processamento de dados de grandes volumes, ou seja, em Big Data. Além da
distribuição livre da Apache, o Hadoop possui outras distribuições, como: [...] a tecnologia Hadoop possui um
sistema de cluster que funciona basicamente como uma arquitetura mestre-escravo. Essa estrutura permite
armazenar e processar grandes volumes de dados em paralelo.”
Parabéns! A alternativa B está correta.
Desafio 3
Você está trabalhando como administrador de dados em uma empresa que lida com grandes volumes de informações. Recentemente, a empresa decidiu adotar o Hadoop Distributed File System (HDFS) para gerenciar e
processar seus dados. No entanto, você também precisa manter sistemas de banco de dados relacionais (RDBMS) como o SQL Server e o MySQL. Para garantir que você utilize cada tecnologia da melhor maneira
possível, é crucial entender as principais diferenças entre HDFS e RDBMS. Quais são as principais diferenças entre HDFS e RDBMS, considerando suas aplicações e estruturas de gerenciamento de dados?
A O HDFS é projetado para armazenar dados em tabelas com relações definidas, enquanto o RDBMS armazena
dados em grandes blocos distribuídos sem integridade relacional.
B O HDFS gerencia dados em um ambiente distribuído, sendo ideal para aplicações de Big Data, enquanto o
RDBMS é utilizado para gerenciar dados estruturados em um ambiente de arquitetura cliente-servidor.
C O HDFS aplica regras de integridade para relacionar dados em diferentes tabelas, enquanto o RDBMS
gerencia dados sem a necessidade de tais regras.
D
O HDFS é mais adequado para aplicações de banco de dados tradicionais que exigem alta integridade e
velocidade na recuperação de dados, enquanto o RDBMS é ideal para armazenar grandes volumes de dados
não estruturados.
E O HDFS é uma substituição direta para RDBMS em todos os cenários de gerenciamento de dados, pois
oferece a mesma eficiência e confiabilidade na recuperação de dados.
Parabéns! A alternativa B está correta.
Responda
A) O Hadoop oferece escalabilidade horizontal limitada, mas compensa isso com um sistema de segurança
robusto: Incorreta. O Hadoop é conhecido por sua alta escalabilidade, especialmente em termos de escalabilidade
horizontal, permitindo que novos nós sejam adicionados ao cluster conforme necessário. No entanto, a segurança
é um desafio, pois o Hadoop não oferece um sistema de segurança robusto e fácil de configurar. A configuração
de controles de acesso e a proteção de dados exigem um esforço significativo e um conhecimentoprofundo da
infraestrutura.

B) A escalabilidade do Hadoop permite adicionar mais nós ao cluster de forma eficiente, mas a segurança pode
ser comprometida: Correta. O Hadoop foi projetado para ser altamente escalável, permitindo a adição de novos
nós para processar grandes volumes de dados. No entanto, a segurança é uma área que pode ser desafiadora,
especialmente porque o Hadoop não oferece configurações de segurança prontas para uso. A configuração de
controles de acesso, autenticação e criptografia pode ser complexa e, se não for feita corretamente, pode expor o
sistema a vulnerabilidades.

C) O Hadoop não é projetado para escalar além de um certo limite de dados: Incorreta. O Hadoop é projetado
justamente para escalar eficientemente, permitindo o processamento de quantidades massivas de dados.
Entretanto, os mecanismos de segurança no Hadoop são complexos e muitas vezes precisam ser complementados
com soluções externas para garantir a proteção adequada dos dados.

D) A arquitetura Hadoop é escalável, mas a segurança dos dados é gerenciada por sistemas externos: Incorreta.
Embora seja verdade que o Hadoop seja altamente escalável, ele oferece suporte nativo para certas funções de
segurança, como autenticação Kerberos e criptografia. No entanto, a configuração dessas funcionalidades não é
trivial, e muitos optam por sistemas adicionais para garantir uma segurança robusta.

E) A escalabilidade do Hadoop é garantida apenas em clusters de pequeno porte: Incorreta. O Hadoop é escalável
em clusters de qualquer porte, desde pequenos até extremamente grandes. No entanto, a segurança não é
gerenciada automaticamente; requer configurações manuais cuidadosas e compreensão profunda dos mecanismos
internos do Hadoop.
Para saber mais sobre esse conteúdo, acesse:

Módulo 1:

VANTAGENS E DESVANTAGENS DO HADOOP

"Como vimos até agora, a arquitetura Hadoop é complexa: utilizá-lo para desenvolver um projeto exige bastante
estudo. Por outro lado, as aplicações de Big Data fazem parte do nosso cotidiano; por isso, precisamos investir na
compreensão das tecnologias para desenvolver soluções. Nesse sentido, vamos analisar as vantagens e as
desvantagens da tecnologia do Hadoop para termos uma visão mais clara da aplicação dessa tecnologia na
resolução de problemas práticos. [...] Escalabilidade: o Hadoop foi projetado desde o início para trabalhar com
grandes volumes de dados. Para isso, os componentes da sua arquitetura lidam com diferentes aspectos do
armazenamento e do processamento de dados distribuídos em diferentes nós da infraestrutura que aplicamos na
solução. [...] Devido à complexidade das alternativas das aplicações Big Data de modo geral, os aspectos
relacionados à segurança são um grande desafio.".
Responda
A) O HDFS é projetado para armazenar dados em tabelas com relações definidas: Incorreta. O HDFS não utiliza
tabelas com relações definidas para o armazenamento de dados. Em vez disso, ele armazena grandes volumes de
dados distribuídos em blocos através de um ambiente distribuído. O RDBMS, por outro lado, é que utiliza tabelas
com relações e regras de integridade para garantir a consistência dos dados.

B) O HDFS gerencia dados em um ambiente distribuído: Correta. O HDFS foi desenvolvido para trabalhar com
grandes volumes de dados em um ambiente distribuído, característico das aplicações de Big Data. Ele divide os
dados em blocos distribuídos entre vários nós, o que permite alta escalabilidade e desempenho em operações
massivas de dados. Já o RDBMS é otimizado para gerenciar dados estruturados em um ambiente de arquitetura
cliente-servidor, utilizando tabelas e regras de integridade para assegurar a consistência e a rápida recuperação
dos dados.

Desafio 4
Você foi contratado como analista de dados em uma empresa que está expandindo suas operações de Big Data. Durante uma reunião, os gestores discutiram a necessidade de centralizar grandes volumes de dados de
diferentes tipos. Para isso, mencionaram a implementação de um Data Lake. Agora, é sua responsabilidade compreender melhor o que é um Data Lake e como ele pode ser utilizado na prática. O que é um Data Lake e
quais são suas principais características em comparação com os modelos tradicionais de armazenamento de dados, como o data warehouse?
A Um Data Lake é uma ferramenta de análise de dados que organiza informações exclusivamente em tabelas
relacionais para facilitar a consulta por meio de SQL.
B O Data Lake é uma arquitetura de armazenamento que centraliza grandes volumes de dados em seu formato
original, organizados em uma estrutura hierárquica semelhante à dos data warehouses.
C Um Data Lake armazena dados em seu formato original, sejam eles estruturados, semiestruturados ou não
estruturados, utilizando uma arquitetura plana de objetos de armazenamento que facilita consultas eficientes.
D O Data Lake é uma plataforma de visualização de dados que converte automaticamente dados não estruturados
em estruturas hierárquicas para análises complexas.
E Um Data Lake é uma variação dos data warehouses, onde os dados são armazenados de forma estruturada e
categorizada em pastas e arquivos para facilitar o acesso.
Parabéns! A alternativa C está correta.
C) O HDFS aplica regras de integridade para relacionar dados: Incorreta. O HDFS não se concentra em manter
relações e integridade entre dados como os RDBMS fazem. O foco do HDFS é a distribuição e a capacidade de
lidar com grandes volumes de dados de maneira eficiente, sem a necessidade de regras de integridade que são
essenciais em bancos de dados relacionais.

D) O HDFS é mais adequado para aplicações de banco de dados tradicionais: Incorreta. O HDFS é projetado
especificamente para aplicações de Big Data e não é adequado para as necessidades de bancos de dados
tradicionais que requerem integridade relacional e recuperação rápida de dados. Os RDBMS são ideais para essas
aplicações, onde a consistência e a integridade dos dados são prioritárias.

E) O HDFS é uma substituição direta para RDBMS em todos os cenários: Incorreta. O HDFS não substitui
diretamente os RDBMS em todos os cenários. Enquanto o HDFS é excelente para armazenar grandes volumes de
dados distribuídos em aplicações de Big Data, o RDBMS continua sendo a melhor opção para gerenciar dados
estruturados com requisitos rigorosos de integridade e rapidez na recuperação de dados.
Para saber mais sobre esse conteúdo, acesse:

Módulo 2:

DIFERENÇAS ENTRE HDFS E RDBMS

"Os RDBMS são sistemas de gerenciamento de banco de dados relacionais. Como exemplos de sistemas
RDBMS, temos o Oracle, o SQL Server da Microsoft, o MySQL e o PostgreSQL. Eles utilizam tabelas para fazer
o armazenamento dos dados e das regras de integridade, que servem para relacionar as tabelas entre si e restringir
as ações que podemos realizar sobre os dados. [...] Todas essas propriedades são fundamentais para um projeto de
banco de dados. Portanto, podemos entender que os objetivos dos RDBMS são armazenar, gerenciar e recuperar
os dados da forma mais rápida e confiável possível em um ambiente de arquitetura cliente-servidor. No caso do
HDFS, os dados estão contextualizados em um ambiente distribuído; devido às características intrínsecas das
aplicações de Big Data, o gerenciamento deles é bem mais complexo. Isso nos mostra que há situações em que é
mais adequado aplicar um modelo do que o outro, ou seja, o HDFS não é uma substituição do RDBMS.".
Responda
A) Um Data Lake é uma ferramenta de análise de dados que organiza informações exclusivamente em tabelas
relacionais: Incorreta. O Data Lake não se limita a tabelas relacionais. Na verdade, ele armazena dados em seu
formato original, sem a necessidade de organização prévia em tabelas, o que o diferencia dos sistemas tradicionais
de gerenciamento de banco de dados, como o RDBMS.

B) O Data Lake é uma arquitetura de armazenamento que centraliza grandes volumes de dados em uma estrutura
hierárquica: Incorreta. Embora o Data Lake centralize grandes volumes de dados, sua arquitetura não é
hierárquica,como no caso dos data warehouses. Em vez disso, o Data Lake utiliza uma arquitetura plana, na qual
os dados são armazenados como objetos, permitindo uma maior flexibilidade no armazenamento e na consulta de
dados.

C) Um Data Lake armazena dados em seu formato original: Correta. O Data Lake é projetado para armazenar
grandes volumes de dados em seu formato bruto, sejam eles estruturados, semiestruturados ou não estruturados.
Utilizando uma arquitetura plana com objetos de armazenamento, o Data Lake permite que as consultas sejam
realizadas de maneira eficiente, sem a necessidade de transformar os dados antes do armazenamento,
diferentemente do que ocorre em um data warehouse.

D) O Data Lake é uma plataforma de visualização de dados que converte dados não estruturados: Incorreta. O
Data Lake não é uma plataforma de visualização nem converte automaticamente dados não estruturados em
formatos hierárquicos. Ele simplesmente armazena dados em seu formato original, e a análise é feita
posteriormente, conforme a necessidade.

E) Um Data Lake é uma variação dos data warehouses, onde os dados são armazenados de forma estruturada:
Incorreta. Diferentemente dos data warehouses, que estruturam os dados em pastas e arquivos, o Data Lake
armazena os dados de forma plana, em seu formato original. Essa abordagem permite uma maior flexibilidade e
escalabilidade, especialmente em ambientes de Big Data.
Para saber mais sobre esse conteúdo, acesse:

Módulo 3:

INTRODUÇÃO E CONTEXTUALIZAÇÃO

“O Data Lake – que, em português, seria traduzido como 'lago de dados' – é um local da aplicação de Big Data
que centraliza um grande volume de dados no formato original, sejam eles dados estruturados, não estruturados e
até semiestruturados. Esses dados são armazenados em objetos – conhecidos como object storage – que contêm
tags de metadados e um identificador único. Essa estrutura de entidade dos dados permite que possamos analisá-
los e buscar por padrões, pois as consultas são realizadas com bastante eficiência. Tais objetos de armazenamento
podem ser consultados pelas demais aplicações de Big Data. É natural compararmos os aspectos da arquitetura do
Data Lake com os modelos dos bancos de dados tradicionais chamados de data warehouse (armazém de dados). A
arquitetura do data warehouse é hierárquica, pois os dados são armazenados em arquivos ou pastas. Já o Data
Desafio 5
Você está participando de uma reunião estratégica na empresa em que trabalha, onde o time de tecnologia está avaliando a implementação de um Data Lake para melhorar o armazenamento e a análise de grandes volumes
de dados. Durante a discussão, foram levantadas algumas características do Data Lake, e cabe a você identificar quais dessas características são verdadeiras. Sobre o Data Lake, considere as seguintes afirmações:

I. O Data Lake armazena dados em seu formato original, sejam eles estruturados, semiestruturados ou não estruturados.

II. A arquitetura do Data Lake é hierárquica, onde os dados são organizados em arquivos e pastas para facilitar a recuperação.

III. O Data Lake utiliza objetos de armazenamento que contêm tags de metadados e um identificador único, permitindo consultas eficientes.

Quais das afirmações acima estão corretas?
A Apenas a afirmativa I está correta.
B Apenas as afirmativas I e III estão corretas.
C Apenas a afirmativa II está correta.
D Apenas as afirmativas II e III estão corretas.
E Todas as afirmativas estão corretas.
Parabéns! A alternativa B está correta.
Lake usa uma arquitetura plana por meio dos objetos de armazenamento de dados. De acordo com Singh e Ahmad
(2019), os benefícios de seu uso são: […]”
Responda
I. O Data Lake armazena dados em seu formato original, sejam eles estruturados, semiestruturados ou não
estruturados: Correta. Um dos principais atributos do Data Lake é sua capacidade de armazenar dados em seu
estado bruto, sem a necessidade de transformação prévia. Isso inclui dados de diferentes tipos e formatos, o que o
torna uma solução flexível e escalável para grandes volumes de dados.

II. A arquitetura do Data Lake é hierárquica, onde os dados são organizados em arquivos e pastas para facilitar a
recuperação: Incorreta. Diferente dos data warehouses, que utilizam uma estrutura hierárquica para organizar
dados em arquivos e pastas, o Data Lake adota uma arquitetura plana. Isso significa que os dados são
armazenados em objetos, e não em uma estrutura rígida, permitindo uma maior flexibilidade e eficiência nas
consultas.

III. O Data Lake utiliza objetos de armazenamento que contêm tags de metadados e um identificador único,
permitindo consultas eficientes: Correta. No Data Lake, os dados são armazenados em objetos que são
identificados unicamente e acompanhados por tags de metadados. Essas características facilitam a organização e a
recuperação dos dados, tornando as consultas mais rápidas e eficientes.
Para saber mais sobre esse conteúdo, acesse:

Módulo 3:

INTRODUÇÃO E CONTEXTUALIZAÇÃO

“O Data Lake – que, em português, seria traduzido como 'lago de dados' – é um local da aplicação de Big Data
que centraliza um grande volume de dados no formato original, sejam eles dados estruturados, não estruturados e
até semiestruturados. Esses dados são armazenados em objetos – conhecidos como object storage – que contêm
tags de metadados e um identificador único. Essa estrutura de entidade dos dados permite que possamos analisá-
los e buscar por padrões, pois as consultas são realizadas com bastante eficiência. Tais objetos de armazenamento
podem ser consultados pelas demais aplicações de Big Data. É natural compararmos os aspectos da arquitetura do
Data Lake com os modelos dos bancos de dados tradicionais chamados de data warehouse (armazém de dados). A
arquitetura do data warehouse é hierárquica, pois os dados são armazenados em arquivos ou pastas. Já o Data
Lake usa uma arquitetura plana por meio dos objetos de armazenamento de dados. De acordo com Singh e Ahmad
(2019), os benefícios de seu uso são: […]”

Exercícios Big Data

ESTÁCIO

Ferramentas de estudo

Conteúdos escolhidos para você

Big Data_Semana1

hadoop-e-armazenamento-de-dados

Arquitetura Big Data e Integração de Dados

Tema 03 Hadoop e armazenamento de dados

Tema 2- Hadoop e armazenamento de dados

Perguntas dessa disciplina

Uma empresa de tecnologia está em fase de crescimento e precisa implementar um sistema de gerenciamento de dados. Eles lidam com um grande volume de i

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

Questão 8/10 - Big Data Ler em voz alta Leia com atenção o texto a seguir, que trata da variedade dos dados encontrados na rede, um dos dez “Vs” do Bi

Analise as informações a seguir: I. Apesar de o termo NoSQL ter surgido posteriormente ao aparecimento de boa parte dos bancos de dados considerad...

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Conteúdos escolhidos para você

Big Data_Semana1

hadoop-e-armazenamento-de-dados

Arquitetura Big Data e Integração de Dados

Tema 03 Hadoop e armazenamento de dados

Tema 2- Hadoop e armazenamento de dados

Perguntas dessa disciplina

Uma empresa de tecnologia está em fase de crescimento e precisa implementar um sistema de gerenciamento de dados. Eles lidam com um grande volume de i

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

Questão 8/10 - Big Data Ler em voz alta Leia com atenção o texto a seguir, que trata da variedade dos dados encontrados na rede, um dos dez “Vs” do Bi

Analise as informações a seguir: I. Apesar de o termo NoSQL ter surgido posteriormente ao aparecimento de boa parte dos bancos de dados considerad...

Mais conteúdos dessa disciplina

Exercícios Big Data

ESTÁCIO

Ferramentas de estudo

Conteúdos escolhidos para você

Big Data_Semana1

hadoop-e-armazenamento-de-dados

Arquitetura Big Data e Integração de Dados

Tema 03 Hadoop e armazenamento de dados

Tema 2- Hadoop e armazenamento de dados

Perguntas dessa disciplina

Uma empresa de tecnologia está em fase de crescimento e precisa implementar um sistema de gerenciamento de dados. Eles lidam com um grande volume de i

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

Questão 8/10 - Big Data Ler em voz alta Leia com atenção o texto a seguir, que trata da variedade dos dados encontrados na rede, um dos dez “Vs” do Bi

Analise as informações a seguir: I. Apesar de o termo NoSQL ter surgido posteriormente ao aparecimento de boa parte dos bancos de dados considerad...

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Conteúdos escolhidos para você

Big Data_Semana1

hadoop-e-armazenamento-de-dados

Arquitetura Big Data e Integração de Dados

Tema 03 Hadoop e armazenamento de dados

Tema 2- Hadoop e armazenamento de dados

Perguntas dessa disciplina

Uma empresa de tecnologia está em fase de crescimento e precisa implementar um sistema de gerenciamento de dados. Eles lidam com um grande volume de i

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

Questão 8/10 - Big Data Ler em voz alta Leia com atenção o texto a seguir, que trata da variedade dos dados encontrados na rede, um dos dez “Vs” do Bi

Analise as informações a seguir: I. Apesar de o termo NoSQL ter surgido posteriormente ao aparecimento de boa parte dos bancos de dados considerad...

Mais conteúdos dessa disciplina

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar