Buscar

BD-ADDS-T1-Armazenamento massivo de dados

Prévia do material em texto

Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage
Sumário
1. Introdução ao estudo do tema 
2. Introdução à trilha de aprendizagem 
2.1 Objetivos de aprendizagem
3. Quais são as novas necessidades originadas com o 
 Big Data 
4. O que será aprendido neste componente 
4.1 Conteúdo da trilha 2 - Dados estruturados, 
 semiestruturados e não estruturados 
4.2 Conteúdo da trilha 3 - Modelagem relacional, 
 dimensional e não relacional
4.3 Conteúdo da trilha 4 - Bancos de dados relacionais 
 e não relacionais
4.4 Conteúdo da trilha 5 - Arquitetura para Data 
 Warehouse
4.5 Conteúdo da trilha 6 – Performance em 
 armazenamento e recuperação de dados
4.6 Conteúdo da trilha 7 - Ferramentas de mercado
4.7 Conteúdo da trilha 8 - Governança de dados; 
 gestão de segurança da informação
5. Síntese
6. Referências
 4
6
7
8
9
10
12
14
15
17
19
20
22
23
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 4
Devido à disseminação da internet ocorrida nos últimos anos, 
o volume de dados disponibilizados nas diferentes publicações 
eletrônicas cresceu exponencialmente. Uma das áreas de 
crescimento refere-se aos dados registrados nas diferentes redes 
sociais, entre elas a rede de colaboração acadêmica, originária 
das publicações de trabalhos e de seus autores. Outro exemplo é 
a evolução da internet das coisas, na qual, por meio de diversos 
sensores, uma grande quantidade de informações pode ser 
coletada diariamente.
Acompanhando esse crescimento surgem novas necessidades de 
aplicações capazes de gerenciar grandes quantidades de dados 
não estruturados, constatando-se que o modelo de Sistema de 
Gerenciamento de Banco de Dados Relacional (SGBDR) não 
atende bem a essa necessidade. 
O modelo relacional é o modelo predominante utilizado nos 
bancos de dados atuais e é normalmente utilizado para o 
armazenamento de dados estruturados. Porém, a análise nas 
redes de colaboração deve ser feita utilizando uma nova estrutura, 
já que o modelo de dados relacional não é adequado para todas as 
consultas requeridas nesse ambiente de colaboração (MEIJER & 
BIERMAN, 2011).
Pesquisa de Meijer (2011) abordou a questão de adotar o 
modelo Not Only SQL (NoSQL) ou o modelo relacional para o 
gerenciamento de grandes quantidades de dados e concluiu 
que não existe modelo capaz de atender bem todos os desafios 
deste tipo de tarefa. Deste modo, ambos os modelos apresentam 
características próprias e é possível adotar qualquer um dos 
dois modelos de forma a atender uma mesma necessidade, sem 
perda de desempenho desde que se considerem as solicitações da 
consulta e o volume de dados.
Nesta trilha de aprendizagem de Armazenamento de Dados 
serão abordados os motivos e os problemas ocasionados por este 
crescimento no volume de dados e serão apresentadas soluções e 
Introdução ao estudo do 
tema
1.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 5
possibilidades de atuação. A seguir serão analisadas as diferenças 
entre os três tipos de armazenamento de dados: estruturado, 
semiestruturado e não estruturado, identificando, com a utilização 
de exemplos, quando podem ser utilizados.
A estrutura do Data Warehouse, sua arquitetura e esquema serão 
vistos na terceira semana. Após, analisaremos os bancos de dados 
não relacionais, estabelecendo comparativos com o banco de 
dados relacional e apresentando os seus quatro tipos mais comuns: 
chave/valor, orientado a colunas, orientado a documentos e 
orientado a grafos.
As modelagens relacional, dimensional e não relacional serão 
abordadas na quinta aula, na qual serão apresentadas as 
características destes novos tipos de modelagem. Do mesmo 
modo será vista a performance em armazenamento e recuperação 
de dados, estabelecendo comparativos entre os modelos não 
relacionais apresentados.
Por fim, analisaremos dois termos complementares: governança 
de dados e gestão de segurança da informação, trazendo estes 
assuntos para os problemas relacionados com os grandes 
volumes de dados e encerrando a trilha de aprendizagem com a 
apresentação das ferramentas atuais de mercado.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 6
O fenômeno Big Data representa o grande volume de dados que 
são produzidos e armazenados diariamente, advindos de diversas 
fontes de dados e também de sistemas operacionais já existentes. 
Uma das vantagens do armazenamento destes dados em um 
repositório único é o seu processamento, sendo possível obter 
valor da informação e auxiliando na tomada de decisões. 
Na primeira trilha de aprendizagem deste componente curricular 
apresentaremos um resumo sobre o que será visto ao longo do 
curso, tornando mais fácil compreender como as diferentes trilhas 
estão interligadas.
Introdução à trilha de 
aprendizagem
2.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 7
• objetivos conceituais:
Introdução ao curso - nesta trilha será compreendido 
como o volume de dados e a sua variedade fizeram com que 
novas soluções, capazes de solucionar as novas necessidades 
tecnológicas, fossem desenvolvidas.
Novas necessidades originadas com o Big Data - para 
atender às novas necessidades vinculadas ao fenômeno Big 
Data foi preciso desenvolver e aplicar novas tecnologias e 
metodologias; nesta trilha veremos quais são elas.
O que será aprendido neste componente - será apresentado 
um resumo sobre as dinâmicas de todas as trilhas, de forma 
a que o aluno possa ambientar-se com cada nova trilha, 
compreendendo a integração entre elas;
• objetivos procedimentais e habilidades:
Estudo - leitura dos conteúdos de cada trilha de 
aprendizagem;
• objetivos atitudinais e valores
Objeto de aprendizagem - introdução ao curso, quais as 
novas necessidades com o Big Data e o que será aprendido 
neste componente.
Objetivos de aprendizagem2.1
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 8
Um dos termos mais comentados atualmente na área de tecnologia 
da informação é Big Data. Este termo refere-se a grandes 
quantidades de dados armazenados, que são provenientes de 
diversas fontes e que são armazenados em um repositório único, 
sendo este repositório distribuído ou não.
A origem destes dados pode ser tanto de sistemas tradicionais, 
já existentes, quanto pode incorporar dados extraídos de outras 
fontes, tais como redes sociais, arquivos CSV ou sensores, por 
exemplo. Por meio do armazenamento e processamento destes 
dados é possível obter valor da informação.
Porém, a tecnologia de gerenciamento de dados do modelo 
relacional, apresentada em 1970 por Edgar F. Codd, não é a 
mais adequada para suportar os dados da estrutura do Big 
Data. O modelo proposto por Coode foi elaborado pensando 
em dados estruturados, não tendo sido planejado para tratar os 
dados não estruturados que existem no Big Data. A definição 
de Big Data inclui os 3 Vs, Volume, Variedade e Velocidade, 
que são necessidades atuais, não tendo sido previstas quando o 
modelo relacional foi concebido. Quando o modelo relacional foi 
implementado os dados seguiam uma estrutura bem definida e 
não possuíam grande volume como atualmente. Graças ao evento 
Big Data, a tecnologia para tratar grandes volumes de dados tem 
evoluído muito.
Nesta trilha será apresentado um resumo sobre o que será visto em 
todas as sete trilhas seguintes, de forma a nortear o conhecimento 
e identificar as relações existentes entre cada nova trilha de 
aprendizadoreferente ao componente Armazenamento de dados 
– O Data Storage.
Quais são as novas 
necessidades originadas 
com o Big Data
3.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 9
O que será aprendido 
neste componente
4.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 10
Para compreender o armazenamento de dados sob a visão do 
Big Data é preciso entender como este conceito mudou a forma 
de extrair e armazenar os dados. Este grande volume de dados, 
produzidos e armazenados diariamente, tornou-se um desafio para 
que fosse possível armazená-los e gerenciá-los com eficiência. Um 
outro fator inerente ao Big Data tornou urgente uma necessidade 
de evolução tecnológica: a variedade de dados.
Variedade de dados significa que a quantidade de tipos de 
dados utilizados é muito vasta, não apresentando somente uma 
estrutura definida. Deve-se considerar não apenas os dados 
estruturados, provenientes de bancos de dados relacionais, mas 
também os dados semiestruturados e os dados não estruturados, 
que são gerados por mídias sociais, tais como Facebook e Linkedin, 
documentos eletrônicos, e-mails, câmeras de vídeo, dentre outros.
Deste modo, é importante saber quais são os detalhes e as 
diferenças entre estes tipos de estrutura de dados, em que situações 
são encontrados e quais são os meios de abordá-los corretamente. 
Considerando que os dados estruturados são muito utilizados 
nos sistemas das organizações, em especial nos seus bancos de 
dados relacionais, verifica-se que este tipo de estrutura é muito 
requisitado para a elaboração de análises, pois estes, quando 
consolidados, resultarão nas informações operacionais das 
organizações.
Já os dados semiestruturados são mais heterogêneos, não 
possuem um padrão único definido, tornando-se mais complexos 
quanto à sua manipulação. Temos como exemplos os documentos 
armazenados em formato eXtensible Markup Language (XML). 
Ao longo dessa trilha analisaremos os dados semiestruturados. 
Conteúdo da trilha 2 
- Dados estruturados, 
semiestruturados e não 
estruturados
4.1
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 11
Os dados não estruturados são os conteúdos digitais de diversas 
mídias, tais como imagem, vídeos, áudios ou conteúdo de e-mails, 
entre outros. São mais complexos de recuperar, já que os dados 
não estão organizados em tabelas. Neste componente também 
veremos em detalhes cada um destes tipos de dados. 
Na figura 1 apresentamos um exemplo de cada tipo de dado.
Figura 1: Tipos de dados
Fonte: Elaborado pelo autor.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 12
A abstração do mundo real é feita com a utilização de um modelo, 
um modo de visualizar o que pretendemos realizar. A modelagem 
dos dados para o ambiente do Data Warehouse deve buscar um 
bom desempenho para atender às consultas analíticas e ser bem 
simples, permitindo que os próprios usuários possam realizar 
suas consultas.
Com isto, a modelagem relacional não é apropriada para Data 
Warehouse, pois as técnicas de modelagem como desnormalização 
na terceira forma normal tornam a velocidade de retorno das 
consultas em grandes volumes de dados muito ineficientes, não 
sendo aplicáveis no ambiente de apoio a decisões. Para se utilizar 
a modelagem Entidade-Relacionamento (ER) em ambientes de 
Data Warehouse é preciso que o modelo ER tenha características 
específicas para suportar o ambiente de análise multidimensional.
Assim, a modelagem multidimensional tem como objetivo 
sumarizar, reestruturar e oferecer uma visualização dos dados 
do negócio, priorizando o suporte às consultas analíticas. É uma 
técnica utilizada para que se obtenha uma visão multidimensional 
dos dados, na qual os dados são modelados em uma estrutura 
multidimensional também conhecida por cubo de dados.
Na figura 2 apresentamos um exemplo do esquema estrela, 
utilizado na modelagem multidimensional.
Conteúdo da trilha 3 - 
Modelagem relacional, 
dimensional e não 
relacional
4.2
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 13
Figura 2: Exemplo do esquema estrela
Fonte: Elaborado pelo autor.
Nesta trilha veremos em detalhes como é a técnica de modelagem 
dimensional, cujo resultado permite que os dados sejam vistos de 
diversas formas, sendo mais flexível e com grande utilidade nos 
casos de consultas com necessidade de análises.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 14
Devido ao crescimento constante do volume de dados a tecnologia 
para tratar destas informações teve de ser revista. Assim, outros 
modelos de armazenamento de dados mais apropriados surgiram. 
As principais bases tecnológicas para o Big Data são os bancos de 
dados Not Only SQL (NoSQL), projetados para manipular grandes 
volumes de dados com desempenho superior aos tradicionais 
Sistemas Gerenciadores de Bancos de Dados Relacionais 
(SGBDR). Os bancos de dados não relacionais tratam volumes 
muito grandes de dados, dos mais variados tipos, também atuando 
com processamento distribuído e escalabilidade. 
No modelo NoSQL o armazenamento de dados não é tão rígido 
como nos bancos de dados relacionais, sendo possível armazenar 
dados semiestruturados e não estruturados. Existem diversos 
tipos de modelos NoSQL. Os quatro modelos principais de NoSQL 
são: Chave/Valor, orientado a colunas, orientado a documentos e 
orientado a grafos. 
Nesta trilha apresentaremos as características e os aplicativos que 
atendem a cada um destes quatro modelos NoSQL, bem como um 
comparativo entre os modelos relacionais e não relacionais.
4.3 Conteúdo da trilha 4 - 
Bancos de dados 
relacionais e não 
relacionais
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 15
O Data Warehouse, ou Armazém de Dados, surgiu como uma 
evolução dos ambientes de suporte a decisões, integrando fontes 
de dados dos sistemas operacionais e de outras fontes de dados. 
Tem como uma de suas finalidades permitir que informações 
analíticas derivadas destas fontes sejam facilmente geradas. Outra 
finalidade é separar os dados analíticos dos dados operacionais, 
de modo a evitar a perda de desempenho decorrente de consultas 
em grandes volumes de dados.
O Data Warehouse tem características diferentes do ambiente 
tradicional. Os projetos de Data Warehouse devem ser desenvolvidos 
com uma metodologia consistente, capaz de guiar o projetista 
durante as várias fases do projeto. Podemos definir Data 
Warehouse como sendo um banco de dados orientado a assuntos, 
integrado, não volátil e variável em relação ao tempo em que é 
utilizado, principalmente no processo de tomada de decisões. 
Incorpora cópias dos dados especialmente estruturados para 
facilitar o processo de análise, consulta e geração de relatórios. 
Na figura 3 apresentamos um exemplo de arquitetura para Data 
Warehouse.
4.4 Conteúdo da trilha 5 - 
Arquitetura para Data 
Warehouse
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 16
Figura 3: Arquitetura para Data Warehouse
Fonte: Elaborado pelo autor.
Nesta trilha iremos apresentar a estrutura de um Data Warehouse, 
suas definições e principais características, o Data Mart e sua 
composição, a finalidade de um Data Warehouse, esquema de 
modelagem e arquiteturas possíveis.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados– O Data Storage 17
Online Analytical Processing (OLAP) ou Processamento Analítico 
em Tempo Real é uma categoria de processamento que explora 
informações em grandes volumes de dados, organizados em 
Data Warehouses, conforme o modelo multidimensional. Através 
de uma interface OLAP podemos visualizar a informação em 
diferentes visões e níveis de detalhamento, funcionando como 
um relatório dinâmico. Estes tipos de consultas e análises não 
são disponibilizados nas ferramentas que acompanham o Data 
Warehouse.
Normalmente associarmos a tecnologia OLAP à manipulação 
multidimensional dos dados. O modelo de dados multidimensional 
possibilita que as informações sejam apresentadas e analisadas 
permitindo visualizar qualquer intervalo de tempo definido no 
Data Warehouse. Isto só é possível porque o modelo de dados é 
projetado para contemplar o formato de dimensões, sendo estas 
representações da realidade dos dados sob a ótica de quem vai 
analisá-los. 
Apresentamos na figura 4 e na figura 5 representações da 
tecnologia ROLAP e da tecnologia MOLAP.
4.5 Conteúdo da trilha 6 – 
Performance em 
armazenamento e 
recuperação de dados
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 18
Figura 4: Tecnologia ROLAP
Fonte: PIRES (2016).
Figura 5: Tecnologia MOLAP
Fonte: PIRES (2016).
OLAP possibilita uma recuperação de dados e com isto seu 
processamento analítico sempre que for necessário obter 
informações provenientes de grandes volumes de dados. Apresenta 
melhor desempenho no tempo de execução quando comparado 
com os bancos de dados relacionais. Nesta trilha vamos abordar a 
origem do OLAP, suas características e os seus tipos mais comuns.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 19
Ao longo das trilhas anteriores terão sido apresentados todos os 
conceitos teóricos para a implementação de um Data Warehouse. 
Nesta trilha iremos apresentar as ferramentas atuais de mercado 
para a sua implementação. Ferramentas OLAP possibilitam 
que os dados de um Data Warehouse sejam acessados e com 
isto analisados. Os custos da implementação do OLAP são 
muito altos, porém, no mercado, existem ferramentas de código 
aberto que podem ser utilizadas. Nesta trilha iremos apresentar 
somente as ferramentas de código aberto. Assim, utilizando estas 
ferramentas, empresas de pequeno e médio porte podem adotar 
as soluções baseadas em OLAP para apoio à tomada de decisão. 
Nesta trilha veremos estas principais ferramentas, além de 
apresentar outras ferramentas necessárias para a implementação 
de um Data Warehouse. Serão vistas as ferramentas servidor 
OLAP Mondrian, clientes Jpivot e as suítes de ferramentas Pentaho, 
OpenI e SpagoBI.
4.6 Conteúdo da trilha 7 - 
Ferramentas de mercado
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 20
Antigamente a governança de dados encontrava-se vinculada 
a setores como compliance e jurídico. Porém, nos últimos anos, 
devido à percepção de que a informação é um ativo estratégico 
para as empresas e pela popularização do fenômeno Big Data, a 
governança de dados e informação vem ganhando importância 
em diversas áreas de negócios em todos os segmentos, em todo o 
mundo.
Privacidade, segurança e utilização dos dados são alguns dos 
motivos que tornaram a gestão da informação uma das atividades 
mais críticas para as empresas. A governança de dados determina as 
regras para a obtenção e a utilização de dados, além de estabelecer 
as bases para a monitoração e a avaliação do programa.
Além disso, a governança de dados também define os papéis e 
as responsabilidades dos usuários, monitorando a execução das 
ações e resultados obtidos, e com isto monitorando a sua eficiência, 
permitindo fazer ajustes e assim garantindo que as informações 
sejam tratadas como um ativo da organização. 
Vemos os componentes de governança de dados na figura 6.
4.7 Conteúdo da trilha 8 - 
Governança de dados; 
gestão de segurança da 
informação
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 21
Figura 6: Componentes de governança de dados
Fonte: DAMA International (2008).
Nesta última trilha apresentaremos a importância da governança 
da informação em uma organização, compreendendo a sua 
teoria e aplicações, além de apresentarmos o conceito de gestão 
da segurança da informação, que se refere a todos os aspectos de 
proteção de informações e dos dados.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 22
Nesta trilha apresentamos quais são os próximos caminhos 
que serão seguidos para compreender o armazenamento de 
dados relacionado com o conceito Big Data, assim como suas 
implicações e inovações tecnológicas, quais são as ferramentas 
existentes no mercado e quais são as diferenças em relação aos 
modelos tradicionais dos bancos de dados relacionais. 
Ao longo das próximas trilhas o conhecimento adquirido pelo 
aluno vai crescendo, permitindo-lhe inserir-se no mercado ou 
apenas conhecer melhor todas as vertentes e possibilidades do 
assunto sobre armazenamento quando for considerado um grande 
volume e variedade de dados.
5. Síntese
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 23
CODD, E. F. A relational model of data for large shared data banks. 
In: Communications of the ACM, v. 13, n. 6, p. 377–387, jun. 
1970.
DAMA INTERNATIONAL. DAMA-DMBOK Functional 
Framework. 2008. Disponível em: <https://dama.org/sites/
default/ f i les/download/DAMA-DMB OK_Funct ional_
Framework_v3_02_20080910.pdf>. Acesso em: 20 dez. 2017. 
INMON, W. H. Building the Data Warehouse: Getting started. 4ª 
ed. Wiley Publishing, 2005.
MEIJER, E.; BIERMAN, G. M. A co-relational model of data for 
large shared data banks. In: Communications of the ACM, vol. 
54, n. 4, p. 49–58, abr. 2011.
MINELLI, M.; CHAMBERS, M.; DHIRAJ, A. Big Data Big 
Analytics: Emerging business intelligence and analytic trends for 
today’s businesses. Hoboken: John Wiley and Sons, 2013.
PIRES, C. E. Data Warehousing. Campina Grande, 2016. 
Disponível em: <http://slideplayer.com.br/slide/5601411/>. 
Acesso em: 20 dez. 2017.
VOGELS, W. Eventually consistent. In: Queue - Scalable Web 
Services, v. 6, n. 6, out, p. 14-19, 2008.
6. Referências
https://dama.org/sites/default/files/download/DAMA-DMBOK_Functional_Framework_v3_02_20080910.pdf
https://dama.org/sites/default/files/download/DAMA-DMBOK_Functional_Framework_v3_02_20080910.pdf
https://dama.org/sites/default/files/download/DAMA-DMBOK_Functional_Framework_v3_02_20080910.pdf
http://slideplayer.com.br/slide/5601411/
ead.mackenzie.br

Continue navegando