BD-ADDS-T1-Armazenamento massivo de dados

•

SENAC

Guilherme Durães

27/08/2021

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Banco de Dados I

28.875 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage
Sumário
1. Introdução ao estudo do tema
2. Introdução à trilha de aprendizagem
2.1 Objetivos de aprendizagem
3. Quais são as novas necessidades originadas com o
Big Data
4. O que será aprendido neste componente
4.1 Conteúdo da trilha 2 - Dados estruturados,
semiestruturados e não estruturados
4.2 Conteúdo da trilha 3 - Modelagem relacional,
dimensional e não relacional
4.3 Conteúdo da trilha 4 - Bancos de dados relacionais
e não relacionais
4.4 Conteúdo da trilha 5 - Arquitetura para Data
Warehouse
4.5 Conteúdo da trilha 6 – Performance em
armazenamento e recuperação de dados
4.6 Conteúdo da trilha 7 - Ferramentas de mercado
4.7 Conteúdo da trilha 8 - Governança de dados;
gestão de segurança da informação
5. Síntese
6. Referências
4
6
7
8
9
10
12
14
15
17
19
20
22
23
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 4
Devido à disseminação da internet ocorrida nos últimos anos,
o volume de dados disponibilizados nas diferentes publicações
eletrônicas cresceu exponencialmente. Uma das áreas de
crescimento refere-se aos dados registrados nas diferentes redes
sociais, entre elas a rede de colaboração acadêmica, originária
das publicações de trabalhos e de seus autores. Outro exemplo é
a evolução da internet das coisas, na qual, por meio de diversos
sensores, uma grande quantidade de informações pode ser
coletada diariamente.
Acompanhando esse crescimento surgem novas necessidades de
aplicações capazes de gerenciar grandes quantidades de dados
não estruturados, constatando-se que o modelo de Sistema de
Gerenciamento de Banco de Dados Relacional (SGBDR) não
atende bem a essa necessidade.
O modelo relacional é o modelo predominante utilizado nos
bancos de dados atuais e é normalmente utilizado para o
armazenamento de dados estruturados. Porém, a análise nas
redes de colaboração deve ser feita utilizando uma nova estrutura,
já que o modelo de dados relacional não é adequado para todas as
consultas requeridas nesse ambiente de colaboração (MEIJER &
BIERMAN, 2011).
Pesquisa de Meijer (2011) abordou a questão de adotar o
modelo Not Only SQL (NoSQL) ou o modelo relacional para o
gerenciamento de grandes quantidades de dados e concluiu
que não existe modelo capaz de atender bem todos os desafios
deste tipo de tarefa. Deste modo, ambos os modelos apresentam
características próprias e é possível adotar qualquer um dos
dois modelos de forma a atender uma mesma necessidade, sem
perda de desempenho desde que se considerem as solicitações da
consulta e o volume de dados.
Nesta trilha de aprendizagem de Armazenamento de Dados
serão abordados os motivos e os problemas ocasionados por este
crescimento no volume de dados e serão apresentadas soluções e
Introdução ao estudo do
tema
1.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 5
possibilidades de atuação. A seguir serão analisadas as diferenças
entre os três tipos de armazenamento de dados: estruturado,
semiestruturado e não estruturado, identificando, com a utilização
de exemplos, quando podem ser utilizados.
A estrutura do Data Warehouse, sua arquitetura e esquema serão
vistos na terceira semana. Após, analisaremos os bancos de dados
não relacionais, estabelecendo comparativos com o banco de
dados relacional e apresentando os seus quatro tipos mais comuns:
chave/valor, orientado a colunas, orientado a documentos e
orientado a grafos.
As modelagens relacional, dimensional e não relacional serão
abordadas na quinta aula, na qual serão apresentadas as
características destes novos tipos de modelagem. Do mesmo
modo será vista a performance em armazenamento e recuperação
de dados, estabelecendo comparativos entre os modelos não
relacionais apresentados.
Por fim, analisaremos dois termos complementares: governança
de dados e gestão de segurança da informação, trazendo estes
assuntos para os problemas relacionados com os grandes
volumes de dados e encerrando a trilha de aprendizagem com a
apresentação das ferramentas atuais de mercado.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 6
O fenômeno Big Data representa o grande volume de dados que
são produzidos e armazenados diariamente, advindos de diversas
fontes de dados e também de sistemas operacionais já existentes.
Uma das vantagens do armazenamento destes dados em um
repositório único é o seu processamento, sendo possível obter
valor da informação e auxiliando na tomada de decisões.
Na primeira trilha de aprendizagem deste componente curricular
apresentaremos um resumo sobre o que será visto ao longo do
curso, tornando mais fácil compreender como as diferentes trilhas
estão interligadas.
Introdução à trilha de
aprendizagem
2.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 7
• objetivos conceituais:
Introdução ao curso - nesta trilha será compreendido
como o volume de dados e a sua variedade fizeram com que
novas soluções, capazes de solucionar as novas necessidades
tecnológicas, fossem desenvolvidas.
Novas necessidades originadas com o Big Data - para
atender às novas necessidades vinculadas ao fenômeno Big
Data foi preciso desenvolver e aplicar novas tecnologias e
metodologias; nesta trilha veremos quais são elas.
O que será aprendido neste componente - será apresentado
um resumo sobre as dinâmicas de todas as trilhas, de forma
a que o aluno possa ambientar-se com cada nova trilha,
compreendendo a integração entre elas;
• objetivos procedimentais e habilidades:
Estudo - leitura dos conteúdos de cada trilha de
aprendizagem;
• objetivos atitudinais e valores
Objeto de aprendizagem - introdução ao curso, quais as
novas necessidades com o Big Data e o que será aprendido
neste componente.
Objetivos de aprendizagem2.1
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 8
Um dos termos mais comentados atualmente na área de tecnologia
da informação é Big Data. Este termo refere-se a grandes
quantidades de dados armazenados, que são provenientes de
diversas fontes e que são armazenados em um repositório único,
sendo este repositório distribuído ou não.
A origem destes dados pode ser tanto de sistemas tradicionais,
já existentes, quanto pode incorporar dados extraídos de outras
fontes, tais como redes sociais, arquivos CSV ou sensores, por
exemplo. Por meio do armazenamento e processamento destes
dados é possível obter valor da informação.
Porém, a tecnologia de gerenciamento de dados do modelo
relacional, apresentada em 1970 por Edgar F. Codd, não é a
mais adequada para suportar os dados da estrutura do Big
Data. O modelo proposto por Coode foi elaborado pensando
em dados estruturados, não tendo sido planejado para tratar os
dados não estruturados que existem no Big Data. A definição
de Big Data inclui os 3 Vs, Volume, Variedade e Velocidade,
que são necessidades atuais, não tendo sido previstas quando o
modelo relacional foi concebido. Quando o modelo relacional foi
implementado os dados seguiam uma estrutura bem definida e
não possuíam grande volume como atualmente. Graças ao evento
Big Data, a tecnologia para tratar grandes volumes de dados tem
evoluído muito.
Nesta trilha será apresentado um resumo sobre o que será visto em
todas as sete trilhas seguintes, de forma a nortear o conhecimento
e identificar as relações existentes entre cada nova trilha de
aprendizadoreferente ao componente Armazenamento de dados
– O Data Storage.
Quais são as novas
necessidades originadas
com o Big Data
3.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 9
O que será aprendido
neste componente
4.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 10
Para compreender o armazenamento de dados sob a visão do
Big Data é preciso entender como este conceito mudou a forma
de extrair e armazenar os dados. Este grande volume de dados,
produzidos e armazenados diariamente, tornou-se um desafio para
que fosse possível armazená-los e gerenciá-los com eficiência. Um
outro fator inerente ao Big Data tornou urgente uma necessidade
de evolução tecnológica: a variedade de dados.
Variedade de dados significa que a quantidade de tipos de
dados utilizados é muito vasta, não apresentando somente uma
estrutura definida. Deve-se considerar não apenas os dados
estruturados, provenientes de bancos de dados relacionais, mas
também os dados semiestruturados e os dados não estruturados,
que são gerados por mídias sociais, tais como Facebook e Linkedin,
documentos eletrônicos, e-mails, câmeras de vídeo, dentre outros.
Deste modo, é importante saber quais são os detalhes e as
diferenças entre estes tipos de estrutura de dados, em que situações
são encontrados e quais são os meios de abordá-los corretamente.
Considerando que os dados estruturados são muito utilizados
nos sistemas das organizações, em especial nos seus bancos de
dados relacionais, verifica-se que este tipo de estrutura é muito
requisitado para a elaboração de análises, pois estes, quando
consolidados, resultarão nas informações operacionais das
organizações.
Já os dados semiestruturados são mais heterogêneos, não
possuem um padrão único definido, tornando-se mais complexos
quanto à sua manipulação. Temos como exemplos os documentos
armazenados em formato eXtensible Markup Language (XML).
Ao longo dessa trilha analisaremos os dados semiestruturados.
Conteúdo da trilha 2
- Dados estruturados,
semiestruturados e não
estruturados
4.1
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 11
Os dados não estruturados são os conteúdos digitais de diversas
mídias, tais como imagem, vídeos, áudios ou conteúdo de e-mails,
entre outros. São mais complexos de recuperar, já que os dados
não estão organizados em tabelas. Neste componente também
veremos em detalhes cada um destes tipos de dados.
Na figura 1 apresentamos um exemplo de cada tipo de dado.
Figura 1: Tipos de dados
Fonte: Elaborado pelo autor.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 12
A abstração do mundo real é feita com a utilização de um modelo,
um modo de visualizar o que pretendemos realizar. A modelagem
dos dados para o ambiente do Data Warehouse deve buscar um
bom desempenho para atender às consultas analíticas e ser bem
simples, permitindo que os próprios usuários possam realizar
suas consultas.
Com isto, a modelagem relacional não é apropriada para Data
Warehouse, pois as técnicas de modelagem como desnormalização
na terceira forma normal tornam a velocidade de retorno das
consultas em grandes volumes de dados muito ineficientes, não
sendo aplicáveis no ambiente de apoio a decisões. Para se utilizar
a modelagem Entidade-Relacionamento (ER) em ambientes de
Data Warehouse é preciso que o modelo ER tenha características
específicas para suportar o ambiente de análise multidimensional.
Assim, a modelagem multidimensional tem como objetivo
sumarizar, reestruturar e oferecer uma visualização dos dados
do negócio, priorizando o suporte às consultas analíticas. É uma
técnica utilizada para que se obtenha uma visão multidimensional
dos dados, na qual os dados são modelados em uma estrutura
multidimensional também conhecida por cubo de dados.
Na figura 2 apresentamos um exemplo do esquema estrela,
utilizado na modelagem multidimensional.
Conteúdo da trilha 3 -
Modelagem relacional,
dimensional e não
relacional
4.2
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 13
Figura 2: Exemplo do esquema estrela
Fonte: Elaborado pelo autor.
Nesta trilha veremos em detalhes como é a técnica de modelagem
dimensional, cujo resultado permite que os dados sejam vistos de
diversas formas, sendo mais flexível e com grande utilidade nos
casos de consultas com necessidade de análises.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 14
Devido ao crescimento constante do volume de dados a tecnologia
para tratar destas informações teve de ser revista. Assim, outros
modelos de armazenamento de dados mais apropriados surgiram.
As principais bases tecnológicas para o Big Data são os bancos de
dados Not Only SQL (NoSQL), projetados para manipular grandes
volumes de dados com desempenho superior aos tradicionais
Sistemas Gerenciadores de Bancos de Dados Relacionais
(SGBDR). Os bancos de dados não relacionais tratam volumes
muito grandes de dados, dos mais variados tipos, também atuando
com processamento distribuído e escalabilidade.
No modelo NoSQL o armazenamento de dados não é tão rígido
como nos bancos de dados relacionais, sendo possível armazenar
dados semiestruturados e não estruturados. Existem diversos
tipos de modelos NoSQL. Os quatro modelos principais de NoSQL
são: Chave/Valor, orientado a colunas, orientado a documentos e
orientado a grafos.
Nesta trilha apresentaremos as características e os aplicativos que
atendem a cada um destes quatro modelos NoSQL, bem como um
comparativo entre os modelos relacionais e não relacionais.
4.3 Conteúdo da trilha 4 -
Bancos de dados
relacionais e não
relacionais
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 15
O Data Warehouse, ou Armazém de Dados, surgiu como uma
evolução dos ambientes de suporte a decisões, integrando fontes
de dados dos sistemas operacionais e de outras fontes de dados.
Tem como uma de suas finalidades permitir que informações
analíticas derivadas destas fontes sejam facilmente geradas. Outra
finalidade é separar os dados analíticos dos dados operacionais,
de modo a evitar a perda de desempenho decorrente de consultas
em grandes volumes de dados.
O Data Warehouse tem características diferentes do ambiente
tradicional. Os projetos de Data Warehouse devem ser desenvolvidos
com uma metodologia consistente, capaz de guiar o projetista
durante as várias fases do projeto. Podemos definir Data
Warehouse como sendo um banco de dados orientado a assuntos,
integrado, não volátil e variável em relação ao tempo em que é
utilizado, principalmente no processo de tomada de decisões.
Incorpora cópias dos dados especialmente estruturados para
facilitar o processo de análise, consulta e geração de relatórios.
Na figura 3 apresentamos um exemplo de arquitetura para Data
Warehouse.
4.4 Conteúdo da trilha 5 -
Arquitetura para Data
Warehouse
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 16
Figura 3: Arquitetura para Data Warehouse
Fonte: Elaborado pelo autor.
Nesta trilha iremos apresentar a estrutura de um Data Warehouse,
suas definições e principais características, o Data Mart e sua
composição, a finalidade de um Data Warehouse, esquema de
modelagem e arquiteturas possíveis.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados– O Data Storage 17
Online Analytical Processing (OLAP) ou Processamento Analítico
em Tempo Real é uma categoria de processamento que explora
informações em grandes volumes de dados, organizados em
Data Warehouses, conforme o modelo multidimensional. Através
de uma interface OLAP podemos visualizar a informação em
diferentes visões e níveis de detalhamento, funcionando como
um relatório dinâmico. Estes tipos de consultas e análises não
são disponibilizados nas ferramentas que acompanham o Data
Warehouse.
Normalmente associarmos a tecnologia OLAP à manipulação
multidimensional dos dados. O modelo de dados multidimensional
possibilita que as informações sejam apresentadas e analisadas
permitindo visualizar qualquer intervalo de tempo definido no
Data Warehouse. Isto só é possível porque o modelo de dados é
projetado para contemplar o formato de dimensões, sendo estas
representações da realidade dos dados sob a ótica de quem vai
analisá-los.
Apresentamos na figura 4 e na figura 5 representações da
tecnologia ROLAP e da tecnologia MOLAP.
4.5 Conteúdo da trilha 6 –
Performance em
armazenamento e
recuperação de dados
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 18
Figura 4: Tecnologia ROLAP
Fonte: PIRES (2016).
Figura 5: Tecnologia MOLAP
Fonte: PIRES (2016).
OLAP possibilita uma recuperação de dados e com isto seu
processamento analítico sempre que for necessário obter
informações provenientes de grandes volumes de dados. Apresenta
melhor desempenho no tempo de execução quando comparado
com os bancos de dados relacionais. Nesta trilha vamos abordar a
origem do OLAP, suas características e os seus tipos mais comuns.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 19
Ao longo das trilhas anteriores terão sido apresentados todos os
conceitos teóricos para a implementação de um Data Warehouse.
Nesta trilha iremos apresentar as ferramentas atuais de mercado
para a sua implementação. Ferramentas OLAP possibilitam
que os dados de um Data Warehouse sejam acessados e com
isto analisados. Os custos da implementação do OLAP são
muito altos, porém, no mercado, existem ferramentas de código
aberto que podem ser utilizadas. Nesta trilha iremos apresentar
somente as ferramentas de código aberto. Assim, utilizando estas
ferramentas, empresas de pequeno e médio porte podem adotar
as soluções baseadas em OLAP para apoio à tomada de decisão.
Nesta trilha veremos estas principais ferramentas, além de
apresentar outras ferramentas necessárias para a implementação
de um Data Warehouse. Serão vistas as ferramentas servidor
OLAP Mondrian, clientes Jpivot e as suítes de ferramentas Pentaho,
OpenI e SpagoBI.
4.6 Conteúdo da trilha 7 -
Ferramentas de mercado
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 20
Antigamente a governança de dados encontrava-se vinculada
a setores como compliance e jurídico. Porém, nos últimos anos,
devido à percepção de que a informação é um ativo estratégico
para as empresas e pela popularização do fenômeno Big Data, a
governança de dados e informação vem ganhando importância
em diversas áreas de negócios em todos os segmentos, em todo o
mundo.
Privacidade, segurança e utilização dos dados são alguns dos
motivos que tornaram a gestão da informação uma das atividades
mais críticas para as empresas. A governança de dados determina as
regras para a obtenção e a utilização de dados, além de estabelecer
as bases para a monitoração e a avaliação do programa.
Além disso, a governança de dados também define os papéis e
as responsabilidades dos usuários, monitorando a execução das
ações e resultados obtidos, e com isto monitorando a sua eficiência,
permitindo fazer ajustes e assim garantindo que as informações
sejam tratadas como um ativo da organização.
Vemos os componentes de governança de dados na figura 6.
4.7 Conteúdo da trilha 8 -
Governança de dados;
gestão de segurança da
informação
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 21
Figura 6: Componentes de governança de dados
Fonte: DAMA International (2008).
Nesta última trilha apresentaremos a importância da governança
da informação em uma organização, compreendendo a sua
teoria e aplicações, além de apresentarmos o conceito de gestão
da segurança da informação, que se refere a todos os aspectos de
proteção de informações e dos dados.
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 22
Nesta trilha apresentamos quais são os próximos caminhos
que serão seguidos para compreender o armazenamento de
dados relacionado com o conceito Big Data, assim como suas
implicações e inovações tecnológicas, quais são as ferramentas
existentes no mercado e quais são as diferenças em relação aos
modelos tradicionais dos bancos de dados relacionais.
Ao longo das próximas trilhas o conhecimento adquirido pelo
aluno vai crescendo, permitindo-lhe inserir-se no mercado ou
apenas conhecer melhor todas as vertentes e possibilidades do
assunto sobre armazenamento quando for considerado um grande
volume e variedade de dados.
5. Síntese
Trilha de Aprendizagem 1 — Armazenamento massivo de dados
Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 23
CODD, E. F. A relational model of data for large shared data banks.
In: Communications of the ACM, v. 13, n. 6, p. 377–387, jun.
1970.
DAMA INTERNATIONAL. DAMA-DMBOK Functional
Framework. 2008. Disponível em: <https://dama.org/sites/
default/ f i les/download/DAMA-DMB OK_Funct ional_
Framework_v3_02_20080910.pdf>. Acesso em: 20 dez. 2017.
INMON, W. H. Building the Data Warehouse: Getting started. 4ª
ed. Wiley Publishing, 2005.
MEIJER, E.; BIERMAN, G. M. A co-relational model of data for
large shared data banks. In: Communications of the ACM, vol.
54, n. 4, p. 49–58, abr. 2011.
MINELLI, M.; CHAMBERS, M.; DHIRAJ, A. Big Data Big
Analytics: Emerging business intelligence and analytic trends for
today’s businesses. Hoboken: John Wiley and Sons, 2013.
PIRES, C. E. Data Warehousing. Campina Grande, 2016.
Disponível em: <http://slideplayer.com.br/slide/5601411/>.
Acesso em: 20 dez. 2017.
VOGELS, W. Eventually consistent. In: Queue - Scalable Web
Services, v. 6, n. 6, out, p. 14-19, 2008.
6. Referências
https://dama.org/sites/default/files/download/DAMA-DMBOK_Functional_Framework_v3_02_20080910.pdf
https://dama.org/sites/default/files/download/DAMA-DMBOK_Functional_Framework_v3_02_20080910.pdf
https://dama.org/sites/default/files/download/DAMA-DMBOK_Functional_Framework_v3_02_20080910.pdf
http://slideplayer.com.br/slide/5601411/
ead.mackenzie.br

BD-ADDS-T1-Armazenamento massivo de dados

SENAC

Banco de Dados I

Continue navegando

Outros materiais