Modelagem e arquitetura do DW (Data Warehouse)

•

UNOPAR

TANIA MIGUEL

05/08/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 175 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 175 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 175 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Warehouse Data Mining

429 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

W
BA
07
48
_v
1.
2
MODELAGEM E ARQUITETURA
DO DW (DATA WAREHOUSE)
2019
Editora e Distribuidora Educacional S.A.
Avenida Paris, 675 – Parque Residencial João Piza
CEP: 86041-100 — Londrina — PR
e-mail: editora.educacional@kroton.com.br
Homepage: http://www.kroton.com.br/
Presidente
Rodrigo Galindo
Vice-Presidente de Pós-Graduação e Educação Continuada
Paulo de Tarso Pires de Moraes
Conselho Acadêmico
Carlos Roberto Pagani Junior
Camila Braga de Oliveira Higa
Carolina Yaly
Giani Vendramel de Oliveira
Juliana Caramigo Gennarini
Nirse Ruscheinsky Breternitz
Priscila Pereira Silva
Tayra Carolina Nascimento Aleixo
Coordenador
Nirse Ruscheinsky Breternitz
Revisor
Renata Maria Silva Costa
Wendel Brustolin
Editorial
Alessandra Cristina Fahl
Beatriz Meloni Montefusco
Daniella Fernandes Haruze Manta
Hâmila Samai Franco dos Santos
Mariana de Campos Barroso
Paola Andressa Machado Leal
Dados Internacionais de Catalogação na Publicação (CIP)
Catarino, Iolanda Claudia Sanches
C357m Modelagem e arquitetura do DW (data warehouse)/
Iolanda Claudia Sanches Catarino, Marise Miranda -
Londrina: Editora e Distribuidora Educacional S.A. 2019.
156 p.

ISBN 978-85-522-1536-3

1. Big data. 2. Banco de dados. I. Catarino, Iolanda
Claudia Sanches. II. Miranda, Marise. Título.

CDD 000
Thamiris Mantovani CRB: 8/9491
© 2019 por Editora e Distribuidora Educacional S.A.
Todos os direitos reservados. Nenhuma parte desta publicação poderá ser
reproduzida ou transmitida de qualquer modo ou por qualquer outro meio,
eletrônico ou mecânico, incluindo fotocópia, gravação ou qualquer outro tipo de
sistema de armazenamento e transmissão de informação, sem prévia autorização,
por escrito, da Editora e Distribuidora Educacional S.A.
3
SUMÁRIO
Apresentação da disciplina ......................................................................................04
Banco de Dados Transacionais versus Bancos de Dados Analíticos .................05
Conceitos básicos sobre Data Warehouse ..............................................................31
Data Marts ...................................................................................................................57
Modelagem de dados para um Data Warehouse ................................................81
Esquema Estrela e Esquema Floco de Neve .................................................. 110
Ferramentas de Dados em um Data Warehouse ..................................................131
Mineração de Dados em Data Warehouse .............................................................154
MODELAGEM E ARQUITETURA DO DW (DATA WAREHOUSE)
4
Apresentação da disciplina
A disciplina Modelagem e Arquitetura de Data Warehouse contempla
a modelagem, a arquitetura com seus componentes e os tipos de
ferramentas que integram um ambiente de Data Warehouse.
Assim, no primeiro tema da disciplina, são contextualizados os
princípios, os elementos e as características dos bancos de dados
transacionais e dos bancos de dados analíticos. No segundo e terceiro
temas, são fundamentados os conceitos de Data Warehouse e Data Marts,
abordando o ambiente, a arquitetura e a relação entre os componentes
de um ambiente de Data Warehouse.
O quarto tema introduz a modelagem de dados para Data Warehouse,
abordando um comparativo entre o Modelo Entidade Relacionamento
(MER) com os princípios e a estrutura da modelagem multidimensional.
O quinto tema compreende a representação da modelagem
multidimensional para Data Warehouse, demonstrando e exemplificando
as características, os elementos e a aplicação do Esquema Estrela
(Star Schema) e do Esquema Floco de Neve (Snow Flake Schema), que é
considerado uma extensão do Esquema Estrela.
O sexto tema introduz os fundamentos sobre o Processamento Analítico
Online (Online Analytical Processing – OLAP) em comparação com o
Processamento de Transações Online (Online Transaction Processing –
OLTP); além disso, apresenta as operações OLAP e a classificação das
ferramentas OLAP de acordo com a estratégia de armazenamento
dessas ferramentas. O sétimo e último tema da disciplina aborda
o processo de Descoberta de Conhecimento em Bases de Dados
(Knowledge Discovery in Databases – KDD) e suas etapas, além dos
fundamentos e das fases do processo de mineração de dados (Data
Mining), enfatizando que a mineração de dados é considerada a principal
atividade do processo KDD. Por fim, apresenta-se uma síntese dos
principais métodos e técnicas aplicados nas ferramentas de Data Mining.
Banco de Dados Transacionais
versus Bancos de Dados Analíticos
Autora: Marise Miranda
Objetivos
• Reconhecer os contextos em que se aplicam os
bancos de dados transacionais e os bancos de dados
analíticos.
• Acompanhar a estrutura tecnológica e de dados que
suporte as transações dos sistemas de informação.
• Escolher a estrutura tecnológica e de dados para
suportar as atividades analíticas que envolvam áreas
de conhecimento especializadas, como o apoio à
tomada de decisão.
6
1. Consolidação de diferentes fontes de dados
Todos os dias, crescentes quantidades de dados são disponibilizadas
nas organizações por meio de diversas fontes internas e externas
e pela internet. A automação de serviços, como as vendas on-line,
está constantemente produzindo e divulgando dados sobre bens de
consumo e sobre as respectivas transações associadas a esse serviço.
Os comportamentos das pessoas são expostos constantemente
em redes sociais, consolidando-se como uma fonte de dados. As
preferências, novidades, datas festivas, entre outras informações,
são incluídas pelo usuário. O uso de tecnologias integradas nos
serviços por aplicativos gera enormes volumes de dados, como o
uso de transações bancárias, a navegação na internet e a troca de
informações digitais.
Todos esses dados gerados em larga escala, vindos de diferentes
fontes, tanto externas quanto internas às empresas, formam um
conjunto de dados, chamados, normalmente, de datasource, criando,
quando reunidos em um único local, os sistemas de banco de dados.
Os sistemas gerenciadores desses ambientes denominam-se Sistema
de Gerenciamento de Banco de Dados (SGBD).
Esses conjuntos de dados podem ser formados por um arquivo, por
um banco de dados específico em um Database Management System
(DBMS) ou até mesmo por um feed de dados ativo. O SGBD ou DBMS
são softwares que gerenciam a base de dados, retirando da aplicação do
cliente o gerenciamento do acesso, a organização e a manipulação dos
dados. Já os feeds de dados são fluxos de dados XML gerados a partir de
uma fonte de dados on-line, sendo transmitidos para um documento ou
aplicativo de destino.
7
Os dados podem estar localizados no mesmo computador que o
programa ou em outro computador em algum lugar da rede. O conjunto
de dados provenientes de diversas fontes deve ser modelado em
uma certa estrutura para que possa ser armazenado, manipulado e
recuperado. A necessidade de estruturar esse conjunto em um modelo
de dados serve para explicar suas características de funcionamento e
comportamento.
1.1 Modelo de dados
As fontes de dados são armazenadas segundo um modelo de banco de
dados, organizados em uma estrutura lógica de um banco de dados,
incluindo os relacionamentos, os tipos de dados e as restrições que
determinam como eles podem ser armazenados e acessados. Os tipos
de modelos de dados estão associados à tipologia, estando os mais
comuns listados a seguir:
• Modelo de banco de dados hierárquico.
• Modelo relacional.
• Modelo de rede.
• Modelo de banco de dados orientado a objetos.
• Modelo de relacionamento entre entidades.
• Modelo de BD NoSQL.
Cada modelo de banco de dados é tratado de forma personalizada e
é projetado com base em regras e conceitos que são adotados pelosprojetistas. A maioria dos modelos de dados pode ser representada por
um diagrama de banco de dados a ele associado (Figura 1).
8
Figura 1 – Modelo genérico de diagrama de banco de dados

Fonte: elaborada pela autora.
Os diagramas de banco de dados auxiliam na descrição de um banco de
dados e de suas dependências, além de serem o modelo dos dados e
mostrarem como se relacionam. Nesse sentido, é importante adotar um
SGBD para dar suporte ao modelo adotado. A maioria dos sistemas de
gerenciamento de banco de dados é construída sobre um determinado
modelo de dados e requer que seus usuários abstraiam esse modelo.
No entanto, diversos modelos se aplicam a diferentes estágios do
processo de desenho do banco de dados, sendo um reflexo da forma
como o especialista enxerga os dados. O administrador de banco de
dados está ligado ao modelo físico dos dados, ao tipo, aos atributos, ao
armazenamento, à performance do banco etc.
Os modelos de dados podem ser também conceituais, que é uma
visão de alto nível acerca de como os dados se relacionam e quais
dados integram esse modelo. Assim, o modelo conceitual abstrai o
relacionamento entre as entidades e suas especializações, facilitando o
mapeamento dos dados. Já os modelos lógicos, baseados em registros
nas tabelas, refletem a proximidade de como os dados são armazenados
no servidor e suas chaves de ligações.
Definir qual modelo será usado requer a compreensão e adequação
de como aplicar o modelo que será adotado. Nem todos os modelos
definem pontos fortes, mas ajudam a definir as priorizações, como
9
velocidade, redução de custos, usabilidade, entre outras características
intrínsecas. Ao escolher um modelo, este deve refletir o ambiente
observado em que os dados são gerados, servindo para especificar
relacionamentos, documentar e normalizar os dados.
1.2 Modelo de banco de dados hierárquico
O modelo hierárquico organiza os dados em uma estrutura semelhante
a uma árvore, em que cada registro possui um único pai ou raiz (Figura
2). Os registros são classificados por meio da especificação organizada
de suas entidades e de seus relacionamentos. As entidades possuem
relacionamentos entre si e refletem os objetos de acordo com sua
existência no mundo real, sejam abstratos ou concretos, como cliente,
vendas, produtos, estoque etc.
Figura 2 – Modelo hierárquico

Fonte: elaborada pela autora.
Esse modelo foi usado em SGBD das décadas de 1960 e 1970, sendo
mantido atualmente apenas em poucos sistemas legados (sistemas
informacionais ou gerenciais existentes na empresa, que podem
ser antigos ou recentes). Hoje em desuso por conta de ineficiências
operacionais, é apenas explorado nesse contexto para acrescentar um
timeline sobre a evolução dos modelos.
10
1.3 Modelo relacional
O modelo relacional é o mais utilizado atualmente. Segundo Machado
(2011), ele classifica os dados em tabelas, também conhecidas como
relações, sendo cada uma composta por colunas e linhas. Cada coluna
lista um atributo da entidade em questão, como produto, preço ou data
de venda, sendo os atributos em uma relação chamados de domínio.
Na Figura 3, o exemplo mostra um determinado atributo ou combinação
de atributos escolhido como uma chave primária, que pode ser
referenciada em outras tabelas, quando então é chamada de chave
estrangeira na tabela na qual foi referenciada, no caso ID_Paciente e
Cod_convenio. Em um modelo de banco de dados relacional, a chave
primária refere-se à coluna que nunca se repete e pode ser usada como
índice. A chave estrangeira é formada por meio de um relacionamento
com a chave primária de uma ou mais tabelas.
Figura 3 – Modelo relacional de convênio médico
ID Paciente Nome_paciente Sobrenome_paciente
123456 Maria De Souza
123457 Rosa Cristina Alencar
123458 Alberto Noronha
Cod_convenio Convenio
123456 Maria
123457 Rosa
123458 Albeto
ID Paciente Cod_convenio Tipo_plano Data_adesao
123456 123456 Premium 26/11/2012
123457 123457 Corporativo 01/04/1999
123458 123458 Co participação 01/02/2017
Fonte: elaborado pela autora
Cada uma das linhas, também chamadas de tuplas, inclui dados
sobre uma instância específica da entidade em questão, como o ID do
11
paciente. Esse modelo reflete os tipos de relacionamentos entre essas
tabelas, incluindo relacionamentos um para um, um para muitos e
muitos para muitos. Isso significa que a chave primária de uma tabela
está relacionada com a chave estrangeria em outra tabela, formando um
relacionamento entre tabelas. Um exemplo é a escola que tem várias
turmas, estando um relacionamento de uma escola relacionado com
várias turmas. Um aluno pertence somente a uma turma (um para um),
e alunos cursam disciplinas (N para N).
Em bancos de dados, as tabelas podem ser normalizadas ou trazidas
para obedecer às regras de normalização, as quais organizam os dados
em projeto de banco de dados, reduzem as redundâncias, aumentam
a integridade para os dados e melhoram seu desempenho. Além disso,
elas minimizam as anomalias de modificações dos dados, dando maior
flexibilidade em sua utilização.
A utilização das regras de normalização produz resultados adaptáveis
em validações estatísticas. Isso quer dizer que uma query que contenha
função estatística pode ser sempre utilizada para novas entradas de
dados, desde que estes obedeçam às regras de normalização. Quando
normalizado, cada dado é atômico ou dividido nas menores partes úteis.
Os bancos de dados relacionais geralmente são gravados em Structured
Query Language (SQL).
1.4 Modelo de rede
O modelo de rede em banco de dados baseia-se no modelo hierárquico,
permitindo relacionamentos muitos para muitos entre registros que
estão vinculados, como alunos matriculados em disciplinas. Isso implica
a necessidade de vários registros pai (MACHADO, 2011). Esse modelo
possibilita relações complexas (Figura 4).
12
Figura 4 – Modelo de rede em banco de dados

Empregado Cliente
Transacoes_Vendas
Vendedor
Produto

Fonte: elaborada pela autora.
1.5 Modelo de BD orientado a objetos
O modelo de banco de dados orientado a objetos é o modelo pós-
relacional mais conhecido, pois incorpora tabelas, mas não se limita a
elas. Esses modelos também são conhecidos como modelos de banco
de dados híbridos, pois contêm dados como imagem, áudio, vídeo ou
hipertexto.
1.6 Modelo de relacionamento entre entidades
Esse modelo captura as relações entre entidades do mundo real muito
parecidas com o modelo de rede, mas não está diretamente ligado à
estrutura física do banco de dados. Em vez disso, é frequentemente
usado para projetar um banco de dados conceitual. Ele auxilia nas
visões existentes dos relacionamentos entre as tabelas e na construção
de novas visões em um DW, utilizadas para compor as dimensões e as
tabelas fato.
13
Os dados armazenados em tabelas, como nomes, locais, produto etc.,
são denominados de entidades, e cada uma possui certos atributos,
que, quando juntos, formam seu domínio. A entidade pessoa possui
dados armazenados com o nome de pessoas, por exemplo. A entidade
endereço tem que ter o local onde a pessoa mora, a rua, o número,
o CEP, o bairro, a cidade, o Estado e o país. A cardinalidade, ou
relacionamentos entre entidades, também pode e deve ser mapeada,
por exemplo, se a entidade pessoa possui mais de um local, residência
ou trabalho.
Machado (2011) ilustra que esse modelo é utilizado em nível
de abstração de projetos de banco de dados, descriminando as
características dos dados, chave primária e estrangeira. A chave primária
pertence a um conjunto de campos que nunca se repetem e, portanto,
podem ser usados como índice. Já a chave estrangeira é utilizada
para criar os relacionamentos entre as tabelas. A Figura 5 apresenta
um exemplo de modelo ER, ou simplesmente MER (Modelo Entidade
Relacionamento).
Figura 5 – MER

Tbl_produto
id_prodt (INT)
prodt_name (TEXT)
prodt_qt (INT)
Id_categoria (INT)Tbl_categoria
id_categ (INT)
nome_categ (TEXT)
prodt_qt (INT)
descricao categ (INT)
Fonte: elaborada pela autora.
O MER é uma forma comum do diagrama de esquema em estrela,
no qual uma tabela de fatos central se conecta a várias tabelas
dimensionais (Figura 6).
14
Figura 6 – Modelo Estrela

Dimensão 3 Fato
Dimensão 4
Dimensão 1
Dimensão 2
Dimensão 5
Fonte: elaborada pela autora.
As dimensões e os fatos são componentes complementares e
dependentes entre si. Em um modelo dimensional, é obrigatória a
existência de ambos (MACHADO, 2011, p 79). Esses elementos são
fundamentais para a compreensão e análise das informações, pois,
sem eles no modelo dimensional, pode haver comprometimento ou
inviabilização nas análises pretendidas.
Essa percepção é muito importante para elaborar projetos em DW, já
que uma série de agregações, sumarizações e tratamentos é necessária
para criar as visões necessárias a partir das dimensões descritas por
meio da tabela fato. É muito importante perceber que o banco de dados
15
se mantém preservado, e as métricas e visões são construídas em um
modelo estrela, de múltiplas dimensões.
PARA SABER MAIS
Tabela fato: é a principal tabela do MER ou das dimensões
do DW. Nela, são armazenadas as métricas, que são os
fatos propriamente ditos, e as Foreign Keys (FK – chaves
estrangeiras, em português), que são as chaves que ligam
os dados das dimensões com a tabela fato. As métricas são
as medidas de tudo aquilo que a empresa quer medir para
gerar valor e controle, ligando suas FK às dimensões que as
descrevem.
Tabela dimensões: é a tabela que qualifica os dados
provenientes da tabela fato. Por meio dela, pode-se criar
análises dos dados em múltiplas perspectivas.
1.6.1 Modelo multidimensional
Esse modelo é uma variação do modelo relacional, sendo projetado
para facilitar o processamento analítico. Vale ressaltar que o modelo
relacional é otimizado para o processamento de transações on-
line (OLTP – On-line Transaction Processing), enquanto o modelo
multidimensional é projetado para processamento analítico on-line
(OLAP). Cada célula em um banco de dados dimensional contém
dados sobre as dimensões rastreadas pelo banco de dados. De uma
forma visível para o analista, é como uma coleção de cubos, em vez
de tabelas bidimensionais, que podem ser consumidas para consulta
(KIMBALL, 2002).
16
É muito comum encontrar as siglas como referência ao tipo de banco,
se transacional ou analítico. O OLTP refere-se ao banco transacional, a
base de dados original, cujo acesso deve ser preservado e restrito. Já
quando se trata das análises, das métricas, das visões e das dimensões,
o modelo deve ser projetado para ser consumido em ferramentas
analíticas, dashboards, gráficos e relatórios, nesse caso, o OLAP.
1.7 Modelo de BD NoSQL
A obtenção de dados de outras fontes que não são modelos SQL surgiu
em contraste ao modelo relacional, como um modelo de banco de dados
semiestruturados e não estruturados, chamados de NoSQL. Além desse,
dados provenientes da web, na qual várias consultas são realizadas, são
semiestruturados, o que significa que há algum nível de organização,
diferentemente da alta organização dos dados estruturados em um BD
relacional.
Já os bancos de dados não estruturados são dados provenientes de
vídeos, áudios, textos, redes sociais e da web. Em geral, são dados que
contêm algum tipo de organização dos dados aos usuários. As funções
de pesquisa na internet são convertidas em consultas para um servidor
de BD realizar as operações de processamento. Vale ressaltar que
esses dados não estruturados ou semiestruturados precisam ser pré-
processados para serem tradados como dados estruturados.
2. Banco de dados transacionais
Os bancos de dados transacionais são otimizados para executarem
sistemas de produção, desde portais de instituições financeiras até
de lojas de varejo. Neles, são feitas a leitura e a escrita em registros
individuais de dados muito rapidamente, mantendo a integridade dos
dados. Os bancos de dados transacionais não são criados para análises,
17
embora muitas vezes se tornem ambientes analíticos, pelo fato de já
estarem em funcionamento como bancos de dados, em produção, ou
seja, estão prontos para serem consumidos pelos usuários.
A estratégia usual de iniciar com as análises dos dados muitas vezes
é criar uma réplica do banco de dados transacional. Isso garante que
as consultas analíticas não impeçam, acidentalmente, as consultas de
produção, críticas para os negócios, enquanto exigem configuração
mínima adicional. A desvantagem é que esses bancos de dados são
projetados para processar transações, e não para análises. Usá-los como
análise é um ótimo começo, mas podem trazer limitações que impeçam
a necessidade de configurações analíticas mais específicas.
2.1 Integridade dos dados
A arquitetura dos bancos de dados transacionais é compatível com a
Atomicidade, Consistência, Isolamento e Durabilidade (ACID), o que
garante que as gravações no banco de dados sejam bem-sucedidas
ou falhem juntas, mantendo um alto nível de integridade dos dados
ao gravá-los no banco de dados. Os bancos transacionais são,
portanto, essenciais para as transações comerciais, nas quais um alto
nível de integridade de dados é necessário.
Como exemplo, trazemos uma transação bancária. O cliente realiza
o débito de uma conta-corrente e crédito para outra conta-corrente.
Essa ação desencadeará um processo de transações financeiras, que
utilizarão um banco de dados, devendo a arquitetura desse banco/
processo garantir o sucesso ou a falha na transação.
A ACID é um conjunto de propriedades que descreve como os bancos
de dados transacionais são projetados para preservar a integridade
das gravações neles. As principais propriedades são descritas
no Quadro 1.
18
Quadro 1 – Propriedades ACID – Banco de Dados Transacional
Propriedades Descrição
Atomicidade
Se mesmo uma parte da transação falhar, toda a
transação falhará. Dessa forma, todas as transações
devem ser 100% bem-sucedidas para serem
confirmadas com êxito no banco de dados.
Consistência
Uma transação é gravada no banco de
dados (trazendo-o de um estado válido para
outro) ou a transação é revertida.
Isolamento
As transações que ainda não foram
concluídas não podem ser processadas/
modificadas por outras transações.
Durabilidade
Depois que uma transação é gravada no banco
de dados, ela permanecerá lá, mesmo no
caso de uma falha no banco de dados.
Fonte: adaptado de MySQL ([s.d.]).
2.2 Latência
A latência em banco de dados é o período de “dormência” dos dados
que chegam ao ambiente operacional, para armazenamento em um
banco transacional ou deste para um banco analítico (INMON, 2005).
Como bancos de dados transacionais são projetados para executar
sistemas em produção, eles são muito bons em operações que devem
ser concluídas em milissegundos, sendo a baixa latência, então, uma
característica deles.
2.3 Principais características do BD transacional
A seguir, trazemos um resumo das principais características que
identificam um banco de dados transacional (Quadro 2).
Quadro 2 – Características BD Transacional
Requerimentos Descrições
Normalização Altamente normalizado
Esquema Gravação impositiva
19
Consistência Coerência forte, garantia de ACID
Integridade Alta integridade
Usa transações SIM
Atualizável SIM
Escalável SIM
Carga de trabalho Gravações intensas, leituras moderadas
Indexação Índices primários e secundários
Tamanho do dado De pequeno a médio
Modelo Relacional
Flexibilidade de consulta Altamente flexível
Escalabilidade Pequeno (MBs) a grande (alguns TBs) (*)
(*) MBs – MegaBytes; TBs – TeraBytes.
Fonte: adaptado de Kimball (2002).
3. Banco de dados analítico
Um banco de dados analítico é um sistema somente de leitura que
armazena dados para históricos ou métricas de negócios, como o
desempenho de vendas e a projeção de níveis de estoque. Os analistas
da área de negócios, executivoscorporativos e outros funcionários
podem consumir consultas e analisar relatórios provenientes de um
banco de dados analítico. Os conjuntos das informações, por sua vez,
são atualizados regularmente, à medida que os dados de transações
recentes são incorporados ao banco de dados analítico.
O projeto de um banco de dados analítico permite suportar aplicações
tanto de Business Intelligence (BI), métricas analíticas e Big Data, em geral,
como de um Data Warehouse ou Data Mart.
O banco de dados analítico é diferente dos banco de dados operacional,
transacional ou OLTP, sendo o primeiro usado para análises e o segundo
para processar as transações. Embora os bancos transacionais possam
ser usados para suportar o armazenamento de dados e as aplicações de
BI, não são recomendados por questões de integridade e escalabilidade.
O banco convencional deve ser preservado, e o banco analítico deve
estar em outro schema.
https://searchbusinessanalytics.techtarget.com/definition/business-intelligence-BI
https://searchdatamanagement.techtarget.com/definition/data-warehouse
https://searchsqlserver.techtarget.com/definition/data-mart
20
PARA SABER MAIS
Data Mart (DM): representa um subconjunto de dados do DW,
em geral por assunto ou departamento (MACHADO, 2011).
Schema: um esquema de BD representa a configuração
lógica da totalidade ou de alguma parte da base de dados
relacional. Existem dois esquemas principais em BD. Um é
o esquema de BD lógico, que contempla restrições lógicas,
como integridade, exibições e tabelas, aplicadas aos dados
armazenados. Já um esquema de BD físico define como
os dados são armazenados fisicamente no servidor de
armazenamento, em termos de arquivos e índices.
Os bancos de dados analíticos surgiram para atender especificamente
às necessidades das empresas que desejam construir repositórios de
dados de alto desempenho. Atualmente, eles são criados para analisar
volumes extremamente grandes de dados com maior rapidez do que
os bancos transacionais, utilizando, para isso, técnicas que aumentam a
performance das respostas às consultas. Algumas técnicas mais usuais
são citadas a seguir, de acordo Kimball (2002).
1. Técnica do armazenamento de dados colunar. Um banco de
dados analítico tem uma estrutura baseada em coluna, sendo
cada coluna de dados armazenada em seu próprio arquivo e
organizada geralmente em esquema estrela. Esse design torna o
banco analítico altamente flexível, o que facilita a operação em um
grande conjunto de pontos de dados em uma determinada coluna
com muita rapidez. Bancos de dados transacionais dependem de
armazenamento de dados baseado em linha. Eles são ótimos para
operar rapidamente em uma única linha, mas um design baseado
em linha não pode ser dimensionado para lidar com grandes
volumes de dados da mesma maneira que um design colunar.
21
A vantagem do processamento orientado por colunas é que os
cálculos em colunas individuais são muito rápidos. Por exemplo, para
realizar uma consulta ao banco de dados para determinar o maior
salário mensal – máximo (salário) – entre todos os funcionários, só é
necessário procurar a coluna salário. Nesse caso, apenas um bloco
deve ser carregado por um acesso ao disco rígido.
O armazenamento baseado em colunas fornece dados
direcionados para análise, o que melhora significativamente o
desempenho. A abordagem orientada por colunas é usada, entre
outras, por plataformas de banco de dados, tais como Hadoop,
HBase da Apache, Vertica e Sybase IQ da SAP.
2. Eficiente compressão de dados. Como resultado direto de seu
design de armazenamento de dados em colunas, um banco de
dados analítico é capaz de executar eficientemente a compactação
de dados em cada coluna de dados específica. A compactação de
dados é fator determinante, tanto quanto ao espaço que os dados
ocuparão como com que rapidez poderão ser manipulados.
3. Cargas de trabalho distribuídas. Em um sistema distribuído, os
dados são armazenados em um cluster de servidores (geralmente
chamados de nós). Por exemplo, em um Warehouse Redshift, os
dados podem ser armazenados em servidores diferentes de 2-14,
com o Redshift coordenando o processamento paralelo das consultas
analíticas realizadas nessa infraestrutura. Essa paralelização
permite o processamento eficiente de volumes de dados cada vez
maiores. Bases de dados analíticas são tipicamente construídas com
processamento distribuído em seu núcleo.
ASSIMILE
Redshift: está disponível na Amazon Web Services (AWS)
e é um serviço de armazenamento de dados em escala
22
de petabytes totalmente gerenciado na nuvem. Um Data
Warehouse do Amazon Redshift é um conjunto de recursos
de computação chamado de nós, que são organizados
em um grupo chamado de cluster. Cada cluster executa
um mecanismo do Amazon Redshift e contém um ou mais
bancos de dados.
3.1 Comparação entre bancos de dados transacionais e bancos
de dados analíticos
Há ainda dúvidas quanto aos bancos de dados transacionais e analíticos,
no que se refere a qual usar. Quando uma transação bancária é
realizada, por exemplo, com um depósito em cheque em determinada
conta-corrente, um processo transacional é disparado. Essa ação
irá gerar um conjunto de dados para ser associado, armazenado e
recuperado, com a informação ali contida, por meio de determinada
organização desses dados. Essa manipulação de dados, quer seja na
consulta ou na gravação, é caracterizada pelas transações envolvidas em
todo esse processo ou procedimento.
Essa ação de depósito gera uma transação, que tem como foco
descrever as transações. Esse depósito gera uma transação que tem um
determinado valor, uma origem, um destino, um determinado tempo,
entre outras informações. Essas ações são processadas por um sistema
que dará a garantia de integridade dos dados, uma ordem temporal
em cada movimento contido na ação do depósito. Por esse motivo, um
dos principais requisitos dos sistemas transacionais é a performance/
desempenho, ou seja, é necessário que a transação ocorra no momento
em que foi requerida, como um sistema em tempo real.
Já o banco de dados analítico é provido de informações advindas do
banco transacional. Os dados coletados no BD transacional servirão de
insumos para darem respostas às decisões organizacionais e estratégicas. A
23
atividade de análise sobre esses dados, do banco analítico, em geral ocorre
em modo off-line, quando se englobam os dados transacionais, agrupados,
sumarizados ou amostrados para responder às indagações feitas pelos
analistas da empresa ou de negócios.
Diferentemente dos dados transacionais, os dados analíticos requerem
e necessitam de estruturação em datasets de análise. A aquisição dos
dados analíticos se dá de diferentes maneiras, em geral por extrações
dos bancos de dados em formato de arquivos tipo .txt, .CSV ou .XLSX.
Os Datasets ou conjunto de dados são necessários para as análises de
dados, representando agrupamentos, comportamentos e amostragens
que permitem a aplicação de modelos matemáticos, como tentativa de
explicar e dar um significado àqueles dados. Eles são representações
de dados tabulares, formatados em registros nas linhas, representando
os acontecimentos ou as ocorrências e as características desses
acontecimentos nas colunas. Esse dataset resultará em um comportamento
associado àqueles acontecimentos e àquelas características.
O Quadro 3 representa uma comparação geral entre o BD analítico e o
transacional, para auxiliar no projeto de um BD com foco em DW.
Quadro 3 – Comparação geral entre BD analítico e BD transacional
Característica Analítico Transacional
Caso de uso Analisa grandes volumes
de dados para a
análise de negócios.
Processa grandes
volumes de transações
em tempo real.
Objetivo da otimização Insere rapidamente e
seleciona um grande
número de linhas.
Inserções, atualizações,
seleções e exclusões em
tempo real em menos linhas.
Consultas Especializadas e
personalizadas.
Amplas e genéricas.
Consultade tempos
de resposta
Segundos para uma
consulta analítica.
Milissegundos para uma
consulta transacional.
Bancos de dados
de exemplo
Vertica, Redshift, Greenplum,
Teradata, ParAccel.
MySQL, PostgreSQL,
Microsoft SQL Server.
Fonte: elaborado pela autora.
24
Existem questões de relevância quando ocorre uma tentativa
reducionista de comparar um banco de dados transacional e um
banco analítico. Nesse contexto, vale ressaltar que a comparação
serve como apoio para a tomada de decisão. Por exemplo como fazer
um projeto inicial de DW para BI partindo de um modelo elementar
de um banco de dados existente na organização? O projeto de um DW
para BI pode ser concebido de diferentes maneiras. Queries analíticas
podem rodar na aplicação front end, tirando o processamento do
banco de dados.
Outro ponto fundamental é o fato de os bancos de dados do
exemplo do Quadro 3 com capacidade analítica demandarem relativa
complexidade para serem implementados. Alguns apresentam
solução muito eficaz, mas demandam uso de memória de máquina
virtual, o que acaba elevando o custo da operação analítica.
Novas ferramentas ou soluções estão sempre em desenvolvimento
para resolver alguns problemas de performance de bancos de dados
tradicionais para transações. Porém, isso não tira a capacidade de
um SGBD tradicional para bancos de dados transacional suportar
as análises.
A questão não é tão simplista. Deve-se considerar o volume,
a integridade, a velocidade, entre outras questões, pois o
processamento dos dados para análises depende de cálculos pré-
programados. Além disso, análises em tempo real vão demandar
acessos contínuos, o que demanda capacidade do banco. A melhor
maneira é sempre partir de um conceito básico: o banco de dados de
repositório, que armazena as transações, não é para ser usado para
análises ou pré-processamento. Um projeto de DW para BI considera
um fluxo de dados, um banco para armazenar as transações e um
banco para processar as análises.
25
4. Considerações finais
Um banco de dados transacional deve integrar as bases de dados
da organização, os dados brutos dos processos, preservando sua
integridade. Já um banco de analítico não é um banco físico real, como o
transacional, mas sim de dimensões para construir as visões analíticas.
Portanto, um DW é um repositório que abarca dimensões, tabelas fato e
visões, que serão consumidas como apoio para a tomada de decisão. O
DW é o caminho intermediário entre os dados transacionais e os dados
analíticos.
TEORIA EM PRÁTICA
Criar um dataset para análises é uma tarefa complexa.
Suponha que você tenha que criar um dataset pelo Excel
relativo ao desempenho de uma cafeteria. São vendidos em
média 200 cafés diariamente. A cafeteria abre de domingo
a domingo, das 7 horas da manhã até às 20 horas. Além do
tradicional café, vende também água, chá e leite, além de
pão de queijo, pão com manteiga e brigadeiro. A média de
vendas de todos as bebidas, com exceção do café, é de R$
77,00 diariamente, enquanto a média diária de vendas dos
produtos alimentícios fica em R$ 65,00.
Você poderá elaborar um dataset simulando as vendas
dos itens descritos. Leve em consideração o desempenho
de um mês dessa cafeteria. Descrimine o banco de dados
para uma abordagem baseada em cáculos de maneira que
as análises dos dados sejam realizadas pelo usuário. Por
exemplo, simule um dataset com os dados preenchidos
na tabela, como data, hora, produto, tipo de produto,
quantidade, número do pedido e ID do pedido. A simulação
precisa ter regras estabelecidas nesse contexto, então pode-
26
se vislumbrar um cenário em dez anos de vendas de café.
Por exemplo, houve uma variação de 16%; o preço do café
foi de R$1,00, há dez anos, para R$ 4,40. A contabilização
desses 10 anos resultou em 720.000 cafés vendidos,
aproximadamente. Tabule os dados e crie conceito de
perspectiva analítica, a partir do modelo:
ID_pedido Data Hora Produto Tipo de produto Qte. Nº pedido Preço unitário Preço total
1 14/01/2019 07:23 bebida café expresso 2 321 R$4,40 R$8,80
2 14/01/2019 07:25 bebida médio 1 322 R$5,40 R$9,40
comida pão de queijo 1 322 R$4,00
3 14/01/2019 07:27 comida pão manteiga 1 323 R$2,50 R$2,50
4
5
6
Etc. Etc. Etc. Etc. Etc. Etc. Etc. Etc. Etc.
Observe que o pedido 2 já consiste em um cálculo da soma
de dois produtos em um mesmo pedido.
Fica mais uma dica: 200 * 30 dias = 6.000 por mês, 72.000
por ano, em dez anos = 720.000 cafés. Simule as condições
de vendas de 30 dias apenas. Avalie quais análises podem
ser estratificadas a partir desse dataset.
VERIFICAÇÃO DE LEITURA
1. Por que um banco de dados transacional não deve ser
usado para análises? Aponte a resposta correta.
a. Um banco de dados transacional deve preservar
a integridade dos dados e, portanto, não é
recomendável utilizá-lo para análises.
27
b. Um banco de dados transacional deve preservar
as tabelas fato dos dados e, portanto, não é
recomendável utilizá-lo para análises.
c. Um banco de dados transacional deve preservar as
visões dos datasets e, portanto, não é recomendável
utilizá-lo para análises.
d. Um banco de dados transacional deve preservar a
tecnologia de processamento dos dados e, portanto,
não é recomendável utilizá-lo para análises.
e. Um banco de dados transacional deve preservar o
fluxo dos dados e, portanto, não é recomendável
utilizá-lo para análises.
2. As consultas em banco de dados analítico são diferentes
de um banco de dados transacional. Qual alternativa
apresenta a característica das consultas em um banco de
dados analítico?
a. As consultas em um BD analítico são
genéricas e amplas.
b. As consultas em um BD analítico são genéricas.
c. As consultas em um BD analítico são
especializadas e amplas.
d. As consultas em um BD analítico são especializadas e
personalizadas .
e. As consultas em um BD analítico são genéricas e
modeladas matematicamente.
3. Os bancos de dados analíticos utilizam técnicas que
aumentam a performance no tempo de resposta às
consultas. Qual é a técnica de armazenamento nas
tabelas que melhora a performance em um BD analítico.
28
a. Matricial.
b. Colunar.
c. Em linha.
d. Tabular.
e. 1ª coluna e 1ª linha da tabela.
Referências Bibliográficas
INMON, W. H. Building the Data Warehouse. 4. ed. New York: Wiley Computer
Publishing, 2005.
KIMBALL, R. The Data Warehouse Toolkit: guia completo para modelagem
dimensional. Rio de Janeiro: Campus, 2002.
MACHADO, F. N. Tecnologia e Projeto de Data Warehouse: uma visão
multidimensional. São Paulo: Érica, 2011.
MYSQL. MySQL 5.6 Reference Manual. 14.2 InnoDB and the ACID Model. [s.d.].
Disponível em: https://dev.mysql.com/doc/refman/5.6/en/mysql-acid.html. Acesso
em: 7 abr. 2019.
RASLAN, D. A.; CALAZANS, Angélica T. S. Data Warehouse: conceitos e aplicações.
2014. Disponível em: https://www.publicacoesacademicas.uniceub.br/gti/article/
viewFile/2612/2400. Acesso em: 23 mar. 2019.
Gabarito
Questão 1 - Resposta A
Resolução: A arquitetura dos bancos de dados transacionais é
compatível com a ACID, o que garante que as gravações no banco
de dados sejam bem-sucedidas ou falhem juntas, mantendo um
alto nível de integridade dos dados ao gravá-los dados no banco
de dados. Os bancos transacionais são, portanto, essenciais para
transações comerciais em que um alto nível de integridade de
dados é necessário.
https://dev.mysql.com/doc/refman/5.6/en/mysql-acid.html
https://www.publicacoesacademicas.uniceub.br/gti/article/viewFile/2612/2400
https://www.publicacoesacademicas.uniceub.br/gti/article/viewFile/2612/2400
29
Como exemplo, temos uma transação bancária, com débito de
uma conta-corrente e crédito para outra conta-corrente, devendo a
arquitetura garantir o sucesso ou a falha na transação.
Questão 2 - Resposta D
Resolução:
Quadro 3 – Comparação geral entre BD analítico e BD
transacional
Característica Analítico Transacional
Caso de uso Analisa grandes
volumes de dadospara
análise de negócios.
Processa grandes
volumes de transações
em tempo real.
Objetivo da otimização Insere rapidamente e
seleciona um grande
número de linhas.
Inserções, atualizações,
seleções e exclusões
em tempo real em
menos linhas.
Consultas Especializadas e
personalizadas.
Amplas e genéricas.
Consulta de tempos
de resposta
Segundos para uma
consulta analítica.
Milissegundos para uma
consulta transacional.
Bancos de dados
de exemplo
Vertica, Redshift,
Greenplum,
Teradata, ParAccel.
MySQL, PostgreSQL,
Microsoft SQL Server.
Fonte: elaborado pela autora.
Conforme o quadro comparativo, a característica das consultas em
um banco de dados analítico é especializada ou personalizada, pois
tende a representar alguma agregação e sumarização e cálculos
dos dados a serem estudados ou analisados.
Questão 3 - Resposta B
Resolução: Técnica do armazenamento de dados colunar. Um
banco de dados analítico tem uma estrutura baseada em coluna,
sendo cada coluna de dados armazenada em seu próprio arquivo
e organizada geralmente em esquema estrela. Esse design torna o
banco analítico altamente flexível, o que facilita a operação em um
30
grande conjunto de pontos de dados em uma determinada coluna
com muita rapidez. Bancos de dados transacionais dependem de
armazenamento de dados baseado em linha. Eles são ótimos para
operar rapidamente em uma única linha, mas um design baseado
em linha não pode ser dimensionado para lidar com grandes
volumes de dados da mesma maneira que um design colunar.
Conceitos básicos sobre
Data Warehouse
Autora: Marise Miranda
Objetivos
• Viabilizar ambientes para implentações em Data
Warehouse (DW).
• Descrever as características de
construção de um DW.
• Apresentar a composição do ambiente de
inicialização de projeto DW.
32
1. A viabilização de um Data Warehouse
Os sistemas transacionais priorizavam o foco nas técnicas estruturadas
para manter a integridade e a qualidade dos dados ali armazenados.
Todos os tipos de transações em um processo eram armazenados, como
baixa em estoque de peças, venda de produto unitário, entre outros.
A elevação de rotinas com níveis de erros mínimos, testes incessantes
e integridade física do banco de dados estabeleciam os elementos de
controle do ambiente operacional, como a soma de todas as peças
baixadas em estoque para controle de reposição.
Com a necessidade de informações executivas ou estratégicas,
somando-se informação aos dados armazenados, veio a necessidade de
especificações associadas e modelagens de sistemas que fornecessem
indicadores. Os casos anteriores, como baixa das peças do estoque
e soma das peças baixadas em estoque para controle, são exemplos
de informações executivas. Assim, correlacionar as somas das peças
baixadas com as vendas dos produtos que utilizaram essas peças pode
determinar a compra de reposição em maior ou menor volume, a fim de
que a empresa não incorra em prejuízo ao comprar peças que não serão
utilizadas, ficando ociosas no estoque, ou ao perder vendas por falta de
peças que não foram repostas em estoque. Esse último exemplo implica
em informações estratégicas.
Nesse sentido, há uma diferença entre um projeto de banco de dados
transacional, Online Transaction Processingn (OLTP), ou Processamento
de Transações em Tempo Real, e um projeto para DW com tecnologia
Online Analytical Processing (OLAP), ou Processamento Analítico em
Tempo Real. O primeiro é utilizado no dia a dia da empresa, registrando
cada operação e alimentando um conjunto de informações executivas.
O segundo faz referência às informações estratégicas, em função
do processamento analítico, por meio de sumarizações, agregações,
cálculos e correlações dos seus conjuntos de dados.
33
Como os dados são relativos e descrevem um objeto de interesse, de
modo estático, a informação é algo que se acrescenta ao dado, podendo
ser um modo dinâmico. Porém, a informação não é estratificada
sistematicamente por diferentes tipos e fontes de dados; ela é a
combinação de dados e o tratamento inserido a essa combinação,
considerando sua temporalidade. Esse tratamento é a sentença
associada que gera certo conceito, conhecimento, afirmação dos dados
armazenados em tabelas e os relacionamentos entre si. Essas sentenças
são a chave de uma implementação bem-sucedida de um DW, em que
este deve permitir a criação de bases de informação para a realização
de análises.
Um repositório ou armazém de dados deve possuir um DW em que se
realizem análises como as listadas a seguir:
• Segmentação de clientes (Figura 1).
• Indicadores da campanha de marketing.
• Performance das vendas.
• Análise da fidelização dos clientes.
• Mensuração do atendimento ao cliente.
• Status da lucratividade (Figura 2).
• Comportamento das oscilações dos negócios.
Figura 1 – Segmentação de clientes
Fonte: AndreyPopov/iStock.com.
34
Figura 2 – Status das oscilações da lucratividade
Fonte: firstpentuer/iStock.com.
Essas análises do DW devem servir para que outras ferramentas
obtenham mais clientes, mantenham os clientes existentes na base ou,
ainda, permitam desenvolver canais novos de clientes, como o caso de
um CRM (customer relationship management, ou relacionamento com o
cliente). A integração de dados entre ferramentas pode ser observada
nas figuras a seguir:

Figura 3 – Dados operacionais
e relacionamento com o
cliente (CRM)
Figura 4 – DW – Integração e
análise dos dados
Fonte: cnythzl/iStock.com. Fonte: priyanka gupta/iStock.com.
35
Essa integração entre uma tecnologia que fornece milhares de dados
do relacionamento de clientes, o CRM, e uma ferramenta de análise
de dados, em uma arquitetura de DW, pode gerar a possibilidade de
conhecer características de comportamento de clientes afetados pela
economia ou mudança de negócio em um espaço de tempo pequeno –
por meio de análise dos dados do cliente com o momento econômico de
uma determinada época do ano, por exemplo. Esse cenário possibilita
gerar um estudo analítico que mostra o comportamento do cliente
explícito, quando analisado isoladamente, ou em agrupamentos de
clientes, que podem relevar por meio das análises comportamentos
favoráveis ao consumo de determinado produto.
Nesse sentido, as organizações precisam se apoiar na tomada de
decisão por meio de diagnósticos mais assertivos, provenientes das
análises obtidas a partir dos dados da organização. Comparativamente,
um médico faz a anamnese, que é uma entrevista para ouvir os relatos
do paciente sobre suas dores e queixas, e com isso estabelece um
diagnóstico; porém, com os exames, pode realizar um diagnóstico mais
preciso e, assim, instituir condutas terapêuticas.
De forma semelhante, os executivos precisam se apoiar em informações
precisas sobre os dados para diagnosticar tendências e administrar
estratégias com profundidade. Por isso, as análises sobre sazonalidades
e tendências e as análises temporais podem apresentar indicadores
de tomada de decisão sobre crescimento ou riscos para os negócios,
conforme o conhecimento de quem analisa. Os dados estão lá, mas
a forma de como torná-los interpretativos a fim de possibilitar um
diagnóstico requer técnicas analíticas e suporte de arquiteturas que
permitam combinações de dados.
A tecnologia de DW veio nessa direção para dotar as organizações e a
dinâmica de seus negócios de capacidade analítica com base na sua
competência operacional armazenada.
36
2. Construção de um DW
A realidade histórica da organização, seus clientes, seus fornecedores,
suas operações, suas despesas e sua lucratividade são a base para
construir um Data Warehouse (armazém de dados). Esse armazém,
repositório ou banco de dados deve se manter disponível e acessível
para consultas e análises dos dados ali armazenados.
Podemos observar que não há uma referência à especificidade de
um banco de dados em que estão armazenados milhões de registros
in natura ou dados brutos, preservados e íntegros. Quando um DW
écitado, nesse contexto, diz-se que dimensões são criadas acima
desses dados brutos. Um armazém de dados no contexto de DW,
que não é o mesmo do banco de dados transacional, é referenciado
assim, como uma área de stage, uma área estacionária para armazenar
somente aqueles dados que serão utilizados para análises. Assim, o
que se armazena é uma cópia dos dados necessários para as análises,
preservando os dados originais guardados no banco transacional.
O conceito de DW mudou também o contexto de banco de dados,
separando os transacionais e o que é um armazém de dados (que
também é um banco de dados), isolado do original, para que os dados
do armazém possam ser consultados nas análises, em função da
necessidade de diversos arranjos entre esses dados.
Inmon (2005) destaca a mudança na abordagem em relação aos dados
brutos, uma vez que no início dos registros de dados não havia uma
experiência que pudesse prever arranjos diferentes para suportar
análises. O objetivo de arquiteturas básicas para banco de dados era
apenas armazenar ou guardar os registros, sem a robustez necessária
para suportar necessidades futuras.
As necessidades analíticas sobre os dados provocaram mudanças na
arquitetura, surgindo demandas provenientes de dados derivados. Os
dados do dia a dia, das operações, são os dados brutos, enquanto os
dados resumidos, agregados, sumarizados ou calculados são os dados
derivados. Essa divisão, dados brutos e informacionais/analíticos,
37
proposta por Inmon (2005) justifica sua necessidade de acordo com os
motivos elencados a seguir na Figura 5.
Figura 5 – Justificativas da divisão entre dados brutos/operacionais
e analíticos/informacionais

Fonte: blackred/iStock.com.
Os dados que suportam as demandas
operacionais, são fisicamente
distintos, não servindo para atender
as necessidades informacionais ou
analíticas.
A tecnologia para o processamento operacional é tecnicamente
diferente da tecnologia necessária em suportar informações
ou análises.
Fonte: a-image/iStock.com.
Os usuários de dados operacionais são
diferentes para usuários que consomem
dados informativos ou analíticos.
O processamento de dados operacionais tem características diferentes
de processamento analítico ou informacional.
Fonte: adaptado de Inmon (2005).
https://www.istockphoto.com/br/portfolio/blackred?mediatype=photography
https://www.istockphoto.com/br/portfolio/a-image?mediatype=photography
38
As justificativas levam em consideração a finalidade de uso dos dados. A
base de dados bruta é consistente e original e necessita ser preservada.
A partir dela, uma cópia dos dados é feita com o objetivo de agregar e
sumarizar os dados necessários às análises. Os usuários que consomem
as informações das bases de dados transacionais são os que controlam
ou realizam as operações diárias. Já os usuários analíticos consomem
análises para encontrar diagnósticos estratégicos e que possam servir
de tomada de decisão. Essas são as principais razões que motivam a
separação de ambientes entre uma base de dados operacionais de uma
para análises.
Ainda com o objetivo de ampliar o entendimento acerca da necessidade
de separar contextos de construção de ambientes para banco de dados,
a Figura 5, proposta por Inmon (2005, p. 16), destaca as diferenças
entre os dados operacionais e os analíticos. Essa diferença é decorrente
da evolução de sistema de suporte para a decisão e a inabilidade dos
bancos de dados operacionais fornecerem insumos desse fim.
Explorando o exemplo da Figura 6, temos uma empresa fabricante de
produtos alimentícios com três filiais, cada qual com sua base de dados
intermediária conectada a um único banco de dados, que registra todas
as operações. Dependendo de como o relatório é extraído pela matriz,
podem ocorrer discrepâncias, tais como relatório de todo o período
do ano na perspectiva da filial 3 e relatório de metade do período na
perspectiva da matriz sobre as vendas, ambos referentes ao produto
2. Obviamente, os relatórios não vão coincidir, porque a forma de
extração dos dados coletados no período é diferente – as amostras são
diferentes.
O problema?
• Um departamento precisa dos resultados das vendas anuais e o
outro departamento dos resultados de vendas de alguns meses.
• A base de dados é comum, mas a temporalidade é de cada
departamento.
39
Figura 6 – Modelo de extração de venda do produto 2 por duas
perspectivas distintas em relação ao período

Matriz
Fonte: elaborada pela autora.
Suponhamos que os produtos alimentícios sejam os seguintes: produto
1 – feijão; produto 2 – arroz; produto 3 – macarrão; produto 4 – farinha;
e produto 5 – tempero. As linhas tracejadas em vermelho e amarelo
representam a perspectiva de extração de diferentes maneiras em
relação ao produto 2. A diferença consiste na necessidade de extração
de venda do produto 2 da filial 3, enquanto a matriz tem a necessidade
de fazer a extração de venda de todas a filiais juntas para analisar as
vendas do produto 2, ou seja, a filial 3 analisa as suas vendas próprias
de arroz e a matriz analisa as vendas de arroz de todas as filiais. Se o
acesso à base de dados da filial 3 não tem a mesma referência analítica,
as divergências podem ocorrer, pois a filial 3 poderá analisar as suas
vendas mensais de arroz, e a matriz poderá analisar o desempenho
diário de vendas de arroz das filiais.
40
Esse cenário pode remeter a análises distintas. A filial 3 só poderá
perceber seu desempenho a cada 30 dias, podendo ocorrer
variabilidades diárias nas vendas sem que a filial tome alguma ação; ao
contrário da matriz, que poderá questionar alguma tomada de decisão
da filial 3 em função das análises diárias.
Assim, para que as divergências nas análises não ocorram, é
recomendável que na construção de um DW a sua arquitetura preconize
referências analíticas comuns, como desempenho comparativo
entre as filiais, ranking de vendas de produtos, produtos com maior
rentabilidade, setorização das vendas, aumento da eficiência das vendas
sem afetar as outras filiais, entre outras análises. Em grande parte, os
dados são estratificados empiricamente, sem que testes amostrais
garantam que o comportamento seja o mesmo em diferentes datasets.
As análises de dados são implementadas para responder às perguntas
sobre os negócios, direcionando a tomada de decisão. Machado (2011)
mostra o percentual de tempo gasto em atividades sem estratégia e com
estratégia de acesso aos dados, conforme a Figura 7. A análise de dados
sem aplicações estratégicas, desde o acesso, a preparação, as decisões e
as ações, gasta em média cerca de 20% a mais do que se houvesse uma
aplicação estratégica em relação aos dados, desde a sua escolha das
análises até as decisões e consequentemente ações.
A Figura 7 mostra a curva descendente quando não há aplicação de
estratégias sobre os dados a serem analisados, consumindo um esforço
maior no acesso aos dados e nas análises. Quando há uma estratégia
desenvolvida, com perguntas corretas do que se quer analisar, os dados
necessários às repostas e às análises têm menor esforço de tempo
gasto, deixando um tempo maior para o desenvolvimento das decisões.
41
Figura 7 – Percentual de tempo gasto em atividades
relacionadas aos dados
Fonte: adaptado de Machado (2011, p. 20).
As atividades relacionadas aos dados sem uma estratégia envolvida
em relação ao acesso e às análises demandam maior percentual de
tempo, um total de 30%, resultando em pouco tempo para transformar
essas análises em decisões, o que leva a pouco tempo na preparação
de cenários e ações de implementação, cerca de 8,6 % de tempo gasto.
Ao contrário de utilizar uma estratégia em relação aos dados, o tempo
gasto é de cerca de 10% para acessar os dados e construir as análises
qualificadas o suficiente para serem consumidas em forma de decisões
mais elaboradas, gerando insumos suficientes para a preparação de
cenários e ações, em tempo médio 20%maior.
ASSIMILE
Estratégia de dados: aplicar conceitos estratégicos
utilizados nos negócios ou no desenvolvimento de
tecnologia não tem o mesmo resultado dos dados para
suportar a precisão, o acesso, o compartilhamento e até
a reutilização, como acontece no caso de codificação
42
em software. A estratégia de dados garante que todos
os recursos de dados estejam disponíveis para serem
utilizados, compartilhados e manejados de forma fácil e
eficiente. Assim, a estratégia de dados garante que eles
sejam consumidos como ativo dentro da organização, e
os datasets fornecem métricas e indicadores a todos os
projetos da organização.
Gerenciamento de dados: em geral envolve metadados,
gestão de dados mestre, governança, migração, integração
e qualidade de dados.
O DW é uma coleção orientada por assuntos, integrada, variante no
tempo e não volátil, para apoiar o processo de tomada de decisão das
organizações (INMONN, 2005). Na definição de Kimball (2002), o DW
é a cópia específica de tabelas do banco transacional para consultas e
análises, criando visões funcionais. Um projeto de construção de um
DW depende, fundamentalmente, de arquitetura, e, por isso, Machado
(2011) deixa claro que o “DW é uma arquitetura e não uma tecnologia”
(MACHADO, 2011, p. 25), pois a tecnologia, sim, ajuda a construir, operar
e monitorar um projeto DW implantado.
A construção de um DW inicia com a recuperação dos dados históricos
da empresa, o que significa realizar cópias da história da organização
dos dois anos anteriores, como recomenda Machado (2011), uma vez
que o banco de dados de um DW não é, fisicamente, o mesmo dos
dados transacionais. Na verdade, os dados armazenados em um DW são
a cópia histórica do banco de dados transacional.
A construção pressupõe necessidades de informações especializadas e
indicadores de performance da organização. Uma base histórica auxilia
43
na criação de comparações com dados atuais e tendências futuras.
A construção prevê também a utilização de ferramentas de Sistemas
Especialistas (EIS) e Sistemas de Suporte à Decisão (DSS), as quais são
utilizadas em diferentes níveis de gestão das organizações, de acordo
com Turban (2005). A Figura 8 representa o modelo de Turban (2005) e
os sistemas de informação relacionados a cada nível organizacional.
Figura 8 – Sistemas de informação versus Níves organizacionais

Ambiente de
Data Warehouse (DW)
Fonte: adaptado de Turban (2007, p. 41).
Os níveis organizacionais necessitam de um determinado tipo de
informação. O nível operacional processa os Sistemas Transacionais
(TPS); o gerenciamento de operações acessa os Sistema de Informação
Gerencial (SIG – MIS em inglês); a gestão tática acessa o DSS para apoiar
as decisões; e, por último, a gestão estratégica acessa o EIS. Assim, o
ambiente de DW é resultante do DSS e do EIS.
44
PARA SABER MAIS
TPS - Transaction Processing System: são dados capturados
dos processos diários da organização. Exemplo: relatório de
vendas, relatório de salários.
MIS - Management Information System: são relatórios
temporais, comparativos, sumarizados, para
acompanhamento da gerencia para resolver problemas,
supervisionar atividades e rastreabilidade. Exemplo:
relatórios de vendas mensais acompanhado do resultado
financeiro.
DSS - Decision Support System: são análises com
abordagens para tomada de decisão da alta gestão.
Exemplos: análises, dados internos, dados externos que
podem ser manipulados, correlacionados para apoio a
tomada de decisão. Aqui criam-se os modelos analíticos,
para a geração de um ambiente de conhecimento para
consulta e recuperação de informação relevante. Aqui a
modelagem estatística é usada para estabelecer relações
e a programação linear para encontrar otimizações,
modelagem preditiva e criar previsões.
EIS - Expert Information System: são sistemas de informação
especializados, com capacidade de realizar inferências.
Exemplo: técnicas de Machine Learning.
Considerando os níveis organizacionais EIS, DSS e parte do MI, dos quais
a gestão estratégica e tática fazem parte, um projeto final da construção
de DW deverá ter as seguintes características:
45
1. Disponibilidade da informação para a gerência.
2. Views (visões) representadas graficamente mostrando o
comportamento.
3. Rápido tempo de resposta de ferramentes de apoio à tomada
de decisão.
4. Precisão nas informações disponibilizadas.
5. Visão de indicadores expandida.
6. Abragência de recursos para analytics.
7. Acesso às solicitações e expectativas das análises especializadas
da alta gerência supridas por meio da Tecnologia da Informação.
ASSIMILE
O objetivo do DW é disponibilizar informações para o apoio
à tomada de decisão das organizações, por meio de uma
base de dados somente leitura.
Não existe DW pronto para ser utilizado sem esforço
anterior em levantar as necessidades da organização e seus
executivos.
Construir um DW exige estudo e envolvimento da empresa
e seus colaboradores.
Resumindo, a construção de um DW exige a transferência e a
transformação dos dados históricos dos sistemas organizacionais,
coletados nas operações diárias, para uma base de dados independente,
a qual no contexto da DW usa dados somente para operações
de consulta. Nessa construção, o DW tem uma composição de
conjunto específico, orientada por assunto, com vários subconjuntos
denominados Data Marts.
46
3. Composição do ambiente de Data Warehouse
Machado (2011) afirma que a tecnologia de DW é considerada uma
evolução do Ambiente de Apoio à Decisão. Isso significa que, com os
avanços tecnológicos de DW, os Ambientes de Apoio à Tomada de
Decisão passaram a ser denominados de Ambientes de DW, constituídos
de repositórios de Data Marts (DM). Assim, vários DM compõem o DW.
O DM representa um subconjunto de dados do DW, em geral por
assunto ou departamento (MACHADO, 2011). Como o DW representa
um alto custo para a organização, os DM podem ser reconhecidos
como uma versão reduzida de um DW, facilitando a implementação
de analytics departamental. O DM é representado como um pequeno
DW projetado para uma unidade de negócio, que é o departamento da
organização (TURBAN, 2005). Como exemplo, o departamento de vendas
de uma empresa pode ser considerado um DM em relação a seus dados
e a suas informações.
Um DW consiste na integração dos dados da organização para análises
gerenciais e estratégicas, consolidadas por meio das informações de
fontes internas, fontes heterogêneas, fontes externas, sumarizações,
agrupamentos, filtragem e preparação de dados. Sob um ponto de
vista físico, ele é um banco descendente de dados relacionais, só que
projetado para consulta e análise. Tem dimensões e tabelas fato, que
são mescladas para serem consultadas. Um banco DW nunca poderá ter
transações de escrita e leitura, pois estas são características do banco
transacional. É importante lembrar que o DW é conceitualmente um
banco Read Only, ou seja, somente de leitura.
O DW contém dados históricos derivados de dados transacionais,
incluindo dados de outras fontes e novos dados, advindos de resultados
da mesclagem dos dados, ou, ainda, de fórmulas calculadas incluídas
na coluna de uma tabela. Ele tem uma composição que separa a carga
de trabalho para análise da carga de trabalho para transações. No
47
primeiro caso, permite a consolidação de diferentes fontes nessa carga
de trabalho analítica.
Além de ferramentas analytics e demais aplicações para o
gerenciamento da coleta de dados e da entrega dos resultados prontos
para serem consumidos, a composição do DW inclui:
• ETL - Extract Tranform Load : extração, transformação e
carregamento dos dados para o DW. Por exemplo: uma empresa
do ramo alimentício tem seus dados armazenados no banco de
dados transacionais, e a ferramenta de ETL irá carregar somente
os dados de interesse para análises para o banco de dados
repositório do DW. Outro exemplo é a ETL ser feitasomente com
as vendas diárias dos produtos alimentícios, mas, se houver a
necessidade de uma análise por hora, os dados dos horários das
vendas deverão ser carregados pela ETL.
• OLAP - Online Analytical Processing : processamento analítico em
tempo real. Por exemplo, uma análise está sendo feita por ano, na
dimensão temporal, mas o usuário precisar mudar para uma visão
por trimestre ou diária. A ferramenta OLAP tem que possibilitar
essa granularidade da dimensão tempo para que o usuário tenha
as visões por ano, por dia e por trimestre, conforme sua interação.
A interação acontece por meio de filtros na dimensão tempo.
Um DW possui um conjunto característico personalizado, distintamente
dos ambientes convencionais das organizações. Por esse motivo, não
há como replicar um DW de uma empresa para outra. Assim, cada
projeto de DW é único, não na essência, mas no seu modo de operação
e aplicação. Ao final do desenho do projeto, ele deverá apresentar um
rol de atribuições, elencadas a seguir no Quadro 1, para cumprir a sua
finalidade.
48
Quadro 1 – Atribuições de um DW
Atribuição Caracterização Exemplo
a) Extração dos dados. Fontes diversas (internas e
externas).
Data completa,
produtos, preço.
b) Transformação
dos dados.
Necessidade de mesclagem
ou combinação de dados,
gerando novos dados
específicos.
Normalização da data,
valores maiores que zero.
c) Infraestrutura
tecnológica e manutenção.
Específica para essa
finalidade.
Servidores de serviços.
d) Representação
dos dados.
Visualizações gráficas,
tabuladas, sumarizadas
pronta para consumo
conforme perfil
dos usuários.
Gráfico percentual de
desepenho de vendas.
e) Especialização. Dados podem ser extraídos
ou não para níveis mais
específicos, os Data Marts, e
destes para bases de dados
individualizadas.
Inclusão de filtros nas visões
f) Acesso. Personalizado por meio de
ferramentas que promovem
acessos com diferentes
níveis de apresentação.
Usuários com níveis de
acesso as visões.
g) Não há atualização. As atualizações ou
updates não ocorrem
diretamente no DW.
As atualizações de dados
ocorrem no banco
transacional e deste uma
cópia é carregada para o
banco do DW.
Fonte: adaptado de Turban (2005, p. 86-89).
Vale reforçar que os dados atualizados na base transacional e de outras
fontes não são carregados no DW diretamente, ou seja, primeiro a carga
ocorre em outro banco. Isso significa que esses dados provenientes de
atualizações em outras fontes são extraídos, transformados e depois
49
carregados para o DW. Em geral, ficam em uma área chamada stage,
um banco estacionário de espera da carga. Para ilustrar, a Figura 9
representa um esquema de fluxo que antecede a entrada de dados em
um banco DW e a saída deste com resultados prontos para consumo.
Os dados originais ou fontes de dados (data sources) armazenados em
diferentes bancos de dados, internos e externos, no caso provenientes
de CRM, ERP e supply chain (dados da cadeia de fornecimento), são
extraídos por uma ferramenta de ETL e, em seguida, transformados
e carregados para o banco estacionário do DW. No DW, ocorrem
as técnicas necessárias para gerar os processamentos das análises
em tempo real (OLAP), da mineração de dados (Data Mining) e da
visualização de relatórios (reporting).
Figura 9 – Fluxo de dados de um DW
Fonte: vaeenma/iStock.com.
50
O DW da Figura 9 mostra que ele armazena dados de forma agrupada
ou por assunto, dados do CRM, dados do ERP e dados da supply chain. Os
bancos de dados transacionais são orientados por processo, enquanto o
DW é orientado por assunto. Assim, seu armazenamento é, na realidade,
uma transformação dos dados operacionais e das transações do dia
a dia da organização, com algum tipo de valor agregado por meio de
sumarizações, contagens, filtragens, agregações, correlações etc.
Por que sumarizações, contagens, filtragens, agregações, correlações
etc. geram valor aos dados operacionais? Porque essas técnicas
incluem algum tipo de informação modelada matematicamente. Uma
sumarização é um resumo dos resultados estatísticos básicos. Por
exemplo, um comando summary em linguagem de software estatístico
R nos retornará para um conjunto de dados, média, mediana, moda,
quartis, valores máximo e mínimo. Um filtro pode associar lógicas como
“e”, “ou”, “=”, entre outras, para que os relatórios mostrem dados com
detalhes associados ou não. Contagens são importantes em análises,
pois representam o universo dos dados por meio de quantificações,
o que, de certa forma, contribui para análises qualificadas quando
comparações de contagem são realizadas; algumas técnicas são a
frequência por amplitude, histogramas, séries temporais etc.
A filtragem no âmbito de DW tem dois sentidos: um interfere nos
resultados das análises e usa o filtro como estratificador no ETL. O
primeiro como filtro refere-se à lógica – e, ou, igual, entre, não nulo etc.
–, que no contexto do usuário foi disponibilizado na forma de cubo para
seleção e leitura do banco de dados do DW. No segundo caso, um filtro
como estratificador na ETL significa a disponibilização de parte, uma
amostra, um extrato dos dados que serão carregados para o banco do
DW. A Figura 10 mostra o fluxo dos dados, na entrada e saída do DW,
assim como o filtro na ETL como extrator e o filtro no cubo para análises.
51
Figura 10 – Entrada e saída do ambiente de DW

Fonte: adaptada de Turban (2005, p. 82, 84, 87).
Todo o fluxo dos dados em um projeto de entrada e saída de um DW
tem por alvo municiar informações a um grupo de pessoas que precisam
de apoio para tomar decisões. Essa construção vem da necessidade
gerada por esse grupo em um contexto norteado pelas competências de
determinado tipo de negócio.
A entrada e a saída do DW requerem que a composição do ambiente
tenha aspectos orientados ao fluxo dos dados, dentro os quais
caracterizam-se os listados no Quadro 2. De maneira geral, essas
orientações são aquelas que devem nortear a visão macro do
projeto de DW.
52
Quadro 2 – Características da visão macro de um projeto DW
Características Detalhamento
Orientação
por assunto.
• Agrupamento por assuntos de interesse.
• Indicadores analíticos e desempenho.
Variação de tempo. • Datas são componentes chave.
• Janelas de tempo.
• Alta temporalidade.
Volatividade. • Carga incial e incremental.
• Acesso em modo leitura (read).
Integração. • Padronização dos dados.
• Filtragem, amostra, agregação.
Arquitetura. • Ferramentas de carga inicial e atualizações
periódicas.
• Ferramentas de limpeza dos dados.
• Ferramentas de consultas.
• Data Marts.
Papeis. • Recursos Humanos.
Centralização de
competências.
• BI.
Fonte: adaptado de Machado (2011, p. 29-31).
Um DW precisa ser relevante para o grupo de pessoas competentes
que toma as decisões na organização. Esse grupo precisa olhar para
o desempenho da empresa e dos negócios e ver que tipo de produto
ou serviço está em um ciclo de lucro e de queda. Quanto tempo o ciclo
positivo desses produtos ou serviços dura? Perguntas são feitas por
essas pessoas, as quais precisam amparar suas respostas na relevância
dos dados da empresa.
De uma maneira ampla, a composição de um DW inclui os dados
estruturados, as formas de comunicação dos dados em diferentes
pontos de armazenamento, o processamento e representação da
informação ao usuário ou cliente.
53
4. Considerações finais
Fazendo um fechamento, vale reforçar que o DW auxilia a empresa a
entender o desempenho dos negócios a partir do conhecimento sobre
os seus dados. Para isso, não basta disponibilizá-lo a quem decide, é
preciso que se crie um contínuo fluxo de entrada e saída de dados e
que se gere um valor para quem os consume dentro da empresa. As
considerações apresentadas mostram a necessidade da participação
de várias entidades da organização, como a área de TI, a área de
banco de dados, os gestores de departamentos, os funcionários do
operacional e o alto escalão, de maneira a estaremalinhados com
o projeto. Também são necessários a preparação da implantação, a
manutenção e a atualização e o uso estratégico efetivo do DW dentro
da corporação. Vale refletir sobre como criar um fluxo contínuo dentro
da organização, desde a origem dos dados até as análises oferecidas
aos analistas, para que o projeto de DW se torne indispensável às ações
estratégicas internas.
TEORIA EM PRÁTICA
A empresa Fisioampla é especailizada em serviços de saúde
de fisioterapia e possui filiais em diversos locais do País. Ela
tem cadastrados cerca de 1.200.000 clientes que utilizam
os serviços especilizados de fisioterapia na matriz e em 30
filiais. Além dos serviços, presta consultas especilizadas
para reabilitação de acidentados, pessoas com mobilidade
reduzida e idosos. Cada clínica possui um amplo sistema de
reabilitação e atendimento com fisioterapeutas associados.
Há consultas clínicas que, além de recomendarem as
sessões de fisiterapia, recomendam o uso de produtos que
vão auxiliar na reabilitação ou na redução dos problemas
relacionados.
Para extrair valor dos seus dados, a Fisioampla contratou
você para estruturar um projeto de DW. Analise o
cenário e proponha uma arquitetura para que a empresa
54
tenha ideia de como os seus dados serão utilizados.
Também faça simulações de quais análises poderiam ser
alcançadas com visualizações analíticas que surgiriam do
uso dessa arquitetura. Você pode listar alguns exemplos
de visualizações em relação à dimensão tempo, como:
Que tipo de paciente é atendido nos quatro trimestres do
ano? Qual tipo de fisoterapia é mais solicitada e em qual
época do ano? Elenque mais oito questões associadas
com a dimensão tempo que poderiam ser de interesse da
Fisioampla.
VERIFICAÇÃO DE LEITURA
1. Com a evolução de sistema de suporte à decisão, por
que os contextos na construção de banco de dados
operacionais e analíticos precisam ser diferentes?
a. Porque há uma inabilidade dos bancos de dados
operacionais.
b. Porque o banco de dados operacional não precisa
ser físico.
c. Porque o banco de dados analítico não pode ser um
banco lógico.
d. Porque a volumetria exigida não pode ser suportada
em bancos operacionais.
e. Porque há uma inabilidade nas execuções
matemáticas dos bancos de dados analíticos.
2. O que garante que todos os recursos de dados estejam
disponíveis para serem utilizados, compartilhados e
manejados de forma fácil e eficiente?
55
a. As consultas ao banco de dados.
b. A estratégia de dados.
c. As análises e relatórios.
d. A qualidade dos dados.
e. A existência de um DW.
3. O que é uma coleção orientada por assuntos, integrada,
variante no tempo e não volátil, e que apoia o processo
de tomada de decisão das organizações?
a. Um banco de dados operacional.
b. Um Data Mart.
c. Um Data Warehouse.
d. Um banco de dados analíticos.
e. Um banco de dados transacionais.
Referências Bibliográficas
INMON, W. H. Building the Data Warehouse. 4. ed. New York: Wiley Computer
Publishing, 2005.
KIMBALL, R. The Data Warehouse Toolkit: guia completo para modelagem
dimensional. Rio de Janeiro: Campus, 2002.
MACHADO, F. N. R. Tecnologia e Projeto de Data Warehouse. 5. ed. São Paulo,
Editora Érica, 2011.
TURBAN, E. Administração de tecnologia da Informação. Editora Campus, 2005.
Gabarito
Questão 1 - Resposta A
Resolução: Com o objetivo de ampliar o entendimento acerca da
necessidade de separar contextos de construção de ambientes
para banco de dados, Inmon (2005) destaca as diferenças, entre
56
os dados operacionais e os dados analíticos. Essa diferença é
decorrente na evolução de sistema de suporte a decisão e a
inabilidade dos bancos de dados operacionais fornecerem
insumos para esse fim.
Questão 2 - Resposta B
Resolução: A estratégia de dados garante que todos os
recursos de dados estejam disponíveis para serem utilizados,
compartilhados e manejados de forma fácil e eficiente e que
sejam consumidos como ativo dentro da organização. Os data
sets fornecem métricas e indicadores a todos os projetos da
organização.
Questão 3 - Resposta C
Resolução: Na conceituação dada por Inmonn (2005), o DW
é uma coleção orientada por assuntos, integrada, variante no
tempo e não volátil, para apoiar o processo de tomada de decisão
das organizações. Na definição de Kimball (2002), ele é a cópia
específica de tabelas do banco transacional para consultas e
análises, criando visões funcionais. Um projeto de construção de
um DW depende fundamentalmente de arquitetura, e, por isso,
Machado (2010) deixa claro que o “DW é uma arquitetura e não
uma tecnologia”, pois a tecnologia, sim, ajuda a construir, operar e
monitorar um projeto DW implantado.
Data Marts
Autora: Iolanda Cláudia Sanches Catarino
Objetivos
• Conhecer e compreender os fundamentos sobre
Data Marts.
• Conhecer e compreender a arquitetura padrão de
Data Warehouses.
• Conhecer e compreender os tipos de arquiteturas e
implementação de Data Marts.
58
1. Fundamentos sobre Data Marts
As organizações precisam responder de maneira ágil e eficiente às
mudanças e oportunidades de mercado. Tomar decisões estratégicas
exige análise e interpretação de informações analíticas que identifiquem
oportunidades, comportamentos e tendências da sociedade do
conhecimento.
Os ambientes de Data Warehouse (DW) integram sofisticadas
ferramentas para análises complexas de dados históricos e descoberta
de conhecimento, assegurando o suporte à tomada de decisão,
como exemplifica a Figura 1. Eles apresentam diferentes formatos de
consultas dinâmicas e relatórios analíticos, disponibilizados aos usuários
estratégicos, a partir de dashboards de ferramentas com recursos
intuitivos para sua geração. A implantação de um DW demanda alto
investimento, tempo e considerável esforço gerencial, sendo usado
principalmente por grandes empresas.
Figura 1 – Acesso às ferramentas de um ambiente de
Data Warehouse
Fonte: adapatada de cifotart/iStock.com. Fonte: adaptada de zmicierkavabata/
iStock.com.
Uma das principais características do DW é a integração dos dados de
diferentes origens, proporcionando um ambiente estático, que não sofre
https://www.istockphoto.com/br/portfolio/zmicierkavabata?mediatype=illustration
https://www.istockphoto.com/br/portfolio/zmicierkavabata?mediatype=illustration
59
modificações durante o seu acesso. Apenas novas cargas com dados
atuais são inseridas, a partir de critérios previamente estabelecidos,
permitindo, assim, o seu acesso por meio de ferramentas front-end e/ou
aplicativos.
Na concepção de Inmon (1997), o DW é um agrupamento de dados
que deve ser guiado por temas normalizados (integrados) para
facilitar as consultas analíticas. É necessário também possuir níveis de
granularidade e de armazenamento bem apurados. Além disso, em
nenhuma hipótese, devem ser modificados (não-voláteis), pois esses
dados são uma “fotografia” (snapshot) de determinada situação em um
período específico.
Esse procedimento certifica ao DW uma particularidade em sua
utilização, tornando-o um ambiente com dois propósitos específicos
distintos, o de carga de dados e o de acesso aos usuários. Dessa forma,
para que um ambiente de DW seja consistente e eficaz, os dados
precisam ser padronizados e consolidados para só depois serem
disponibilizados no sistema, de modo que os administradores possam
utilizá-los como ferramenta de apoio no processo decisório.
O DW organizacional pode manter um armazém central de dados
da organização inteira ou pode manter armazéns menores,
descentralizados, denominados Data Marts. Portanto, muitas empresas
iniciam o desenvolvimento de DW estruturando-o em conjuntos
de dados orientados por assunto ou categoria, para atenderem às
necessidades de pequenos grupos de usuários ou de níveis funcionais
da empresa, investindo, assim, na implementação de Data Marts.
Segundo Date (2004), os DW surgiram pela necessidade de fornecer
uma origem de dados única, limpa e consistente para fins de apoio à
decisão