Buscar

Apostila Data Warehouse e Data Mart (Estácio) - Pós-Gradução Inteligência de Negócios

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ARQUITETURA DE DATA WAREHOUSE E DATA MART 1 
 
 
Arquitetura de Data 
Warehouse e Data Mart 
 
 
 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 2 
Arquitetura de Data Warehouse e Data Mart 
 
O Data Warehouse surgiu a partir do reconhecimento da importância do valor da 
informação nas organizações. Ele é um ambiente expansível e planejado para a análise 
de dados não voláteis. 
 
Esses dados são logicamente e fisicamente transformados, provenientes de múltiplas 
aplicações, atualizados e mantidos por um longo período de tempo, expressos em 
termos do negócio e resumidos para uma análise eficiente. 
 
Assim, o Data Warehouse é uma plataforma orientada a assunto, com dados 
integrados e qualidade melhorada para apoiar vários SAD (Sistema de Apoio de 
Decisão) e processos empresariais. 
 
Em termos tecnológicos, Data Warehouse é uma combinação de várias tecnologias, 
tendo como primeiro objetivo a integração efetiva de bases de dados operacionais em 
um ambiente que habilita o uso estratégico dos dados. 
 
Essas tecnologias incluem sistemas gerenciadores de banco de dados relacional e 
multidimensional, modelagem de metadados e repositórios, interfaces gráficas para 
usuário etc. 
 
O Data Mart surgiu em função do volume de dados a serem carregados e também da 
facilidade de armazenamento por áreas de interesse. 
 
Por exemplo: os dados da área financeira ficam armazenados em servidor deles, dados 
de marketing em outro servidor e assim por diante. 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 3 
Essa é uma saída interessante para quem precisa de bastante performance, por isso 
não sobrecarrega um único servidor, e o custo de desenvolvimento é bem menor, em 
termos de hardware e de entrega para o usuário. 
 
Iremos estudar que os conceitos em utilizar um DW e DM são idênticos, nas 
bibliografias o Data Mart é um subconjunto do Data Warehouse. 
 
Quais são os motivos de utilizarmos o DW e DM? 
 
Existem vários motivos para a construção do Data Warehouse. Pode-se explicar 
através de alguns pontos importantes citados pela IDC (International Data 
Corporation), que são: 
 
• A habilidade em focalizar processos empresariais e efetuar uma análise 
financeira completa destes processos, assim como permitir as 
organizações tomarem decisões baseadas na compreensão do sistema 
como um todo ao invés de fazer estimativas duvidosas fundadas sobre 
dados incompletos; 
 
• A habilidade em racionalizar e automatizar o processo de construção de 
um repositório de informações integradas para uma empresa ao invés de 
desenvolver inúmeros sistemas de apoio à decisão e sua infraestrutura 
correspondente; 
 
• O preço de hardware e software, bem como os custos de armazenamentos 
relacionados ao desenvolvimento, organização (deployment), e 
manutenção de grandes repositórios de dados estão continuamente 
diminuindo; 
 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 4 
• Os benefícios do Data Warehouse podem ser facilmente estendidos à 
tomada de decisões estratégicas, que podem trazer grandes e tangíveis 
benefícios; 
 
• A habilidade em entender e administrar simultaneamente macro e micro 
perspectivas de uma organização, que pode economizar incontáveis horas 
de trabalho manual das organizações e ajudar a evitar enganos 
dispendiosos, que podem ser o resultado de suposições feitas sobre dados 
incompletos ou incorretos; 
 
• Dificuldade em acessar as informações de formas diferentes, o fato de 
várias informações estarem contidas em sistemas diversos, planilhas e 
documentos, e até mesmo em partes do mesmo sistema em que não se 
relacionam, torna extremamente difícil a tarefa de consultar as 
informações de formas distintas e o DW facilita esta atividade. 
 
Quando pensamos em pequenos armazenamentos de dados pensamos em Data Mart. 
Um Data Mart é um pequeno Data Warehouse, ou seja, um subconjunto do DW, que 
fornece suporte à decisão de um pequeno grupo de pessoas. 
 
Algumas organizações são atraídas aos Data Marts não apenas por causa do custo 
mais baixo e um tempo menor de implementação, mas também por causa dos 
correntes avanços tecnológicos. 
 
São eles que fornecem um Sistema de Apoio à Decisão (SAD) customizado para grupos 
pequenos, de tal modo que um sistema centralizado pode não estar apto a fornecer. 
 
Data Marts podem servir como veículo de teste para companhias que desejam explorar 
os benefícios do Data Warehouse. 
 
Características de DW e DM 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 5 
O Data Warehouse é uma tecnologia, um ambiente de Banco de Dados, não um 
produto. Trata-se da construção arquitetônica de um sistema de informação, que 
fornece a seus usuários informações históricas de apoio a decisão, que são de difícil 
acesso ou apresentação quando se utiliza de meios tradicionais de armazenamento de 
dados operacionais. 
 
O Data Warehouse forma assim uma base de dados que permite efetuar um 
tratamento adequado à informação, que pode habilitar a descoberta e exploração de 
tendências empresariais importantes. 
 
Uma organização moderna precisa de Sistemas de Informações eficientes e fáceis de 
utilizar a fim de sobreviver e obter sucesso em um ambiente globalizado e altamente 
competitivo. 
 
Neste contexto, podem-se citar várias razões para construir estes sistemas, que são: 
 
• As decisões precisam ser tomadas rapidamente e corretamente, usando todos 
os dados disponíveis; 
 
• Os usuários de sistemas de informações são especialistas de domínio de 
negócio, não profissionais de computação; 
 
 
• O volume de dados dobra a cada 18 meses, o que afeta o tempo de resposta e 
incontestavelmente a habilidade em compreender seu conteúdo; 
 
• A competição aumenta dia após dia nas áreas de inteligência empresarial, bem 
como o valor agregado de informações. 
 
Existem várias razões tecnológicas para a existência de Data Warehouse: 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 6 
• O Data Warehouse é projetado para resolver a incompatibilidade de sistemas 
de informações transacionais e operacionais. Estas duas classes de sistemas 
são projetados para satisfazer diferentes, frequentemente incompatíveis, 
exigências; 
 
• A infraestrutura TI muda rapidamente, bem como suas capacidades aumentam. 
 
Isso pode ser evidenciado através dos seguintes pontos: 
 
• O preço dos computadores que operam em uma velocidade medida em MIPS 
(Milhões de Instruções por Segundo) continua caindo, enquanto que o poder dos 
microprocessadores dobra a cada 2 anos; 
 
• O preço de armazenamento digital está diminuindo; 
 
• A banda passante das redes está aumentando, enquanto que o preço de banda 
está diminuindo; 
 
• O local de trabalho é crescentemente heterogêneo em termos de hardware e 
software; 
 
 
• Os sistemas legado precisam, e podem, ser integrados com novas aplicações. 
 
Um Data Warehouse envolve assim aspectos tecnológicos, de negócio e de construção 
propriamente dita de uma base de dados analítica. 
 
Características de um Data Warehouse 
 
O elemento primordial envolvendo o Data Warehouse é que os dados armazenados 
para análise do negócio devem ser separados dos dados do sistema operacional. 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 7 
 
Muitas razões para esta separação têm sido levantadas no decorrer dos anos: 
• A performance do sistema de informação; 
• A garantia da qualidade da informação obtida, completa e correta; 
• A não perturbação dos sistemas operacionais através de requisições de 
consultas pesadas etc. 
 
Finalmente, os avanços tecnológicos e as mudanças na natureza dos negócios tornam 
as análises dos dados muito mais complexas e sofisticadas. 
 
O DW ou DM devem ser orientados por assuntos, integrados, variáveis no tempo e 
não voláteis. Essas seriam as principais características de um DW, porém existem 
outras também importantes como a localização, credibilidade dos dados e 
granularidade. Vamos estudar cada uma delas. 
 
Orientação por Assunto 
 
A orientaçãopor assunto é uma característica marcante de um DW, pois toda 
modelagem é voltada em torno dos principais assuntos da empresa. Enquanto todos 
os sistemas transacionais estão voltados para processos e aplicações específicas, os 
DWs objetivam assuntos. 
 
Integração 
 
Esta característica talvez seja a mais importante do DW. É através dela que se 
padroniza uma representação única para os dados de todos os sistemas que formarão 
a base de dados do DW. Por isso, grande parte do trabalho na construção de um DW 
está na análise dos sistemas transacionais e dos dados que eles contêm. 
 
 
 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 8 
Variação no Tempo 
 
Os Data Warehouses são variáveis em relação ao tempo, isso nada mais é do que 
manter o histórico dos dados durante um período de tempo muito superior ao dos 
sistemas transacionais. 
 
Diz respeito ao fato do dado em um data warehouse referir-se a algum momento 
específico, significando que não é atualizável. A cada ocorrência de uma mudança, 
uma nova entrada é criada, para marcar esta mudança. É uma das variáveis mais 
importante do projeto de DW, pois é o tempo que define a periodicidade da carga dos 
dados no DW ou DM. 
 
Não volatilidade 
 
No DW existem somente duas operações, a carga inicial e as consultas dos front-ends 
aos dados. Após serem integrados e transformados, os dados são carregados em bloco 
para o data warehouse, para que estejam disponíveis aos usuários para acesso. 
 
Isso pode ser afirmado porque a maneira como os dados são carregados e tratados é 
completamente diferente dos sistemas transacionais. 
 
Localização 
 
Os dados podem estar fisicamente armazenados de três formas: 
 
• Em um único local centralizado, com banco de dados em um DW integrado; 
• Os distribuídos, em forma de Data Marts, armazenados por áreas de interesse; 
• Armazenados por níveis de detalhes, em que as unidades de dados são mantidas 
no DW. 
 
 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 9 
Credibilidade dos Dados 
 
A credibilidade dos dados é muito importante para o sucesso de qualquer projeto. 
Discrepâncias simples de todo tipo podem causar sérios problemas quando se quer 
extrair dados para suportar decisões estratégicas para o negócio das empresas. 
 
Granularidade 
 
Granularidade nada mais é do que o nível de detalhe ou de resumo dos dados 
existentes em um DW. Quanto maior for o nível de detalhes, menor será o nível de 
granularidade. 
 
O nível de granularidade afeta diretamente o volume de dados armazenados no DW, 
e ao mesmo tempo o tipo de consulta que pode ser respondida, com isso pode afetar 
drasticamente o tempo de resposta para o usuário final. 
 
O balanceamento do nível de granularidade é um dos aspectos mais críticos no 
planejamento de um DW, pois, na maior parte do tempo, há uma grande demanda 
por eficiência no armazenamento e no acesso aos dados, bem como pela possibilidade 
de analisar dados em maior nível de detalhes. 
 
Quando uma organização possui grandes quantidades de dados no DW, faz sentido 
pensar em dois ou mais níveis de granularidade, na parte detalhada dos dados. 
 
Na realidade, a necessidade de existência de mais de um nível de granularidade é tão 
grande, que a opção do projeto que consiste em duplos níveis de granularidade deveria 
ser o padrão para quase todas as empresas. 
 
Com a criação de dois níveis de granularidade no nível detalhado do DW, é possível 
atender a todos os tipos de consultas, pois a maior parte do processamento analítico 
dirige-se aos dados levemente resumidos que são compactos e de fácil acesso. 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 10 
Para ocasiões em que um maior nível de detalhe deve ser investigado, existe o nível 
de dados históricos. O acesso aos dados do nível histórico de granularidade é caro, 
incômodo e complexo, mas caso haja necessidade de alcançar esse nível de detalhe, 
lá estará ele. 
 
Projetos Star Schema e SnowFlake 
 
As possibilidades de implementação do Modelo Multidimensional são o Star Schema 
(Modelo Estrela) e Snowflake Schema (Modelo Floco de Neve). 
 
No Modelo Estrela, as tabelas dimensões se relacionam com a tabela fato. Desta forma, 
essas tabelas precisam ter as descrições necessárias para definir uma classe, ou seja, 
as dimensões não são normalizadas. 
 
Então, poderá ter campos com conteúdos repetidos em cada registro, aumentando 
assim o tamanho das tabelas. 
 
O Modelo Estrela possui este nome, pois a sua representação é no formato de uma 
estrela, onde a tabela fato fica no centro e as dimensões ficam ao redor. 
 
No Modelo Floco de Neve, as dimensões relacionam-se com a tabela fato, porém existe 
também relacionamento apenas entre as dimensões. Isso acontece com o objetivo de 
normalizar as dimensões para diminuir o espaço ocupado por essas tabelas. 
 
A técnica snowflaking consiste em normalizar uma dimensão, removendo atributos do 
tipo texto de baixa cardinalidade e colocá-los em dimensões secundárias e depois criar 
um relacionamento entre essas dimensões. 
 
Dessa forma, mais tabelas são usadas para representar as mesmas dimensões, porém 
o espaço ocupado em disco é menor que no modelo estrela. 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 11 
O modelo floco de neve é chamado desta maneira pois cada dimensão divide-se em 
várias outras que organizadas se assemelham a um floco de neve. 
 
Este modelo é recomendado quando se quer reduzir o espaço em disco, para contribuir 
para a estabilidade na manutenção de uma dimensão ou quando é um pré-requisito 
de uma ferramenta a ser utilizada. 
 
Não é recomendado quando dificulta a compreensão do modelo por parte do usuário 
final ou quando compromete a performance durante a navegação pelo modelo devido 
à conexão entre as tabelas. 
 
Observa-se que o modelo floco de neve apesar de ocupar menos espaço em disco 
acaba sendo mais complexo devido à quantidade de tabelas, além de tornar a 
navegação mais lenta justamente por precisar acessar um número maior de tabelas 
para realizar as consultas. 
 
Apesar do Star Schema (Modelo Estrela) ocupar mais espaço no banco, ele é mais 
simples e sua navegação pelos softwares mais fácil, sendo assim mais recomendado 
à criação deste modelo. 
 
No Modelo Floco de Neve, o relacionamento estabelecido entre as Dimensões 
demonstra uma Hierarquia e esta técnica Snowflaking possibilita a visualização gráfica 
dessas Hierarquias das Dimensões. 
 
As Hierarquias podem ser classificadas em Balanceadas ou Regular, Desbalanceadas 
ou Parent-Child e Irregular ou Ragged. 
 
Na Hierarquia Balanceada ou Regular, a quantidade de níveis é uniforme. Todas as 
folhas membros da hierarquia têm a mesma distância da raiz. Cada membro da 
hierarquia tem a mesma quantidade de níveis superiores e o processo de extração e 
carga dos dados nesta dimensão é simples. 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 12 
Já na Hierarquia Desbalanceada ou Parent-Child, a quantidade de níveis é variável, os 
membros da hierarquia são definidos com seus respectivos níveis superiores e cada 
linha da dimensão possui a sua chave e a chave do membro pai na hierarquia. 
 
Vantagens e Desvantagens do Star Schema e Snow Flake 
 
Iremos estudar as propriedades e algumas vantagens das modelagens Star Schema 
(Modelo Estrela) e Snowflake Schema (Modelo Floco de Neve). 
 
Propriedades do esquema em estrela 
 
Uma única tabela de fatos contendo dados, sem redundância. Uma tabela por 
dimensão. 
 
As chaves primárias, da tabela de fatos, são apenas de uma por dimensão. Cada 
dimensão representa uma única tabela, altamente desnormalizada. 
 
Vantagens 
 
A simetria do desenho e a simplicidade semântica faz com que este modelo 
disponibilize ao utilizador comum toda a informação necessária sobre o funcionamento 
da sua organização, o reduzido número de junções beneficia o desempenho e tudo 
isto faz com que este modelo tenha uma baixa e fácil manutenção. 
 
Desvantagens 
 
Não fornece explicitamente suporte para hierarquiasde atributos e as tabelas 
dimensionais são um problema. 
 
As tabelas de dimensão, por não estarem normalizadas, contém repetição das 
informações. Não são adequadas para uso transacional, pois uma alteração simples 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 13 
(como de o nome de um país) poderia gerar a necessidade de várias alterações no 
banco de dados (para todas as linhas de municípios). 
 
O Esquema Floco de Neve (Snow flake Schema) 
 
O esquema Floco de Neve consiste na tentativa do arquiteto do modelo de normalizar 
as tabelas de dimensão, reproduzindo no Data Warehouse o modelo de dados 
relacional. 
 
A normalização das dimensões tem um efeito negativo na velocidade de saída dos 
resultados e, acima de tudo, apresenta ao utilizador um conjunto complexo de tabelas 
relacionadas entre si de difícil compreensão e utilização. 
 
Por todas essas razões, é um esquema nada aconselhado a ser utilizado para a 
elaboração do Data Warehouse. 
 
A tabela de fatos é composta por dois tipos de atributos, as chaves estrangeiras, que 
a ligam às tabelas de dimensão, e pelos fatos. As chaves estrangeiras, para além de 
estabelecerem regras de integridade referencial com as tabelas de dimensão, servem 
para utilizar os atributos das dimensões para caracterizar as métricas registradas e 
para parametrizar as queries aos dados. 
 
Tipos de Fatos 
 
Existem 3 tipos de fatos: 
• Fatos aditivos - aqueles que podem ser somados relativamente a todas as 
dimensões de um esquema em estrela; 
• Fatos semiaditivos - apenas podem ser somados relativamente a algumas 
dimensões, ou mesmo, a uma única dimensão; 
• Fatos não aditivos - todos aqueles que não podem ser somados de acordo 
com qualquer uma das dimensões. 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 14 
 
As tabelas de dimensão contêm a descrição textual do negócio. Em um modelo de 
dimensão bem estruturado as tabelas de dimensão possuem múltiplas colunas ou 
atributos. Estes atributos descrevem as linhas na tabela de dimensão. 
 
As tabelas de dimensão tendem a ser relativamente pequenas no número de linhas 
(muitas vezes pouco mais de 1 milhão de linhas) mas são largas com colunas grandes. 
 
Cada dimensão é definida pela sua única chave primária, que serve como base para 
manter a integridade referencial quando se liga a uma tabela de fatos. 
 
Independentemente se o snowflake resulta da normalização das tabelas de dimensão 
ou de relacionamentos entre as tabelas de dimensão, uma vantagem de um esquema 
do snowflake é que as tabelas de dimensão são mais versáteis. 
 
Por exemplo, se uma dimensão de tempo é normalizada em várias tabelas de dimensão 
— uma tabela de ano, uma tabela de mês e uma tabela de data, em seguida é possível 
ter várias tabelas de fatos que armazenam dados a outro nível de granularidade com 
respeito ao tempo; uma tabela de fatos podem estar relacionados com a tabela de 
data, enquanto outro podia se relacionar a tabela de mês ou o ano. 
 
O esquema Snowflake, por relacionar tabelas de dimensões, se torna bem mais lento. 
Logo, dificultam as implementações de ferramentas de visualizações de dados. Por 
isso, não é muito utilizado nos projetos de DW. 
 
 
Abaixo, veja a representação do Star Schema, Snowflake e Data Warehouse. 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 15 
 
 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 16 
Arquitetura do Data Warehouse ou Data Mart 
 
A arquitetura de Data Warehouse é a maneira de representar a estrutura completa de 
dados, comunicação, processamento, e resultados que são apresentados aos usuários 
finais dentro da empresa. 
 
A arquitetura de Data Warehouse é composta por algumas partes interconectadas: 
 
• Base de Dados Operacional / Camada de Base de Dados Externa; 
• Camada de Acesso a Informações; 
• Camada de Acesso aos Dados; 
• Camada de Diretório de Dados (MetaDados); 
• Camada de Gerenciamento de Processos; 
• Camada de Troca de Mensagens entre Aplicações; 
• Camada do Data Warehouse; 
• Camada de Organização dos Dados. 
 
Camada de Acesso a Informações 
 
Esta camada representa as ferramentas que o usuário final utiliza normalmente, em 
seu dia a dia, para saber as informações disponibilizadas para acessarem o DW ou DM. 
Estas ferramentas serão estudadas em uma disciplina mais adiante no curso. 
 
Camada de Acesso aos Dados 
 
A camada de acesso aos dados da arquitetura do Data Warehouse deve permitir que 
a camada de acesso a informações se comunique com a camada operacional. 
 
Camada de Diretório de Dados (MetaDados) 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 17 
Visando prover acesso universal aos dados, é absolutamente necessário manter 
alguma forma de diretório de dados ou repositório de metadados. 
 
Para termos um Data Warehouse completamente funcional, é necessário que a 
empresa possua uma vasta variedade de metadados disponíveis: 
• Dados sobre os relatórios dos usuários finais; 
• Dados sobre as bases de dados operacionais e outros. 
 
Idealmente, usuários finais devem ser capazes de acessar dados do Data Warehouse 
sem precisar saber onde os dados realmente residem ou como estão armazenados. 
 
Camada de Gerenciamento de Processos 
 
Esta camada está envolvida com o agendamento das várias tarefas que devem ser 
realizadas para construir e manter o Data Warehouse e o diretório de informações 
sobre os dados. 
 
Pode-se pensar nesta camada como sendo a controladora de tarefas de alto nível para 
muitos processos que podem ocorrer para deixar o Data Warehouse atualizado. 
 
Camada de Troca de Mensagens entre Aplicações 
 
A troca de mensagens é utilizada para coletar transações ou mensagens e entregá-las 
a certos locais em certo tempo. Ela é o sistema de transporte em um Data Warehouse. 
 
 
 
Dados Operacionais / Dados Externos 
 
Claramente, o objetivo de um Data Warehouse é libertar a informação que está 
bloqueada nas bases de dados operacionais, e misturá-la com informações de outras 
origens de dados, frequentemente externas. 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 18 
 
Cada vez mais, grandes organizações estão adquirindo dados adicionais de bases 
externas. Entre estes dados, encontram-se características demográficas, competitivas, 
econométricas e as diferenças entre os produtos de consumo internos. 
 
Camada do Data Warehouse 
 
O núcleo do Data Warehouse está onde os dados analíticos atuais residem. Em alguns 
casos, alguém pode pensar em um Data Warehouse simplesmente como uma visão 
lógica ou virtual dos dados. Em muitas instâncias, o DW pode envolver mais do que a 
armazenagem dos dados. 
 
Camada de Organização dos Dados 
 
A organização dos dados também pode envolver programas de análise da qualidade 
dos dados, e filtros que identificam padrões e estruturas de dados dentro dos dados 
operacionais. 
 
A escolha da arquitetura é uma decisão gerencial do projeto e está baseada 
(normalmente) nos fatores relativos à infraestrutura atualmente disponível (que se for 
o caso de aquisição do mesmo), ao ambiente de negócios, escopo desejado, além de 
capacitação dos recursos disponibilizados no projeto e funcionários da empresa 
projetos para tal investimento. 
 
Vantagens e desvantagens dessa arquitetura 
 
Vantagens: 
 
• Herança de arquitetura: todos os DM originados de um DW utilizam a 
arquitetura e os dados desse DW, permitindo uma fácil implementação; 
• Visão de empreendimento: o DW concentra todos os negócios da empresa, 
sendo possível extrair dele níveis menores de informações; 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 19 
• Repositório de metadados centralizado e simples: o DW provê de um 
repositório de metadados central para o sistema. Essa centralização permite 
manutenções mais simples do que aquelas realizadas em múltiplos repositórios; 
• Controle e centralização de regras: a arquitetura top down garante a 
existência de um único conjunto de aplicações para extração, limpeza e 
integração dos dados, além de processos centralizadosde manutenção e 
monitoração. 
 
Desvantagens: 
 
• Implementação muito longa: os DWs são, normalmente, desenvolvidos de 
modo iterativo, por áreas de assuntos, como, por exemplo, vendas, finanças e 
recursos humanos. Mesmo assim, são necessários, em média, 15 ou mais meses 
para que a área de assunto entre em produção, dificultando a garantia de apoio 
político e orçamentário; 
• Alta taxa de risco: não existem garantias para o investimento nesse tipo de 
ambiente; 
• Heranças de cruzamentos funcionais: é necessária uma equipe de 
desenvolvedores e usuários finais altamente capacitados para avaliar as 
informações e consultas que garantam à empresa habilidade para sobreviver e 
prosperar na arena de mudanças de competições políticas, geográficas e 
organizacionais; 
• Expectativas relacionadas ao ambiente: a demora do projeto e a falta de 
retorno podem induzir expectativas nos usuários. 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 20 
 
 
 
Implementação de Data Warehouse ou Data Mart 
 
Como vimos, a construção do DW tem um tempo maior de projeto do que o DM, pois 
o DW irá atender a empresa no todo. Já o DM irá atender uma área específica e 
podemos desenvolver um DM para cada área, mas com um requisito primordial: que 
estes DM sejam integrados e não soltos sem nenhuma integração. 
 
Os DMs integrados fazem com que todos os dados sejam únicos e não desconectados. 
 
Nesta etapa, temos que escolher em implementar o DM. Aqui entra a implementação 
Bottom Up, teoricamente, por ser mais fácil e menos custosa de ser implementada do 
que a Top Down, sendo muito usada, até pelo retorno rápido de investimento. 
 
Ela permite que o planejamento e a construção dos Data Marts possam ser realizados 
antes mesmo que a infraestrutura do DW seja definida. O propósito desta 
implementação é a construção de DW incremental a partir do desenvolvimento de DM 
independentes. 
 
A seguir a representação da implementação Bottom UP e Top Down: 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 21 
 
 
 
Vantagens e desvantagens da arquitetura Bottom UP 
 
Vantagens: 
 
• Implementação rápida: a construção dos DM é altamente direcionada, 
permitindo um rápido desenvolvimento. Normalmente, pode ser colocado em 
produção em um período de 6 a 9 meses; 
 
• Retorno rápido: a arquitetura baseada em DM com incremento demonstra 
rapidamente seu valor, permitindo uma base para investimentos adicionais com 
um nível mais elevado de confiança; 
 
• Manutenção do enfoque da equipe: a elaboração de DMs permite que os 
principais negócios sejam enfocados inicialmente, sem que haja gastos no 
desenvolvimento de áreas que não são essenciais ao problema; 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 22 
 
• Herança incremental: a estratégia de DMs incrementais obriga a entrega de 
recursos de informação passo a passo, o que permite a equipe crescer e 
aprender, reduzindo os riscos etc. 
 
Desvantagens: 
 
• Perigo de legamarts: um dos maiores perigos da Administração de DW é a 
criação de DMs independentes. Com isso, o advento das ferramentas de drag 
and drop facilitou o desenvolvimento de soluções individuais de acordo com as 
necessidades da empresa, as quais podem não considerar a arquitetura de 
forma global. Desse modo, os DMs independentes transformam-se em DM 
legados ou legamarts; 
 
• Desafio de possuir a visão de empreendimento: durante a construção dos 
DMs incrementais é necessário que se mantenha um rígido controle do negócio, 
como um todo. Esse controle requer um maior trabalho ao extrair e combinar 
as fontes individuais do que utilizar um DW; 
 
• Administrar e coordenar múltiplas equipes e iniciativas: normalmente 
esse tipo de arquitetura emprega o desenvolvimento de DMs em paralelo. No 
entanto, isso pode conduzir a uma rígida administração, tentando coordenar os 
esforços e recursos das múltiplas equipes, especialmente nas áreas de regras e 
semântica empresariais; 
 
• A maldição de sucesso: a arquitetura com DMs incrementais carrega a 
“maldição de sucesso”. Nesses casos, os usuários finais dos DMs encontram-se 
felizes querendo mais informação para seus DMs e, ao mesmo tempo, outros 
usuários de outros DMs aguardam o incremento de seus DMs. Isso conduz a 
equipe de DM a vencer desafios de recurso e de administração. 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 23 
Implementação Combinada 
 
Esse tipo de implementação tem como finalidade integrar a arquitetura top-down e a 
bottom-up. Nessa abordagem, efetua-se a modelagem de dados do Data Warehouse 
de visão macro, sendo o passo seguinte a implementação de partes desse modelo. 
 
Essas partes são escolhidas por processos ou atividades da área de interesse e 
constituem os Data Marts. 
 
Podemos dizer então que cada Data Mart pode ser gerado a partir do macromodelo 
de dados do Data Warehouse e integrado ao modelo físico do mesmo Data Warehouse. 
 
A principal vantagem é a garantia da consistência dos dados, que é obtida em virtude 
dos modelos de dados para os Data Marts serem únicos, possibilitando, a partir disso, 
o mapeamento e o controle dos dados. 
 
 
 
Características da Implementação Combinada 
 
Implementação 
• Planejamento Top-Down; 
• Processos de Negócio. 
 
Desenvolvimento Bottom-Up 
• Um Data Mart de cada vez; 
• Cada Data Mart encarado de forma evolutiva; 
• Complexidade do modelo; 
• Volume de dados; 
• Investimentos; 
 
Gestão de Metadados 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 24 
 
Coerência entre os vários Data Marts 
 
Podemos concluir que qualquer implementação dessa arquitetura para ambiente de 
Data Warehouse requer basicamente uma infraestrutura bem definida e centralizada 
para que o desenho dessas soluções seja realizado de acordo com a construção dos 
DMs. 
 
O início da implantação do DW ou DM deve-se começar com o levantamento e definir 
os objetos de negócios e, por conseguinte, as questões gerenciais que os respondem. 
 
Essa etapa é de extrema importância, pois é ela quem irá determinar quais serão os 
dados a serem armazenados no Data Warehouse. Exigirá, também, uma metodologia 
específica e diferente dos sistemas transacionais. 
 
Terminada esta etapa, partiremos então para a segunda fase da implantação que 
consiste em fazer a modelagem dimensional, ou seja, partindo dos objetos gerenciais 
levantados faz-se a modelagem do novo banco gerando os fatos e as dimensões. 
 
Logo em seguida, parte-se para a criação física do modelo, onde as especificidades de 
um SGBD e da ferramenta OLAP escolhidos são levadas em consideração para otimizar 
as futuras consultas ao banco e onde se deve dar preferência os esquemas estrela. 
 
Feito isso, o passo seguinte é a carga dos dados no DW. Para isso é necessário que 
se definam as origens dos mesmos nos sistemas legados, ou seja, identificar em quais 
sistemas e onde estão armazenados. 
 
Nessa etapa, é imprescindível a presença de um analista de sistemas da empresa que 
conheça profundamente os sistemas transacionais, pois isso facilitará muito o trabalho 
de localização e identificação dos dados. 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 25 
A próxima etapa é fazer as rotinas de extração dos dados. Essas rotinas podem ser 
desenvolvidas por programadores em qualquer linguagem de programação. 
 
Após a extração resta dar a carga dos dados no banco dimensional criado no segundo 
passo. Essa carga também pode ser feita através de ferramentas de mercado. 
 
Concluída a carga, deve-se fazer uma checagem profunda da consistência dos dados. 
Isso é muito importante, pois está se trabalhando com informações para dar suporte 
à decisão e, qualquer dado errado poderá determinar o fracasso da análise do negócio 
em questão. 
 
 
 
Outro passo importantíssimo na elaboração é a confecção e armazenamento dos 
metadados. Os metadados são os dados de controle do Data Warehouse. 
 
Para fazermos a análise dos dados, temos as ferramentas OLAP, que permitem a 
visualização dos dados da base dimensionale sua análise de acordo com a imaginação 
do executivo. 
 
Com esses softwares, também denominados ferramentas de front-end, o usuário 
poderá analisar as informações que estão contidas no banco multidimensional. 
 
Além dos passos anteriores, os usuários devem ser treinados de forma a aprender 
como manipular as informações existentes, seja na criação das estatísticas, seja na 
criação de gráficos e relatórios. 
 
Existem 7 etapas para a implementação do DW ou DM. Abaixo veremos cada uma: 
 
1. Levantamento das necessidades: devemos antes de tudo fazer o 
levantamento de todas as informações desejadas pelo usuário. Nesse primeiro 
momento, fazemos o cruzamento de Dimensões e Fatos necessários para 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 26 
alcançar os anseios dos gestores. Nesse primeiro momento, trabalhamos em O 
QUÊ o DW terá, e não O COMO. Por isso, não devemos nos preocupar com a 
existência efetiva dos dados e sim com os desejos requisitados; 
 
2. Mapeamento dos dados: nessa etapa, fazemos o mapeamento dos dados, 
identificando a fonte e como chegar até eles. Aqui vemos a viabilidade dos 
desejos elencados na primeira etapa, verificando a existência ou não dos dados 
para o alcance das necessidades solicitadas; 
 
3. Construção da Staging Area: após o mapeamento, construímos a estrutura 
chamada Staging Area, que se trata da área de transição dos dados do DW. 
Nessa área, os dados são copiados e desacoplados dos sistemas de operação 
(OLTP) e recebem o devido tratamento para as futuras cargas nas tabelas de 
Fatos e Dimensões; 
 
4. Construção das Dimensões: construímos nessa etapa a estrutura das 
Dimensões que farão parte do DW. Definimos também a historicidade que os 
dados irão possuir nas Dimensões; 
 
5. Construção do(s) Fato(s): construímos nessa etapa (após a construção das 
Dimensões) a(s) estrutura(s) do(s) Fato(s). Aqui é avaliado e definido a 
granularidade da informação que será armazenada em cada Fato. Avaliamos 
também a expectativa de crescimento e de armazenamento que serão 
utilizados; 
 
6. Definição do processo geral de carga: após concluirmos as etapas 
anteriores, precisamos criar o motor para que tudo seja carregado, atualizado, 
orquestrado e processado de forma automática e ordenada. Por isso, a 
necessidade do processo geral de carga que é o “cérebro” do DW; 
 
7. Criação dos metadados: por fim, precisamos desenvolver toda a 
documentação dos metadados, que incluem o processo de construção e o 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 27 
dicionário de dados. Os metadados fornecem apoio importante para a gestão 
do conhecimento. 
 
Lembrando que o Data Mart é a divisão do DW em subconjuntos de informações 
organizadas por assuntos específicos. Logo, todas essas etapas, com exceção do 
“levantamento das necessidades” (que deve ser realizada, preferencialmente, uma 
única vez), devem ser repetidas a cada novo Data Mart criado. 
 
Segue o fluxo do processo de construção, que pode ser cíclico até que todos os Data 
Marts sejam desenvolvidos: 
 
 
 
É importante respeitar a sequência dessas etapas, pois elas possuem dependência de 
término para início. Ou seja, a etapa sucessora só deve ser iniciada quando a sua 
predecessora for concluída. 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 28 
 
Por fim, com a devida atenção dada a cada uma dessas atividades, além da conclusão 
de cada uma delas com êxito, fará com que as chances de sucesso no projeto de 
construção do DW seja praticamente garantido. 
 
Dessa forma, teremos, efetivamente, um repositório que armazenará as informações 
que auxiliarão a organização na tomada de decisão. 
 
Veja todo o processo de construção do DW: 
 
 
 
 
Conclusão 
 
 
Conforme o que foi visto, podemos observar que, para o sucesso da base de dados 
Data Warehouse, a empresa precisa observar alguns requisitos, como, por exemplo, o 
fato do usuário desta base de dados dever ser ligado aos negócios da organização e 
ter capacidade de análise contextual da empresa, conhecer a ferramenta de acesso às 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 29 
informações para a criação de consultas necessárias a empresa, e ter tempo disponível 
para usar o Data Warehouse. 
 
Uma vez que a necessidade da empresa é identificada, estes usuários devem criar as 
consultas, extrair os dados, analisá-los e orientar a tomada de decisão. 
 
Quando se investe em um Data Warehouse é necessário verificar a disponibilidade dos 
usuários que irão trabalhar com a ferramenta a fim de gerar as vantagens para a 
empresa, pois um dado interpretado ou manipulado de maneira errada pode causar 
prejuízos para a mesma. 
 
A melhor forma de implementação da base de dados Data Warehouse na empresa é 
utilizando a estratégia Botton-Up, pois o custo é menor, além de ser mais fácil e ter 
um retorno de investimento rápido. 
 
Esta estratégia permite que os Data Marts sejam construídos antes que a infraestrutura 
do Data Warehouse seja definida, seu objetivo é a criação de Data Warehouse 
incremental a partir da criação de Data Marts independentes e integrados. 
 
A construção começa com o ETL para os Data Marts. Estes são modelados com base 
em um modelo dimensional. Essa implementação não possui um gerenciador que 
garanta os padrões únicos de metadados e isso se torna um ponto negativo. 
 
Quando a empresa escolhe a estratégia Botton-Up, cria-se então um banco de dados 
para uma área, pois os custos são menores que a implementação de um projeto de 
Data Warehouse completo. Quando os resultados começam a aparecer, então é dada 
sequência ao projeto nas outras áreas resultando em um Data Warehouse. 
 
Algumas vantagens são que a construção de Data Marts direcionados permite um 
rápido desenvolvimento, oferecendo um retorno rápido possibilitando, desta forma, 
uma base para investimentos adicionais com um nível mais elevado de confiança. 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 30 
Por serem elaborados inicialmente Data Marts com foco nos principais negócios da 
empresa, evita-se gastos desnecessários em áreas que não são essenciais ao 
problema. 
 
Outra vantagem é a redução de riscos, já que os Data Marts são criados de forma 
incremental permitindo assim um aprendizado e crescimento da equipe. 
 
Porém, é preciso tomar alguns cuidados na construção desses Data Marts 
independentes para não se tornarem um problema para o projeto, se não considerar 
a arquitetura de forma global quando estiver construindo os Data Marts, eles podem 
transformar-se em Data Marts legados. 
 
Outra questão é que é necessário manter um rígido controle do negócio como um todo 
quando se está construindo os Data Marts incrementais, este controle exige maior 
trabalho para extrair e combinar as fontes individuais do que utilizar um Data 
Warehouse. 
 
Outra desvantagem é que, como os Data Marts são construídos em paralelo, vai ser 
preciso uma rígida administração para coordenar esforços e recursos das diversas 
equipes. 
 
A utilização da base de dados Data Warehouse por si só não é garantia de vantagem 
competitiva para a organização, mas o que fará a diferença é a maneira como esta 
base de dados será utilizada. 
 
A principal vantagem que o Data Warehouse oferece é a consistência dos dados, que 
se dá devido aos modelos de dados para os Data Marts serem únicos, possibilitando, 
assim, o mapeamento e o controle dos dados. Outra questão é a congruência existente 
nas estratégias utilizadas no Data Warehouse e nos negócios. 
 
 
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 31 
Em um mercado altamente competitivo e de forte concorrência, as organizações 
sabem que informação é um recurso valioso. 
 
Porém, a dificuldade de acesso às informações estratégicas, enfrentada pelo alto 
escalão da maioria das organizações, é um paradoxo. O Data Warehouse, quando 
corretamente implementado, permite este acesso de forma satisfatória. 
 
BIBLIOGRAFIA 
 
ADAMSON, Christian. Star Schema. Mc Graw Hill, 2010. 
 
BARBALHO, P. Descubrao Data Warehouse: produtividade e rapidez. SQL Magazine. 
Rio de Janeiro, n. 03, 2003. 
 
BECKER, K; RUIZ, D. D.; SANTOS, K. MF-Retarget: Aggregate Awareness In: Multiple 
Fact Table Schema DataWarehouse. ADBIS Research Communications, p. 41 – 
51, 2002. 
 
BONOMO, Peeter. Arquitetura de Data Warehouse – Parte 1. Disponível em: 
<https://imasters.com.br/artigo/11417/gerencia-de-ti/arquitetura-de-data-
warehouse-parte-01/>. Acesso em: 13 abril 2018. 
 
______. Arquitetura de Data Warehouse – Parte 2. Disponível em: 
<https://imasters.com.br/artigo/11721/gerencia-de-ti/arquitetura-de-data-
warehouse-parte-02/?trace=1519021197&source=single> Acesso em: 13 abril 2018. 
 
FEINBERG, Donald. Data integration technology and architecture: building your 
data circulatory system. São Paulo: Gartner Enterprise Integration Summit, 2008. 
 
 
GONÇALVES, Rodrigo Ribeiro. Integração Integração de Dados na Prática. São 
Paulo: Erica, 2012. 
https://imasters.com.br/artigo/11417/gerencia-de-ti/arquitetura-de-data-warehouse-parte-01/
https://imasters.com.br/artigo/11417/gerencia-de-ti/arquitetura-de-data-warehouse-parte-01/
https://imasters.com.br/artigo/11721/gerencia-de-ti/arquitetura-de-data-warehouse-parte-02/?trace=1519021197&source=single
https://imasters.com.br/artigo/11721/gerencia-de-ti/arquitetura-de-data-warehouse-parte-02/?trace=1519021197&source=single
 
 
ARQUITETURA DE DATA WAREHOUSE E DATA MART 32 
 
INMON, William H.; HACKATHORN, Richard D. Como usar o Data Warehouse. Rio 
de Janeiro: Infobook, 1997. 
 
INMON, W. H. Building the Data Warehouse. Indianapolis: Wiley Publishi, 2012. 
 
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit. 2. ed. Rio de Janeiro: 
Ed. Campos, 2008. 
 
MACHADO, Felipe Nery Rodrigues. Tecnologia e Projeto de DW. São Paulo: Ed. 
Erica, 2014. 
 
METHANIAS, Colaço Jr. Projetando Sistemas de Apoio à Decisão Baseados em 
Data Warehouse. Rio de Janeiro: Axcel Books, 2004. 
 
MOREIRA, Eduardo. Modelo Dimensional para Data Warehouse. Disponível em: 
<https://imasters.com.br/artigo/3836/gerencia-de-ti/modelo-dimensional-para-data-
warehouse/?trace=1519021197&source=single>. Acesso em: 13 abril 2014. 
 
PITON, Rafael. Data Warehouse – O que é star schema? Disponível em: 
<https://rafaelpiton.com.br/data-warehouse-star-schema/>. Acesso em: 13 abril 
2018. 
 
RAGHU, R.; JOHANNES, G. Database Management Systems. 2. ed. Chicago: 
McGraw-Hill Higher Education, 2002. 
 
SINGH, S. Harry. Data Warehouse Conceitos, Tecnologias, Implementação e 
Gerenciamento. Makron Books, 2014. 
 
SOUZA, Michel de. BI: Data Marts. Disponível em: 
<https://imasters.com.br/artigo/1612/gerencia-de-ti/bi-data-
arts/?trace=1519021197&source=single>. Acesso em: 13 abril 2018. 
https://imasters.com.br/artigo/3836/gerencia-de-ti/modelo-dimensional-para-data-warehouse/?trace=1519021197&source=single
https://imasters.com.br/artigo/3836/gerencia-de-ti/modelo-dimensional-para-data-warehouse/?trace=1519021197&source=single
https://rafaelpiton.com.br/data-warehouse-star-schema/
https://imasters.com.br/artigo/1612/gerencia-de-ti/bi-data-arts/?trace=1519021197&source=single
https://imasters.com.br/artigo/1612/gerencia-de-ti/bi-data-arts/?trace=1519021197&source=single

Continue navegando