Buscar

Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 214 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 214 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 214 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

P
R
O
JETAN
D
O
 S
IS
TEM
AS
 D
E AP
O
IO
 À D
EC
IS
ÃO
B
AS
EAD
O
S
 EM
 D
ATA W
AR
EH
O
U
S
E
PROJETANDO SISTEMAS
DE APOIO À DECISÃO
BASEADOS EM
DATA WAREHOUSE
Methanias Colaço Júnior 
M
etha
nia
s C
ola
ço Júnior
Fruto da experiência de vários profissionais especialistas nas áreas de Banco de Dados, Business
Intelligence, Marketing, Data Warehouse (DW) e Data Mining, este livro traduz as potencialidades de um DW como
a base para sistemas de suporte à decisão. Através de uma linguagem simples e com foco em aspectos essen-
ciais, o leitor adquire um conhecimento sólido sobre Sistemas de Apoio à Decisão (SADs) e passa a conhecer as
características fundamentais de todas as ferramentas envolvidas neste processo. São abordados conceitos sobre
ferramentas de Business Intelligence tais como as ferramentas OLAP, EIS, ERP, CRM, Database Marketing e Data
Mining.
Além de preparar conceitualmente o leitor, é apresentada uma metodologia de desenvolvimento e documentação
de um projeto de ambiente de suporte à decisão. Muitos dos exemplos apresentados não se prendem aos con-
ceitos básicos, mas agregam conhecimento e criatividade por parte do seu autor e colaboradores, inclusive esten-
dendo a UML para documentação de um DW. Há um cuidado especial para não apresentar um Data Warehouse
como a resolução de todos os problemas, mas sim apresentar soluções que podem ser utilizadas por gerentes
de um projeto como este. Gerência de metadados e projeto físico de banco de dados também são abordados e
todos os capítulos do livro são finalizados com um resumo, para fixação e simples revisão do que foi abordado.
O livro beneficia profissionais e estudantes de Informática em matérias como Banco de Dados e Tópicos Espe-
ciais, e é direcionado para estudantes e profissionais de Administração, Marketing, Publicidade, Contabilidade e
Economia, envolvidos profissionalmente com a área gerencial ou academicamente com disciplinas como Tecno-
logia da Informação, Sistemas de Informação, Contabilidade Gerencial, CRM, entre outras.
Os profissionais de Marketing também poderão encontrar neste livro a base para a implantação de aplicações de
Database Marketing.
Methanias Colaço Júnior é M.Sc. em Informática pela Universidade Federal de Campina Grande (UFCG) na
área de Sistemas de Informação e Banco de Dados. Especialista em Ciência da Computação e Tecnologia da
Informação, é membro da equipe de Sistemas de Apoio à Decisão do Banco do Estado de Sergipe e professor da
Universidade Tiradentes e da Faculdade Sergipana (UNIP). Atua como consultor de empresas na área de DW,
prestando serviços à Secretaria Municipal de Finanças de Aracaju, Secretaria de Estado da Fazenda de Sergipe e
Companhia Alagoana de Refrigerantes (Coca-Cola/SE). Ministra treinamentos e presta consultoria em Engenharia
de Software, Banco de Dados, Oracle e ferramentas de BI.
André Vinícius Nascimento é graduado em Ciência da Computação pela Univer-
sidade Federal de Sergipe e M.Sc. em Informática pela UFCG na área de Sistemas de
Informação e Banco de Dados. É membro da equipe de Sistemas de Apoio à Decisão
do Banco do Estado de Sergipe e professor da Universidade Federal de Sergipe, além
de ministrar aulas em curso de pós-graduação em Administração de Banco de Dados.
Maria de Fátima Almeida é graduada em Ciência da Computação pela Universi-
dade Federal de Sergipe e M.Sc. em Informática pela UFCG na área de Sistemas de
Informação e Banco de Dados. Membro da equipe de Sistemas de Apoio à Decisão
do Banco do Estado de Sergipe e professora de curso de pós-graduação em Admi-
nistração de Banco de Dados e da Universidade Tiradentes.
PROJETANDO SISTEMAS DE APOIO À DECISÃO
BASEADOS EM DATA WAREHOUSE w
w
w
.a
xc
el
.c
om
.b
r
297
Pirataria é crime contra os direitos autorais, com penas para os infratores
de acordo com a Lei 9.610 de 19 de fevereiro de 1998.
Este e-book não pode ser vendido e/ou distribuído em CD-ROM, DVD-ROM ou por programas
de compartilhamento P2P. A forma correta de obter este arquivo é adquirindo-o através dos
sites da Editora Axcel (www.axcel.com.br) e de Júlio Battisti (www.juliobattisti.com.br).
Se você adquiriu este documento através dos meios legais descritos acima, não distribua ou
venda este produto. Você estará cometendo um crime contra o autor da obra.
Se você adquiriu este e-book por intermédio de terceiros, regularize sua situação entrando em
contato pelo e-mail editora@axcel.com.br, para que não seja alvo das penalizações previstas em
Lei. Usar cópia ilegal também é crime de violação dos direitos autorais.
REPRODUÇÃO PROIBIDA PELA LEI DO DIREITO AUTORAL.
Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseII
Copyright © 2004 by Methanias Colaço Júnior
Copyright © 2004 by Axcel Books do Brasil Editora Ltda.
Nenhuma parte desta publicação poderá ser reproduzida
sem autorização prévia e escrita de Axcel Books do Brasil Editora.
Editora de Produção: Gisella Narcisi
Editor Responsável: Ricardo Reinprecht
Projeto Gráfico: Axcel Books
Equipe Axcel: Alberto Baptista Garcia, Carlos Alberto Sá Ferreira,
Fagner Silva Henrique e Ingo Bertelli
Axcel Books do Brasil Editora
Av. Paris, 571 – Bonsucesso
21041-020 – Rio de Janeiro – RJ
Tel.: (21) 2564-0085 – Fax: (21) 2564-1607
E-mail: editora@axcel.com.br
Web Site: http://www.axcel.com.br
Projetando Sistemas de Apoio a Decisão Baseados em Data Warehouse
Methanias Colaço Júnior
ISBN: 85-7323-208-0
Os originais de livros enviados para avaliação pela Editora serão destruídos,
quando não aprovados. Não será feita sua devolução em nenhuma hipótese.
Os conceitos emitidos nesta obra são de inteira responsabilidade do Autor.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
IIISumário
“A chave para ter sucesso nos negócios é ter
informações que ninguém mais tem. ”
Aristóteles Onassis
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseIV
Agradecimentos
Em primeiro lugar agradeço a Deus, pelas constantes bênçãos derramadas. Na nossa
vida, devemos fazer tudo na dependência Dele.
Agradecimentos a todos da minha família e em especial: ao meu pai Methanias e à
minha mãe Valdice, responsáveis diretos pela minha formação; à minha irmã Mahely e
ao meu cunhado Marco pelo incentivo; e aos meus primos queridos Gardênia, Tici, Sá,
Edmilson Júnior, Alexsandro e Jonatas, pela admiração.
Agradeço, com o coração cheio de orgulho e felicidade, aos meus melhores ex-alunos de
Banco de Dados, e agora meus colegas e professores, André Vinícius Nascimento e Maria
de Fátima Almeida. Colaboradores diretos e indispensáveis deste livro, eles são um
exemplo de amor, profissionalismo e dedicação à árdua tarefa de dominar conhecimentos
da área de Informática.
À Gerente de Marketing Érika Celestino pela contribuição quanto à aplicação prática de
marketing nas organizações.
Ao Designer Jonatas Lemos Rodrigues pela arte final das ilustrações.
Aos meus queridos alunos e ex-alunos, maiores motivos da escrita deste livro.
Aos professores Asterio Tanaka, Eduardo Bernardes e Marcus Sampaio pela experiência
transmitida e pela confiança em mim depositada.
Aos irmãos em Cristo, que sempre oram pela minha vida.
A todos os amigos e profissionais que contribuíram para realização desta obra.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
VSumárioPrefácio
Sobre o Autor
Methanias Colaço Júnior é M.Sc. em Informática pela Universidade Federal de Campina
Grande (UFCG) na área de Sistemas de Informação e Banco de Dados. Especialista em
Ciência da Computação e Tecnologia da Informação, é membro da equipe de Sistemas
de Apoio à Decisão do Banco do Estado de Sergipe e professor da Universidade Tiradentes
e da Faculdade Sergipana (UNIP). Atua como consultor de empresas na área de DW,
prestando serviços à Secretaria Municipalde Finanças de Aracaju, Secretaria de Estado
da Fazenda de Sergipe e Companhia Alagoana de Refrigerantes (Coca-Cola/SE). Ministra
treinamentos e presta consultoria em Engenharia de Software, Banco de Dados, Oracle e
ferramentas de BI.
Colaboradores
André Vinícius Nascimento é graduado em Ciência da Computação pela Universidade
Federal de Sergipe e M.Sc. em Informática pela UFCG na área de Sistemas de Informação
e Banco de Dados. É membro da equipe de Sistemas de Apoio à Decisão do Banco do
Estado de Sergipe e professor da Universidade Federal de Sergipe, além de ministrar
aulas em curso de pós-graduação em Administração de Banco de Dados.
Maria de Fátima Almeida é graduada em Ciência da Computação pela Universidade
Federal de Sergipe e M.Sc. em Informática pela UFCG na área de Sistemas de Informação
e Banco de Dados. Membro da equipe de Sistemas de Apoio à Decisão do Banco do
Estado de Sergipe e professora de curso de pós-graduação em Administração de Banco
de Dados e da Universidade Tiradentes.
Colaboraram em três capítulos deste livro.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseVI
Apresentação
A globalização da economia, a mutação dos mercados e o acirramento da concorrência
tornaram a informação o bem mais valioso para as organizações, e estas passaram a
tratar seus dados não mais como meros resultados de transações, mas como propulsores
para atingir melhores resultados. A partir dos anos 90, o termo Data Warehouse (DW)
passou a ser crucial quando o tema era análise de negócios, crescimento e capacidade de
prever novas oportunidades.
As informações contidas em um Data Warehouse possuem características específicas que
as distinguem das informações existentes em projetos de bancos de dados convencionais.
Grandes volumes de dados, dados históricos e bases não normalizadas são algumas das
peculiaridades que impedem a utilização das metodologias tradicionais de análise de
sistemas. Ao deparar-se com esse quadro, a indústria de software, aliada a pesquisadores
da área, passou a investir na concepção de um paradigma que pudesse atender a essa
demanda. Desse trabalho, surgiram livros e artigos que sempre tentaram mostrar o “caminho
das pedras” para a concepção de um ambiente de Data Warehousing bem-sucedido.
Infelizmente, a realidade mostra que muitos projetos de Data Warehouse fracassaram
completamente ou causaram frustração nas expectativas de seus usuários (administradores,
contadores gerenciais, economistas, executivos, diretores, etc.) devido à falta de
conhecimento das pessoas envolvidas e principalmente à falta de uma literatura clara e
concisa, baseada em experiência acadêmica e prática, do caminho a ser seguido para o
sucesso de um projeto como esse.
Ao implantar um DW, os administradores esperam alcançar benefícios, tais como:
■ Recursos para acessar de modo rápido e flexível as informações do negócio.
■ Disponibilidade de mecanismos que incorporam a inteligência do negócio e permitem
efetuar o acompanhamento do desempenho e identificar as exceções no padrão de
comportamento esperado.
■ Facilidades para a definição de estratégias microssegmentadas, a partir do conhecimento
relacionado com o comportamento dos clientes.
■ Criação de conhecimento com base na análise de diversos cenários e identificação de
padrões de comportamento ou preferências/hábitos de consumo.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
VIISumário
■ Redução de riscos associados ao negócio, através das facilidades de análise de risco e
avaliação de alternativas.
■ Rapidez na percepção de probabilidade de ocorrência de inadimplência e de riscos
associados à composição do negócio, aliada à possibilidade de adoção de novas táticas
para a correção de desvios.
■ Implementação de um efetivo “marketing de relacionamento”, permitindo a definição
de estratégias com foco nos clientes e atendimento das suas expectativas, visando à
elevação da taxa de retenção dos mesmos.
Esse livro, fruto da experiência de vários profissionais especialistas nas áreas de Banco de
Dados, Marketing, Data Warehouse e Data Mining, traduz as potencialidades de um Data
Warehouse como a base para Sistemas de Suporte à Decisão. Através de uma linguagem simples
e com foco em aspectos essenciais, o leitor adquire um conhecimento sólido sobre Sistemas de
Apoio à Decisão e passa a conhecer as características fundamentais de todas as ferramentas
envolvidas neste processo. São abordados conceitos sobre ferramentas de apoio à decisão tais
como as ferramentas OLAP, EIS, ERP, CRM, Database Marketing e Data Mining.
Além de preparar conceitualmente o leitor, apresentamos uma metodologia de
desenvolvimento e documentação de um projeto de ambiente de suporte à decisão. Muitos
dos exemplos apresentados não se prendem aos conceitos básicos, mas agregam
conhecimento e criatividade por parte do seu autor e colaboradores, inclusive estendendo
a UML para documentação de um DW. Tivemos um cuidado especial para não apresentar
um Data Warehouse como a resolução de todos os problemas, mas sim apresentar soluções
que podem ser utilizadas por gerentes de um projeto como este. A maioria dos exemplos
do livro baseia-se em uma rede nacional de restaurantes fictícia e todos os capítulos do
livro são finalizados com um resumo para fixação e simples revisão do que foi abordado.
O primeiro capítulo do livro introduz o leitor no domínio dos Sistemas de Informação
relacionados com o Apoio à Decisão. Especificamos todas as soluções criadas para geração
de informações gerenciais, bem como suas nomenclaturas específicas que hoje perfazem
o jargão dos sistemas que servem à alta gerência.
No Capítulo 2, apresentamos o conceito de Data Warehouse (DW) e o encaixamos no do
contexto dos ambientes de suporte à decisão modernos. O leitor poderá caracterizar e
diferenciar um DW dos bancos de dados convencionais.
Apresentação
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseVIII
O Capítulo 3 descreve as principais ferramentas de apoio à decisão (ou ferramentas de
Business Intelligence (BI)) utilizadas no mercado. Elucidamos as características
fundamentais de uma ferramenta OLAP e preparamos o leitor para avaliar ferramentas de
apoio à decisão, averiguando exigências da área de negócios para este tipo de ferramenta.
Além das ferramentas OLAP, pela importância mercadológica, conceituamos CRM e Da-
tabase Marketing, relacionando-os com um projeto de DW. Discutimos aspectos importantes
para a construção de um DW que apoiará uma política de relacionamento com clientes.
No Capítulo 4, enfatizamos o esquema de dados utilizado em Data Warehouses
relacionais. Procuramos dirimir as principais dúvidas de projeto surgidas na
construção de esquemas-estrela.
O Capítulo 5 discute e apresenta conclusões de todo o contexto que envolve uma
arquitetura para gerência e armazenamento de metadados. Analisamos os requisitos de
uma boa arquitetura, o processo de concepção de um repositório de metadados e sugerimos
o armazenamento de alguns atributos e entidades indispensáveis à sobrevivência de um
projeto de DW.
Os Capítulos 6 e 7 são a espinha dorsal do livro. No Capítulo 6, apresentamos uma
metodologia clara de desenvolvimento de um DW e, no Capítulo 7, uma extensão UML
para documentar todas as etapas do processo.
O Capítulo 8 provê o embasamento teórico necessário para a elaboração de um projeto
físico de dados para Data Warehouse; e serve de base para a escolha de um SGBD que
apresente características que dêem suporte à criação e evolução de um banco de dados
voltado para suporte à decisão.
Por fim, no Capítulo 9, são apresentados conceitos de Data Mining e sua importância
como auxílio para a tomada de decisão. O Processode Descoberta de Conhecimento é
abordado em detalhes, seguido de uma discussão sobre as principais técnicas de Mineração
de Dados. O capítulo é finalizado com uma explicação detalhada de um algoritmo de
geração de regras de associação, uma das mais importantes técnicas de Data Mining, e
uma discussão sobre a importância de integrar as técnicas de mineração aos Sistemas
Gerenciadores de Bancos de Dados.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
IXSumário
Objetivos
Com este livro, o leitor alcançará os seguintes objetivos:
■ Familiarizar-se com todos os conceitos, regras e expressões do domínio de Sistemas
de Apoio à Decisão.
■ Entender o que é um Data Warehouse (DW) e sua relevância no atual mercado
competitivo.
■ Aprender a iniciar e gerenciar um projeto de DW com sucesso, bem como documentar
todas as etapas do processo (inclusive utilizando UML – Unified Modeling Language
– ou linguagem de modelagem unificada).
■ Identificar os requisitos para gerência e armazenamento de metadados em um DW.
■ Conhecer as principais ferramentas de BI (Business Intelligence, ou Inteligência
Aplicada aos Negócios).
■ Valorizar a importância de uma política de marketing e entender como conduzir um
projeto de DW para beneficiar o marketing estratégico das organizações.
■ Dominar a configuração ideal de Sistemas Gerenciadores de Bancos de Dados
utilizados em projetos de DW.
■ Compreender os benefícios e funcionamento de um processo de mineração de dados
(Data Mining) em bancos de dados históricos.
Público-Alvo
Este livro interessa a qualquer pessoa envolvida na produção, implantação, manutenção,
gerência e utilização (inclusive diretores e executivos) de Sistemas de Informações
Gerenciais ou de Apoio à Decisão.
Além de beneficiar profissionais e estudantes de Informática em matérias como Banco
de Dados e Tópicos Especiais, o livro é direcionado para estudantes e profissionais de
Administração, Publicidade, Contabilidade e Economia, envolvidos profissionalmente
Apresentação
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseX
com a área gerencial ou academicamente com disciplinas como Tecnologia da Informação,
Sistemas de Informação, Contabilidade Gerencial e etc.
Os profissionais de Marketing também poderão encontrar neste livro a base para a
implantação de aplicações de Database Marketing.
Como Usar Este Livro
Para alunos e profissionais de informática, sugerimos uma leitura linear deste livro. Uma
atenção especial deve ser dedicada aos Capítulos 4, 6, 7 e 8, que apresentam
responsabilidades específicas destes profissionais em projetos de DW.
Os demais acadêmicos e profissionais de outras áreas podem começar pela leitura dos
Capítulos 1, 2, 3 e 9, enfatizando aspectos relacionados aos negócios. No Capítulo 9, por
exemplo, é possível entender como funciona o processo de mineração de dados em dois
níveis. Um nível para aqueles que desejam saber o que é e quais os benefícios da mineração
para os negócios, e, para os interessados, um nível de conhecimento de como funcionam
os processos de mineração.
Os Capítulos 4, 5, 6 e 7 são importantíssimos para servirem de guia para administradores
e diretores de áreas de sistemas de informação. Estes capítulos fornecem ao gestor um
embasamento para o acompanhamento de projetos de DW, visando eliminar a frustração
de expectativas.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
XISumário
Sumário
Capítulo 1: Introdução ....................................................................................................1
Evolução dos Sistemas de Informação ..........................................................................2
Sistemas de Informação Gerenciais ...............................................................................5
Sistemas de Informação Executivos ..............................................................................6
Sistemas de Apoio à Decisão ........................................................................................7
Resumo ......................................................................................................................10
Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse ....................13
Conceito de Data Warehouse .....................................................................................16
Características de um Data Warehouse .......................................................................16
Orientado por Temas ............................................................................................16
Integrado ..............................................................................................................16
Variante no Tempo ................................................................................................17
Não Volátil ............................................................................................................17
Data Marts .................................................................................................................18
Arquitetura Básica de um Data Warehouse .................................................................18
Data Warehouse X Enterprise Resource Planning (ERP) ...............................................21
Resumo ......................................................................................................................22
Capítulo 3: Ferramentas de Apoio à Decisão ................................................................25
Ferramentas OLAP ......................................................................................................26
OLAP X OLTP ........................................................................................................28
Características .......................................................................................................29
Conjunto de Operações OLAP ...............................................................................30
Ranging ................................................................................................................31
Drilling..................................................................................................................32
Drill Down ............................................................................................................32
Drill Across ............................................................................................................33
Drill Up .................................................................................................................34
Rotation ................................................................................................................34
Ranking ................................................................................................................34
OLAP Multidimensional (MOLAP) .........................................................................35
OLAP Relacional (ROLAP) ......................................................................................37
Tendências ............................................................................................................37
CRM ..........................................................................................................................38
Fidelização ............................................................................................................40
As Relações Virtuais Através da Internet .................................................................41
Database Marketing ..............................................................................................42
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoioà Decisão Baseados em Data WarehouseXII
Resumo ......................................................................................................................45
Capítulo 4: Modelagem de Dados Para Data Warehouses ...........................................47
Por que Não Usar o Modelo Entidade e Relacionamento Tradicional? .........................48
Star Schema (Esquema Estrela) ...................................................................................49
Tipos de Dimensão ...............................................................................................52
Dimensão Tipo 1 .............................................................................................52
Dimensão Tipo 2 .............................................................................................52
Dimensão Tipo 3 .............................................................................................53
Dimensões descaracterizadas ...........................................................................55
Chaves Artificiais ..............................................................................................56
Dimensão Tempo ..................................................................................................57
Hierarquias ............................................................................................................58
Agregados ............................................................................................................59
Tipos de indicadores para as tabelas de fatos ........................................................60
Um Estudo de Caso Para Definição dos Passos da Modelagem Dimensional ...............60
Dúvidas comuns de projetistas de DW .......................................................................62
Resumo ......................................................................................................................64
Capítulo 5: Gerência de Metadados em um Data Warehouse .....................................67
Metadados em um processo de Data Warehousing ....................................................68
Metadados Operacionais ............................................................................................71
Metadados de Negócio ..............................................................................................73
Uma Arquitetura Básica de Metadados .......................................................................74
Tipos de Arquitetura de Metadados ............................................................................75
Requisitos de uma Arquitetura de Metadados.............................................................77
Integração ............................................................................................................77
Extensibilidade ......................................................................................................77
Robustez ...............................................................................................................78
Abertura ...............................................................................................................78
Automatização e Reutilização de Processos ...........................................................78
Padronização do Processo de Integração ...............................................................79
Flexibilidade ..........................................................................................................80
Gerenciamento de Múltiplas Versões de Metadados ..............................................80
Facilidades de Atualização .....................................................................................81
Arquitetura Multicamadas .....................................................................................81
Gerenciamento de segurança ................................................................................81
Funcionalidade de um Repositório de Metadados ......................................................82
Provisão de Informação .........................................................................................82
Metamodelo .........................................................................................................83
Acesso ao Repositório............................................................................................83
Administração de Versão e Configuração ..............................................................83
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
XIIISumário
Análise de Impacto ...............................................................................................84
Notificação ...........................................................................................................84
Metadados Técnicos e Qualidade de Dados em Metadados .......................................84
Controle de Metadados em um Projeto Evolutivo de Construção de DW....................89
Padronização de Metadados ......................................................................................91
O Metamodelo CWM ...........................................................................................92
Resumo ......................................................................................................................94
Conclusões .................................................................................................................96
Capítulo 6: Uma Metodologia para Implementação de um Data Warehouse .............99
Diferenças entre a Análise Tradicional
e a Análise de Sistemas de Apoio à Decisão ..............................................................102
Entrevistas ................................................................................................................104
Características a serem Analisadas no Ambiente de Informações Existente ...........105
Disponibilidade de Informações .....................................................................105
Acesso às informações disponíveis ..................................................................105
Acuracidade ...................................................................................................105
Modelos de Tabelas Geradas em Entrevistas com os Usuários e Analistas ............ 106
Técnicas ..............................................................................................................109
Equipe .....................................................................................................................110
Ambiente de Hardware e Software ...........................................................................113
Esquema de Carga ...................................................................................................116
Sistema de Carga ................................................................................................119
Pontos de Verificação para Garantia de Qualidade ....................................................121
Cronograma de Implementação ...............................................................................123
Resumo ....................................................................................................................125
Capítulo 7: Estendendo a UML Para Documentar um Data Warehouse ....................129
Projeto Arquitetural ..................................................................................................130
Documentação de Data Marts ..................................................................................132
Visão Estática ......................................................................................................132
Visão Dinâmica ...................................................................................................133
Transformação de atributos ............................................................................133
Transformação de atributosem mais de um atributo .....................................134
Tabela se transforma em outra sem alteração de atributos .............................134
Atributos novos nas tabelas ............................................................................135
Atributos que Deixam de ser Usados ..............................................................135
Chaves Artificias .............................................................................................135
Estereótipos Para Dimensão, Tabela de Fatos e Tabelas Auxiliares ...................136
Hierarquias, Agregados e Tipos de Indicadores ..............................................137
Documentação da Configuração Física e de Relatórios OLAP ....................................138
Resumo ....................................................................................................................139
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseXIV
Capítulo 8: Otimização da Configuração Física de
um Banco de Dados Para Data Warehouse ................................................................141
Bloco de Dados ........................................................................................................143
Tamanho de Bloco de Dados ..............................................................................145
Tamanho da Área Livre........................................................................................146
Separação Física de Tipos de Dados..........................................................................146
Particionamento .......................................................................................................148
Visões Particionadas ............................................................................................149
Tabelas e Índices Particionados............................................................................149
Vantagens do Particionamento............................................................................149
Índices .....................................................................................................................150
Índices de Árvore B .............................................................................................150
Índices de Bitmap ...............................................................................................151
Carregamento de Dados Para o Data Warehouse .....................................................153
Resumo ....................................................................................................................154
Capítulo 9: Data Mining e a Descoberta de Informações
Para Alavancagem do Negócio ...................................................................................157
Mineração de Dados: alguns conceitos .....................................................................158
O Processo de Descoberta do Conhecimento ...........................................................161
Preparação dos Dados ...................................................................................162
Data Mining e Customer Relationship Management (CRM) .....................................163
Como o Data Mining Ajuda o Database Marketing ..................................................163
Principais Técnicas de Mineração de Dados ..............................................................165
Classificação........................................................................................................165
Regras de Associação ..........................................................................................167
Geração de Regras de Associação: o algoritmo Apriori ..............................................171
Geração dos Conjuntos ..................................................................................172
Fase de Poda .......................................................................................................173
Contagem de Suporte .........................................................................................174
Geração de Regras ..............................................................................................175
O Algoritmo Apriori Quantitativo: uma nova abordagem ....................................176
Integração de Mineração de Dados e SGBD´s ...........................................................177
Abordagens de Integração ..................................................................................178
Categoria Convencional – Fracamente Acoplada ............................................178
Categoria – Fortemente Acoplada ..................................................................180
Categoria Caixa Preta ....................................................................................180
Resumo ....................................................................................................................181
Bibliografia ..................................................................................................................183
Glossário ......................................................................................................................191
Índice Remissivo ..........................................................................................................193
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
1Capítulo 1: Introdução
1
C A P Í T U L O
I n t r o d u ç ã o
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse2
Evolução dos Sistemas de Informação
O cenário de competição no mundo dos negócios tem assistido a profundas mudanças
nos últimos anos. As empresas estão sendo impulsionadas a rápidas e contínuas adaptações
para sobreviverem e crescerem no mercado. É necessário conquistar novos clientes, manter
os já existentes, ampliar o ramo de negócios com qualidade e inová-lo conforme as
tendências mercadológicas. Produtos devem ser concebidos com alta economicidade e
com seus empreendedores aplicando um excelente grau de efetividade.
Para levar as corporações a um lugar de destaque, os administradores precisam ter a capacidade
de analisar os dados disponíveis e tomar decisões rápidas e seguras. Diante desta necessidade
crescente, os sistemas de informação (SI) têm evoluído nas últimas décadas e buscado alternativas
para o fornecimento otimizado de informações para apoio à decisão. Os dados estão sendo
utilizados como verdadeiros recursos empresariais, porém não foi sempre assim. Para chegar ao
estado atual, os sistemas de informação passaram por longos anos de aperfeiçoamento, que
culminaram com a visão de executivos modernos e visionários da informática como uma forma
imbatível de alavancagem de negócios. Resumiremos adiante como se deu esta evolução.
Nos anos 60 os sistemas eram criados como verdadeiras ilhas de informação. As aplicações
mantinham seus dados independentes e isolados das outras. Os dados comuns entre
aplicações eram redundantes e, na maioria das vezes, inconsistentes. Um cadastro de
funcionários, por exemplo, repetia-se no sistema de recursos humanos e no sistema de
empréstimos de ferramentas em uma indústria. Assim, se fosse necessária a criação de
uma nova aplicação que utilizasse informações de funcionários, um arquivo era gerado
especificamente para esta finalidade. Se os dados nele contidos fossem necessários a outros
fins, criava-se um novo arquivo, onde, mais uma vez, repetiam-se os dados em comum. Os
dados se voltavam para o fornecimento de resultados específicos, relativos a problemas
específicos, gerados por dados também específicos. Não existiam métodos de gerenciamento
de dados como um recurso e nem para o recolhimento dos benefícios resultantes.
Foi em 1970que aconteceu o advento do armazenamento em disco. Diferente do
armazenamento em fita magnética, os dados poderiam ser acessados diretamente e o tempo
de processamento era bem menor. Nesta época, surgiu o termo OLTP1 – Processamento de
1
 On Line Transaction Processing.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
3Capítulo 1: Introdução
Transações On Line – para definir o processamento efetuado pelos sistemas de informação
transacionais ou operacionais. Estes sistemas de informação são também identificados
pela expressão Eletronic Data Processing (EDP), e são necessários para o controle
operacional das organizações. Sistemas OLTP fornecem agilidade, segurança e eficiência
na inserção dos dados em bancos de dados, porém a maioria deles falha no fornecimento
de análises significativas e levam muito tempo na recuperação de dados gerenciais.
Os Problemas da Redundância...
Muitas empresas tiveram prejuízos sérios devido à presença de redundância de dados e conseqüente
inconsistência dos mesmos. Podemos citar o exemplo do funcionário de uma indústria demitido.
Na maioria das vezes, seu cadastro era excluído apenas do sistema de recursos humanos e, por
uma falta de integração de sistemas, erroneamente mantido no sistema de empréstimos de
ferramentas. Nada impedia que a insatisfação com a demissão levasse a pessoa a visitar a oficina,
retirar as ferramentas mais caras e nunca mais voltar com as mesmas. A redundância pode
transformar uma coisa simples em um verdadeiro caos para a organização.
Paralelamente ao advento do OLTP, surgiram os Sistemas de Gerenciamento de Bancos de
Dados (SGBD). Os SGBDs foram softwares criados para fornecer acesso às informações
e à atualização das mesmas, garantindo a segurança e a integridade de um banco de dados.
O surgimento dos Sistemas de Gerenciamento de Banco de Dados tinha como objetivos:
potencializar o gerenciamento dos dados como recursos e eliminar as redundâncias de
informações existentes nos sistemas desenvolvidos anteriormente (Figura 1.1). Podemos
afirmar que nenhum dos objetivos foi atingido totalmente, pois, mesmo usando
softwares gerenciadores de banco de dados, as empresas continuaram criando sistemas
isolados em termos de compartilhamento de dados comuns (Figura 1.2). Além disso,
os profissionais de informática da época, apesar de serem pessoas competentes,
desenvolviam sistemas sem nenhuma visão metodológica e com uma preocupação
extrema na estruturação e reestruturação do hardware das organizações. Até as mudanças
mais recentes, a engenharia de software era empírica e foram produzidos softwares
sob demanda, sem nenhuma preocupação com a geração futura de informações
integradas e estratégicas.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse4
Figura 1.1: Arquitetura Simples de um SGBD.
Concluímos então que faltaram dois requisitos essenciais da engenharia de software
moderna: administração de dados e uma metodologia de desenvolvimento. Nosso livro
não pretende discutir problemas de metodologia, nem tampouco a crise do software, mas
fica claro que, sem administração de dados, os sistemas podem continuar sendo
desenvolvidos sem a consciência da importância da integração para a produção de
informações gerenciais. Exemplificando, uma simples tabela de feriados pode ser repetida
em diversos sistemas, causando problemas de atualização e inconsistência. Imaginemos
cálculos de juros semelhantes, sendo feitos com base em tabelas de feriados diferentes
ou desatualizadas.
Executivos sempre sofreram ao solicitarem relatórios gerenciais de sistemas distintos e
encontrarem resultados diferentes sobre assuntos comuns. Dos anos 80 até os dias atuais,
soluções foram criadas para resolver os problemas decorrentes da falta de administração
de dados e para produzir informações gerenciais com uma única versão da verdade.
Analisaremos estas soluções a seguir.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
5Capítulo 1: Introdução
Figura 1.2: “Teia” causada pela falta de integração.
Sistemas de Informação Gerenciais
Depois da implantação de diversos sistemas de informação transacionais, as empresas
tendem naturalmente a desenvolver sistemas que forneçam informações integradas e
sumarizadas. Estas informações podem ser oriundas dos diversos sistemas transacionais
existentes, bem como podem ser extraídas de um único sistema transacional, limitadas
ao escopo do mesmo. Atualmente, engenheiros de software competentes sempre
incorporam funcionalidades gerenciais em seus sistemas.
Informações gerenciais têm a capacidade de prover insumo para análise, planejamento e
suporte à decisão, além de possibilitarem, ao nível tático da organização, a visualização
do desempenho de um departamento e até mesmo de toda a corporação. Sistemas que
possuem essas informações são geralmente chamados de Management Information
Systems (MIS) ou Sistemas de Informação Gerenciais (SIG).
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse6
Os SIGs começam a surgir quando os gerentes sentem a necessidade de informações
rápidas, em quantidade, com qualidade e, principalmente, integradas. É o conhecido
estágio de controle e integração de uma corporação. Nesta fase, os diretores e gerentes
costumam alavancar o desenvolvimento de sistemas com características gerenciais.
Um Sistema de Informação Gerencial verdadeiro deve fornecer informações para os
planejamentos operacional, tático e até mesmo estratégico da organização, comparando
o desempenho atual da organização com o que foi planejado. Os gerentes devem ser
capazes de analisar despesas e a compatibilidade das mesmas com o orçamento planejado.
É notório que SIGs, apesar de não serem considerados Sistemas de Apoio à Decisão,
auxiliam gerentes no processo de tomada de decisão e podem perfeitamente fazer parte
de um ambiente completo de suporte à decisão. Na seção Sistemas de Apoio à Decisão
diferenciaremos um Sistema de Informação Gerencial de um Sistema de Apoio à Decisão.
Sistemas de Informação Executivos
Unindo informações dos Sistemas Transacionais às informações dos SIGs é possível
construir sistemas de informação voltados para executivos. Sistemas deste tipo também
podem agregar informações coletadas de fontes externas à organização e prover os resultados
em formato interativo, diminuindo o esforço da alta gerência para análise dos mesmos.
Sistemas construídos para dinamizar o trabalho dos executivos são sugestivamente
chamados de Executive Information Systems (EISs), ou Sistemas de Informação
Executivos. Não existem maiores diferenças conceituais em relação a um Sistema de
Apoio à Decisão. O que diferencia é, em geral, a interface com o usuário, que deve
permitir que um executivo utilize um EIS com facilidade. Estes sistemas provêm aos
executivos informações comparativas através de mapas, gráficos e dados estatísticos
fáceis de entender. Além disso, agregam funcionalidades de correio eletrônico,
teleconferências, calendários, agendas, gerenciamento de projetos, tarefas e pessoas.
Na verdade, podemos considerar um Sistema de Informações Executivo como um Sistema
de Informações Gerenciais acrescido de características que dão ao executivo a vantagem
de poder analisar informações e organizar o seu trabalho em um único ambiente.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
7Capítulo 1: Introdução
Somente organizações maduras e com boa administração de dados conseguem desenvolver
e/ou implantar um Sistema de Informação Executivo. É necessário que os sistemas de
informação existentes reflitam o fluxo de informações da organização. A metodologia
de desenvolvimentoadotada deve prever participação do usuário em todas as fases e a
organização tem que vislumbrar sempre a informação como recurso e patrimônio. Em
outras palavras, os sistemas de informação passam a ser a base para o planejamento
estratégico, e todas as decisões passam a depender destes sistemas.
Os Sistemas de Informação Executivos são confundidos com outras ferramentas de apoio à
decisão, mas têm como principal diferença a facilidade. Ainda hoje, a maioria dos executivos
prefere ter uma tela EIS com “botões mágicos” para geração de relatórios, a usar uma
ferramenta que necessite de apoio investigativo e intuição. Estas telas EIS fornecem dados
detalhados sobre o passado, presente e tendências futuras das unidades de negócios em relação
ao mercado, além de auxiliarem o processo de planejamento e de controle da organização.
Um Sistema de Informação Executivo autêntico deve permitir a navegação de dados
sintéticos para dados mais detalhados, e pode fazer parte do conjunto de ferramentas e
sistemas que consultam uma base de dados histórica existente.
Sistemas de Apoio à Decisão
O conceito de Sistemas de Apoio à Decisão (SADs), ou Decision Support Systems (DSSs),
está na realidade relacionado com um ambiente complexo, projetado para fornecer
subsídios para que a alta gerência tome decisões.
Autores de livros de informática voltados para as áreas de administração, economia e
contabilidade costumam definir SADs de forma ambígua, sem clara diferença entre um
Sistema de Apoio à Decisão e um Sistema de Informação Gerencial, por exemplo. Nossa
obra também pretende contribuir para a formação de administradores modernos,
elucidando definições nebulosas da literatura existente.
A maioria dos conceitos enunciados sobre SADs os coloca como sistemas de informação
que apóiam qualquer processo de tomada de decisão nos níveis tático, estratégico e
operacional. Isto não é suficiente, pois qualquer SI pode ser útil ao nível gerencial e, nem
por isso, todo Sistema de Informação será um Sistema de Apoio à Decisão. Um Sistema de
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse8
Informações Gerenciais também pode apoiar qualquer processo de tomada de decisão tática.
Um EIS apóia decisões estratégicas e até um Sistema de Informação Transacional pode
apoiar decisões de nível operacional. A pergunta é: “Qual é a diferença ?”.
O famoso exemplo das fraldas e da cerveja...
Através de um ambiente de suporte à decisão bem projetado e utilizando Mineração de
Dados, uma rede de supermercados descobriu que a maioria dos pais que iam comprar
fraldas para seus filhos levava cerveja. O pessoal de marketing, muito inteligente, colocou
a cerveja e as fraldas próximas, com batata fritas entre elas, aumentando consideravelmente
a venda dos três produtos. Muitas vezes, o cliente nem pretende levar a cerveja, mas o faz
quando vê a tentação do lado das fraldas.
Existem várias explicações para o caso, como por exemplo a presença do bebê significar falta de
tempo para ir a uma boate à noite para beber. O fato é que a decisão de reposicionamento do
estoque foi diretamente influenciada pela informação descoberta. Há vários outros exemplos
curiosos, como a venda de colírios em feriados e etc.
A diferença reside no fato de os Sistemas de Apoio à Decisão não só fornecerem informações
para tomada de decisões, mas também contribuírem e influenciarem o processo. Um SAD
deve fornecer e analisar alternativas, pesquisar históricos de decisões tomadas e auxiliar a
resolução de problemas estruturados. Estes sistemas podem simular impactos de investimentos
em um novo produto ou um novo projeto, baseados em bancos de dados de custos e rendimentos
e em algum modelo para análise de risco em investimentos de capital.
Atualmente, algumas empresas já proporcionam que um gerente possa tomar uma decisão
baseada em um simples relatório estatístico ou tomar outra completamente diferente,
baseada na descoberta de uma informação escondida na base histórica (veja o quadro “O
famoso exemplo das fraldas e da cerveja...”). A descoberta de informações escondidas
através de Mineração de Dados (Data Mining) é abordada no Capítulo 9.
Entendendo a diferença, podemos conceituar um SAD como um ambiente projetado
para apoiar, contribuir e influenciar o processo de tomada de decisão (Figura 1.3). Este
ambiente é formado pelos seguintes componentes:
■ Banco de Dados (BD): Não podemos confundir o conceito de Banco de Dados com o
conceito de Sistema Gerenciador de Banco de Dados. Um Banco de Dados não está
necessariamente relacionado com armazenamento eletrônico. Bancos de dados podem
ser vistos como coleções de dados inter-relacionados. Em um ambiente de suporte à
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
9Capítulo 1: Introdução
decisão, podem ser formados por informações internas e externas à organização, por
conhecimentos e experiências de especialistas e por informações históricas acerca das
decisões tomadas. Um Data Warehouse, objetivo principal do nosso livro, pode fazer
parte, ou ser o banco de dados principal de um ambiente de suporte à decisão. A
princípio e simplificadamente, podemos conceituar um Data Warehouse como um
Banco de Dados projetado para armazenar informações integradas de toda organização,
mantendo um histórico das mesmas.
■ Sistema Gerenciador de Banco de Dados (SGBD): Como discutido anteriormente,
um SGBD é uma coleção de programas que permitem aos usuários definir,
construir e manipular Bancos de Dados para as mais diversas finalidades. Os
dados num Banco de Dados devem ser integrados e compartilhados. Um Sistema
Gerenciador de Banco de Dados pode representar a unif icação de diversos
arquivos que, de outra forma, seriam distintos, eliminando-se total ou
parcialmente a redundância entre os mesmos. Já o compartilhamento não significa
apenas que as aplicações existentes podem compartilhar dados do Banco de
Dados, mas também que novas aplicações podem ser desenvolvidas para operar
sobre os mesmos dados armazenados.
■ Aplicativos com características gerenciais (AGs): São aplicativos com funções
gerenciais de análise acrescidas. Aplicativos com estas funcionalidades podem fazer
parte do grande ambiente de suporte à decisão.
■ Ferramentas de apoio à decisão (FADs): Também chamadas de ferramentas de BI
(Business Intelligence, ou Inteligência Aplicada aos Negócios), são softwares
desenvolvidos para apresentar graficamente as informações, auxiliando a simulação
de situações, fornecendo capacidade de análise, ou descobrindo conhecimento. Além
disso, existem ferramentas no mercado que facilitam a implementação de funções
específicas, tais como o Gerenciamento de Risco de Crédito, Rentabilidade de Clientes,
Database Marketing, etc.
Neste livro, abordaremos excelentes e importantes exemplos de FADs. No Capítulo 3,
discutiremos sobre as ferramentas OLAP (abreviação de Analytic Processing On-Line,
ou processamento analítico on-line) de apoio à decisão, bem como sobre ferramentas de
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse10
Figura 1.3: Ambiente de apoio à decisão.
Resumo
Paulatinamente ao longo das três últimas décadas, os sistemas de tecnologia da informação
têm se preocupado muito com problemas de negócios. Esta preocupação reside na
necessidade de competição das empresas no mercado globalizado. As organizações devem
ser capazes de analisar os dados disponíveis e tomar decisões rápidas e seguras.
Soluções para geração de informações gerenciais foram criadas, recebendo uma
nomeclatura específica que hoje perfaz o jargão dos sistemas de informação que servem
à alta gerência. Enumeremo-las:
■ Sistemas de Informações Gerenciais (SIG): Sistemas que geram informações coma
capacidade de prover insumo para análise, planejamento e suporte à decisão, além de
possibilitarem, ao nível tático da organização, a visualização do desempenho de um
departamento e até mesmo de toda a corporação.
■ Sistemas de Informação Executivos (EIS): Geram informações gerenciais como os
SIGs e dinamizam o trabalho dos executivos através da agregação de funcionalidades
Database Marketing e CRM (Customer Relationship Management, ou gerência da relação
com os clientes). No Capítulo 9, esmiuçaremos o conceito e características de um processo
de mineração de dados (Data Mining).
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
11Capítulo 1: Introdução
como correio eletrônico, teleconferências, calendários, agendas, gerenciamento de
projetos, tarefas e pessoas.
■ Sistemas de Apoio à Decisão (SAD): Ambiente projetado para apoiar, contribuir e
influenciar o processo de tomada de decisão.
Os sistemas de informação envolvidos com o processo de tomada de decisão podem ser,
na realidade, pápeis assumidos por aplicações criadas exclusiva ou parcialmente para
esse propósito.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
13Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse
2
C A P Í T U L O
Sistemas de Apoio à
Decisão Baseados em
Data Warehouse
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse14
Os Sistemas de Apoio à Decisão tradicionais eram concebidos através do desenvolvimento
de Ferramentas de Apoio à Decisão (FAD) (ver Capítulo 1) para produção e distribuição
de informações úteis para gerentes, executivos e analistas do conhecimento. Para a
produção destas informações, as FADs acessavam os bancos de dados operacionais da
organização, gerando um forte acoplamento entre Sistemas de Informações Transacionais
e Sistemas de Apoio à Decisão (Figura 2.1).
Como a quantidade de dados gerados nas empresas cresce em progressão geométrica, o
acoplamento passou a ser um problema e, para que as aplicações continuassem com um
bom desempenho, era preciso separar os dados mais antigos da base de dados acessada
pelas aplicações transacionais, pois a concorrência entre as consultas gerenciais e as
funções desempenhadas pelos Sistemas de Informação Transacionais aumentava o tempo
de resposta de qualquer servidor de banco de dados que estivesse sendo utilizado.
Figura 2.1: Acoplamento entre SIGs e Sistemas Fontes.
Assim, os dados históricos passaram a ser armazenados separadamente e restaurados
quando preciso. Porém, a confiança e desempenho também eram comprometidos pelo
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
15Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse
fato de os dados não estarem adequados para o suporte à decisão, ou seja, tanto estavam
desintegrados (Capítulo 1), como também não foram modelados para otimizar o
desempenho de consultas gerenciais (discutiremos modelagem de dados para apoio à
decisão no Capítulo 4 deste livro).
Aliadas às necessidades supracitadas, consultas a esses dados históricos passaram a ser
constantes e nem sempre os mesmos eram restaurados com sucesso. O problema era, e é
ainda em muitas empresas, o longo tempo de espera para restauração e acesso a essas
informações. A maioria dos gerentes passava dias para obter uma informação gerencial
e ainda assim não confiava na acuracidade da mesma.
Objetivando integrar dados de múltiplas fontes, um processo de análise com informação
de qualidade sem impacto para o ambiente operacional e um atendimento a diferentes
tipos de usuários com agilidade e flexiblidade, surgiu o conceito de Data Warehouse
(Armazém de Dados) (Figura 2.2).
Figura 2.2: Integração com um Data Warehouse.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse16
Conceito de Data Warehouse
Data Warehouse (DW) é um banco de dados histórico, separado lógica e fisicamente do
ambiente de produção da organização, concebido para armazenar dados extraídos deste
ambiente. Antes de serem armazenados no DW, os dados são selecionados, integrados e
organizados para que possam ser acessados da forma mais eficiente, auxiliando assim o
processo de tomada de decisão.
Segundo W. H. Inmon, especialista e pioneiro no assunto, um Data Warehouse é “um conjunto
de dados, não volátil, orientado a tópicos, integrado, que varia com o passar do tempo e que
serve de suporte para o processo de tomada de decisões da gerência”. (W. H. Inmon, 1996).
Analisaremos as características enunciadas por Inmon a seguir.
Características de um Data Warehouse
Orientado por Temas
O Data Warehouse armazena informações necessárias para o processo de suporte à
decisão. Essas informações são organizadas pelos temas importantes para o negócio da
empresa. Em uma rede de restaurantes, por exemplo, os temas são: produtos, clientes,
funcionários, etc.
Cada tema pode envolver várias tabelas. Considerando o tema cliente, podem existir
tabelas com as informações gerais (nome, endereço, telefone, e-mail), outra com os clientes
que tiveram conta inferior a R$200,00, outra com os clientes com contas superiores a
R$300,00. Além destas, podem existir tabelas cumulativas com os clientes que mais
consumiram no período de 1999 a 2003, e tabelas detalhadas que armazenarão o código
do cliente, a data da venda, os produtos consumidos e o valor da despesa. Portanto,
percebe-se que, para o mesmo tema, podem existir vários níveis de detalhamento.
Integrado
O Data Warehouse deve consolidar dados de diversas origens, o que geralmente envolve
diferentes codificações. Os dados devem ser perfeitamente integrados para que ao serem
armazenados assumam uma única convenção. Exemplificando: uma aplicação pode
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
17Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse
codificar o sexo como “M” e “F”, outra pode codificar com 0 e 1, e uma outra pode usar
“H” e “M”. Quando os dados são extraídos para o Data Warehouse devem assumir uma
única codificação.
Variante no Tempo
Os dados em produção são atualizados de acordo com as mudanças necessárias, e com
isso os dados “históricos” são perdidos. Em consultas, são capturados os dados válidos
no momento do acesso. Por exemplo, o estado civil de um cliente “X” que em 2000 era
solteiro e passa hoje para casado. No momento da consulta feita hoje, será apenas mostrado
que o cliente é casado, perdendo as informações anteriores.
Em um Data Warehouse os dados são carregados como fotos da base de dados operacional
do momento, ou seja, cada ocorrência e cada mudança são consideradas como um novo
registro. Os dados não são atualizados e podem ser comparados ao longo do tempo. Ao
consultar o cliente “X” do exemplo anterior em 2000, virão os dados da época de solteiro.
Não Volátil
Teoricamente, depois que os dados estão no Data Warehouse (DW) não poderão ser
atualizados ou alterados, apenas acessados. Os novos dados serão absorvidos, integrando-
se com os dados existentes. O Data Warehouse permite apenas a carga inicial dos dados
e a consulta aos mesmos. Contraditoriamente, existe no ambiente operacional uma grande
volatilidade, visto que os dados são atualizados registro a registro a qualquer momento.
Escrevemos teoricamente, pelo fato de algumas situações específicas exigirem
atualização dos dados carregados para o DW. Podemos tomar como exemplo a carga
de dados contábeis. Como saldos contábeis normalmente sofrem atualizações, pois
podem existirlançamentos de valores errados, também é necessário corrigir esses
valores carregados para o DW.
A característica da não volatilidade pode ser aceita totalmente devido ao fato de o banco
de dados de um DW ser configurado fisicamente para otimização de inclusões e consultas
(analisaremos otimização física no Capítulo 8), ou seja, não deve ser um banco preparado
para atualizações. Desta forma, é melhor remover a carga errada e carregar os dados
novamente do que realizar updates (atualizações) na base do DW.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse18
Data Marts
O Data Mart é geralmente descrito como um subconjunto dos dados contidos em um
Data Warehouse extraído para um ambiente separado. Data Marts são muito úteis nas
seguintes condições:
■ Os dados devem estar segregados para melhorar o desempenho do sistema do ponto
de vista do usuário.
■ Deve existir uma cópia dos dados onde só pessoas com autorização devem ter o
privilégio de acessá-las.
■ Em um ambiente corporativo, é importante fortalecer o conceito de propriedade
dentro do banco de dados. Diferentes setores serão responsáveis por diferentes Data
Marts. Segundo Kimball, especialista no assunto:
“Um Data Mart, também conhecido como Warehouse Departamental, é uma abordagem
descentralizada do conceito de Data Warehouse (Kimball et al., 1998)”.
Esses ambientes fisicamente distintos trazem benefícios, mas existe um preço a se pagar.
Com a presença de muitos Data Marts pode haver o risco de redundância. A construção
de Data Marts deve ter sempre a preocupação de compartilhamento de dados, tabelas e
relatórios em comum entre os departamentos. A dificuldade de evitar a redundância de
dados pode ir contra o paradigma de um Data Warehouse já que a separação física em
diferentes grupos diminui essa habilidade de organização. Fica clara a necessidade de
preservação da consistência das informações presentes nos Data Marts através da
eliminação de redundâncias, pois relatórios em comum não podem possuir valores
diferentes. Isto é uma característica da maioria dos Sistemas Transacionais das corporações
e deve ser eliminada com a presença de um DW.
Arquitetura Básica de um Data Warehouse
Descreveremos resumidamente o funcionamento de uma arquitetura padrão de Data
Warehouse (Figura 2.3).
Os dados vêm dos diversos Sistemas Transacionais e geralmente são tratados por uma
ferramenta ETL2 . Ferramentas ETL são responsáveis pela extração, transformação e
2
 Extraction, Transformation and Load, ou extração, transformação e carga.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
19Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse
carregamento dos dados no DW. Num projeto de construção de um Data Warehouse, os
processos ETL consomem mais de 70% do tempo de desenvolvimento. Todo este processo
normalmente é desenvolvido especificamente para cada empresa, devido à diversidade
existente em termos de estruturas de dados nos sistemas fontes transacionais e também à
falta de conhecimento e documentação dos mesmos.
Figura 2.3: Arquitetura básica de DW.
O fluxo de dados começa nas aplicações fontes, e passa por uma área intermediária
de armazenamento chamada de Staging Área (Área de Estágio). Na Staging Área os
dados sofrem integração, limpeza e depois são exportados para o DW. A integração
consiste na consolidação dos dados de diversas origens, o que geralmente envolve
diferentes codificações. Os dados devem ser perfeitamente integrados para que ao
serem armazenados assumam uma única convenção (ver seção Integrado neste
capítulo). A limpeza é a rejeição de valores inválidos, chaves repetidas ou registros
com outros tipos de erro. Estas ações constituem a tarefa mais crítica na geração de
um Data Warehouse (descreveremos em detalhes a implementação de um processo
ETL no Capítulo 6).
Segundo Kimball, além da Staging Área, o ideal é que exista uma segunda área intermediária
antes da carga definitiva para o DW. Esta segunda área, chamada de ODS (Operational
Data Store), deve ser uma base de dados com utilização previsível, parcialmente estruturada
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse20
e analítica cujo histórico é de apenas 30 ou 60 dias e cujas informações estão organizadas
por área de negócio (Figura 2.4). É um retrato da base obtida da extração, transformação e
limpeza de dados dos sistemas fontes operacionais da empresa e no início de sua concepção
era visto como sendo um tipo de DW (Kimbal et al., 1998).
Na realidade, no ODS, os dados são mantidos como no ambiente operacional, ou seja, não
estão modelados ainda para consultas gerenciais, porém podem ser úteis para recuperção
de cargas de dados problemáticas. Com um ODS, não é necessário refazer toda a extração
para corrigir eventuais problemas na transferência dos dados para o DW. Muitos projetos
de DW possuem ODS e utilizam esta área para fazer validação de regras de negócio, ou
seja, na Staging Área a limpeza se resume em verificar chaves repetidas e problemas de
integridade referencial; verificações de regra de negócio são feitas no ODS.
Por economia de espaço de armazenamento em disco muitos DWs são implementados
sem ODS. Não há implicações graves nisto, pois cargas problemáticas podem ser refeitas.
A única implicação será um maior tempo para correção de cargas erradas.
Figura 2.4: Arquitetura de DW segundo Kimball.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
21Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse
Somente após a integração e limpeza os dados são exportados para o DW. Depois os
dados são transmitidos para Data Marts (Figura 2.5) ou, numa abordagem centralizada,
são consultados diretamente pelos usuários através de uma Ferramenta de Apoio à
Decisão, por exemplo.
Figura 2.5: DW e Data Marts.
Data Warehouse X Enterprise
Resource Planning (ERP)
Antes da implantação de DWs as empresas já buscavam a integração dos dados acessados
por seus sistemas e agilização dos seus processos. Foram criados softwares multi-
modulares para auxiliar gestores em todas as fases do negócio.
Sistemas capazes de facilitar o fluxo de informações entre todas as atividades de uma
empresa, como fabricação, logística, finanças e recursos humanos, são chamados de
ERP (Enterprise Resource Planning ou Sistemas de Gestão Empresarial). Um ERP é,
geralmente, composto por um banco de dados único, operando em uma plataforma comum
que interage com um conjunto de aplicações.
Um banco de dados ERP pode ser confundido com um DW, porém existem diferenças
básicas. Apesar de fornecerem uma estrutura integrada, sem redundância de
informações, Sistemas de Gestão Empresarial (ERP) utilizam o mesmo banco de dados
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse22
para armazenamento de dados operacionais e para armazenamento de dados históricos
utilizados como fonte de informações gerenciais. Nos deparamos, mais uma vez, com
o problema da concorrência. Consultas gerenciais são feitas no mesmo ambiente
operacional e provavelmente serão mais lentas do que consultas feitas em um DW
separado. Além disso, os dados também não estão modelados para um maior
desempenho destes tipos de consulta.
Na nossa opinião, um ERP é uma excelente solução para gestão das empresas, desde que
seja escalável, ou seja, que se integre facilmente com outros aplicativos e possa ser
estendido facilmente à medida que a corporação cresce e necessita da automatização de
outras funcionalidades.
Sistemas ERP fornecem excelentes relatórios gerenciais; todavia,não podemos descartar
a presença de um DW. Por possuir uma base de dados integrada, um ERP pode ser a fonte
ideal para um DW projetado para fornecer informações gerenciais com agilidade e sem
concorrência com o ambiente operacional.
Resumo
Mesmo com a tendência natural de crescimento da integração entre aplicações operacionais,
decisões de nível estratégico e tático exigem um conteúdo mais rico do que aquele encontrado
no ambiente operacional, o qual apresenta inúmeros obstáculos para o processamento
analítico. As empresas precisam de um ambiente exclusivo que armazene adequadamente
os dados extraídos das diversas bases, disponibilizando as informações a qualquer instante.
O banco de dados deste ambiente, que surgiu como solução para prover informações
gerenciais para a tomada de decisões, foi denominado de Data Warehouse.
Um DW é um banco de dados histórico, separado lógica e fisicamente do ambiente de
produção da organização, concebido para armazenar dados extraídos deste ambiente.
Antes de serem armazenados no DW, os dados são selecionados, integrados e organizados
para que possam ser acessados da forma mais eficiente, auxiliando assim o processo de
tomada de decisão.
A dificuldade de implementação de um DW completo imediatamente fez surgir o conceito
de Data Mart, ou Warehouse Departamental. Um Data Mart é um subconjunto lógico de
um DW, um DW setorial.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
23Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse
Para serem carregados em um DW os dados devem passar por processos ETL. Estes
processos consomem mais de 70% do tempo de desenvolvimento do projeto de um DW
e são responsáveis pela extração, integração, limpeza e posterior carga dos dados para o
DW. A integração consiste na consolidação dos dados de diversas origens, o que geralmente
envolve diferentes codificações. Os dados devem ser perfeitamente integrados para que
ao serem armazenados assumam uma única convenção. A limpeza é a rejeição de valores
inválidos, chaves repetidas ou registros com outros tipos de erro. Estas ações constituem
a tarefa mais crítica na geração de um Data Warehouse.
Sistemas ERP podem ser excelentes fontes de informações para um DW. Isto é possível
pelo fato de um banco de dados único interagir com todos os aplicativos deste tipo de
sistema. Desta forma, elimina-se a redundância de informações e redigitação de dados, o
que assegura a integridade das informações obtidas.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
25Capítulo 3: Ferramentas de Apoio à Decisão
3
C A P Í T U L O
Ferramentas de Apoio à Decisão
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse26
As Ferramentas de Apoio à Decisão estão relacionadas com o conceito de BI (Business
Intelligence, ou Inteligência Aplicada aos Negócios). Podemos dizer que BI é um conjunto
de tecnologias que permitem o cruzamento de informações e suportam a análise dos
indicadores de desempenho de um negócio. Portanto, as ferramentas de apoio à decisão
que fazem inferências em um banco de dados histórico, um DW por exemplo, são também
chamadas de ferramentas de BI.
Neste capítulo, analisaremos dois tipos de Ferramentas de Apoio à Decisão. Pela maior
popularidade do uso, destacaremos as ferramentas OLAP e introduziremos o conceito
de CRM. Ressaltamos que trataremos de ferramentas de Data Mining para apoio à decisão
em um capítulo especial, o Capítulo 9.
Ferramentas OLAP
Uma das tarefas mais solicitadas ao pessoal de TI (tecnologia da informação) nas
organizações é a produção de consultas que descrevam de forma clara e concisa
informações sobre os negócios da empresa. Essas consultas ou relatórios apresentam-se
desde simples listagens de funcionários ou produtos a complexos mapas de demonstração
de crescimento financeiro. Independente de seu objetivo final, a verdade é que, nem
sempre, é possível prever durante o projeto ou compra de sistemas quais informações
necessitarão ser extraídas. Essa incapacidade de previsão, algo perfeitamente aceitável
quando o assunto refere-se a negócios, faz surgir a necessidade de mecanismos auxiliares,
adjacentes aos sistemas utilizados, para a geração de novos relatórios.
A primeira solução da indústria de software para atender a essa demanda foi o desenvolvimento
de ferramentas de geração de relatórios. Porém, a partir do momento em que a informação
passou a ser o bem mais valioso para as organizações e com o surgimento de toda a infra-
estrutura dos Data Warehouses, surgiu a necessidade da criação de ferramentas com uma
capacidade de análise maior do que a dos geradores de relatórios tradicionais. Ou seja, embora
a infra-estrutura necessária para armazenar milhares de informações estivesse pronta, um
novo problema tornar-se-ia o mais novo pesadelo para o pessoal de TI. Como apresentar
essas informações? Como fornecer a capacidade de análise para essas informações?
As informações contidas em um Data Warehouse possuem características específicas
que as distinguem das informações existentes em projetos de bancos de dados
Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos.
27Capítulo 3: Ferramentas de Apoio à Decisão
convencionais. Grandes volumes de dados, dados históricos e bases não normalizadas
são algumas das peculiaridades que impedem a utilização das ferramentas convencionais
para geração de relatórios. Ao deparar-se com esse quadro, a indústria de software, aliada
a pesquisadores da área, também passou a investir na concepção de um paradigma de
ferramenta que pudesse atender a essa demanda. Desse trabalho, surgiu o que chamamos
de tecnologia OLAP (Analytic Processing On-Line ou processamento analítico on-line)
que caracteriza o conjunto de técnicas utilizadas para tratar informações contidas em um
Data Warehouse. O termo foi criado em 1993, pelo Dr. E.F. (Ted) Codd, em um ensaio
intitulado Providing OLAP to User-Analysts: An IT Mandate. Pouco tempo depois da
publicação desse ensaio, a palavra OLAP transformou-se em uma buzzword no cenário
de bancos de dados, e todo profissional de sistemas esforçava-se para compreendê-la, e
como ela se encaixava no paradigma de aplicações de suporte à decisão.
No entanto, OLAP, conforme definida pelo Dr. Codd, não é uma nova tecnologia e
alguns produtos já existiam há tempos no mercado. Por força deste mesmo mercado,
as ferramentas que apresentavam características OLAP passaram a ser referenciadas
como ferramentas OLAP.
Atualmente, as linguagens de programação e as principais empresas de Sistemas Gerenciadores
de Banco de Dados oferecem APIs3 e componentes como soluções prontas para a criação de
aplicações de Business Inlelligence (termo utilizado atualmente para definir aplicações voltadas
à alavancagem dos negócios), passando a falsa impressão da simplicidade por trás de uma
ferramenta verdadeiramente OLAP. Essa tendência tem encorajado gerentes de projeto a
embarcarem em uma viagem sem fim: o desenvolvimento de uma ferramenta OLAP. Essa
escolha vai de encontro ao grande conselho dado pelos mais experientes consultores na área:
“Don´t Build, Buy It” . Ou seja, o investimento e o tempo despendido na construção de uma
solução caseira não traz resultados aparentes e, em sua maioria, resulta em projetos fracassados
ou produtos com carência interminável de manutenção.
O ideal é adquirir uma ferramenta OLAP com as características e particularidades que
analisaremos adiante. É importante conhecer o que uma verdadeira ferramenta OLAP
deve prover aos seus usuários.
3
Application Program Interface – Um conjunto de funções predefinidas, documentadas e disponibilizadas

Continue navegando