Baixe o app para aproveitar ainda mais
Prévia do material em texto
P R O JETAN D O S IS TEM AS D E AP O IO À D EC IS ÃO B AS EAD O S EM D ATA W AR EH O U S E PROJETANDO SISTEMAS DE APOIO À DECISÃO BASEADOS EM DATA WAREHOUSE Methanias Colaço Júnior M etha nia s C ola ço Júnior Fruto da experiência de vários profissionais especialistas nas áreas de Banco de Dados, Business Intelligence, Marketing, Data Warehouse (DW) e Data Mining, este livro traduz as potencialidades de um DW como a base para sistemas de suporte à decisão. Através de uma linguagem simples e com foco em aspectos essen- ciais, o leitor adquire um conhecimento sólido sobre Sistemas de Apoio à Decisão (SADs) e passa a conhecer as características fundamentais de todas as ferramentas envolvidas neste processo. São abordados conceitos sobre ferramentas de Business Intelligence tais como as ferramentas OLAP, EIS, ERP, CRM, Database Marketing e Data Mining. Além de preparar conceitualmente o leitor, é apresentada uma metodologia de desenvolvimento e documentação de um projeto de ambiente de suporte à decisão. Muitos dos exemplos apresentados não se prendem aos con- ceitos básicos, mas agregam conhecimento e criatividade por parte do seu autor e colaboradores, inclusive esten- dendo a UML para documentação de um DW. Há um cuidado especial para não apresentar um Data Warehouse como a resolução de todos os problemas, mas sim apresentar soluções que podem ser utilizadas por gerentes de um projeto como este. Gerência de metadados e projeto físico de banco de dados também são abordados e todos os capítulos do livro são finalizados com um resumo, para fixação e simples revisão do que foi abordado. O livro beneficia profissionais e estudantes de Informática em matérias como Banco de Dados e Tópicos Espe- ciais, e é direcionado para estudantes e profissionais de Administração, Marketing, Publicidade, Contabilidade e Economia, envolvidos profissionalmente com a área gerencial ou academicamente com disciplinas como Tecno- logia da Informação, Sistemas de Informação, Contabilidade Gerencial, CRM, entre outras. Os profissionais de Marketing também poderão encontrar neste livro a base para a implantação de aplicações de Database Marketing. Methanias Colaço Júnior é M.Sc. em Informática pela Universidade Federal de Campina Grande (UFCG) na área de Sistemas de Informação e Banco de Dados. Especialista em Ciência da Computação e Tecnologia da Informação, é membro da equipe de Sistemas de Apoio à Decisão do Banco do Estado de Sergipe e professor da Universidade Tiradentes e da Faculdade Sergipana (UNIP). Atua como consultor de empresas na área de DW, prestando serviços à Secretaria Municipal de Finanças de Aracaju, Secretaria de Estado da Fazenda de Sergipe e Companhia Alagoana de Refrigerantes (Coca-Cola/SE). Ministra treinamentos e presta consultoria em Engenharia de Software, Banco de Dados, Oracle e ferramentas de BI. André Vinícius Nascimento é graduado em Ciência da Computação pela Univer- sidade Federal de Sergipe e M.Sc. em Informática pela UFCG na área de Sistemas de Informação e Banco de Dados. É membro da equipe de Sistemas de Apoio à Decisão do Banco do Estado de Sergipe e professor da Universidade Federal de Sergipe, além de ministrar aulas em curso de pós-graduação em Administração de Banco de Dados. Maria de Fátima Almeida é graduada em Ciência da Computação pela Universi- dade Federal de Sergipe e M.Sc. em Informática pela UFCG na área de Sistemas de Informação e Banco de Dados. Membro da equipe de Sistemas de Apoio à Decisão do Banco do Estado de Sergipe e professora de curso de pós-graduação em Admi- nistração de Banco de Dados e da Universidade Tiradentes. PROJETANDO SISTEMAS DE APOIO À DECISÃO BASEADOS EM DATA WAREHOUSE w w w .a xc el .c om .b r 297 Pirataria é crime contra os direitos autorais, com penas para os infratores de acordo com a Lei 9.610 de 19 de fevereiro de 1998. Este e-book não pode ser vendido e/ou distribuído em CD-ROM, DVD-ROM ou por programas de compartilhamento P2P. A forma correta de obter este arquivo é adquirindo-o através dos sites da Editora Axcel (www.axcel.com.br) e de Júlio Battisti (www.juliobattisti.com.br). Se você adquiriu este documento através dos meios legais descritos acima, não distribua ou venda este produto. Você estará cometendo um crime contra o autor da obra. Se você adquiriu este e-book por intermédio de terceiros, regularize sua situação entrando em contato pelo e-mail editora@axcel.com.br, para que não seja alvo das penalizações previstas em Lei. Usar cópia ilegal também é crime de violação dos direitos autorais. REPRODUÇÃO PROIBIDA PELA LEI DO DIREITO AUTORAL. Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseII Copyright © 2004 by Methanias Colaço Júnior Copyright © 2004 by Axcel Books do Brasil Editora Ltda. Nenhuma parte desta publicação poderá ser reproduzida sem autorização prévia e escrita de Axcel Books do Brasil Editora. Editora de Produção: Gisella Narcisi Editor Responsável: Ricardo Reinprecht Projeto Gráfico: Axcel Books Equipe Axcel: Alberto Baptista Garcia, Carlos Alberto Sá Ferreira, Fagner Silva Henrique e Ingo Bertelli Axcel Books do Brasil Editora Av. Paris, 571 – Bonsucesso 21041-020 – Rio de Janeiro – RJ Tel.: (21) 2564-0085 – Fax: (21) 2564-1607 E-mail: editora@axcel.com.br Web Site: http://www.axcel.com.br Projetando Sistemas de Apoio a Decisão Baseados em Data Warehouse Methanias Colaço Júnior ISBN: 85-7323-208-0 Os originais de livros enviados para avaliação pela Editora serão destruídos, quando não aprovados. Não será feita sua devolução em nenhuma hipótese. Os conceitos emitidos nesta obra são de inteira responsabilidade do Autor. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. IIISumário “A chave para ter sucesso nos negócios é ter informações que ninguém mais tem. ” Aristóteles Onassis Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseIV Agradecimentos Em primeiro lugar agradeço a Deus, pelas constantes bênçãos derramadas. Na nossa vida, devemos fazer tudo na dependência Dele. Agradecimentos a todos da minha família e em especial: ao meu pai Methanias e à minha mãe Valdice, responsáveis diretos pela minha formação; à minha irmã Mahely e ao meu cunhado Marco pelo incentivo; e aos meus primos queridos Gardênia, Tici, Sá, Edmilson Júnior, Alexsandro e Jonatas, pela admiração. Agradeço, com o coração cheio de orgulho e felicidade, aos meus melhores ex-alunos de Banco de Dados, e agora meus colegas e professores, André Vinícius Nascimento e Maria de Fátima Almeida. Colaboradores diretos e indispensáveis deste livro, eles são um exemplo de amor, profissionalismo e dedicação à árdua tarefa de dominar conhecimentos da área de Informática. À Gerente de Marketing Érika Celestino pela contribuição quanto à aplicação prática de marketing nas organizações. Ao Designer Jonatas Lemos Rodrigues pela arte final das ilustrações. Aos meus queridos alunos e ex-alunos, maiores motivos da escrita deste livro. Aos professores Asterio Tanaka, Eduardo Bernardes e Marcus Sampaio pela experiência transmitida e pela confiança em mim depositada. Aos irmãos em Cristo, que sempre oram pela minha vida. A todos os amigos e profissionais que contribuíram para realização desta obra. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. VSumárioPrefácio Sobre o Autor Methanias Colaço Júnior é M.Sc. em Informática pela Universidade Federal de Campina Grande (UFCG) na área de Sistemas de Informação e Banco de Dados. Especialista em Ciência da Computação e Tecnologia da Informação, é membro da equipe de Sistemas de Apoio à Decisão do Banco do Estado de Sergipe e professor da Universidade Tiradentes e da Faculdade Sergipana (UNIP). Atua como consultor de empresas na área de DW, prestando serviços à Secretaria Municipalde Finanças de Aracaju, Secretaria de Estado da Fazenda de Sergipe e Companhia Alagoana de Refrigerantes (Coca-Cola/SE). Ministra treinamentos e presta consultoria em Engenharia de Software, Banco de Dados, Oracle e ferramentas de BI. Colaboradores André Vinícius Nascimento é graduado em Ciência da Computação pela Universidade Federal de Sergipe e M.Sc. em Informática pela UFCG na área de Sistemas de Informação e Banco de Dados. É membro da equipe de Sistemas de Apoio à Decisão do Banco do Estado de Sergipe e professor da Universidade Federal de Sergipe, além de ministrar aulas em curso de pós-graduação em Administração de Banco de Dados. Maria de Fátima Almeida é graduada em Ciência da Computação pela Universidade Federal de Sergipe e M.Sc. em Informática pela UFCG na área de Sistemas de Informação e Banco de Dados. Membro da equipe de Sistemas de Apoio à Decisão do Banco do Estado de Sergipe e professora de curso de pós-graduação em Administração de Banco de Dados e da Universidade Tiradentes. Colaboraram em três capítulos deste livro. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseVI Apresentação A globalização da economia, a mutação dos mercados e o acirramento da concorrência tornaram a informação o bem mais valioso para as organizações, e estas passaram a tratar seus dados não mais como meros resultados de transações, mas como propulsores para atingir melhores resultados. A partir dos anos 90, o termo Data Warehouse (DW) passou a ser crucial quando o tema era análise de negócios, crescimento e capacidade de prever novas oportunidades. As informações contidas em um Data Warehouse possuem características específicas que as distinguem das informações existentes em projetos de bancos de dados convencionais. Grandes volumes de dados, dados históricos e bases não normalizadas são algumas das peculiaridades que impedem a utilização das metodologias tradicionais de análise de sistemas. Ao deparar-se com esse quadro, a indústria de software, aliada a pesquisadores da área, passou a investir na concepção de um paradigma que pudesse atender a essa demanda. Desse trabalho, surgiram livros e artigos que sempre tentaram mostrar o “caminho das pedras” para a concepção de um ambiente de Data Warehousing bem-sucedido. Infelizmente, a realidade mostra que muitos projetos de Data Warehouse fracassaram completamente ou causaram frustração nas expectativas de seus usuários (administradores, contadores gerenciais, economistas, executivos, diretores, etc.) devido à falta de conhecimento das pessoas envolvidas e principalmente à falta de uma literatura clara e concisa, baseada em experiência acadêmica e prática, do caminho a ser seguido para o sucesso de um projeto como esse. Ao implantar um DW, os administradores esperam alcançar benefícios, tais como: ■ Recursos para acessar de modo rápido e flexível as informações do negócio. ■ Disponibilidade de mecanismos que incorporam a inteligência do negócio e permitem efetuar o acompanhamento do desempenho e identificar as exceções no padrão de comportamento esperado. ■ Facilidades para a definição de estratégias microssegmentadas, a partir do conhecimento relacionado com o comportamento dos clientes. ■ Criação de conhecimento com base na análise de diversos cenários e identificação de padrões de comportamento ou preferências/hábitos de consumo. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. VIISumário ■ Redução de riscos associados ao negócio, através das facilidades de análise de risco e avaliação de alternativas. ■ Rapidez na percepção de probabilidade de ocorrência de inadimplência e de riscos associados à composição do negócio, aliada à possibilidade de adoção de novas táticas para a correção de desvios. ■ Implementação de um efetivo “marketing de relacionamento”, permitindo a definição de estratégias com foco nos clientes e atendimento das suas expectativas, visando à elevação da taxa de retenção dos mesmos. Esse livro, fruto da experiência de vários profissionais especialistas nas áreas de Banco de Dados, Marketing, Data Warehouse e Data Mining, traduz as potencialidades de um Data Warehouse como a base para Sistemas de Suporte à Decisão. Através de uma linguagem simples e com foco em aspectos essenciais, o leitor adquire um conhecimento sólido sobre Sistemas de Apoio à Decisão e passa a conhecer as características fundamentais de todas as ferramentas envolvidas neste processo. São abordados conceitos sobre ferramentas de apoio à decisão tais como as ferramentas OLAP, EIS, ERP, CRM, Database Marketing e Data Mining. Além de preparar conceitualmente o leitor, apresentamos uma metodologia de desenvolvimento e documentação de um projeto de ambiente de suporte à decisão. Muitos dos exemplos apresentados não se prendem aos conceitos básicos, mas agregam conhecimento e criatividade por parte do seu autor e colaboradores, inclusive estendendo a UML para documentação de um DW. Tivemos um cuidado especial para não apresentar um Data Warehouse como a resolução de todos os problemas, mas sim apresentar soluções que podem ser utilizadas por gerentes de um projeto como este. A maioria dos exemplos do livro baseia-se em uma rede nacional de restaurantes fictícia e todos os capítulos do livro são finalizados com um resumo para fixação e simples revisão do que foi abordado. O primeiro capítulo do livro introduz o leitor no domínio dos Sistemas de Informação relacionados com o Apoio à Decisão. Especificamos todas as soluções criadas para geração de informações gerenciais, bem como suas nomenclaturas específicas que hoje perfazem o jargão dos sistemas que servem à alta gerência. No Capítulo 2, apresentamos o conceito de Data Warehouse (DW) e o encaixamos no do contexto dos ambientes de suporte à decisão modernos. O leitor poderá caracterizar e diferenciar um DW dos bancos de dados convencionais. Apresentação Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseVIII O Capítulo 3 descreve as principais ferramentas de apoio à decisão (ou ferramentas de Business Intelligence (BI)) utilizadas no mercado. Elucidamos as características fundamentais de uma ferramenta OLAP e preparamos o leitor para avaliar ferramentas de apoio à decisão, averiguando exigências da área de negócios para este tipo de ferramenta. Além das ferramentas OLAP, pela importância mercadológica, conceituamos CRM e Da- tabase Marketing, relacionando-os com um projeto de DW. Discutimos aspectos importantes para a construção de um DW que apoiará uma política de relacionamento com clientes. No Capítulo 4, enfatizamos o esquema de dados utilizado em Data Warehouses relacionais. Procuramos dirimir as principais dúvidas de projeto surgidas na construção de esquemas-estrela. O Capítulo 5 discute e apresenta conclusões de todo o contexto que envolve uma arquitetura para gerência e armazenamento de metadados. Analisamos os requisitos de uma boa arquitetura, o processo de concepção de um repositório de metadados e sugerimos o armazenamento de alguns atributos e entidades indispensáveis à sobrevivência de um projeto de DW. Os Capítulos 6 e 7 são a espinha dorsal do livro. No Capítulo 6, apresentamos uma metodologia clara de desenvolvimento de um DW e, no Capítulo 7, uma extensão UML para documentar todas as etapas do processo. O Capítulo 8 provê o embasamento teórico necessário para a elaboração de um projeto físico de dados para Data Warehouse; e serve de base para a escolha de um SGBD que apresente características que dêem suporte à criação e evolução de um banco de dados voltado para suporte à decisão. Por fim, no Capítulo 9, são apresentados conceitos de Data Mining e sua importância como auxílio para a tomada de decisão. O Processode Descoberta de Conhecimento é abordado em detalhes, seguido de uma discussão sobre as principais técnicas de Mineração de Dados. O capítulo é finalizado com uma explicação detalhada de um algoritmo de geração de regras de associação, uma das mais importantes técnicas de Data Mining, e uma discussão sobre a importância de integrar as técnicas de mineração aos Sistemas Gerenciadores de Bancos de Dados. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. IXSumário Objetivos Com este livro, o leitor alcançará os seguintes objetivos: ■ Familiarizar-se com todos os conceitos, regras e expressões do domínio de Sistemas de Apoio à Decisão. ■ Entender o que é um Data Warehouse (DW) e sua relevância no atual mercado competitivo. ■ Aprender a iniciar e gerenciar um projeto de DW com sucesso, bem como documentar todas as etapas do processo (inclusive utilizando UML – Unified Modeling Language – ou linguagem de modelagem unificada). ■ Identificar os requisitos para gerência e armazenamento de metadados em um DW. ■ Conhecer as principais ferramentas de BI (Business Intelligence, ou Inteligência Aplicada aos Negócios). ■ Valorizar a importância de uma política de marketing e entender como conduzir um projeto de DW para beneficiar o marketing estratégico das organizações. ■ Dominar a configuração ideal de Sistemas Gerenciadores de Bancos de Dados utilizados em projetos de DW. ■ Compreender os benefícios e funcionamento de um processo de mineração de dados (Data Mining) em bancos de dados históricos. Público-Alvo Este livro interessa a qualquer pessoa envolvida na produção, implantação, manutenção, gerência e utilização (inclusive diretores e executivos) de Sistemas de Informações Gerenciais ou de Apoio à Decisão. Além de beneficiar profissionais e estudantes de Informática em matérias como Banco de Dados e Tópicos Especiais, o livro é direcionado para estudantes e profissionais de Administração, Publicidade, Contabilidade e Economia, envolvidos profissionalmente Apresentação Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseX com a área gerencial ou academicamente com disciplinas como Tecnologia da Informação, Sistemas de Informação, Contabilidade Gerencial e etc. Os profissionais de Marketing também poderão encontrar neste livro a base para a implantação de aplicações de Database Marketing. Como Usar Este Livro Para alunos e profissionais de informática, sugerimos uma leitura linear deste livro. Uma atenção especial deve ser dedicada aos Capítulos 4, 6, 7 e 8, que apresentam responsabilidades específicas destes profissionais em projetos de DW. Os demais acadêmicos e profissionais de outras áreas podem começar pela leitura dos Capítulos 1, 2, 3 e 9, enfatizando aspectos relacionados aos negócios. No Capítulo 9, por exemplo, é possível entender como funciona o processo de mineração de dados em dois níveis. Um nível para aqueles que desejam saber o que é e quais os benefícios da mineração para os negócios, e, para os interessados, um nível de conhecimento de como funcionam os processos de mineração. Os Capítulos 4, 5, 6 e 7 são importantíssimos para servirem de guia para administradores e diretores de áreas de sistemas de informação. Estes capítulos fornecem ao gestor um embasamento para o acompanhamento de projetos de DW, visando eliminar a frustração de expectativas. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. XISumário Sumário Capítulo 1: Introdução ....................................................................................................1 Evolução dos Sistemas de Informação ..........................................................................2 Sistemas de Informação Gerenciais ...............................................................................5 Sistemas de Informação Executivos ..............................................................................6 Sistemas de Apoio à Decisão ........................................................................................7 Resumo ......................................................................................................................10 Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse ....................13 Conceito de Data Warehouse .....................................................................................16 Características de um Data Warehouse .......................................................................16 Orientado por Temas ............................................................................................16 Integrado ..............................................................................................................16 Variante no Tempo ................................................................................................17 Não Volátil ............................................................................................................17 Data Marts .................................................................................................................18 Arquitetura Básica de um Data Warehouse .................................................................18 Data Warehouse X Enterprise Resource Planning (ERP) ...............................................21 Resumo ......................................................................................................................22 Capítulo 3: Ferramentas de Apoio à Decisão ................................................................25 Ferramentas OLAP ......................................................................................................26 OLAP X OLTP ........................................................................................................28 Características .......................................................................................................29 Conjunto de Operações OLAP ...............................................................................30 Ranging ................................................................................................................31 Drilling..................................................................................................................32 Drill Down ............................................................................................................32 Drill Across ............................................................................................................33 Drill Up .................................................................................................................34 Rotation ................................................................................................................34 Ranking ................................................................................................................34 OLAP Multidimensional (MOLAP) .........................................................................35 OLAP Relacional (ROLAP) ......................................................................................37 Tendências ............................................................................................................37 CRM ..........................................................................................................................38 Fidelização ............................................................................................................40 As Relações Virtuais Através da Internet .................................................................41 Database Marketing ..............................................................................................42 Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoioà Decisão Baseados em Data WarehouseXII Resumo ......................................................................................................................45 Capítulo 4: Modelagem de Dados Para Data Warehouses ...........................................47 Por que Não Usar o Modelo Entidade e Relacionamento Tradicional? .........................48 Star Schema (Esquema Estrela) ...................................................................................49 Tipos de Dimensão ...............................................................................................52 Dimensão Tipo 1 .............................................................................................52 Dimensão Tipo 2 .............................................................................................52 Dimensão Tipo 3 .............................................................................................53 Dimensões descaracterizadas ...........................................................................55 Chaves Artificiais ..............................................................................................56 Dimensão Tempo ..................................................................................................57 Hierarquias ............................................................................................................58 Agregados ............................................................................................................59 Tipos de indicadores para as tabelas de fatos ........................................................60 Um Estudo de Caso Para Definição dos Passos da Modelagem Dimensional ...............60 Dúvidas comuns de projetistas de DW .......................................................................62 Resumo ......................................................................................................................64 Capítulo 5: Gerência de Metadados em um Data Warehouse .....................................67 Metadados em um processo de Data Warehousing ....................................................68 Metadados Operacionais ............................................................................................71 Metadados de Negócio ..............................................................................................73 Uma Arquitetura Básica de Metadados .......................................................................74 Tipos de Arquitetura de Metadados ............................................................................75 Requisitos de uma Arquitetura de Metadados.............................................................77 Integração ............................................................................................................77 Extensibilidade ......................................................................................................77 Robustez ...............................................................................................................78 Abertura ...............................................................................................................78 Automatização e Reutilização de Processos ...........................................................78 Padronização do Processo de Integração ...............................................................79 Flexibilidade ..........................................................................................................80 Gerenciamento de Múltiplas Versões de Metadados ..............................................80 Facilidades de Atualização .....................................................................................81 Arquitetura Multicamadas .....................................................................................81 Gerenciamento de segurança ................................................................................81 Funcionalidade de um Repositório de Metadados ......................................................82 Provisão de Informação .........................................................................................82 Metamodelo .........................................................................................................83 Acesso ao Repositório............................................................................................83 Administração de Versão e Configuração ..............................................................83 Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. XIIISumário Análise de Impacto ...............................................................................................84 Notificação ...........................................................................................................84 Metadados Técnicos e Qualidade de Dados em Metadados .......................................84 Controle de Metadados em um Projeto Evolutivo de Construção de DW....................89 Padronização de Metadados ......................................................................................91 O Metamodelo CWM ...........................................................................................92 Resumo ......................................................................................................................94 Conclusões .................................................................................................................96 Capítulo 6: Uma Metodologia para Implementação de um Data Warehouse .............99 Diferenças entre a Análise Tradicional e a Análise de Sistemas de Apoio à Decisão ..............................................................102 Entrevistas ................................................................................................................104 Características a serem Analisadas no Ambiente de Informações Existente ...........105 Disponibilidade de Informações .....................................................................105 Acesso às informações disponíveis ..................................................................105 Acuracidade ...................................................................................................105 Modelos de Tabelas Geradas em Entrevistas com os Usuários e Analistas ............ 106 Técnicas ..............................................................................................................109 Equipe .....................................................................................................................110 Ambiente de Hardware e Software ...........................................................................113 Esquema de Carga ...................................................................................................116 Sistema de Carga ................................................................................................119 Pontos de Verificação para Garantia de Qualidade ....................................................121 Cronograma de Implementação ...............................................................................123 Resumo ....................................................................................................................125 Capítulo 7: Estendendo a UML Para Documentar um Data Warehouse ....................129 Projeto Arquitetural ..................................................................................................130 Documentação de Data Marts ..................................................................................132 Visão Estática ......................................................................................................132 Visão Dinâmica ...................................................................................................133 Transformação de atributos ............................................................................133 Transformação de atributosem mais de um atributo .....................................134 Tabela se transforma em outra sem alteração de atributos .............................134 Atributos novos nas tabelas ............................................................................135 Atributos que Deixam de ser Usados ..............................................................135 Chaves Artificias .............................................................................................135 Estereótipos Para Dimensão, Tabela de Fatos e Tabelas Auxiliares ...................136 Hierarquias, Agregados e Tipos de Indicadores ..............................................137 Documentação da Configuração Física e de Relatórios OLAP ....................................138 Resumo ....................................................................................................................139 Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data WarehouseXIV Capítulo 8: Otimização da Configuração Física de um Banco de Dados Para Data Warehouse ................................................................141 Bloco de Dados ........................................................................................................143 Tamanho de Bloco de Dados ..............................................................................145 Tamanho da Área Livre........................................................................................146 Separação Física de Tipos de Dados..........................................................................146 Particionamento .......................................................................................................148 Visões Particionadas ............................................................................................149 Tabelas e Índices Particionados............................................................................149 Vantagens do Particionamento............................................................................149 Índices .....................................................................................................................150 Índices de Árvore B .............................................................................................150 Índices de Bitmap ...............................................................................................151 Carregamento de Dados Para o Data Warehouse .....................................................153 Resumo ....................................................................................................................154 Capítulo 9: Data Mining e a Descoberta de Informações Para Alavancagem do Negócio ...................................................................................157 Mineração de Dados: alguns conceitos .....................................................................158 O Processo de Descoberta do Conhecimento ...........................................................161 Preparação dos Dados ...................................................................................162 Data Mining e Customer Relationship Management (CRM) .....................................163 Como o Data Mining Ajuda o Database Marketing ..................................................163 Principais Técnicas de Mineração de Dados ..............................................................165 Classificação........................................................................................................165 Regras de Associação ..........................................................................................167 Geração de Regras de Associação: o algoritmo Apriori ..............................................171 Geração dos Conjuntos ..................................................................................172 Fase de Poda .......................................................................................................173 Contagem de Suporte .........................................................................................174 Geração de Regras ..............................................................................................175 O Algoritmo Apriori Quantitativo: uma nova abordagem ....................................176 Integração de Mineração de Dados e SGBD´s ...........................................................177 Abordagens de Integração ..................................................................................178 Categoria Convencional – Fracamente Acoplada ............................................178 Categoria – Fortemente Acoplada ..................................................................180 Categoria Caixa Preta ....................................................................................180 Resumo ....................................................................................................................181 Bibliografia ..................................................................................................................183 Glossário ......................................................................................................................191 Índice Remissivo ..........................................................................................................193 Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 1Capítulo 1: Introdução 1 C A P Í T U L O I n t r o d u ç ã o Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse2 Evolução dos Sistemas de Informação O cenário de competição no mundo dos negócios tem assistido a profundas mudanças nos últimos anos. As empresas estão sendo impulsionadas a rápidas e contínuas adaptações para sobreviverem e crescerem no mercado. É necessário conquistar novos clientes, manter os já existentes, ampliar o ramo de negócios com qualidade e inová-lo conforme as tendências mercadológicas. Produtos devem ser concebidos com alta economicidade e com seus empreendedores aplicando um excelente grau de efetividade. Para levar as corporações a um lugar de destaque, os administradores precisam ter a capacidade de analisar os dados disponíveis e tomar decisões rápidas e seguras. Diante desta necessidade crescente, os sistemas de informação (SI) têm evoluído nas últimas décadas e buscado alternativas para o fornecimento otimizado de informações para apoio à decisão. Os dados estão sendo utilizados como verdadeiros recursos empresariais, porém não foi sempre assim. Para chegar ao estado atual, os sistemas de informação passaram por longos anos de aperfeiçoamento, que culminaram com a visão de executivos modernos e visionários da informática como uma forma imbatível de alavancagem de negócios. Resumiremos adiante como se deu esta evolução. Nos anos 60 os sistemas eram criados como verdadeiras ilhas de informação. As aplicações mantinham seus dados independentes e isolados das outras. Os dados comuns entre aplicações eram redundantes e, na maioria das vezes, inconsistentes. Um cadastro de funcionários, por exemplo, repetia-se no sistema de recursos humanos e no sistema de empréstimos de ferramentas em uma indústria. Assim, se fosse necessária a criação de uma nova aplicação que utilizasse informações de funcionários, um arquivo era gerado especificamente para esta finalidade. Se os dados nele contidos fossem necessários a outros fins, criava-se um novo arquivo, onde, mais uma vez, repetiam-se os dados em comum. Os dados se voltavam para o fornecimento de resultados específicos, relativos a problemas específicos, gerados por dados também específicos. Não existiam métodos de gerenciamento de dados como um recurso e nem para o recolhimento dos benefícios resultantes. Foi em 1970que aconteceu o advento do armazenamento em disco. Diferente do armazenamento em fita magnética, os dados poderiam ser acessados diretamente e o tempo de processamento era bem menor. Nesta época, surgiu o termo OLTP1 – Processamento de 1 On Line Transaction Processing. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 3Capítulo 1: Introdução Transações On Line – para definir o processamento efetuado pelos sistemas de informação transacionais ou operacionais. Estes sistemas de informação são também identificados pela expressão Eletronic Data Processing (EDP), e são necessários para o controle operacional das organizações. Sistemas OLTP fornecem agilidade, segurança e eficiência na inserção dos dados em bancos de dados, porém a maioria deles falha no fornecimento de análises significativas e levam muito tempo na recuperação de dados gerenciais. Os Problemas da Redundância... Muitas empresas tiveram prejuízos sérios devido à presença de redundância de dados e conseqüente inconsistência dos mesmos. Podemos citar o exemplo do funcionário de uma indústria demitido. Na maioria das vezes, seu cadastro era excluído apenas do sistema de recursos humanos e, por uma falta de integração de sistemas, erroneamente mantido no sistema de empréstimos de ferramentas. Nada impedia que a insatisfação com a demissão levasse a pessoa a visitar a oficina, retirar as ferramentas mais caras e nunca mais voltar com as mesmas. A redundância pode transformar uma coisa simples em um verdadeiro caos para a organização. Paralelamente ao advento do OLTP, surgiram os Sistemas de Gerenciamento de Bancos de Dados (SGBD). Os SGBDs foram softwares criados para fornecer acesso às informações e à atualização das mesmas, garantindo a segurança e a integridade de um banco de dados. O surgimento dos Sistemas de Gerenciamento de Banco de Dados tinha como objetivos: potencializar o gerenciamento dos dados como recursos e eliminar as redundâncias de informações existentes nos sistemas desenvolvidos anteriormente (Figura 1.1). Podemos afirmar que nenhum dos objetivos foi atingido totalmente, pois, mesmo usando softwares gerenciadores de banco de dados, as empresas continuaram criando sistemas isolados em termos de compartilhamento de dados comuns (Figura 1.2). Além disso, os profissionais de informática da época, apesar de serem pessoas competentes, desenvolviam sistemas sem nenhuma visão metodológica e com uma preocupação extrema na estruturação e reestruturação do hardware das organizações. Até as mudanças mais recentes, a engenharia de software era empírica e foram produzidos softwares sob demanda, sem nenhuma preocupação com a geração futura de informações integradas e estratégicas. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse4 Figura 1.1: Arquitetura Simples de um SGBD. Concluímos então que faltaram dois requisitos essenciais da engenharia de software moderna: administração de dados e uma metodologia de desenvolvimento. Nosso livro não pretende discutir problemas de metodologia, nem tampouco a crise do software, mas fica claro que, sem administração de dados, os sistemas podem continuar sendo desenvolvidos sem a consciência da importância da integração para a produção de informações gerenciais. Exemplificando, uma simples tabela de feriados pode ser repetida em diversos sistemas, causando problemas de atualização e inconsistência. Imaginemos cálculos de juros semelhantes, sendo feitos com base em tabelas de feriados diferentes ou desatualizadas. Executivos sempre sofreram ao solicitarem relatórios gerenciais de sistemas distintos e encontrarem resultados diferentes sobre assuntos comuns. Dos anos 80 até os dias atuais, soluções foram criadas para resolver os problemas decorrentes da falta de administração de dados e para produzir informações gerenciais com uma única versão da verdade. Analisaremos estas soluções a seguir. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 5Capítulo 1: Introdução Figura 1.2: “Teia” causada pela falta de integração. Sistemas de Informação Gerenciais Depois da implantação de diversos sistemas de informação transacionais, as empresas tendem naturalmente a desenvolver sistemas que forneçam informações integradas e sumarizadas. Estas informações podem ser oriundas dos diversos sistemas transacionais existentes, bem como podem ser extraídas de um único sistema transacional, limitadas ao escopo do mesmo. Atualmente, engenheiros de software competentes sempre incorporam funcionalidades gerenciais em seus sistemas. Informações gerenciais têm a capacidade de prover insumo para análise, planejamento e suporte à decisão, além de possibilitarem, ao nível tático da organização, a visualização do desempenho de um departamento e até mesmo de toda a corporação. Sistemas que possuem essas informações são geralmente chamados de Management Information Systems (MIS) ou Sistemas de Informação Gerenciais (SIG). Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse6 Os SIGs começam a surgir quando os gerentes sentem a necessidade de informações rápidas, em quantidade, com qualidade e, principalmente, integradas. É o conhecido estágio de controle e integração de uma corporação. Nesta fase, os diretores e gerentes costumam alavancar o desenvolvimento de sistemas com características gerenciais. Um Sistema de Informação Gerencial verdadeiro deve fornecer informações para os planejamentos operacional, tático e até mesmo estratégico da organização, comparando o desempenho atual da organização com o que foi planejado. Os gerentes devem ser capazes de analisar despesas e a compatibilidade das mesmas com o orçamento planejado. É notório que SIGs, apesar de não serem considerados Sistemas de Apoio à Decisão, auxiliam gerentes no processo de tomada de decisão e podem perfeitamente fazer parte de um ambiente completo de suporte à decisão. Na seção Sistemas de Apoio à Decisão diferenciaremos um Sistema de Informação Gerencial de um Sistema de Apoio à Decisão. Sistemas de Informação Executivos Unindo informações dos Sistemas Transacionais às informações dos SIGs é possível construir sistemas de informação voltados para executivos. Sistemas deste tipo também podem agregar informações coletadas de fontes externas à organização e prover os resultados em formato interativo, diminuindo o esforço da alta gerência para análise dos mesmos. Sistemas construídos para dinamizar o trabalho dos executivos são sugestivamente chamados de Executive Information Systems (EISs), ou Sistemas de Informação Executivos. Não existem maiores diferenças conceituais em relação a um Sistema de Apoio à Decisão. O que diferencia é, em geral, a interface com o usuário, que deve permitir que um executivo utilize um EIS com facilidade. Estes sistemas provêm aos executivos informações comparativas através de mapas, gráficos e dados estatísticos fáceis de entender. Além disso, agregam funcionalidades de correio eletrônico, teleconferências, calendários, agendas, gerenciamento de projetos, tarefas e pessoas. Na verdade, podemos considerar um Sistema de Informações Executivo como um Sistema de Informações Gerenciais acrescido de características que dão ao executivo a vantagem de poder analisar informações e organizar o seu trabalho em um único ambiente. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 7Capítulo 1: Introdução Somente organizações maduras e com boa administração de dados conseguem desenvolver e/ou implantar um Sistema de Informação Executivo. É necessário que os sistemas de informação existentes reflitam o fluxo de informações da organização. A metodologia de desenvolvimentoadotada deve prever participação do usuário em todas as fases e a organização tem que vislumbrar sempre a informação como recurso e patrimônio. Em outras palavras, os sistemas de informação passam a ser a base para o planejamento estratégico, e todas as decisões passam a depender destes sistemas. Os Sistemas de Informação Executivos são confundidos com outras ferramentas de apoio à decisão, mas têm como principal diferença a facilidade. Ainda hoje, a maioria dos executivos prefere ter uma tela EIS com “botões mágicos” para geração de relatórios, a usar uma ferramenta que necessite de apoio investigativo e intuição. Estas telas EIS fornecem dados detalhados sobre o passado, presente e tendências futuras das unidades de negócios em relação ao mercado, além de auxiliarem o processo de planejamento e de controle da organização. Um Sistema de Informação Executivo autêntico deve permitir a navegação de dados sintéticos para dados mais detalhados, e pode fazer parte do conjunto de ferramentas e sistemas que consultam uma base de dados histórica existente. Sistemas de Apoio à Decisão O conceito de Sistemas de Apoio à Decisão (SADs), ou Decision Support Systems (DSSs), está na realidade relacionado com um ambiente complexo, projetado para fornecer subsídios para que a alta gerência tome decisões. Autores de livros de informática voltados para as áreas de administração, economia e contabilidade costumam definir SADs de forma ambígua, sem clara diferença entre um Sistema de Apoio à Decisão e um Sistema de Informação Gerencial, por exemplo. Nossa obra também pretende contribuir para a formação de administradores modernos, elucidando definições nebulosas da literatura existente. A maioria dos conceitos enunciados sobre SADs os coloca como sistemas de informação que apóiam qualquer processo de tomada de decisão nos níveis tático, estratégico e operacional. Isto não é suficiente, pois qualquer SI pode ser útil ao nível gerencial e, nem por isso, todo Sistema de Informação será um Sistema de Apoio à Decisão. Um Sistema de Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse8 Informações Gerenciais também pode apoiar qualquer processo de tomada de decisão tática. Um EIS apóia decisões estratégicas e até um Sistema de Informação Transacional pode apoiar decisões de nível operacional. A pergunta é: “Qual é a diferença ?”. O famoso exemplo das fraldas e da cerveja... Através de um ambiente de suporte à decisão bem projetado e utilizando Mineração de Dados, uma rede de supermercados descobriu que a maioria dos pais que iam comprar fraldas para seus filhos levava cerveja. O pessoal de marketing, muito inteligente, colocou a cerveja e as fraldas próximas, com batata fritas entre elas, aumentando consideravelmente a venda dos três produtos. Muitas vezes, o cliente nem pretende levar a cerveja, mas o faz quando vê a tentação do lado das fraldas. Existem várias explicações para o caso, como por exemplo a presença do bebê significar falta de tempo para ir a uma boate à noite para beber. O fato é que a decisão de reposicionamento do estoque foi diretamente influenciada pela informação descoberta. Há vários outros exemplos curiosos, como a venda de colírios em feriados e etc. A diferença reside no fato de os Sistemas de Apoio à Decisão não só fornecerem informações para tomada de decisões, mas também contribuírem e influenciarem o processo. Um SAD deve fornecer e analisar alternativas, pesquisar históricos de decisões tomadas e auxiliar a resolução de problemas estruturados. Estes sistemas podem simular impactos de investimentos em um novo produto ou um novo projeto, baseados em bancos de dados de custos e rendimentos e em algum modelo para análise de risco em investimentos de capital. Atualmente, algumas empresas já proporcionam que um gerente possa tomar uma decisão baseada em um simples relatório estatístico ou tomar outra completamente diferente, baseada na descoberta de uma informação escondida na base histórica (veja o quadro “O famoso exemplo das fraldas e da cerveja...”). A descoberta de informações escondidas através de Mineração de Dados (Data Mining) é abordada no Capítulo 9. Entendendo a diferença, podemos conceituar um SAD como um ambiente projetado para apoiar, contribuir e influenciar o processo de tomada de decisão (Figura 1.3). Este ambiente é formado pelos seguintes componentes: ■ Banco de Dados (BD): Não podemos confundir o conceito de Banco de Dados com o conceito de Sistema Gerenciador de Banco de Dados. Um Banco de Dados não está necessariamente relacionado com armazenamento eletrônico. Bancos de dados podem ser vistos como coleções de dados inter-relacionados. Em um ambiente de suporte à Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 9Capítulo 1: Introdução decisão, podem ser formados por informações internas e externas à organização, por conhecimentos e experiências de especialistas e por informações históricas acerca das decisões tomadas. Um Data Warehouse, objetivo principal do nosso livro, pode fazer parte, ou ser o banco de dados principal de um ambiente de suporte à decisão. A princípio e simplificadamente, podemos conceituar um Data Warehouse como um Banco de Dados projetado para armazenar informações integradas de toda organização, mantendo um histórico das mesmas. ■ Sistema Gerenciador de Banco de Dados (SGBD): Como discutido anteriormente, um SGBD é uma coleção de programas que permitem aos usuários definir, construir e manipular Bancos de Dados para as mais diversas finalidades. Os dados num Banco de Dados devem ser integrados e compartilhados. Um Sistema Gerenciador de Banco de Dados pode representar a unif icação de diversos arquivos que, de outra forma, seriam distintos, eliminando-se total ou parcialmente a redundância entre os mesmos. Já o compartilhamento não significa apenas que as aplicações existentes podem compartilhar dados do Banco de Dados, mas também que novas aplicações podem ser desenvolvidas para operar sobre os mesmos dados armazenados. ■ Aplicativos com características gerenciais (AGs): São aplicativos com funções gerenciais de análise acrescidas. Aplicativos com estas funcionalidades podem fazer parte do grande ambiente de suporte à decisão. ■ Ferramentas de apoio à decisão (FADs): Também chamadas de ferramentas de BI (Business Intelligence, ou Inteligência Aplicada aos Negócios), são softwares desenvolvidos para apresentar graficamente as informações, auxiliando a simulação de situações, fornecendo capacidade de análise, ou descobrindo conhecimento. Além disso, existem ferramentas no mercado que facilitam a implementação de funções específicas, tais como o Gerenciamento de Risco de Crédito, Rentabilidade de Clientes, Database Marketing, etc. Neste livro, abordaremos excelentes e importantes exemplos de FADs. No Capítulo 3, discutiremos sobre as ferramentas OLAP (abreviação de Analytic Processing On-Line, ou processamento analítico on-line) de apoio à decisão, bem como sobre ferramentas de Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse10 Figura 1.3: Ambiente de apoio à decisão. Resumo Paulatinamente ao longo das três últimas décadas, os sistemas de tecnologia da informação têm se preocupado muito com problemas de negócios. Esta preocupação reside na necessidade de competição das empresas no mercado globalizado. As organizações devem ser capazes de analisar os dados disponíveis e tomar decisões rápidas e seguras. Soluções para geração de informações gerenciais foram criadas, recebendo uma nomeclatura específica que hoje perfaz o jargão dos sistemas de informação que servem à alta gerência. Enumeremo-las: ■ Sistemas de Informações Gerenciais (SIG): Sistemas que geram informações coma capacidade de prover insumo para análise, planejamento e suporte à decisão, além de possibilitarem, ao nível tático da organização, a visualização do desempenho de um departamento e até mesmo de toda a corporação. ■ Sistemas de Informação Executivos (EIS): Geram informações gerenciais como os SIGs e dinamizam o trabalho dos executivos através da agregação de funcionalidades Database Marketing e CRM (Customer Relationship Management, ou gerência da relação com os clientes). No Capítulo 9, esmiuçaremos o conceito e características de um processo de mineração de dados (Data Mining). Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 11Capítulo 1: Introdução como correio eletrônico, teleconferências, calendários, agendas, gerenciamento de projetos, tarefas e pessoas. ■ Sistemas de Apoio à Decisão (SAD): Ambiente projetado para apoiar, contribuir e influenciar o processo de tomada de decisão. Os sistemas de informação envolvidos com o processo de tomada de decisão podem ser, na realidade, pápeis assumidos por aplicações criadas exclusiva ou parcialmente para esse propósito. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 13Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse 2 C A P Í T U L O Sistemas de Apoio à Decisão Baseados em Data Warehouse Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse14 Os Sistemas de Apoio à Decisão tradicionais eram concebidos através do desenvolvimento de Ferramentas de Apoio à Decisão (FAD) (ver Capítulo 1) para produção e distribuição de informações úteis para gerentes, executivos e analistas do conhecimento. Para a produção destas informações, as FADs acessavam os bancos de dados operacionais da organização, gerando um forte acoplamento entre Sistemas de Informações Transacionais e Sistemas de Apoio à Decisão (Figura 2.1). Como a quantidade de dados gerados nas empresas cresce em progressão geométrica, o acoplamento passou a ser um problema e, para que as aplicações continuassem com um bom desempenho, era preciso separar os dados mais antigos da base de dados acessada pelas aplicações transacionais, pois a concorrência entre as consultas gerenciais e as funções desempenhadas pelos Sistemas de Informação Transacionais aumentava o tempo de resposta de qualquer servidor de banco de dados que estivesse sendo utilizado. Figura 2.1: Acoplamento entre SIGs e Sistemas Fontes. Assim, os dados históricos passaram a ser armazenados separadamente e restaurados quando preciso. Porém, a confiança e desempenho também eram comprometidos pelo Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 15Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse fato de os dados não estarem adequados para o suporte à decisão, ou seja, tanto estavam desintegrados (Capítulo 1), como também não foram modelados para otimizar o desempenho de consultas gerenciais (discutiremos modelagem de dados para apoio à decisão no Capítulo 4 deste livro). Aliadas às necessidades supracitadas, consultas a esses dados históricos passaram a ser constantes e nem sempre os mesmos eram restaurados com sucesso. O problema era, e é ainda em muitas empresas, o longo tempo de espera para restauração e acesso a essas informações. A maioria dos gerentes passava dias para obter uma informação gerencial e ainda assim não confiava na acuracidade da mesma. Objetivando integrar dados de múltiplas fontes, um processo de análise com informação de qualidade sem impacto para o ambiente operacional e um atendimento a diferentes tipos de usuários com agilidade e flexiblidade, surgiu o conceito de Data Warehouse (Armazém de Dados) (Figura 2.2). Figura 2.2: Integração com um Data Warehouse. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse16 Conceito de Data Warehouse Data Warehouse (DW) é um banco de dados histórico, separado lógica e fisicamente do ambiente de produção da organização, concebido para armazenar dados extraídos deste ambiente. Antes de serem armazenados no DW, os dados são selecionados, integrados e organizados para que possam ser acessados da forma mais eficiente, auxiliando assim o processo de tomada de decisão. Segundo W. H. Inmon, especialista e pioneiro no assunto, um Data Warehouse é “um conjunto de dados, não volátil, orientado a tópicos, integrado, que varia com o passar do tempo e que serve de suporte para o processo de tomada de decisões da gerência”. (W. H. Inmon, 1996). Analisaremos as características enunciadas por Inmon a seguir. Características de um Data Warehouse Orientado por Temas O Data Warehouse armazena informações necessárias para o processo de suporte à decisão. Essas informações são organizadas pelos temas importantes para o negócio da empresa. Em uma rede de restaurantes, por exemplo, os temas são: produtos, clientes, funcionários, etc. Cada tema pode envolver várias tabelas. Considerando o tema cliente, podem existir tabelas com as informações gerais (nome, endereço, telefone, e-mail), outra com os clientes que tiveram conta inferior a R$200,00, outra com os clientes com contas superiores a R$300,00. Além destas, podem existir tabelas cumulativas com os clientes que mais consumiram no período de 1999 a 2003, e tabelas detalhadas que armazenarão o código do cliente, a data da venda, os produtos consumidos e o valor da despesa. Portanto, percebe-se que, para o mesmo tema, podem existir vários níveis de detalhamento. Integrado O Data Warehouse deve consolidar dados de diversas origens, o que geralmente envolve diferentes codificações. Os dados devem ser perfeitamente integrados para que ao serem armazenados assumam uma única convenção. Exemplificando: uma aplicação pode Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 17Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse codificar o sexo como “M” e “F”, outra pode codificar com 0 e 1, e uma outra pode usar “H” e “M”. Quando os dados são extraídos para o Data Warehouse devem assumir uma única codificação. Variante no Tempo Os dados em produção são atualizados de acordo com as mudanças necessárias, e com isso os dados “históricos” são perdidos. Em consultas, são capturados os dados válidos no momento do acesso. Por exemplo, o estado civil de um cliente “X” que em 2000 era solteiro e passa hoje para casado. No momento da consulta feita hoje, será apenas mostrado que o cliente é casado, perdendo as informações anteriores. Em um Data Warehouse os dados são carregados como fotos da base de dados operacional do momento, ou seja, cada ocorrência e cada mudança são consideradas como um novo registro. Os dados não são atualizados e podem ser comparados ao longo do tempo. Ao consultar o cliente “X” do exemplo anterior em 2000, virão os dados da época de solteiro. Não Volátil Teoricamente, depois que os dados estão no Data Warehouse (DW) não poderão ser atualizados ou alterados, apenas acessados. Os novos dados serão absorvidos, integrando- se com os dados existentes. O Data Warehouse permite apenas a carga inicial dos dados e a consulta aos mesmos. Contraditoriamente, existe no ambiente operacional uma grande volatilidade, visto que os dados são atualizados registro a registro a qualquer momento. Escrevemos teoricamente, pelo fato de algumas situações específicas exigirem atualização dos dados carregados para o DW. Podemos tomar como exemplo a carga de dados contábeis. Como saldos contábeis normalmente sofrem atualizações, pois podem existirlançamentos de valores errados, também é necessário corrigir esses valores carregados para o DW. A característica da não volatilidade pode ser aceita totalmente devido ao fato de o banco de dados de um DW ser configurado fisicamente para otimização de inclusões e consultas (analisaremos otimização física no Capítulo 8), ou seja, não deve ser um banco preparado para atualizações. Desta forma, é melhor remover a carga errada e carregar os dados novamente do que realizar updates (atualizações) na base do DW. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse18 Data Marts O Data Mart é geralmente descrito como um subconjunto dos dados contidos em um Data Warehouse extraído para um ambiente separado. Data Marts são muito úteis nas seguintes condições: ■ Os dados devem estar segregados para melhorar o desempenho do sistema do ponto de vista do usuário. ■ Deve existir uma cópia dos dados onde só pessoas com autorização devem ter o privilégio de acessá-las. ■ Em um ambiente corporativo, é importante fortalecer o conceito de propriedade dentro do banco de dados. Diferentes setores serão responsáveis por diferentes Data Marts. Segundo Kimball, especialista no assunto: “Um Data Mart, também conhecido como Warehouse Departamental, é uma abordagem descentralizada do conceito de Data Warehouse (Kimball et al., 1998)”. Esses ambientes fisicamente distintos trazem benefícios, mas existe um preço a se pagar. Com a presença de muitos Data Marts pode haver o risco de redundância. A construção de Data Marts deve ter sempre a preocupação de compartilhamento de dados, tabelas e relatórios em comum entre os departamentos. A dificuldade de evitar a redundância de dados pode ir contra o paradigma de um Data Warehouse já que a separação física em diferentes grupos diminui essa habilidade de organização. Fica clara a necessidade de preservação da consistência das informações presentes nos Data Marts através da eliminação de redundâncias, pois relatórios em comum não podem possuir valores diferentes. Isto é uma característica da maioria dos Sistemas Transacionais das corporações e deve ser eliminada com a presença de um DW. Arquitetura Básica de um Data Warehouse Descreveremos resumidamente o funcionamento de uma arquitetura padrão de Data Warehouse (Figura 2.3). Os dados vêm dos diversos Sistemas Transacionais e geralmente são tratados por uma ferramenta ETL2 . Ferramentas ETL são responsáveis pela extração, transformação e 2 Extraction, Transformation and Load, ou extração, transformação e carga. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 19Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse carregamento dos dados no DW. Num projeto de construção de um Data Warehouse, os processos ETL consomem mais de 70% do tempo de desenvolvimento. Todo este processo normalmente é desenvolvido especificamente para cada empresa, devido à diversidade existente em termos de estruturas de dados nos sistemas fontes transacionais e também à falta de conhecimento e documentação dos mesmos. Figura 2.3: Arquitetura básica de DW. O fluxo de dados começa nas aplicações fontes, e passa por uma área intermediária de armazenamento chamada de Staging Área (Área de Estágio). Na Staging Área os dados sofrem integração, limpeza e depois são exportados para o DW. A integração consiste na consolidação dos dados de diversas origens, o que geralmente envolve diferentes codificações. Os dados devem ser perfeitamente integrados para que ao serem armazenados assumam uma única convenção (ver seção Integrado neste capítulo). A limpeza é a rejeição de valores inválidos, chaves repetidas ou registros com outros tipos de erro. Estas ações constituem a tarefa mais crítica na geração de um Data Warehouse (descreveremos em detalhes a implementação de um processo ETL no Capítulo 6). Segundo Kimball, além da Staging Área, o ideal é que exista uma segunda área intermediária antes da carga definitiva para o DW. Esta segunda área, chamada de ODS (Operational Data Store), deve ser uma base de dados com utilização previsível, parcialmente estruturada Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse20 e analítica cujo histórico é de apenas 30 ou 60 dias e cujas informações estão organizadas por área de negócio (Figura 2.4). É um retrato da base obtida da extração, transformação e limpeza de dados dos sistemas fontes operacionais da empresa e no início de sua concepção era visto como sendo um tipo de DW (Kimbal et al., 1998). Na realidade, no ODS, os dados são mantidos como no ambiente operacional, ou seja, não estão modelados ainda para consultas gerenciais, porém podem ser úteis para recuperção de cargas de dados problemáticas. Com um ODS, não é necessário refazer toda a extração para corrigir eventuais problemas na transferência dos dados para o DW. Muitos projetos de DW possuem ODS e utilizam esta área para fazer validação de regras de negócio, ou seja, na Staging Área a limpeza se resume em verificar chaves repetidas e problemas de integridade referencial; verificações de regra de negócio são feitas no ODS. Por economia de espaço de armazenamento em disco muitos DWs são implementados sem ODS. Não há implicações graves nisto, pois cargas problemáticas podem ser refeitas. A única implicação será um maior tempo para correção de cargas erradas. Figura 2.4: Arquitetura de DW segundo Kimball. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 21Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse Somente após a integração e limpeza os dados são exportados para o DW. Depois os dados são transmitidos para Data Marts (Figura 2.5) ou, numa abordagem centralizada, são consultados diretamente pelos usuários através de uma Ferramenta de Apoio à Decisão, por exemplo. Figura 2.5: DW e Data Marts. Data Warehouse X Enterprise Resource Planning (ERP) Antes da implantação de DWs as empresas já buscavam a integração dos dados acessados por seus sistemas e agilização dos seus processos. Foram criados softwares multi- modulares para auxiliar gestores em todas as fases do negócio. Sistemas capazes de facilitar o fluxo de informações entre todas as atividades de uma empresa, como fabricação, logística, finanças e recursos humanos, são chamados de ERP (Enterprise Resource Planning ou Sistemas de Gestão Empresarial). Um ERP é, geralmente, composto por um banco de dados único, operando em uma plataforma comum que interage com um conjunto de aplicações. Um banco de dados ERP pode ser confundido com um DW, porém existem diferenças básicas. Apesar de fornecerem uma estrutura integrada, sem redundância de informações, Sistemas de Gestão Empresarial (ERP) utilizam o mesmo banco de dados Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse22 para armazenamento de dados operacionais e para armazenamento de dados históricos utilizados como fonte de informações gerenciais. Nos deparamos, mais uma vez, com o problema da concorrência. Consultas gerenciais são feitas no mesmo ambiente operacional e provavelmente serão mais lentas do que consultas feitas em um DW separado. Além disso, os dados também não estão modelados para um maior desempenho destes tipos de consulta. Na nossa opinião, um ERP é uma excelente solução para gestão das empresas, desde que seja escalável, ou seja, que se integre facilmente com outros aplicativos e possa ser estendido facilmente à medida que a corporação cresce e necessita da automatização de outras funcionalidades. Sistemas ERP fornecem excelentes relatórios gerenciais; todavia,não podemos descartar a presença de um DW. Por possuir uma base de dados integrada, um ERP pode ser a fonte ideal para um DW projetado para fornecer informações gerenciais com agilidade e sem concorrência com o ambiente operacional. Resumo Mesmo com a tendência natural de crescimento da integração entre aplicações operacionais, decisões de nível estratégico e tático exigem um conteúdo mais rico do que aquele encontrado no ambiente operacional, o qual apresenta inúmeros obstáculos para o processamento analítico. As empresas precisam de um ambiente exclusivo que armazene adequadamente os dados extraídos das diversas bases, disponibilizando as informações a qualquer instante. O banco de dados deste ambiente, que surgiu como solução para prover informações gerenciais para a tomada de decisões, foi denominado de Data Warehouse. Um DW é um banco de dados histórico, separado lógica e fisicamente do ambiente de produção da organização, concebido para armazenar dados extraídos deste ambiente. Antes de serem armazenados no DW, os dados são selecionados, integrados e organizados para que possam ser acessados da forma mais eficiente, auxiliando assim o processo de tomada de decisão. A dificuldade de implementação de um DW completo imediatamente fez surgir o conceito de Data Mart, ou Warehouse Departamental. Um Data Mart é um subconjunto lógico de um DW, um DW setorial. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 23Capítulo 2: Sistemas de Apoio à Decisão Baseados em Data Warehouse Para serem carregados em um DW os dados devem passar por processos ETL. Estes processos consomem mais de 70% do tempo de desenvolvimento do projeto de um DW e são responsáveis pela extração, integração, limpeza e posterior carga dos dados para o DW. A integração consiste na consolidação dos dados de diversas origens, o que geralmente envolve diferentes codificações. Os dados devem ser perfeitamente integrados para que ao serem armazenados assumam uma única convenção. A limpeza é a rejeição de valores inválidos, chaves repetidas ou registros com outros tipos de erro. Estas ações constituem a tarefa mais crítica na geração de um Data Warehouse. Sistemas ERP podem ser excelentes fontes de informações para um DW. Isto é possível pelo fato de um banco de dados único interagir com todos os aplicativos deste tipo de sistema. Desta forma, elimina-se a redundância de informações e redigitação de dados, o que assegura a integridade das informações obtidas. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 25Capítulo 3: Ferramentas de Apoio à Decisão 3 C A P Í T U L O Ferramentas de Apoio à Decisão Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. Projetando Sistemas de Apoio à Decisão Baseados em Data Warehouse26 As Ferramentas de Apoio à Decisão estão relacionadas com o conceito de BI (Business Intelligence, ou Inteligência Aplicada aos Negócios). Podemos dizer que BI é um conjunto de tecnologias que permitem o cruzamento de informações e suportam a análise dos indicadores de desempenho de um negócio. Portanto, as ferramentas de apoio à decisão que fazem inferências em um banco de dados histórico, um DW por exemplo, são também chamadas de ferramentas de BI. Neste capítulo, analisaremos dois tipos de Ferramentas de Apoio à Decisão. Pela maior popularidade do uso, destacaremos as ferramentas OLAP e introduziremos o conceito de CRM. Ressaltamos que trataremos de ferramentas de Data Mining para apoio à decisão em um capítulo especial, o Capítulo 9. Ferramentas OLAP Uma das tarefas mais solicitadas ao pessoal de TI (tecnologia da informação) nas organizações é a produção de consultas que descrevam de forma clara e concisa informações sobre os negócios da empresa. Essas consultas ou relatórios apresentam-se desde simples listagens de funcionários ou produtos a complexos mapas de demonstração de crescimento financeiro. Independente de seu objetivo final, a verdade é que, nem sempre, é possível prever durante o projeto ou compra de sistemas quais informações necessitarão ser extraídas. Essa incapacidade de previsão, algo perfeitamente aceitável quando o assunto refere-se a negócios, faz surgir a necessidade de mecanismos auxiliares, adjacentes aos sistemas utilizados, para a geração de novos relatórios. A primeira solução da indústria de software para atender a essa demanda foi o desenvolvimento de ferramentas de geração de relatórios. Porém, a partir do momento em que a informação passou a ser o bem mais valioso para as organizações e com o surgimento de toda a infra- estrutura dos Data Warehouses, surgiu a necessidade da criação de ferramentas com uma capacidade de análise maior do que a dos geradores de relatórios tradicionais. Ou seja, embora a infra-estrutura necessária para armazenar milhares de informações estivesse pronta, um novo problema tornar-se-ia o mais novo pesadelo para o pessoal de TI. Como apresentar essas informações? Como fornecer a capacidade de análise para essas informações? As informações contidas em um Data Warehouse possuem características específicas que as distinguem das informações existentes em projetos de bancos de dados Para uso pessoal. Este material não pode ser utilizado em Salas de Aula e para ministrar treinamentos. 27Capítulo 3: Ferramentas de Apoio à Decisão convencionais. Grandes volumes de dados, dados históricos e bases não normalizadas são algumas das peculiaridades que impedem a utilização das ferramentas convencionais para geração de relatórios. Ao deparar-se com esse quadro, a indústria de software, aliada a pesquisadores da área, também passou a investir na concepção de um paradigma de ferramenta que pudesse atender a essa demanda. Desse trabalho, surgiu o que chamamos de tecnologia OLAP (Analytic Processing On-Line ou processamento analítico on-line) que caracteriza o conjunto de técnicas utilizadas para tratar informações contidas em um Data Warehouse. O termo foi criado em 1993, pelo Dr. E.F. (Ted) Codd, em um ensaio intitulado Providing OLAP to User-Analysts: An IT Mandate. Pouco tempo depois da publicação desse ensaio, a palavra OLAP transformou-se em uma buzzword no cenário de bancos de dados, e todo profissional de sistemas esforçava-se para compreendê-la, e como ela se encaixava no paradigma de aplicações de suporte à decisão. No entanto, OLAP, conforme definida pelo Dr. Codd, não é uma nova tecnologia e alguns produtos já existiam há tempos no mercado. Por força deste mesmo mercado, as ferramentas que apresentavam características OLAP passaram a ser referenciadas como ferramentas OLAP. Atualmente, as linguagens de programação e as principais empresas de Sistemas Gerenciadores de Banco de Dados oferecem APIs3 e componentes como soluções prontas para a criação de aplicações de Business Inlelligence (termo utilizado atualmente para definir aplicações voltadas à alavancagem dos negócios), passando a falsa impressão da simplicidade por trás de uma ferramenta verdadeiramente OLAP. Essa tendência tem encorajado gerentes de projeto a embarcarem em uma viagem sem fim: o desenvolvimento de uma ferramenta OLAP. Essa escolha vai de encontro ao grande conselho dado pelos mais experientes consultores na área: “Don´t Build, Buy It” . Ou seja, o investimento e o tempo despendido na construção de uma solução caseira não traz resultados aparentes e, em sua maioria, resulta em projetos fracassados ou produtos com carência interminável de manutenção. O ideal é adquirir uma ferramenta OLAP com as características e particularidades que analisaremos adiante. É importante conhecer o que uma verdadeira ferramenta OLAP deve prover aos seus usuários. 3 Application Program Interface – Um conjunto de funções predefinidas, documentadas e disponibilizadas
Compartilhar