Baixe o app para aproveitar ainda mais
Prévia do material em texto
Apostila de Treinamento – Business Intelligence 1 (11) 3531 6550 - www.strattus.com.br Capitulo 1 - O que é Business Intelligence? 1.1. Introdução 1.2. Business Intelligence – Conceitos e analises 1.3. Business Intelligence - Histórico 1.4. Business Intelligence – Benefícios 1.5.Gestão do Conhecimento e Sistemas de Informação 1.5.1. Conceitos Básicos de Gestão do Conhecimento 1.5.1.1. O que e dado? 1.5.1.2. O que é a informação? 1.5.1.3. O que é conhecimento? 1.5.2.Visão geral – Dados, Informação e Conhecimento: 1.5.3. Gestão do Conhecimento 1.5.4. Administração de Dados 1.5.5. Sistemas de Informação em Organizações. 1.5.6. Componentes de Sistemas de Informação. Capitulo 2 - Data Warehouse 2.1. Introdução 2.2. O que é um Data Warehouse? 2.2.1. Orientado por assunto 2.2.2. Integrado 2.2.3. Histórico 2.2.4. Não volátil 2.3. Um pouco mais sobre Data Warehouse 2.4. Construindo um Data Warehouse 2.4.1. Arquitetura de um Data Warehouse 2.4.1.1. Visão Conceitual 2.4.1.2. Visão Física (em Camadas) 2.4.2. Estrutura Física dos Dados do DW 2.4.2.1. Arquitetura de Duas Camadas 2.4.2.2. Arquitetura de Três Camadas 2.4.3. OLTP versus OLAP 2.4.4. Projeto e Desenvolvimento de Sistemas de Data Warehouse 2.4.4.1. Funções dos Componentes da Equipe 2.4.4.2. Análise entre Model. Dimensional e Model. Relacional 2.4.4.3. Problemas Encontrados no Desenvolvimento de Data Warehouses 2.4.5. Melhorando a performance do Data Warehouse 2.4.5.1. Intercalação de Tabelas 2.4.5.2. Introdução de Informações Redundantes 2.4.5.3. Separação de Dados 2.4.6. Componentes dos Sistemas de DW 2.4.6.1. O Sistema Gerenciador de Banco de Dados 2.5. O Ciclo de vida do desenvolvimento de um Data Warehouse 2.6. Considerações Iniciais para a criação de um Data Warehouse 2.7.Dados Operacionais Apostila de Treinamento – Business Intelligence 2 (11) 3531 6550 - www.strattus.com.br Capitulo 3 - Modelagem Dimensional 3.01. Introdução 3.02. Modelagem de dados 3.03. Modelagem Dimensional 3.04. Processo da Modelagem Dimensional 3.05. Processo de Modelagem de um Data Warehouse 3.06. Tipos de Arquitetura 3.06.1. Arquitetura "Top-Down" 3.06.2. Arquitetura "Bottom-Up" 3.06.2.1 Enterprise Data Mart Architecture (EDMA) 3.06.2.2 Data Storage/Data Mart (DS/DM) 3.06.3. Arquitetura intermediária 3.07. Data Marts 3.08. Gerando o modelo dimensional através do StarSchema 3.08.1. Variações do StarSchema 3.08.2. Vantagens do modelo StarSchema 3.08.3. Tabela de fatos 3.08.3.1. Fatos com produtos heterogêneos 3.08.3.2. Classificação de atributos em uma tabela de Fatos 3.08.4. Tabela de Dimensão 3.08.4.1. Dimensões com Itens Heterogêneos 3.08.4.2. Dimensões Descaracterizadas 3.08.4.3.Tratamento de dimensões e fatos com cardinalidade 3.08.4.4.Técnicas de rastreamento de alterações 3.08.4.5. Criando novas chaves 3.08.4.6. Criando de Mini - dimensões 3.08.5. Granularidade 3.08.6. Medidas de derivação 3.09. Data Mining 3.10. Metadados 3.11. OLAP 3.11.1. Geração de Consultas (Queries) Capitulo 4 – Criando um Data Mart de Vendas Não disponível Capitulo 5 – Especiais Não disponível Apostila de Treinamento – Business Intelligence 3 (11) 3531 6550 - www.strattus.com.br “Business Intelligence não é algo que se compra de um fornecedor, mas um objetivo alcançado por uma organização.” Luiz Câmara, Presidente da InfoBuild Brasil Capítulo 1 – O que é Business Intelligence? 1.1. Introdução Com o passar dos anos a necessidade de conhecimento, vem crescendo cada vez mais neste mundo globalizado. Acredito que podemos chamar este século de “A ERA DA INFORMAÇÃO”. Com isso, o volume de dados e seus devidos repositórios vem se multiplicando, se tornando armazéns de dados isolados que dificultam a análise e a compreensão verdadeira de todo o negócio. Ou seja, nós os profissionais de tecnologia, envolvidos nas camadas de gerenciamento e análise de dados, temos como principal objetivo ajudar as empresas a transformar os grandes volumes de registros em informações relevantes para a empresa, suportando os processos de decisão estratégica e gerando vantagens competitivas no mercado. Toda esta habilidade é chamada de Business Intelligence (BI), que apoiada por ferramentas de tecnologias adequadas, permite organizar dados dispersos em uma empresa, de forma a torná-los inteligíveis e depois estudá-los com o objetivo de gerar o “Conhecimento” e “Inteligência”, a serem utilizados no desenvolvimento estratégico de ações, que beneficiam todo o negócio. Como exemplo deste emaranhado e complexo sistema de informação, podemos citar os tradicionalmente sistemas legados das empresas ERP (Enterprise Resource Planning), bem como as fontes externas de dados e outras fontes de informação (Planilhas, Arquivos de lotes, etc). Tudo isso faz com que as organizações empenhem seus esforços na construção de ferramentas, que através de uma análise refinada do negócio, mais os conceitos de Business Intelligence, integrados a crescente tecnologia de softwares voltados a esta área, possam monitorar e acompanhar a evolução das tomadas de decisões, com precisão e rapidez. O objetivo desta obra é conscientizar todos os escalões das empresas privadas, bem como os órgãos públicos em geral, qual a importância no tratamento da informação e das reais necessidades de investimento nos projetos de Business Intelligence. Digo com propriedade que depois de meus vinte e sete anos como desenvolvedor de ERPs legados, como documentador e principalmente como especialista em Apostila de Treinamento – Business Intelligence 4 (11) 3531 6550 - www.strattus.com.br reporting que; a busca de novas oportunidades no mercado, bem como a gestão ideal para nossos negócios, não vira sem que tenhamos um bom e estruturado projeto de BI, ou seja, centralizar as informações, de forma racional e orientada às necessidades do nosso negócio. Essa é sem dúvida alguma, a melhor forma de se tomar decisões estratégicas. No decorrer desta obra, o amigo leitor vai conhecer um pouco mais sobre Business Intelligence, vai acompanhar conceitualmente e na prática a criação de um Data Warehouse e ver como eles são fundamentais em qualquer projeto de BI. Vai visualizar como a partir destas informações armazenadas em formato simples e organizadas, podem ser realizadas as análises para a tomada de decisões estratégicas relacionadas ao seu negócio. Também vai conhecer o conceito dos poderosos Data Marts e a fantástica modelagem dimensional, bem como as tecnologias de OLAP, que serão amplamente comparadas com a OLTP. Aqui o amigo leitor ainda avaliará os conceitos do Balanced Scorecard e de gestão do conhecimento, bem como poderá testar na prática a criação de um Data Warehouse, através de um pequeno projeto de BI, analisado e demonstrado em todas as suas etapas. 1.2. Business Intelligence – Conceitos e análises O mercado mundial como um todo, não para de comentar e divulgar sobre a coqueluche do momento, “Business Intelligence”; suas aplicações e soluções tecnológicas disponíveis no mercado. Porém, eu lhe pergunto amigo leitor, será que realmente sabemos sobre o que estamos falando? Acredito que precisamos, antes de qualquer coisa, ter a consciência real sobre o conceito de BI, para o qual existem os mais diversos tipos de análises e conceitos na atualidade. Nosso primeiro passo será o entendimento dos dois termos que compõem o referido conceito: Business (negócio) e Intelligence (inteligência) O primeiro, quer dizer a intermediação de uma atividade comercial com fins lucrativos, quando se trata do mundo empresarial. O segundo se refere à faculdade de aprender ou compreender; capacidade de resolver situações complexas e problemáticas, mediante a reestruturação da informação perceptiva (Física). Com a junção dos dois termos acima, é correto supor que a inteligência do negócio está ligada intrinsecamenteà capacidade das pessoas em posições estratégicas dentro de uma corporação e que estão diretamente ligadas ao negócio. Pessoas estas, com poder de decisão para adaptar, implementar ou Apostila de Treinamento – Business Intelligence 5 (11) 3531 6550 - www.strattus.com.br alterar o rumo da empresa (estrutura, recursos humanos, financeiros, materiais, etc.) ou externamente (mercado, concorrência, econômico, etc.). O conceito de BI tem como principal objetivo, auxiliar estes homens e mulheres a aprimorar o processo de tomada de decisão, através do tratamento das bases de dados existentes. O BI engloba o uso de ferramentas sofisticadas, que fazem parte da área de pesquisa como, por exemplo, a Inteligência Artificial (IA). Estas ferramentas proporcionam além de informações mais detalhadas, uma base de conhecimento extensa, modelada e racionalizada, que conseqüentemente dissemina o conhecimento obtido no tratamento da base de dados, que nada mais são do que as práticas oriundas das decisões tomadas por toda a empresa. As empresas fazem parte do mundo dos negócios e esse visa eternamente ao lucro, ao retorno dos capitais investidos no menor tempo possível. Numa realidade competitiva como esta, as informações estratégicas assumem um papel fundamental para o sucesso dessa empreitada. É óbvio que não podemos deixar de citar a enorme quantidade de informações que são despejadas sobre nós diariamente. Desta forma precisamos de mecanismos eficientes que nos ajudem a criar e monitorar critérios para selecionarmos e organizarmos as informações que realmente nos interessam. Como não poderia deixar de ser, os sistemas de informações prestam uma grande ajuda nesse sentido. Esse sistema proporciona lucros quando permite que uma maior quantidade de bens sejam produzidos, uma maior quantidade de clientes sejam atendidos, a satisfação dos mesmos sejam conquistadas, e finalmente, permite uma melhor alocação dos recursos disponíveis. Quando a empresa consegue obter essas informações rapidamente e de forma estruturada, ela sem dúvida sairá na frente de seus concorrentes, descobrindo os problemas com seus produtos e serviços, possibilitando corrigi-los com maior velocidade e eficiência. A informação estratégica proporciona saber se os seus clientes estão satisfeitos e poderá definir novas estratégias para expansão de sua empresa no mercado. Mas, o ponto mais importante nessa mistura de tecnologias é a empresa poder direcionar todo seu capital intelectual para a sua devida função, que é pensar. Os gerentes e diretores poderão ter as informações rapidamente e também terão mais tempo para melhorarem todos seus processos e analisarem mais os seus dados, que passarão a ser valiosas informações. Aí a Tecnologia da Informação (TI) estará exercendo seu grande papel, que é o de fornecer informações de qualidade e deixar de ser uma armazenadora de dados. Apostila de Treinamento – Business Intelligence 6 (11) 3531 6550 - www.strattus.com.br O Business Intelligence pode ser entendido como um leque conceitual que envolve a Inteligência Competitiva (CI), a Gerência de Conhecimento (KMS) e a Internet Business Intelligence (IBI), pesquisa e análise de mercado, relacionados à nova era da Informação, dedicada a captura de informações e conhecimentos que permitem as organizações competirem com maior eficiência e exatidão. Isso é bom para cada um de nós clientes e consumidores. E melhor ainda para os profissionais que fazem parte dessas grandes empresas, pois além de nos capacitarmos ainda mais, conseguiremos ajudar a nossas instituições coorporativas a crescerem e chegarem a excelência de seus negócios. Segundo Gartner Group: “A maior ameaça das empresas da atualidade é o desconhecimento... O Business Intelligence se empenha em eliminar as dúvidas e a ignorância das empresas sobre suas informações, aproveitando os enormes volumes de dados coletados pelas empresas”. Por fim, o BI ou Inteligência Empresarial tem como principal objetivo à integração dos aplicativos e tecnologias para extrair e analisar os dados corporativos de maneira simples, no formato correto e no tempo certo, para que a empresa possa tomar decisões melhores e mais rápidas, sempre buscando auxiliar o executivo em seus negócios. 1.3. Business Intelligence - Histórico Ao contrário do que se possa imaginar, o conceito de Business Intelligence não é recente. Civilizações antigas já utilizavam esse princípio há milhares de anos, quando cruzavam informações obtidas junto à natureza em benefício próprio. Observar e analisar o comportamento das marés, os períodos de seca e de chuvas, a posição dos astros, entre outras, eram formas de obter informações que eram utilizadas para tomar as decisões que permitissem a melhoria de vida de suas respectivas comunidades. O mundo mudou desde então, mas o conceito permanece o mesmo. A necessidade de cruzar informações para realizar uma gestão empresarial eficiente é hoje uma realidade tão verdadeira quanto no passado foi descobrir se a alta da maré iria propiciar uma pescaria mais abundante. Pela visão da tecnologia, a era que podemos chamar de "pré-BI" está num passado não muito distante, algo entre trinta ou quarenta anos atrás. Nesta época, quando os computadores deixaram de ocupar salas gigantescas, na medida em que diminuíram de tamanho e ao mesmo tempo, as empresas passaram a perceber os dados como uma possível e importante fonte geradora de informações decisórias. Apostila de Treinamento – Business Intelligence 7 (11) 3531 6550 - www.strattus.com.br No entanto, naquela época ainda não existiam recursos eficientes que possibilitassem uma análise consistente desses dados para a tomada de decisão. Era possível reunir informações de maneira integrada, fruto de sistemas transacionais estabelecidos com predominância em dados relacionais, mas que, reunidos como blocos fechados de informação, permitiam uma visão da empresa, mas não traziam ganhos decisórios ou negociais. Estamos falando do final dos anos 60, período em que cartões perfurados, transistores e linguagem COBOL eram a realidade da Informática. Era a época em que se via o computador como um desconhecido, um vislumbre de modernidade, mas que ainda parecia estar em uma realidade muito distante. O panorama começou a mudar na década de 70, com o surgimento das tecnologias de armazenamento e acesso a dados, Direct Access Storage Device (DASD), dispositivo de armazenamento de acesso direto, e o Sistema Gerenciador de Banco de Dados (SGBD), duas siglas cujo principal significado era o de estabelecer uma única fonte de dados para todo o processamento. A partir daí o computador passou a ser visto como um coordenador central para atividades corporativas e o banco de dados foi considerado um recurso básico para assegurar a vantagem competitiva no mercado. No início dos anos 90, a maioria das grandes empresas contava somente com Centros de Informação (CI) que embora mantivessem estoque de dados, ofereciam pouquíssima disponibilidade de informação. Mesmo assim, os CI supriam, de certa forma, as necessidades de executivos e detentores das tomadas de decisão, fornecendo relatórios e informações gerenciais. O mercado passou a se comportar de modo mais complexo e a tecnologia da informação progrediu rumo ao aprimoramento de ferramentas de software, as quais ofereciam informações precisas e no momento oportuno para definir ações que tinham como foco a melhoria do desempenho no mundo dos negócios. No inicio da década de 90, surgiu o Data Warehouse (DW) que é uma grande base de dados de informação, ou seja, um único repositório de dados. Considerado pelos especialistas no assunto, como o elemento principal para a execução prática de um projeto de BI. No entanto, quando se trata de BI, as opiniões nem sempre são unânimes. Na avaliação de alguns consultores é importante que a empresa quedeseja incorporar ferramentas de análise disponha de um repositório específico para reunir os dados já transformados em informações Esse repositório não precisa ser necessariamente, um DW, mas algo menos complexo como, por exemplo, um Data Mart (Um banco de dados ou parte dele, desenhado de forma personalizada para departamentos), ou um banco de dados relacional comum, mas separado do ambiente transacional (operacional) e Apostila de Treinamento – Business Intelligence 8 (11) 3531 6550 - www.strattus.com.br dedicado a armazenar as informações usadas como base para a realização de diferentes analises e projeções. Como já foi mencionado acima, o conceito de Business Intelligence é muito mais antigo do que se imagina. Mas o desenvolvimento tecnológico ocorrido a partir da década de 70 e nos anos posteriores, é que possibilitou a criação de ferramentas que vieram a facilitar todo o processo de captação, extração, armazenamento, filtragem e disponibilidade personalizada dos dados. Isso fez com que o setor corporativo passasse a se interessar cada vez mais pelas soluções de BI, principalmente por volta do final de 1996, quando o conceito começou a ser difundido como um processo de evolução do Executive Information Systems (EIS - Sistema de informações executivas), um sistema criado no final da década 70, a partir dos trabalhos desenvolvidos pelos pesquisadores do Massachusets Institute of Tecnology/EUA (MIT). O EIS é na verdade, um software que objetiva fornecer informações empresariais a partir de uma base de dados. É uma ferramenta de consulta às bases de dados das funções empresariais para a apresentação de informações de forma simples e amigável, atendendo às necessidades dos executivos da alta administração principalmente. Permite o acompanhamento diário de resultados, tabulando dados de todas as áreas funcionais da empresa para depois exibi-los de forma gráfica e simplificada, sendo de fácil compreensão para os executivos que não possuem profundos conhecimentos sobre tecnologia. Em termos simples o EIS permite a esses profissionais o acesso amigável a uma série de informações pela via eletrônica, apresentadas de forma clara e visualmente atraente. Com o passar dos anos o termo Business Intelligence ganhou maior abrangência, dentro de um processo natural de evolução, como o próprio EIS, e mais as soluções Decision Support System (DSS - Sistema de Suporte à Decisão), Planilhas Eletrônicas, Geradores de Consultas e de Relatórios, Data Marts, Data Mining, Ferramentas OLAP, entre tantas outras que têm como objetivo promover agilidade comercial, dinamizar a capacidade de tomada de decisões. A história do Business Intelligence também está profundamente atrelada ao ERP sigla que representa os sistemas integrados de gestão empresarial cuja função é facilitar os processos operacionais das empresas. Esses sistemas registram, processam e documentam cada fato novo na empresa e distribuem as informações de maneira clara e segura, em tempo real. Mas as empresas que implantaram estas soluções logo se deram conta de que apenas armazenar grande volume de dados, não lhes serviriam de nada, já que essas informações se encontravam repetidas, incompletas e espalhadas em vários repositórios dentro da corporação. Percebeu-se que era preciso dispor de ferramentas que permitissem reunir esses dados em uma única base de informação e trabalhá-los de forma, que possibilitassem realizar diferentes análises sob variados ângulos. Apostila de Treinamento – Business Intelligence 9 (11) 3531 6550 - www.strattus.com.br Tradicionalmente, o Business Intelligence pertenceu ao domínio do pessoal de TI e dos especialistas em pesquisa de mercado, responsáveis pela extração de dados, pela implantação de processos e pela divulgação dos resultados aos executivos responsáveis pela tomada de decisões. Mas com o crescimento da Internet tudo mudou. Hoje, a rede permite disponibilizar soluções de BI para um número cada vez maior de pessoas dentro e fora das grandes corporações. 1.4. Business Intelligence – Benefícios O BI consegue trazer inúmeros benefícios para as organizações que o utilizem “de forma correta”. Veja abaixo uma lista destes benefícios. • Antecipar mudanças no mercado; • Antecipar ações dos competidores; • Descobrir novos ou potenciais competidores; • Aprender com os sucessos e as falhas dos outros; • Conhecer melhor suas possíveis aquisições ou parceiros; • Conhecer novas tecnologias, produtos ou processos que tenham impacto no seu negócio; • Conhecer sobre política, legislação ou mudanças regulamentais que possam afetar o seu negócio; • Entrar em novos negócios; • Rever suas próprias práticas de negócio; • Alinhar projetos de tecnologia com as metas estabelecidas pelas empresas na busca do máximo retorno do investimento; • Propiciar alternativas de investimento em tecnologia dentro do contexto estratégico, tecnológico e financeiro da empresa; • Ampliar a compreensão das tendências dos negócios, propiciando melhor consistência no momento de decisão de estratégias e ações; • Permitir uma análise de impacto sobre rumos financeiros e organizacionais para criar mudanças nas iniciativas gerenciais; • Facilitar a identificação de riscos e gerar segurança para migração de estratégias, criando maior efetividade nas implementações dos projetos; • Abrir um caminho orientado para implantações futuras de novas tecnologias, estabelecendo prazos e focando o orçamento dentro das perspectivas e objetivos da empresa; • Gerar, facilitar o acesso e distribuir informação de modo mais abrangente para obter envolvimento de todos os níveis da empresa. Podemos citar exemplos mais específicos como o setor comercial, marketing, economia e finanças, como as primeiras e mais promissoras áreas para a aplicação dos projetos de BI. Apostila de Treinamento – Business Intelligence 10 (11) 3531 6550 - www.strattus.com.br Na área comercial o BI oferece os seguintes benefícios: • Melhora no prognóstico de vendas; • Visibilidade contábil abrangente; • Integração entre orçamento de análise; melhor compreensão da segmentação do mercado; • Flexibilidade e interação dos relatórios financeiros; Melhoria nas decisões de distribuição de produtos. Benefícios para a área de marketing: • Campanha de marketing dirigido; • Informações personalizadas de cliente; • Comportamento e freqüência de compra ou preferências são obtidos de uma forma rápida e fácil com a utilização das ferramentas de BI; • Fidelização dos clientes; Mala direta e público alvo. Benefícios para a área de economia e finanças: • Ações personalizadas, avaliação de riscos e de oportunidades futuras; • Análise de crédito e de riscos em empresas do setor financeiro; • Controle de fraude de empresas de seguro. 1.5. Gestão do Conhecimento e Sistemas de Informação Antes de iniciarmos com o desenvolvimento e as aplicações referentes ao projeto de BI, vamos falar um pouco sobre a gestão do conhecimento e os sistemas de informação, já que na minha humilde visão, nenhuma empresa conseguirá criar um bom DW, sem que seus processos e ações não estejam baseados nestes dois conceitos. O conceito de Gestão do Conhecimento surgiu no inicio da década de 90 em que a Gestão do Conhecimento não era mais um tipo de moda de eficiência operacional. Agora a GC fazia parte da estratégia empresarial. 1.5.1. Conceitos básicos de Gestão do Conhecimento Sem compreender o conceito de dado, informação e conhecimento, não conseguiremos apresentar o processo de Gestão do Conhecimento. Apostila de Treinamento – Business Intelligence 11 (11) 3531 6550 - www.strattus.com.br 1.5.1.1. O que é dado? Dado pode ter significados distintos, dependendo do contexto no qual a palavra é utilizada. Para uma organização, dado é o registro estruturado de transações. É informação bruta,descrição exata de algo, ou de algum evento. Os dados em si não são dotados de relevância ou propósitos, mas são importantes porque são a matéria essencial para a criação da informação. 1.5.1.2. O que é a informação? Informação é uma mensagem com dados que fazem diferença, podendo ser audível ou visível. É onde existe um emitente e um receptor. É o resultado mais importante da produção humana. Definir informação não é uma tarefa fácil. Se partirmos da clássica distinção entre dados, informação e conhecimento encontraremos certa imprecisão. Informação é um termo que envolve todas as três palavras, e ainda serve como conexão entre os dados brutos e o conhecimento que no decorrer das análises pode ser obtido. Esses termos às vezes são utilizados de forma inadequada, o que podemos constatar quando verificamos que durante muito tempo as pessoas se referiam aos dados como informação. O significado da informação e seus propósitos exigem de imediato, a redefinição não apenas das tarefas que são realizadas com a ajuda desta informação, mas também dos processos que as utilizam como insumos. Veja que as pessoas transformam dados em informação. Ao contrário dos dados a informação exige análise. Este é sem dúvida o maior desafio imposto aos especialistas da T.I. 1.5.1.3. O que é conhecimento? Conhecimento é o estágio mais avançado da informação, mais valioso, mais difícil de gerenciar e de se obter. É valioso precisamente porque se trata de uma informação que recebeu um significado, uma interpretação. Algum indivíduo ou um grupo refletiu sobre conhecimento, acrescentou a ele sua própria sabedoria, considerou suas implicações mais amplas. O conhecimento, muitas vezes é tácito – existe simbolicamente na mente humana e é difícil de explicitar. O homem tenta insistentemente incorporar conhecimento às máquinas, mas os resultados ainda são tímidos e sua aplicação restrita. Apostila de Treinamento – Business Intelligence 12 (11) 3531 6550 - www.strattus.com.br O Conhecimento deriva da informação assim como esta, dos dados. O conhecimento não é puro nem simples; mas é uma mistura de elementos, é fluido e formalmente estruturado; é intuitivo e, portanto, difícil de ser colocado em palavras ou de ser plenamente entendido em termos lógicos. Ele existe dentro das pessoas e por isso é complexo e imprevisível. O Conhecimento humano pode ser classificado em dois tipos: Conhecimento explícito e Conhecimento tácito. NONAKA e TAKEUSHI [01]. Conhecimento explícito: É o que pode ser articulado na linguagem formal, inclusive em afirmações gramaticais, expressões matemáticas, especificações, manuais etc., facilmente transmitido, sistematizado e comunicado. Ele pode ser transmitido formal e facilmente entre os indivíduos. Esse foi o modo dominante de conhecimento na tradição filosófica ocidental. Conhecimento tácito: É difícil de ser articulado na linguagem formal, é um tipo de conhecimento mais importante. É o conhecimento pessoal incorporado à experiência individual e envolve fatores intangíveis como, por exemplo, crenças pessoais, perspectivas, sistema de valor, intuições, emoções e habilidades. É considerado como uma fonte importante de competitividade entre as Organizações. Só pode ser avaliado por meio da ação. Portanto, os conhecimentos explícito e tácito são unidades estruturais básicas que se complementam e a interação entre eles é a principal dinâmica da criação do conhecimento na organização de negócio. 1.5.2. Visão geral – Dados, informação e conhecimento: Dados Informação Conhecimento Simples observações sobre o estado do mundo Dados dotados de relevância e propósito Informação valiosa da mente humana. Inclui reflexão, síntese e contexto. - Facilmente estruturado - Facilmente obtido por máquinas - Freqüentemente quantificado - Facilmente transferível - Requer unidade de análise - Exige consenso em relação ao significado - Exige necessariamente a mediação humana - De difícil estruturação - De difícil captura em máquinas - Freqüentemente tácito - De difícil transferência A evolução no processo dados – informação - conhecimento exige cada vez mais o envolvimento humano. Os computadores são ótimos para nos ajudar a lidar com dados, mas quando evoluímos para informação a adequação diminui, tornando-se crítica com o conhecimento. Apostila de Treinamento – Business Intelligence 13 (11) 3531 6550 - www.strattus.com.br 1.5.3. Gestão do conhecimento A Gestão do Conhecimento é o processo de identificação, criação e aplicação dos conhecimentos que são estratégicos na vida de uma empresa. Permite a organização como um todo saber o que ela “SABE”. A gestão do conhecimento leva as organizações a mensurar com mais segurança a sua eficiência, tomar decisões acertadas com relação a melhor estratégia a ser adotada em relação a seus clientes, concorrentes, canais de distribuição e ciclo de vida de produtos e serviços. 1.5.4. Administração de dados Saber administrar dados é trabalhar o dado como base estratégica da organização, representando a empresa, independentemente dos processos das diferentes unidades que utilizem o dado. “A administração de dados (Gestão de dados) pode ser definida como uma função da organização responsável por desenvolver e administrar centralizadamente estratégias, procedimentos, prática e planos capazes de fornecer dados corporativos necessários, quando necessários, revestidos de integridade, privacidade, documentação e compartilhamento”. SERRA [02] A administração de dados em uma organização pode ter uma atuação ampla, participando efetivamente do Planejamento Estratégico Empresarial junto à direção das empresas onde permitiria detectar, entre outros, as necessidades de informação futuras, pois estaria planejando melhor suas bases de dados em atendimento aos negócios da corporação e atuando fortemente na administração dos dados informatizados e os não informatizados espalhados pelos diversos setores da organização. Portanto, ao administrador de dados, cabe: procurar identificar, descrever (documentar) e modelar (estruturar) os dados - chave a serem armazenados e gerenciados (manipulados), além de cuidar das adaptações impostas pelo Sistema Gerenciador de Banco de Dados Relacional (SGBDR) e dos aspectos de desempenho e segurança. 1.5.5. Sistemas de informação em organizações A tecnologia da informação esta redefinindo os fundamentos das regras de negócios. Atendimento ao cliente, operações, estratégias de produto e de marketing e distribuição dependem muito, ou às vezes até totalmente, dos Sistemas de Informação (SI). A tecnologia da informação e seus custos passaram a fazer parte integralmente do dia-a-dia das empresas. Apostila de Treinamento – Business Intelligence 14 (11) 3531 6550 - www.strattus.com.br É indiscutível que toda organização têm pelo menos dois problemas genéricos: como gerenciar as forças e grupos internos que geram seus produtos e serviços, e como lidar com clientes, legislações, concorrentes e tendências gerais sócios econômicas em seu ambiente. A principal razão pela qual são construídos os sistemas de informação é para resolver problemas organizacionais e para reagir a uma mudança no ambiente LAUDON [03]. Alguns sistemas de informação tratam unicamente de problemas internos, alguns de assuntos puramente externos e outros cumprem os dois papéis. São classificados costumeiramente pela especialidade funcional a que se destinam e pelo tipo de problema. Nenhum sistema sozinho rege todas as atividades de uma empresa. Os sistemas em nível estratégico ajudam os gerentes seniores a planejar as ações de longo prazo. Os sistemas táticos auxiliam os gerentes de nível médio a supervisionar e coordenar as atividades diárias da empresa. Os especialistas e funcionários de escritório utilizam sistemas de conhecimento para projetar,racionalizar serviços e lidar com documentos, enquanto os sistemas operacionais tratam das atividades diárias de produção e serviço. Imagem 01 Um sistema pode ser definido como um conjunto de partes coordenadas que concorrem para a realização de um conjunto de objetivos, seguindo um plano. Qualquer sistema pode ser encarado como um subsistema de um maior, sendo isso denominado hierarquia de sistemas. POLLONI [04]. Apostila de Treinamento – Business Intelligence 15 (11) 3531 6550 - www.strattus.com.br Segundo LAUDON [*]: “Um sistema de informação (S.I.) pode ser definido como um conjunto de componentes inter-relacionados trabalhando juntos para coletar, recuperar, processar, armazenar e distribuir informação com a finalidade de facilitar o planejamento, o controle, a coordenação, a análise e o processo decisório em empresas e outras organizações”. Um sistema é um grupo de componentes inter-relacionados que trabalham juntos de encontro a uma meta comum recebendo os resultados e produzindo resultados em um processo organizado de transformação. Um sistema dessa ordem, às vezes chamado de sistema dinâmico, possui três componentes ou funções básicas em interação: O conteúdo dos sistemas de informações varia de empresa para empresa, face às necessidades específicas de cada entidade. Em geral contêm informação sobre pessoas, lugares e coisas de interesse no ambiente ao redor da organização e dentro da própria organização. Sua principal tarefa é transformar a informação em uma forma utilizável para a coordenação do fluxo de trabalho de uma empresa, auxiliando a tomada de decisões em todos os níveis e a previsão e solução de assuntos complexos. Três atividades básicas compõem um sistema de informações: entrada (ou input), processamento e saída (ou output). A entrada envolve a captação ou coleta de fontes de dados brutos de dentro da organização ou de seu ambiente externo. São exemplos de dados: total de unidades vendidas ou compradas, datas, descrição de clientes e produtos. A entrada envolve a captação e reunião de elementos que entram no sistema para serem processados. O processamento envolve processos de transformação que convertem Resultado (entrada) em produto. Entre os exemplos se encontram um processo industrial, o processo da respiração humana ou cálculos matemáticos. A saída envolve a transferência de elementos produzidos por um processo de transformação até seu destino final. Produtos acabados, serviços humanos e informações genéricas devem ser transmitidos a seus usuários. Deve-se ressaltar que um sistema de informação pode ser formal ou informal, organizacional ou individual, baseado em computadores (SIBC) ou não. LAUDON [03]. Os SIBC são sistemas formais que se baseiam em definições de dados de procedimentos, mutuamente aceitos e relativamente fixos, para a coleta, armazenamento, processamento e distribuição de informação. Por exemplo, um Apostila de Treinamento – Business Intelligence 16 (11) 3531 6550 - www.strattus.com.br arquivo manual de nomes e endereços de clientes ou um catálogo alfabético por cartões em uma biblioteca é um sistema de informação formal, pois é estabelecido por uma organização e está de acordo com regras e procedimentos organizacionais; isto quer dizer que cada entrada no sistema tem o mesmo formato de informação e o mesmo tipo de conteúdo. Os sistemas informais, ao contrário, não têm essas características. Não há acordo sobre que informação existe como será armazenada e o que será armazenado ou processado. Muitos não deixam de ser importantes, na realidade, são muito poderosos e flexíveis. Exemplos desses sistemas informais são as redes de boato no escritório, grupos de amigos, estudantes e ainda pessoas com interesses comuns que trocam informações livremente sobre um grande número de assuntos, tópicos e personalidades mudando-os constantemente. Os SIBC são montados com a finalidade de resolver problemas importantes na organização. De acordo com POLLONI [*], um SIBC eficaz, deve: 1. “Produzir informações realmente necessárias, confiáveis, em tempo hábil e com custo condizente, atendendo aos requisitos operacionais e gerenciais de tomada de decisão”; 2. “Tem por bases diretrizes capazes de assegurar a realização dos objetivos, de maneira direta, simples e eficiente”; 3. “Integrar-se à estrutura da organização e auxiliar na coordenação das diferentes unidades organizacionais (departamentos, divisões, diretorias etc.) por ele interligadas”; 4. “Ter um fluxo de procedimentos (internos e externos ao processamento) racional, integrado, rápido e de menor custo possível”; 5. “Contar com dispositivos de controle interno que garantam a confiabilidade das informações de saída e adequada proteção aos dados controlados pelo Sistema”; 6. “Finalmente, ser simples, seguro e rápido em sua operação”. 1.5.6. Componentes de Sistemas de Informação. Os mais poderosos sistemas de informação da atualidade usam tecnologia da Informação para executar parte das funções de processamento, isto não quer dizer que apenas investindo em computadores teremos excelentes sistemas. Um sistema bem sucedido tem dimensões organizacional e humana atreladas aos componentes técnicos. Apostila de Treinamento – Business Intelligence 17 (11) 3531 6550 - www.strattus.com.br Ele existe para atender as necessidades organizacionais, incluindo problemas apresentados pelo ambiente externo criado por tendências políticas, demográficas, econômicas e sociais LAUDON [9]. As organizações devem moldar seus sistemas de informações de acordo com suas necessidades, hierarquias, estrutura funcional e sua cultura específica. Diferentes níveis e diferentes especialidades em uma organização criam interesses e pontos de vista diferentes, que freqüentemente conflitam entre si. Os sistemas de informação devem responder e resolver estes conflitos internos além de problemas criados pelo ambiente externo. As pessoas são os usuários dos sistemas de informação sob o enfoque de fornecimento de insumos e utilização de seus produtos, tudo integrado ao seu ambiente de trabalho. Suas atitudes a respeito de seus empregos, empregadores ou da tecnologia de computação podem ter um efeito poderoso sobre sua capacidade de usar sistema de informação de modo produtivo. Os sistemas de processamento de transações são exemplos importantes de sistemas de apoio às operações que registram e processam dados resultantes de transações das empresas. Eles processam transações de dois modos básicos. No processamento em lotes, os dados das transações são acumulados durante certo tempo e periodicamente processados. No processamento em tempo real (ou on-line), os dados são processados imediatamente depois da ocorrência de uma transação. Os sistemas de ponto -de - venda, por exemplo, em muitas lojas de varejo utilizam terminais eletrônicos no caixa para capturar e transmitir eletronicamente dados de vendas por conexões de telecomunicações para centros regionais de computação para processamento imediato (tempo real) ou a cada noite (lote). Os sistemas de controle de processo monitoram e controlam processos físicos. Uma refinaria de petróleo, por exemplo, utiliza sensores eletrônicos conectados a computadores para monitorar continuamente os processos químicos e fazer ajustes imediatos (em tempo real) que controlam o processo de refino. Os sistemas colaborativos aumentam as comunicações e a produtividade de equipe de projeto, por exemplo, podem usar correio eletrônico para enviar e receber mensagens eletrônicas e videoconferência para realizar reuniões eletrônicas e coordenar suas atividades. A tecnologia é o meio empregado para transformação e organização dos dados para utilização das pessoas. Não necessariamente um sistema de informação é computadorizado, podendo ser um sistema manual,tal como um arquivo de Apostila de Treinamento – Business Intelligence 18 (11) 3531 6550 - www.strattus.com.br fichários, porém os computadores substituíram a tecnologia manual de processamento de grandes volumes de dados e de trabalhos complexos de processamento. Os sistemas baseados em computadores têm como componentes técnicos: • O hardware de computador: É o equipamento físico usado para as tarefas de entrada, processamento e saída em um sistema de informação. É composto pela unidade de processamento do computador e nos vários dispositivos de entrada (teclado, “scanner”, “mouse”, “Etc”.). • (Dispositivos de reconhecimento de caracteres ópticos – OCR, dispositivos de controle de voz, sensores), saída (impressora, plotters, terminais de vídeo e outros tipos de dispositivos) e armazenamento (Disco magnético e disco ótico), além dos meios físicos que interligam estes dispositivos. • O software do computador: Consiste em instruções pré-programadas que coordenam o trabalho dos componentes do hardware para que executem os processos exigidos pelos vários sistemas de informação. • A tecnologia de armazenamento: serve para organizar e armazenar os dados utilizados por uma empresa. A tecnologia de armazenamento inclui os meios físicos para armazenar os dados, assim como o software que rege a organização de dados nesses meios físicos. • A tecnologia de comunicação: usada para conectar pontos diferentes do hardware e para transferir dados de um ponto a outro via redes. Quando os sistemas de informação se concentram em fornecer informação e apoio para a tomada de decisão eficaz pelos gerentes, eles são chamados sistemas de apoio gerencial. Fornecer informação e apoio para a tomada de decisão por parte de todos os tipos de gerentes (dos altos executivos, aos gerentes de nível médio e até os supervisores) é uma tarefa complexa. Em termos conceituais, vários tipos principais de sistemas de informação apóiam uma serie de responsabilidade administrativa do usuário final: 1. Sistemas de informação gerencial; 2. Sistemas de apoio à decisão; 3. Sistemas de informação executiva. Os sistemas de informação gerencial fornecem informação na forma de relatórios e exibições em vídeo para os gerentes. Os gerentes de vendas, por exemplo, podem utilizar seus terminais de computador para obter visualizações instantâneas sobre os resultados de vendas de seus produtos e acessar relatórios semanais de analise de vendas que avaliam as vendas realizadas por cada vendedor. Apostila de Treinamento – Business Intelligence 19 (11) 3531 6550 - www.strattus.com.br Os sistemas de apoio à decisão fornecem suporte computacional direto aos gerentes durante o processo de decisão. Os gerentes de propaganda podem utilizar um pacote de planilhas eletrônicas para realizar analise de simulação quando testam o impacto de orçamentos alternativos de propaganda sobre as vendas previstas para novos produtos. Os sistemas de informação executiva (EIS) fornecem informações critica em quadros de fácil visualização para uma multiplicidade de gerentes. Biografia [01] NONAKA e TAKEUCHI, 1997, IKUJIRO NONAKA, E HIROKATA TAKEUCHI, 1997, Criação de conhecimento na Empresa, Editora Campus, Rio de Janeiro, Brasil. [02] SERRA, 2002, LAÉRCIO SERRA, 2002, A Essência do Business Intelligence, Editora Berkeley, São Paulo, Brasil. [03] LAUDON, 2002, LAUDON, LAUDON, 2002, Gerenciamento de Sistemas de Informação, [04] POLLONI, 2001, ENRICO PLLONI e TIBOR SIMCSIK, 2002, Tecnologia da Informação Automatizada”, Editora Futura, São Paulo, Brasil. Apostila de Treinamento – Business Intelligence 20 (11) 3531 6550 - www.strattus.com.br Capítulo 2 – Data Warehouse? 2.1. Introdução Desde sua aparição no início da década de 90, e até os dias de hoje, o conceito e a operação de um DW (Data Warehouse), saíram do âmbito teórico, acadêmico, para a área empresarial, notando-se uma clara tendência no sentido de sua aceitação por praticamente todas as empresas que operam em ambientes competitivos. Antes da popularização dos DW e das ferramentas de ERP (Enterprise Resource Planning), uma verdadeira integração de dados era apenas um sonho, ou seja, era uma utopia a ser quebrada. Sistemas trocavam dados de forma que atendesse às necessidades de cada um deles, sendo por isso chamado "sistemas integrados", sem que essa integração sequer se aproximasse do que se vêem hoje nos ERP, cujos fornecedores têm dado a seus produtos características que os tornam facilmente fornecedores de dados aos warehouses. Cada aplicativo tinha uma visão da situação, um produto ou uma operação; uma visão corporativa das informações disponíveis era praticamente irreal. Dados históricos não existiam de forma organizada e os dados sintéticos disponíveis mostravam quase sempre apenas uma pequena parte da realidade da empresa. A integração dos dados permite a um executivo ter uma visão "corporativa" dos dados; essa integração, ou mais especificamente a migração dos dados mantidos pelos sistemas anteriores, no entanto, não é um processo fácil, nem barato. Tudo isso exige muito planejamento. Há algumas versões de Data Warehouse que merecem ser individualizadas por suas características especiais: uma delas é o Operational Data Store (ODS), que opera diretamente conectado aos dados operacionais, objetivando dar suporte a decisões de natureza operacional, com características que permitem a obtenção de tempos de resposta bastante rápidos. 2.2. O que é um Data Warehouse? Por Willian H. Inmon "Data Warehouse é um banco de dados orientado por assunto, integrado, não volátil e histórico, criado para suportar o processo de tomada de decisão." Outra boa definição para DW vem de Gupta (1997): "um ambiente estruturado, extensível, projetado para a análise de dados não voláteis, lógica e fisicamente Apostila de Treinamento – Business Intelligence 21 (11) 3531 6550 - www.strattus.com.br transformados, provenientes de diversas aplicações, alinhados com a estrutura da empresa, atualizados e mantidos por um longo período de tempo, referidos em termos utilizados no negócio e sumarizados para análise rápida". De forma bastante simples, a imagem 1 mostra a arquitetura de um DW, com os sistemas que o alimentam, seus usuários, o DW propriamente dito e os metadados, cada um desses conceitos será amplamente discutido mais à frente: Imagem 01 A definição de um Data Warehouse (por W. H. Inmon) necessita de um completo detalhamento, porque existem detalhes muito importantes e sutilezas básicas nas características de um Warehouse. • Orientado por Assunto • Integrado • Histórico • Não Volátil 2.2.1. Orientado por assunto A primeira característica de um DW é que ele está orientado ao redor do principal assunto da empresa. O caminho do registro, orientado ao assunto está em contraste com a mais clássica das aplicações orientadas por processos ao redor dos quais os sistemas operacionais mais antigos estão organizados. Apostila de Treinamento – Business Intelligence 22 (11) 3531 6550 - www.strattus.com.br A imagem 02 mostra o contraste entre os dois tipos de orientações. Operacional Data Warehouse Empréstimos Cartão Bancário Crédito Clientes Vendas Produtos Orientados ao assunto Orientados a aplicação Imagem 02 No geral, o mundo da informação operacional está todo baseado ao redor de aplicações e funções transacionais. O mundo do Data Warehouse está organizado ao redor do principal assunto assim como por exemplo, cliente, vendas, produtos e atividades. O alinhamento ao redor das áreas de assunto afeta o desenho e implementação do dado criado no Data Warehouse, ou seja, a área do assunto mais influente é a parte mais importante da estrutura chave. Omundo das aplicações está preocupado com o desenho dos processos e de banco de dados. O mundo do Data Warehouse está focado exclusivamente na modelagem de dados e desenho do banco de dados. Nota: O desenho de processos (como é na forma clássica) não é parte de um ambiente de Data Warehouse. As diferenças entre aplicações orientadas por processos/funções e as orientadas por assunto, mostra as diferenças no conteúdo dos dados e no nível de detalhes dos mesmos. No Data Warehouse são excluídos os dados que não devem ser usados no processo de DSS (Sistemas de Suporte a Decisão), enquanto no Apostila de Treinamento – Business Intelligence 23 (11) 3531 6550 - www.strattus.com.br ambiente operacional as aplicações contêm dados para satisfazer imediatamente as requisições funcionais/processamento que podem ou não ser usadas para análise de DSS. Outra importante maneira na qual os dados operacionais das aplicações difere dos dados para Data Warehouse está no relacionamento dos dados. Dados operacionais mantêm relacionamentos entre duas ou mais tabelas baseadas nas regras de negócio que estão em efeito. Registros do DW usam uma base de tempo e os relacionamentos criados no DW são muitos. Muitas regras de negócio são representadas no DW entre duas ou mais tabelas. 2.2.2. Integrado O mais importante aspecto do ambiente de DW é que dados criados dentro de um DW são integrados. SEMPRE. COM NENHUMA EXCEÇÃO. Essa é sem duvida a melhor essência do ambiente de warehouse... A integração mostra-se de diferentes maneiras: na convenção consistente de nomes, na forma consistente das variáveis, na estrutura consistente de códigos, nos atributos físicos consistente dos dados, e assim por diante. Veja os exemplos refletidos pela imagem 03 Imagem 03 Apostila de Treinamento – Business Intelligence 24 (11) 3531 6550 - www.strattus.com.br A habilidade coletiva de muitos analistas de aplicações em criar produtos sem consistência é lendária. A imagem 3 apresenta algumas das muitas diferenças importantes na maneira como as aplicações são desenhadas. • Codificação - desenvolvedores de aplicações têm preferido, por exemplo, codificar o campo SEXO das mais variadas formas. Um desenvolvedor representa SEXO com um "M" e um "F". Outro desenvolvedor representa SEXO com um "1" e um "0". Outro desenvolvedor representa SEXO com um "x" e um "y". E ainda outro desenvolvedor SEXO com "masculino" e "feminino". "M" e "F" são provavelmente bons para algumas representações. Entretanto quando SEXO é carregado para o DW de um projeto de BI, o mesmo deve ser convertido para um único formato; o formato do Data Warehouse. • Forma dos atributos - desenvolvedores de aplicações têm preferido ao longo dos anos utilizarem uma variedade de medidas. Um desenvolvedor armazena dados em centímetros. Outro desenvolvedor armazena em polegadas. Outro desenvolvedor de aplicação armazena dados em milhões de pés cúbicos por segundo. E outro desenvolvedor armazena informações em termos de jardas. Quando a informação chega no Data Warehouse é necessário ser mensurada e transformada de algum modo. 2.2.3. Histórico Todo registro no Data Warehouse é exato em algum momento do tempo. A característica básica do dado em warehouse é ter muitas fontes de dados diferentes no ambiente operacional. No ambiente operacional o dado é exato no momento do acesso, ou seja, no ambiente operacional quando você acessa uma unidade do dado, você espera que isto deva refletir os valores corretos no momento do acesso. Por causa do dado em DW ser exato em algum momento do tempo, o dado criado no warehouse é um "histórico". A imagem 4 mostra os valores históricos do dado no warehouse. Os valores históricos dos dados no DW são mostrados em várias maneiras. O modo mais simples é que o dado representa os dados sobre um horizonte de tempo distante. O horizonte de tempo representado pelo ambiente operacional é muito curto. O segundo modo que o "histórico" é mostrado no DW é na estrutura chave. Sempre na estrutura chave do DW existe, explicitamente, ou implicitamente, um elemento de tempo, assim como dia, semana, meses, etc. O elemento de tempo está quase sempre no final da chave concatenada criada no DW. Apostila de Treinamento – Business Intelligence 25 (11) 3531 6550 - www.strattus.com.br A terceira maneira que o "histórico" aparece no DW, é que uma vez o registro estando correto, não pode ser atualizado. Dado no DW e, para todos os propósitos práticos, é uma série longa de snapshots. Naturalmente se os snapshots do dado têm sido feitos incorretamente, eles não são alterados uma vez feitos. Em alguns casos isto pode ser sempre ilegal, podendo os snapshots no DW, serem alterados. Dados operacionais iniciam pontualmente no momento do acesso, podendo ser atualizados quando surgir à necessidade. Imagem 04 2.2.4. Não volátil A quarta característica definida para um DW é que ele é não volátil. Imagem 5 ilustra este aspecto no Data Warehouse. A imagem 5, apresenta que atualizações como, inclusão, exclusão, e alteração, são feitas regularmente no ambiente operacional de um registro básico. Mas a manipulação de dados básicos que ocorre no Data Warehouse é mais simples. Existem somente duas espécies de operações que ocorrem no DW, à carga inicial do dado, e o acesso ao dado. Esta não é uma atualização do dado (no sentido geral de atualização) no DW como parte normal do processamento. Para o nível de desenho, existe a necessidade de ter cautela nas atualizações anormais, o que não é um fato importante no DW, atualizações neste dado não são feitas. Existem meios para que no nível físico do desenho, permissões possam ser criadas para otimizar o acesso ao dado, particularmente em procedimentos com o uso de normalização e desnormalização física. Outras conseqüências da simplicidade das operações do DW estão na tecnologia básica usada para rodar no ambiente de DW. Como suporte para atualização de Apostila de Treinamento – Business Intelligence 26 (11) 3531 6550 - www.strattus.com.br registro por registro em modo on-line requer uma tecnologia com fundamentos muito complexos, em baixo da simplicidade de uso. A tecnologia que suporte backup, recovery, transação com integridade do dado, a detecção e correção de deadlock é muito complexa. Isto não é necessário para processamento de DW. As características de um Data Warehouse, desenho orientado ao assunto, integração dos dados com o Data Warehouse, histórico, e simplicidade de gerenciamento dos dados - todos conduzem para um ambiente que é MUITO, MUITO diferente do ambiente operacional básico. A fonte para aproximar todos os dados do Data Warehouse é o ambiente operacional. Muitas vezes as pessoas podem pensar que isto é mais uma redundância do dado entre os dois ambientes. De fato, na primeira impressão isso até ocorre, porém, este entendimento superficial é a necessidade de demonstrar o que está ocorrendo no Data Warehouse. De fato, este é o MÍNIMO de redundância do dado entre o ambiente operacional e o ambiente de Data Warehouse. Considere o seguinte: • Dado é filtrado quando passa do ambiente operacional para o ambiente de Data Warehouse. Muitos dados nunca saem do ambiente operacional. Somente o dado que é necessário para o processamento do DSS é encontrado no ambiente warehouse; • O histórico do dado é muito diferente de um ambiente para outro. Dado no ambiente operacional é muito recente. Dado no warehouse é muito antigo. Só na perspectiva de histórico recente, é muito pequeno o overlap entre o ambiente operacional e o ambiente de Data Warehouse; • O DW contém dados sumarizados que nunca são encontrados no ambiente operacional; • Dados sofrem uma fundamental transformação ao passar para o DW. Muitos dados são alterados significativamente após serem selecionados e movidos para o Data Warehouse.Dito de outra forma, muitos dados são fisicamente e radicalmente alterados quando movidos para o warehouse. Estes dados não são os mesmos que residem no ambiente operacional do ponto de vista de integração. Nota: Redundância de dados entre os dois ambientes é uma ocorrência rara, resultando em menos que 1% de redundância entre os dois ambientes. Apostila de Treinamento – Business Intelligence 27 (11) 3531 6550 - www.strattus.com.br Imagem 5 2.3. Um pouco mais sobre Data Warehouse Não existe uma receita pronta para desenvolver um DW, porem, é possível encontrar várias ferramentas no mercado mundial que atendem e, ou abrangem desde as etapas de extração e análise de dados, até a construção propriamente dita, e o gerenciamento do DW. Um ponto importante a ser ressaltado é a observação do valor do investimento no projeto como um todo, geralmente situado na casa dos milhões de dólares. Por estar diretamente vinculado aos negócios da empresa, o projeto exige não apenas o trabalho da equipe técnica, mas também a interação constante da área executiva, pois qualquer desvio ou mau entendimento na execução dos vários processos que envolvem um projeto de BI pode causar graves prejuízos ao levar a empresa a consultar informações não confiáveis e, conseqüentemente, a tomar decisões erradas. 2.4. Construindo um Data Warehouse Antes de qualquer coisa, vamos analisar a arquitetura de um DW, suas características e minúcias. Desta forma poderemos entender melhor as etapas operacionais que serão apresentas posteriormente nesta obra. Apostila de Treinamento – Business Intelligence 28 (11) 3531 6550 - www.strattus.com.br 2.4.1. Arquitetura de um Data Warehouse Podemos definir basicamente duas formas de apresentação da arquitetura de um DW, uma conceitual e outra física do modelo relacional que representa todo o sistema. 2.4.1.1. Visão Conceitual Data Marts BD Operacionais Fontes Externas Monitoração e Administração Repositório de Metadados Análises Data Mining Ferramentas Servidores OLAP Data Warehouse Metadados produzidos em todas as etapas ETL Imagem 6 O DW pode ser dividido em diversos Data Marts (DM), que departamentalizam os dados separando-os por setores dentro da organização. Nota: Os data marts serão apresentados posteriormente. Os dados contidos nos DW e nos DMs são gerenciados por um ou mais servidores de warehouse, os quais apresentam visões multidimensionais dos dados para uma variedade de ferramentas front end. A visão multidimensional geralmente é apresentada na forma de um ou mais cubos de dados, que indicam que as informações são visualizadas em linhas e Apostila de Treinamento – Business Intelligence 29 (11) 3531 6550 - www.strattus.com.br colunas como o formato tradicional das planilhas, porém existem mais dimensões, sendo que o cubo teria apenas mais uma dimensão. 2.4.1.2. Visão Física (em Camadas) • Camada de Bancos de Dados Operacionais e Fontes Externas: contém as bases de dados operacionais e podem ser compostas também de informações de fontes externas, estes dados recebem um tratamento especial para poderem ser incorporados ao DW; Imagem 07 Camada de Acesso aos Dados: Compõe o elo de ligação entre as ferramentas de acesso à informação e os bancos de dados operacionais, comunicando-se com diversos Sistemas de Gerenciamento de Banco de Dados (SGBDs) e sistemas de arquivos, sendo que a este conjunto de características dá-se o nome de acesso universal de dados; • Camada de Transporte ou Middleware: tem a função de gerenciar a transmissão das informações pelo ambiente de rede que serve de suporte para o sistema como um todo, separando as aplicações operacionais do formato real dos dados, realiza ainda a coleta de mensagens e transações e se encarrega de entregá-las nos locais e nos tempos determinados; Apostila de Treinamento – Business Intelligence 30 (11) 3531 6550 - www.strattus.com.br • Camada do Data Warehouse: constitui-se do armazenamento físico dos dados oriundos dos sistemas operacionais da empresa e externos, permitindo um acesso mais rápido e seguro aos dados do DW, além de prover maior flexibilidade de tratamento e facilidade manipulação; • Camada de Acesso à Informação: proporciona a interação com os usuários finais através de ferramentas visuais tradicionais, tais como sistemas de planilhas de cálculo, browsers, entre outras; • Camada de Metadados (Dicionário de Dados): os metadados descrevem os dados e a organização do sistema, podem ser ainda fórmulas utilizadas para cálculo, descrições das tabelas disponíveis aos usuários, descrições dos campos das tabelas, permissões de acesso, informações sobre os administradores do sistema, entre outras; • Camada de Gerenciamento de Processos: faz o controle destas tarefas que mantêm o sistema atualizado e consistente, gerenciando as diversas tarefas que são realizadas durante a construção e a manutenção dos componentes de um sistema de DW; • Camada de Gerenciamento de Replicação: serve para selecionar, editar, resumir, combinar e carregar no DW as informações a partir das bases operacionais e das fontes externas, envolvendo programação bastante complexa, sendo que existem ferramentas poderosas que permitem que estes processos sejam gerenciados de forma mais amigável, além do controle da qualidade dos dados que serão carregados. 2.4.2. Estrutura Física dos Dados do DW A respeito da disposição física dos dados, o DW pode ter uma estrutura centralizada em um único local ou então ser implementado de forma distribuída. Se optarmos pelo primeiro modelo, o centralizado; teremos um warehouse consolidado e o Banco de Dados (BD) formará um DW integrado. Definindo o projeto desta forma pode-se maximizar o poder de processamento e acelerar os processos de busca por informações analíticas. Definindo-se uma arquitetura federativa, pode-se distribuir a informação por função, separando os dados do setor financeiro em um servidor, os dados de marketing em outro local, e dados de manufatura em um terceiro lugar. Existe ainda uma terceira metodologia, na qual se considera uma arquitetura de DW separada por camadas, armazenando os dados mais resumidos em um servidor, dispondo os dados um pouco mais detalhados, em nível de detalhe Apostila de Treinamento – Business Intelligence 31 (11) 3531 6550 - www.strattus.com.br intermediário, em um segundo servidor, e por fim colocamos os dados mais detalhados (atômicos) em um terceiro servidor. A imagem 8, exemplifica esta metodologia. Camada 2 Camada 3Camada 1 Volume de Consultas / Número de Usuários Granularidade / Tamanho da Base Imagem 8 O primeiro servidor geralmente atende à maior parte das consultas, sendo que teremos um menor número de pedidos de acesso solicitados para a camada 2 e camada 3. O dimensionamento dos servidores é o seguinte: na primeira camada podemos ter uma configuração para suportar um grande número de usuários que farão diversas consultas, as quais trabalharão com um volume relativamente pequeno de dados. Já os servidores das outras duas camadas devem ser configurados para permitir processar grandes volumes de dados, porém não é necessária uma preocupação em configurar o sistema para suportar o acesso de um número maior de usuários. Isto explica-se pelo fato de que a maioria dos usuários terá suas perguntas respondidas pelas consultas iniciais da camada 1. Se algum usuário não se satisfizer com o nível de detalhe das respostas da camada 1, pode buscar maiores informações na camada 2 e até mesmo na camada 3. Concluímos então que poucos usuários farão acessos regulares à última camada, sendo que alguns nunca o farão além do nível inicial. 2.4.2.1. Arquitetura de Duas Camadas Existe uma arquitetura de implantação de sistemas de DW que consiste em utilizarum computador de alta capacidade como servidor. Este método disponibiliza aplicações aos usuários finais na forma de ferramentas front end, que servem para realizar as consultas, em conjunto com os componentes do servidor com ferramentas back end, que servem para municiar o DW com informações. Apostila de Treinamento – Business Intelligence 32 (11) 3531 6550 - www.strattus.com.br Organizações que podem crescer com a incorporação de outras empresas do mesmo ramo ou ainda de outro ramo de negócio, gradualmente acumulam diversos sistemas de computação legados, cada um com suas incompatibilidades de definições dos dados. Esta redundância e falta de consistência dos dados dificulta a administração das bases de dados, resultando numa dificuldade também para desenvolver-se novas aplicações front end. Esta arquitetura pode ser chamada de "sistema guarda-chuva", a qual possui um formato em que o cabo do guarda-chuva representa o servidor principal e as hastes representam os sistemas de consulta a este servidor. Imagem 9 A arquitetura ilustrada na imagem 9 pode ser usada para construir um sistema de DW em duas camadas, o qual possui os componentes dos clientes (front end) e os componentes do servidor (back end). Esta arquitetura é bastante conveniente, uma vez que utiliza os sistemas já existentes na empresa bem como os servidores de bancos de dados e requer um pequeno investimento em hardware e software. Um dos grandes problemas que existe neste tipo de arquitetura é o fato de não ser permitido o seu escalonamento, o que resulta, com o aumento do número de usuários, num desempenho ruim pelo gargalo existente entre os clientes e o servidor. Estas anomalias podem ocorrer pelo uso de estações clientes muito lentas e com muitos processos rodando simultaneamente. Apostila de Treinamento – Business Intelligence 33 (11) 3531 6550 - www.strattus.com.br 2.4.2.2. Arquitetura de Três Camadas Para tentar solucionar os problemas de desempenho resultantes do gargalo da arquitetura de duas camadas, existe uma arquitetura de informação em múltiplas camadas, como mostrado na imagem 10. Esta arquitetura é bastante flexível e suporta um grande número de serviços integrados, onde a interface do usuário (ferramentas front end), as funções de processamento do negócio e as funções de gerenciamento do BD são separadas em processos, os quais podem ser distribuídos através da arquitetura de informação. Este tipo de arquitetura em três camadas é bastante utilizado. Na primeira camada ficam as aplicações de interface com os usuários, que devem ser gráficas e baseadas em rede. Dados e regras de negócio podem ser compartilhados pela organização, assim como o BD para o DW, ficam armazenados em servidores de alta velocidade na segunda camada, a camada central. Na terceira e última camada estão localizadas as fontes de dados. Analisando o ambiente do DW, os servidores de BD e os servidores de aplicações da camada central provêem um acesso eficiente e rápido aos dados compartilhados. Com a separação dos servidores em transacional e analítico pode-se obter uma boa performance nas consultas e no processamento, sendo que deve haver disponibilidade de equipamentos e recursos satisfatórios de conexão entre os diversos componentes do sistema. Imagem 10 Apostila de Treinamento – Business Intelligence 34 (11) 3531 6550 - www.strattus.com.br 2.4.3. OLTP versus OLAP Os termos OLTP (on-line transaction processing – processamento on-line de transações) e OLAP (on-line analytical processing – processamento analítico on- line) descrevem o modo de processamento de cada uma das componentes da divisão proposta para os sistemas de Bancos de Dados. Bancos de dados operacionais atingem proporções de centenas de megabytes e até mesmo gigabytes. Consistência e capacidade de recuperação de dados são críticas, e a maximização do poder de processar transações é requerida para minimizar os problemas que podem ser causados pela concorrência de processos. Analisando sistemas OLAP, sistemas que dão apoio à decisão, pode-se notar o contraste com OLTP. No caso do processamento analítico deve-se dar maior importância aos dados históricos, totalizados e consolidados em detrimento dos dados detalhados ou individualizados. Uma vez que os DW contêm dados referentes a longos períodos de tempo, estes podem atingir dimensões muito maiores do que os bancos de dados operacionais, chegando a conter centenas de gigabytes e até mesmo terabytes de informações. A tabela 1 ilustra as diversidades apresentadas pelos dois tipos de sistemas, DW e Bancos de Dados Operacionais: Tabela 1: Diferenças entre os tipos de sistemas. Características DBs Operacionais DW Objetivo Operações diárias do negócio Analisar o negócio Uso Operacional Informativo Tipo de processamento OLTP OLAP Unidade de trabalho Inclusão, alteração, exclusão Carga e consulta Número de usuários Milhares Centenas Tipo de usuário Operadores Comunidade gerencial Interação do usuário Somente pré-definida Pré-definida e ad-hoc Condições dos dados Dados operacionais Dados Analíticos Volume Megabytes – gigabytes Gigabytes – terabytes Histórico 60 a 90 dias 5 a 10 anos Apostila de Treinamento – Business Intelligence 35 (11) 3531 6550 - www.strattus.com.br Granularidade Detalhados Detalhados e resumidos Redundância Não ocorre Ocorre Características BDs operacionais DW Estrutura Estática Variável Manutenção desejada Mínima Constante Acesso a registros Dezenas Milhares Atualização Contínua (tempo real) Periódica (em batch) Integridade Transação A cada atualização Número de índices Poucos/simples Muitos/complexos Intenção dos índices Localizar um registro Aperfeiçoar consultas 2.4.4. Projeto e Desenvolvimento de Sistemas de Data Warehouse A maioria dos autores sobre o assunto costuma dizer que o projeto de sistemas de DW é muito cansativo e penoso. Analisando pelo ângulo das gerências administrativas, muitas vezes pode-se imaginar que, uma vez que a base de dados transacional já está em funcionamento, torna-se automática a implantação de sistemas de análise e suporte à decisão. Muitas vezes é necessária uma completa reavaliação dos sistemas transacionais para que só então seja possível modelar um projeto de DW. De certa forma os projetos de sistemas de apoio à tomada de decisão não fogem ao modo tradicional de se implementar e implantar sistemas de informação. Deve ser feita uma análise do sistema como um todo utilizando-se inclusive da realização de diversas reuniões com os gerentes, funcionários e outros colaboradores envolvidos no tema. Os projetos de DMs devem ser inicialmente simples e úteis para que possam atingir seus objetivos de forma rápida e clara. Não é desejável para uma empresa investir uma quantia em dinheiro e tempo de seus funcionários em um projeto que pode levar meses para ser concluído e que durante o processo de implantação possa terminar por gerar controvérsias e até mesmo problemas para os setores. Após a conclusão de um projeto inicial bem implantado, com certeza surgirão outros projetos a partir de novas idéias dos próprios usuários, e também dos projetistas, em função da experiência adquirida durante o projeto do sistema inicial. Apostila de Treinamento – Business Intelligence 36 (11) 3531 6550 - www.strattus.com.br 2.4.4.1. Funções dos Componentes da Equipe O projeto e a posterior manutenção e utilização de sistemas de DW requerem o empenho de profissionais capacitados e com conhecimentos avançados em diversas áreas. Além disto, poderão ser definidas várias funções para os usuários. De acordo com o tamanho do projeto e o tipo de tecnologia utilizada, podem ser necessárias várias pessoas para realizar as diferentes funções. Nota-se também que algumas das funções da tabela 2 são necessárias apenas durantea fase de projeto do DW. Algumas funções podem variar conforme o estágio em que se encontra o projeto, assim como podem ser agrupadas para que uma só pessoa realize várias delas ao mesmo tempo. Tabela 2: Funções dos componentes da equipe de um DW. Funções Responsabilidades Gerente do Data Warehouse Define as estratégias pertinentes ao Data Warehouse; Planeja e gerencia o DW; Comunica os objetivos do DW para a equipe de desenvolvimento. Arquiteto de Dados (Modelador) Desenvolve o modelo de dados Analisa as exigências de dados Desenha as estruturas dos dados Define as visões gerenciais para os dados Administrador de Metadados (Modelador) Define os padrões de metadados Gerencia o repositório dos metadados Administrador do BD (DBA) Cria as estruturas físicas no BD Monitora o carregamento dos dados e a performance das consultas Usuário de nível gerencial Descreve os dados necessários Especifica as regras de negócio Testa os resultados das transformações dos dados Analista de processos e aplicações (Funcional) Desenvolve as aplicações de suporte à decisão Especialista em Aplicações Operacionais (DBA/Analista Sistemas) Indica onde estão os dados nos sistemas transacionais Analista e programador de conversões (ETL/DBA) Indica as fontes de dados para o DW Desenvolve os programas para selecionar e carregar os dados Especialista em suporte técnico (infra-estrutura) Desenvolve as atividades técnicas como instalar e configurar máquinas Instrutor Treina os usuários para acessar o DW Apostila de Treinamento – Business Intelligence 37 (11) 3531 6550 - www.strattus.com.br 2.4.4.2. Analise entre Model. Dimensional e Model. Relacional Um modelo entidade-relacionamento nem sempre é indicado para a construção de bancos de dados de apoio à decisão, os chamados DSS (Decision Suport Systems). Este tipo de modelagem é bastante apropriado para ser aplicado no desenvolvimento de sistemas transacionais em ambientes relacionais. Na atualidade, a forma mais utilizada pelos projetistas para armazenar grandes quantidades de dados é feita em bancos de dados relacionais, uma vez que sua estrutura de dados é bastante propícia para solucionar problemas de espaço em disco e também de desempenho. A questão fundamental é que as novas tecnologias de consulta e análise de dados requer recursos que a modelagem relacional não pode oferecer. É sugerido por vários autores do tema BI, a utilização de técnicas diferenciadas denominadas Modelagem Dimensional (MD), as quais estruturam os dados de forma diferente daquela definida pelos sistemas relacionais, possibilitando que todas as consultas sejam melhoradas. Não existem segredos para que se converta um modelo ER em um modelo dimensional. O gerenciador de banco de dados utilizado no MD é bastante diferente do tradicional que gerencia modelos ER, sendo que no primeiro são facilitadas a navegação e as consultas. O número de tabelas é reduzido pelo fato de existirem dimensões ligadas a uma tabela de fatos central, logo o gerenciador pode trabalhar com um número menor de chaves. A teoria de bancos de dados relacionais sugere aos desenvolvedores que procurem eliminar as redundâncias dos dados através da modelagem ER e normalizações. As tabelas definidas são relacionadas através de chaves e utiliza- se estas tabelas normalizadas para reduzir o número de atualizações necessárias nesta base. O grande problema dos modelos ER é que o número de tabelas inconsistentes é grande. Qualquer pessoa que tenha projetado um sistema de informação que controle um processo dentro de uma empresa de porte médio deve possuir pelo menos um grande mapa desenhado com as entidades relacionadas entre si. Podem existem nele centenas de tabelas interligadas por centenas de relacionamentos. Este modelo pode ser visto pelos olhos do projetista e das pessoas ligadas à tecnologia de banco de dados como um modelo consistente e bem arranjado, o qual supre as necessidades de consistência e desempenho das transações que são realizadas em grandes quantidades a todo o momento. Porém, sob a ótica do usuário final, este modelo arquitetado é dificílimo, para não dizer impossível, de ser entendido. Apostila de Treinamento – Business Intelligence 38 (11) 3531 6550 - www.strattus.com.br Já um modelo dimensional nos parece diferente. Um modelo estrela organiza de forma mais simplificada o processo como um todo, reduzindo a amplitude dos fatos desejados e trazendo as questões importantes para o foco. Por exemplo, na Imagem 11 é apresentado um modelo dimensional de um processo empresarial típico: um caixa registrador de vendas em uma cadeia de varejo. Normalmente se chama este tipo de diagrama de Diagrama Estrela. Observe que na tabela central, a tabela de fatos, estão colocadas chaves para as dimensões e alguns atributos que representam medidas numéricas do negócio. Esta tabela é tradicionalmente a maior em número de registros. Imagem 11 Sistemas de DW podem ter várias tabelas de fatos, cada uma representando um processo diferente dentro da empresa, constituindo os DMs, que podem ser ligados uns aos outros dependendo da necessidade e também da possibilidade de que isto aconteça. As tabelas de fatos são ligadas através de relacionamento a diversas tabelas de dimensões utilizando chaves. Estas tabelas são muito menores em tamanho e número de registros do que a tabela de fatos a que são ligadas. Cada tabela de dimensão tem uma única chave e os campos destas tabelas são tipicamente textuais e utilizados como fontes para compor os cabeçalhos de relatórios. Um esquema estrela como o da imagem 11 se baseia em dois tipos de consultas (queries): browse e join multitabelas. A query browse é definida para ser aplicada em uma tabela apenas, sem que seja necessário utilizar comandos join. Um exemplo deste tipo de consulta ocorre quando um usuário abre um menu pull-down de toda a lista de itens de uma tabela que representa uma dimensão do modelo estrela a fim de consultar seus atributos. Apostila de Treinamento – Business Intelligence 39 (11) 3531 6550 - www.strattus.com.br Normalmente os dados resultantes desta consulta serão apresentados de forma automática, uma vez que, teoricamente, tudo o que se quer já está na tela. As consultas com joins multitabelas são precedidas por uma série de browses que fazem uso da estrutura do modelo estrela através de diversas uniões entre a tabela de fatos e as dimensões. Dificilmente este tipo de consulta será atendido rapidamente, uma vez que são localizadas centenas ou até milhares de registros de tabelas subjacentes para darem uma resposta resumida para o usuário. A modelagem dimensional é um processo top-down. Primeiro são identificados os processos empresariais que serão a base para a criação das tabelas de fatos, tabelas estas que serão povoadas como os dados numéricos destes fatos. A modelagem ER habitual possui grande parte de seu conjunto formado pelas tabelas de dimensão e por técnicas de normalização. Se as tabelas de dimensão forem normalizadas em estruturas de "floco de neve", onde estas dimensões são compostas de mais de uma tabela, podem surgir dois problemas. Primeiro, o modelo de dados fica bastante complexo para ser apresentado aos usuários. Segundo, a união entre as diversas partes do floco de neve irá comprometer o desempenho do sistema como um todo. O desempenho durante a fase de atualização das tabelas raramente é importante em sistemas de apoio à decisão, uma vez que esta operação é feita, como já foi dito neste trabalho, durante a noite ou em momentos em que não se esteja utilizando os sistemas da empresa a pleno vapor. Mesmo assim, alguns projetistas utilizam o argumento de melhorar este desempenho para justificarem a necessidade de normalizar as dimensões. Um projeto de banco de dados dimensional tem uma estrutura fixa onde não há
Compartilhar