Baixe o app para aproveitar ainda mais
Prévia do material em texto
Brasília-DF. Business intelligence – Bi Elaboração João Carlos Lopes Fernandes Produção Equipe Técnica de Avaliação, Revisão Linguística e Editoração Sumário APRESENTAÇÃO .................................................................................................................................. 4 ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA ..................................................................... 5 INTRODUÇÃO ..................................................................................................................................... 7 UNIDADE I APLICAÇÃO DO BI ............................................................................................................................... 9 CAPÍTULO 1 DEFINIÇÕES DE BI ................................................................................................................... 9 CAPÍTULO 2 COMO INICIAR UM PROJETO DE BI ........................................................................................ 12 CAPÍTULO 3 DATA MARTS ......................................................................................................................... 35 UNIDADE II INTELIGÊNCIA CORPORATIVA .............................................................................................................. 45 CAPÍTULO 1 OPEN SOURCE BI .................................................................................................................. 45 CAPÍTULO 2 BI PARA DADOS ESTRUTURADOS, SEMIESTRUTURADOS E NÃO ESTRUTURADOS ............................ 48 CAPÍTULO 3 DEZ PASSOS PARA A IMPLANTAÇÃO DE PROJETOS DE BUSINESS INTELLIGENCE COM SUCESSO ............................................................................................................... 53 PARA (NÃO) FINALIZAR ...................................................................................................................... 57 REFERÊNCIAS .................................................................................................................................... 58 4 Apresentação Caro aluno A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se entendem necessários para o desenvolvimento do estudo com segurança e qualidade. Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como pela interatividade e modernidade de sua estrutura formal, adequadas à metodologia da Educação a Distância – EaD. Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos específicos da área e atuar de forma competente e conscienciosa, como convém ao profissional que busca a formação continuada para vencer os desafios que a evolução científico-tecnológica impõe ao mundo contemporâneo. Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na profissional. Utilize-a como instrumento para seu sucesso na carreira. Conselho Editorial 5 Organização do Caderno de Estudos e Pesquisa Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de textos básicos, com questões para reflexão, entre outros recursos editoriais que visam a tornar sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta, para aprofundar os estudos com leituras e pesquisas complementares. A seguir, uma breve descrição dos ícones utilizados na organização dos Cadernos de Estudos e Pesquisa. Provocação Textos que buscam instigar o aluno a refletir sobre determinado assunto antes mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor conteudista. Para refletir Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As reflexões são o ponto de partida para a construção de suas conclusões. Sugestão de estudo complementar Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo, discussões em fóruns ou encontros presenciais quando for o caso. Praticando Sugestão de atividades, no decorrer das leituras, com o objetivo didático de fortalecer o processo de aprendizagem do aluno. Atenção Chamadas para alertar detalhes/tópicos importantes que contribuam para a síntese/conclusão do assunto abordado. 6 Saiba mais Informações complementares para elucidar a construção das sínteses/conclusões sobre o assunto abordado. Sintetizando Trecho que busca resumir informações relevantes do conteúdo, facilitando o entendimento pelo aluno sobre trechos mais complexos. Exercício de fixação Atividades que buscam reforçar a assimilação e fixação dos períodos que o autor/ conteudista achar mais relevante em relação a aprendizagem de seu módulo (não há registro de menção). Avaliação Final Questionário com 10 questões objetivas, baseadas nos objetivos do curso, que visam verificar a aprendizagem do curso (há registro de menção). É a única atividade do curso que vale nota, ou seja, é a atividade que o aluno fará para saber se pode ou não receber a certificação. Para (não) finalizar Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem ou estimula ponderações complementares sobre o módulo estudado. 7 Introdução Os softwares de Business Intelligence (BI) surgiram nas décadas de 1970 e 1980 para suprir a necessidade de se obter informações rápidas e precisas que pudessem de forma antecipada apoiar os executivos em suas decisões. Ele surgiu em forma de aplicações na linguagem COBOL e relatórios do tipo texto, e atualmente evoluiu para complexas ferramentas e plataformas. Atualmente existem inúmeras ferramentas para se desenhar os relatórios e apoiar os processamentos analíticos de forma on-line (OLAP). As plataformas de BI combinam ferramentas de banco de dados com portais e tecnologias de integração que proporcionam aplicações bem sofisticadas. A linguagem de programação COBOL exigia o envolvimento de vários profissionais de Tecnologia da Informação (TI) e meses para gerar simples relatórios, as soluções atuais já são concebidas para os utilizadores comuns das empresas, ou seja, não é necessário o profundo conhecimento em TI para utiliza-las. Elas são capazes de gerar relatórios em tempo real e com isso auxiliar as decisões empresariais. O BI possui um grande potencial, ele permite um acesso rápido às informações que são utilizadas na tomada de decisões empresariais. No entanto, como acontece com qualquer outro tipo de tecnologia, seu sucesso depende muito da perfeita implementação e de uma boa parametrização que esteja relacionada ao negócio de cada empresa. Com tantas vantagens oferecidas pelo BI, porque será que muitas empresas ainda sentem-se desamparadas no quesito: acesso à informação e geração de relatórios para tomada de decisão? Objetivos » Promover a disseminação da utilização do BI e sua perfeita instalação e parametrização. » Analisar os tipos de sistemas que podem se integrar a uma solução de BI. » Compreender e analisar os tipos de relatórios utilizados no apoio à decisão. 9 UNIDADE IAPLICAÇÃO DO BI CAPÍTULO 1 Definições de BI O conceito de Business Intelligence (BI) Antes do advento da automatização, as informações eram tratadas de forma individual e não estruturada e as decisões tomadas utilizavam-se de um elevado componente de intuição (experiência profissional). Com os primeiros computadores (mainframes, década 1960), iniciaram-se as primeiras tarefas de automatização e armazenamento, mas além das baixas velocidades de processamento, havia problemas na integração dos dados ou incompatibilidade entre sistemas.Simples relatórios gerenciais poderiam demorar semanas ou mesmo até meses para serem elaborados. Um dos principais conceitos disponíveis atualmente, no que diz respeito à gestão empresarial, é o BI. Ele é um termo muito utilizado, mas ainda pouco compreendido no mundo dos negócios. As suas metas fundamentais são genericamente, recolher dados, transformá-los em informação (por meio da descoberta de padrões e tendências) e, sequencialmente transformar informação em conhecimento útil e oportuno para a tomada de uma decisão empresarial. Imagine você estar sentado dentro de uma cabine de um grande jato e em sua frente existir um enorme painel de instrumentos com mostradores e indicadores. Este painel informa o estado interno do avião, como: velocidade, altitude, combustível, pressão do óleo, e assim por diante. Em suas mãos esta à vida de varias pessoas, imagine uma sinalização de falha indicada neste painel. O que você vai fazer, qual será o tempo para a tomada de decisão? 10 UNIDADE I │ APLICAÇÃO DO BI O que antecedeu o Business Intelligence? Decorrente da necessidade da integração entre os sistemas de controle de uma empresa, no final do século XX, foram criados os Sistemas Integrados de Gestão (SIG). Eles prometiam aperfeiçoar ainda mais os processos empresariais e realizar uma forte integração nos softwares utilizados nas empresas, desde o pedido do cliente até o produto final, passando pelo departamento financeiro e produção em outros, o produto ou serviço era integrado, ou seja, o produto acabado era devidamente entregue ao cliente e os sistemas atualizados em tempo real. Aperfeiçoando-se as ideias surgiram, os ERP (Enterprise Resouces Planning) ou Planejamento de Recursos Empresariais, que é uma evolução natural dos sistemas integrados. Também chamado de “Pacotes Integrados de Gestão Empresarial”, o EPR é um software que abrange toda a cadeia de suprimentos ou suplly chain. Ele é um sistema que controla uma empresa de ponta a ponta, da produção às finanças. Realmente as empresas conseguiram melhorar seus processos com a utilização dos ERPs, mas faltava algo que auxiliasse na análise das informações. Informações muito importantes que acabavam caindo no esquecimento, armazenadas nos grandes bancos de dados destes sistemas e muitas vezes guardadas em backups antigos. Assim surgiu o Business Intelligence (BI), como uma solução para ordenação e aproveitamento de todas as informações geradas por uma empresa, tornando-se uma ferramenta indispensável para uma gestão empresarial consciente, com tomadas de decisão voltadas a realidade do negócio e não mais apenas pela experiência de seus dirigentes. No mercado competitivo atual uma decisão errada pode decretar a falência de uma empresa. Decisões baseadas em dados fragmentados obtidos pelos sistemas de informações tradicionais não oferecem uma informação consistente, caso não exista uma forte integração entre eles. Quanto mais dispersos os dados na empresa, maior será a chance de um “erro humano”, ou seja, na integração de varias bases de dados para geração de um relatório alguns dados poderão ser perdidos ou mesmo interpretados de forma errada. Integração de BI com outras tecnologias ERP (Enterprise Resouces Planning) Os ERPs são sistemas integrados que se utilizam de um mesmo banco de dados para realizar suas transações, facilitando o fluxo das informações, diminuindo o retrabalho (cada departamento digita os mesmo dados de um funcionário, por exemplo) e sendo assim, diminuindo o erro da integração entre sistemas autônomos. Ele integra os dados e processos de vários departamentos, possibilitando a automação e armazenamento de todas as informações do negócio. 11 APLICAÇÃO DO BI │ UNIDADE I Por meio dele é possível monitorar todas as transações de forma integrada e em tempo real. Com ele também ficam bem reduzidas às inserções manuais nos sistemas, produzindo assim uma imediata redução de custos com pessoal e redução no tempo de resposta. Com a utilização dos ERPs, acaba-se com a complexidade do acompanhamento isolado de cada processo, desse modo à empresa consegue mais subsídios e tempo para se planejar. A troca de documentos entre departamentos que demorava horas ou mesmo dias, decorrente de múltiplas integrações, pode ser realizada em minutos ou até mesmo segundos. A decisão da instalação de um ERP deve ser acompanhada de um diagnóstico técnico sobre as reais necessidades da empresa. Se a empresa pular essa etapa, pode acontecer que a escolha do ERP não seja compatível com os negócios da empresa, isso levará a gastos excessivos e resultados medíocres. Não é incomum a verificação de empresas que ficam anos tentando concluir a implementação desse tipo de sistema, simplesmente, por falta do apoio técnico na hora de sua aquisição. 12 CAPÍTULO 2 Como iniciar um projeto de BI Data Warehouse (DW) O que é um data warehouse? Um data warehouse (DW) ou armazém de dados é um banco de dados que possui algumas características específicas, como por exemplo, a manipulação dos dados históricos de uma empresa. Os dados de um DW são utilizados na geração dos relatórios para a análise e tomada de decisões nas mais diversas situações empresariais atravessadas pelos executivos de uma empresa. Os dados contidos em um DW são sumarizados, periódicos e descritivos. Com a sua manipulação é possível que os executivos recebam informações que os guiem em suas tomadas de decisões. Eles são baseados em fatos e não em intuições e especulações. Um DW concentra dados de diversos sistemas estruturados e outras bases de dados, de diferentes plataformas. Os dados antes de serem armazenados são filtrados, normalizados, reorganizados e sumarizados para constituírem uma base de dados confiável e íntegra. Muitas vezes uma informação está representada de diversas formas diferentes, dependendo do sistema de informação que está sendo utilizado. Para a geração de um DW sustentável, os dados devem ser “garimpados” para a localização de informações escondidas nos diversos dados de uma empresa. A maioria dos sistemas de informação é parametrizada, e as pesquisas às informações são pré-definidas e não oferecem flexibilidade ao usuário final, e muitas vezes nem aos próprios analistas de sistema. O DW deve permitir o download de informações para a sua utilização em outras ferramentas e plataformas, tais como: planilhas eletrônicas e até mesmo outros bancos de dados. Diferente dos bancos de dados tradicionais que são orientados a transações on-line em tempo real, o DW deve manter um controle rígido do histórico das informações. Com o cruzamento multidimensional dos dados pode-se descobrir associações que nem mesmo os usuários imaginariam pesquisar. Decorrente do grande volume de dados que podem ser gerados por um DW, que muitas vezes ultrapassam os terabytes, a eficiência dos sistemas pode ficar comprometida (tempo de resposta). Desta maneira, para melhorar esta eficiência, existe uma forma de sua fragmentação no DW (quebra em pedaços menores) que são denominados de Data Marts. Eles são orientados a determinados assuntos da empresa. 13 APLICAÇÃO DO BI │ UNIDADE I Benefícios da utilização da utilização de um Data Warehouse » Ele mantém o histórico de dados, mesmo se os sistemas transacionais não os fizerem. » Ele integra os dados de vários sistemas, permitindo uma visão consolidada de toda a empresa e principalmente quando existem várias empresas coligadas ou filiais com sistemas de informações diferentes. » Ele padroniza os códigos e descrições, o que permite uma melhor gestão na definição de possíveis compras de material para múltiplas empresas, por exemplo. » Ele fornece um único modelo de dados para toda a empresa, independente da fonte de dados que utilizada (texto, BD, planilhas etc.). » Ele reestrutura os dados de modo a satisfazer as necessidades do negócio, auxiliando e melhorando o desempenho das consultas. » Ele agrega valor às aplicações denegócio operacional, principalmente a gestão de relacionamento com clientes (CRM). » Ele permite a fácil integração entre os sistemas dos fornecedores e os de compra das empresas, permitindo uma melhor gestão de materiais. Um DW (Data Warehousing) é projetado para realizar tanto o processamento analítico (OLAP, On- line Analytical Processing) como o transacional (OLTP, On-line Transactional Processing). Dificuldades encontradas na implementação A adoção de um sistema ERP requer uma mudança de cultura interna da organização. Porém, os conceitos de BI, ao contrário do ERP, não modificam a forma de trabalhar da empresa de forma tão radical, mas se adequam a ela e estão intimamente atrelados à estratégia de negócios. Alguns projetos falham devido à adoção de hardware e software errados. Isso pode ocorrer quando são avaliadas apenas as características funcionais das ferramentas de BI escolhidas. O cuidado com o tratamento dos dados é outro elemento fundamental para que o projeto de BI não resulte em um grande fracasso. Inevitavelmente quando se fala em BI não há como se deixar de considerar a importância do DW e as dificuldades inerentes à sua implementação. O desenvolvimento desse tipo de repositório de dados é extremamente trabalhoso, caro e requer profissionais altamente qualificados. Erros simples podem ser fatais na fase de elaboração e desenvolvimento de um projeto de DW, resultando na construção de um amontoado de dados estáticos e inúteis. 14 UNIDADE I │ APLICAÇÃO DO BI Outra etapa bastante crítica de um projeto de DW é a de ETL (Extração, Tratamento e Limpeza dos dados), pois se uma informação é carregada de forma equivocada trará consequências imprevisíveis nas fases posteriores. Por último, porém não menos importante, a implantação de um projeto de BI não é barata. As empresas precisarão investir em consultoria, hardware, software e treinamento. Ferramentas de BI, plataformas e perfis de usuários OLAP (On-line Analytical Processing) Atualmente o OLAP (On-line Analytical Processing) é um dos muitos componentes do framework de Business Intelligence, assim como outras tecnologias de suporte à decisão, tais como: visualização de dados, data mining, data warehousing. Alguns fornecedores têm feito o esforço de incluir na sua linha de produtos estas tecnologias de suporte à decisão, outros fornecedores optaram por um produto aberto formando parcerias com fornecedores de produtos complementares. A seguir uma breve história do lançamento de alguns produtos OLAP: » Em 1970, o Express foi à primeira ferramenta multidimensional usada para aplicações de marketing. Foi adquirida pela Oracle em 1995. » Em 1982, o Comshare System W foi a primeira ferramenta OLAP usada para aplicações financeiras. » Em 1984, o Metaphor foi o primeiro ROLAP. Foi adquirido pela IBM em 1991. » Em 1985, o Pilot Command Center foi o primeiro EIS Cliente/Servidor estilo OLAP. » Em 1992, o Arbor Essbase foi o primeiro OLAP Cliente/Servidor que usou a planilha eletrônica com front-end. » Em 1994, o MicroStrategy DSS Agent foi o primeiro ROLAP com um engine multidimensional. » Em 1995, o Holos 4.0 foi o primeiro HOLAP. » Em 1996, o Business Objects foi a primeira ferramenta que proveu ao mesmo tempo relatórios relacionais e multidimensionais de cubos construídos dinamicamente no desktop de dados relacionais. » Em 1998, a IBM lança o IBM DB2 OLAP. » Em 1998, a Microsoft lança Microsoft OLAP. 15 APLICAÇÃO DO BI │ UNIDADE I O OLAP é um software com uma tecnologia utilizada para organizar grande quantidade de dados (bancos de dados). Ele permite aos analistas de negócios, gerentes e executivos analisar e visualizar dados corporativos de forma rápida, consistente e principalmente interativa. Os bancos de dados OLAP são divididos em uma estrutura denominada de “cubos”, cada cubo é organizado e projetado por um administrador que ajusta à forma que as informações serão recuperadas e analisadas. Este administrador deve possuir uma visão geral do negocio, pois é ele que prepara os dados para criação dos relatórios e gráficos dinâmicos que serão utilizados como parâmetros para uma tomada de decisão. Um executivo normalmente deseja obter uma visão geral de seu negócio, para observar tendências do mercado e determinar para qual rumo à empresa deve seguir. Para verificar essas tendências a base de dados consultada deverá ser dividida por um determinado número de variáveis, que devem refletir a situação atual da empresa e mostrar de forma analítica os resultados, passados, presentes e as previsões futuras. A este processo denominamos “Inteligência comercial” que nada mais é do que extrair dados de um banco de dados OLAP e, em seguida, analisar esses dados e transforma-los em informações que possam ser usadas na tomada de decisões de negócios. Por exemplo, o OLAP e a inteligência artificial ajudam a responder aos seguintes tipos de questões sobre os dados de uma empresa: » Como as vendas totais de todos os produtos de 2013 se comparam às vendas totais de 2012? » Como a nossa lucratividade atual se compara com o mesmo período durante os últimos dez anos? » Quanto os clientes com mais de 40 anos gastaram no ano passado, e como esse comportamento mudou dos últimos 3 anos? » Quantos produtos foram vendidos em uma determinada região específica este mês em comparação ao mesmo período do ano passado? » Qual produto obteve uma curva ascendente de venda nos últimos anos? » Localizar quais produtos foram mais vendidos por região e seus distribuidores. Os bancos de dados OLAP são otimizados para consulta e geração de relatórios, ao invés de realizar os processamentos das transações. Os dados de origem de um OLAP são oriundos dos bancos de dado OLTP (On-line Transactional Processing) que são comumente armazenados em depósitos de dados. Os bancos de dados OLAP foram criados para acelerar a recuperação de dados. Eles são derivados de dados históricos, e agregados em estruturas que permitem uma análise sofisticada. Os dados OLAP também são organizados de forma hierárquica e armazenados em estruturas denominadas “cubos” ao invés de tabelas. 16 UNIDADE I │ APLICAÇÃO DO BI Esta tecnologia é muito sofisticada e utiliza estruturas multidimensionais para fornecer acesso rápido aos dados que serão analisados. Esse tipo de organização facilita a confecção de relatórios e gráficos dinâmicos. Ela possibilidade a geração de resumos de alto nível, que fornecem, por exemplo, os totais de vendas para um país ou região, com a exibição dos detalhes referentes aos locais em que as vendas são particularmente altas ou baixas indexadas por mês, por dia ou por hora. Um banco de dados OLAP possui dois tipos básicos de dados: » As medidas, que são dados numéricos, as quantidades e médias que você usa para tomar decisões comerciais estando bem informado. » As dimensões, que são as categorias que você usa para organizar essas medidas. Os bancos de dados OLAP ajudam a organizar os dados em níveis de detalhe, usando as mesmas categorias utilizadas no negocio e que os usuários já estão familiarizados para analisar. A seguir são descritos os componentes OLAP em mais detalhes. Cubo É uma estrutura de dados que agrega as medidas por níveis e hierarquias de cada uma das dimensões que devem ser analisadas. Os cubos combinam várias dimensões, tais como tempo, geografia, produtos entre outas, com dados resumidos, como números ou intervalo de vendas. Os cubos são uma metáfora de um conceito complexo, eles não são “cubos” no sentido matemático, porque não necessariamente possuem lados iguais. Medida É um conjunto de valores em um cubo que é baseado em uma coluna na tabela de fato do cubo e são geralmente valores numéricos. As medidas são os valores centrais do cubo que são processadas, agregadas e analisadas. Temos como exemplo a inclusão do número de vendas, o lucro correspondente por venda, impostos e custos de produção. Membro É um item em uma hierarquia,representa uma ou mais ocorrências nos dados, ou seja, ele pode ser “exclusivo” ou “não exclusivo”. Por exemplo, 2012 e 2017 representam membros exclusivos no nível de ano de uma dimensão temporal, em que de janeiro a dezembro representam membros “não exclusivos” no nível de mês, pois poderá haver mais de um janeiro na dimensão de tempo, se ela contiver dados de vários anos. 17 APLICAÇÃO DO BI │ UNIDADE I Membro calculado É um membro de uma dimensão cujo valor é resultado de um cálculo durante o tempo de execução, que é realizado por meio de uma expressão lógica. Os valores deste membro podem ser derivados de outros valores de outros membros. Por exemplo, um membro calculado, Estoque Atual pode ser determinado pela subtração do valor do membro, Venda, do valor do membro, Estoque. Dimensão É um conjunto de uma ou mais hierarquias organizadas em níveis em um cubo que é usado como a base para a análise de dados. Por exemplo, uma dimensão geográfica talvez inclua níveis para País/Região, Estado/Província e Cidade. Uma dimensão de tempo inclui níveis como ano, semestre, trimestre, bimestre, mês e dia. Hierarquia É uma estrutura em árvore lógica que organiza os membros de uma dimensão de forma que cada um tenha seus níveis de integração correspondentes (pai e filhos). Um filho é considerado o próximo nível inferior em uma hierarquia que está diretamente relacionada ao membro atual. Como exemplo, em uma hierarquia “Tempo” que contém os níveis Ano, Semestre, Trimestre, Bimestre, Mês e Dia, Janeiro é um filho de Ano. Um pai é um membro na próxima hierarquia superior que está diretamente relacionado ao membro atual. O valor pai é geralmente uma consolidação dos valores de todos os seus filhos. Por exemplo, em uma hierarquia “Tempo” que contém os níveis Ano, Semestre, Trimestre, Bimestre, Mês e Dia, Ano é o pai de Janeiro que é pai de Dia. Nível Em uma hierarquia, os dados podem ser organizados em níveis de detalhamento inferior e superior, tais como níveis Ano, Trimestre, Mês e Dia em uma hierarquia Tempo. Recursos do OLAP Acesso a dados OLAP A conexão às fontes de dados OLAP ocorre da mesma maneira que se conecta às fontes de dados externos. Os bancos de dados podem ser criados, por exemplo, com o Serviços OLAP do Microsoft SQL Server ou Microsoft SQL Server Analysis Services que são os produtos de servidor Microsoft OLAP. Ainda na família de soluções Microsoft, o Excel pode ser utilizado para criação de relatórios e gráficos com os dados OLAP Microsoft e também utilizando outros produtos OLAP de terceiros que sejam compatíveis com o padrão OLE-DB para OLAP. Pode-se também salvar relatórios de tabela dinâmica OLAP e relatórios de gráfico dinâmico nos modelos de relatório e criar assim arquivos 18 UNIDADE I │ APLICAÇÃO DO BI ODC (Conexão de Dados do Office) (.odc) para criar bancos de dados OLAP para consultas. Quando se utiliza o Excel ele abre um arquivo ODC e exibe um relatório de tabela dinâmica vazio, que está pronto para você utilizar. Operações suportadas no OLAP: 1. Operação fatiar (slice): seleciona dados de uma única dimensão de um cubo OLAP. 2. Operação cortar um subcubo (dice): extrai um subcubo do cubo original executando uma operação de seleção em duas ou mais dimensões. 3. Operação de agregação (roll-up): é a combinação de células de uma ou mais dimensões definidas em um cubo. Uma forma de agregação usa o conceito de associação hierárquica com uma dimensão para atingir um nível maior de generalização.Operação de “drill-down”: é o reverso da agregação “roll-up”, implica em examinar dados com algum nível maior de detalhe. 4. Operação de rotação (rotation): permite visualizar dados de uma nova perspectiva. Tipos de OLAP Para permitir uma melhor classificação, as ferramentas OLAP estão divididas em as que utilizam banco de dados multidimensional (MDDB) e as que armazenam os dados em bancos de dados relacionais. Outra diferenciação esta relacionada ao tipo de processamento realizado no cliente ou no servidor. MDDB baseado em Servidor Esta solução armazena todos os dados no formato multidimensional, esta solução é proprietária e não utiliza o SQL. Este tipo de solução constrói um ambiente muito fechado. Todo o processamento é realizado no servidor. A solução é projetada para consultas complexas, ela apresenta um bom desempenho, mas tem limitações de espaço de armazenamento de dados. ROLAP baseado em Servidor Esta solução armazena todos os dados em outros bancos de dados, geralmente relacionais. Os dados são recuperados do banco de dados quando solicitado pelo usuário e são gerados através de comandos SQL. Todo o processamento é realizado no servidor. É lento para consultas complexas e tem como vantagem ser um ambiente mais aberto. 19 APLICAÇÃO DO BI │ UNIDADE I Mercado e tendências futuras Existem muitas discussões para determinar qual o melhor ambiente a ser utilizado. O ambiente multidimensional real normalmente tem um desempenho excelente e necessita um servidor menor. O ambiente virtual tem menos duplicação de dados, é possível realizar o Data Mining no mesmo banco de dados, os dados são mais atualizados, e um banco de dados relacional pode armazenar mais do que um banco de dados multidimensional. O banco de dados multidimensional híbrido é uma forte tendência que está surgindo no mercado. HOLAP baseado no Servidor Nesta solução o armazenamento pode ser feito tanto em um banco de dados normal ou multidimensional. Todos os dados são apresentados como dados multidimensionais. Algumas vezes são gerados comandos SQL e todo o processamento é feito no servidor. MDDB baseado no Cliente Esta solução armazena todos os dados localmente no formato multidimensional. Todo o processamento é feito no lado cliente. Os dados são periodicamente copiados para o banco de dados local. ROLAP baseado no cliente Nesta solução os dados são armazenados normalmente de forma local, podendo existir em alguns casos um banco de dados externos à ferramenta. Todo o processamento é feito no lado cliente e são gerados com comandos SQL. De forma geral, os produtos que acessam dados multidimensionais diretamente a partir do SQL tem um pior desempenho, quase sempre há muito mais envolvimento de I/O do que de CPU. Seu desempenho de extração é geralmente de duas a quatro vezes, mais lento, porque o SQL não é a melhor solução para extração e manipulação de dados multidimensionais. Em contrata partida eles são capazes de manipular grande quantidade de dados. Assim, se a questão principal for o desempenho, a tecnologia de banco de dados multidimensional permanece essencial. Mas se a capacidade é um fator limitante, se deve utilizar esta solução preferencialmente. Decorrente da necessidade de desempenho em grandes bases de dados a arquitetura híbrida está se tornando mais popular para os produtos atuais porque consegue combinar a capacidade das ferramentas ROLAP com o desempenho superior dos bancos de dados multidimensionais. 20 UNIDADE I │ APLICAÇÃO DO BI Existem produtos MOLAP cujo cubo é armazenado dentro do banco de dados relacional como tipo de dados BLOB, como é o caso do produto da solução “Cognos”. Relação de produtos e seus fornecedores Existem vários fornecedores de produtos OLAP no mercado. A seguir estão relacionamos alguns deles: Tabela 1. Fornecedores e os seus produtos para OLAP Fornecedores Produto Tipo de Produto Andyne Computing Ltd. PaBLO HOLAP Client Applix TM1 Software Applix TM/1 MDDB Server Arbor Software Corp. Essbase MDDB Client Brio Technology Inc. Brio Query MDDB Client Business Objects Inc. Business Objects ROLAP Client Cognos Corporation PowerPlay HOLAP Client Comshare Inc. Decision MDDB Client Dimension Insight Cross Target MDDB Server Gentia Software GQL MDDB Client/Server Hyperion Software Corp. Pillar MDDB Client/Server IBM DB2 OLAP Server HOLAP Server Information Advantage Inc. Decision Suite ROLAP Server Informix MetaCube ROLAP Server Microsoft MicrosoftOLAP Server HOLAP Server MicroStrategy Inc. DSS Server / DSS Agent ROLAP Client/Server Oracle Express MDDB Server Pilot Software Pilot Analysis Server MDDB Server Platinum Technology InfoBeacon ROLAP Server SAS Institute Inc. SAS MDDB Client/Server Seagate Software IMG Holos HOLAP Client/Server Speedware Corp. Inc. Media/MR MDDB Client/server Sybase PowerDimensions ROLAP Server WhiteLight Systems Inc. WhiteLight ROLAP Server Produtos OLAP para o desktop Existem diversos fornecedores que produzem ferramentas OLAP para serem utilizadas junto a outros softwares. Elas são distribuídas em regime de OEM. Normalmente esta fermenta é revendida por outros desenvolvedores de aplicativos. Os desenvolvedores que distribuíram esta ferramenta acrescentam a ela funcionalidades e interfaces que integram a estrutura de seus aplicativos. Tipicamente, o fornecedor do aplicativo implementa funções para gerar os cubos de desktop quase automaticamente, usando os metadados do aplicativo, e então, revendem um padrão do produto OLAP para desktop. 21 APLICAÇÃO DO BI │ UNIDADE I Aplicativos especializados com servidores OLAP Alguns fornecedores obtêm um licenciamento para ser um servidor OLAP para alguns de seus aplicativos. Para isso se torna necessário acrescentar uma “camada” extra entre o componente servidor do aplicativo e o servidor OLAP. Web browsers Atualmente algumas empresas estão oferecendo soluções de Web browsers para acesso a OLAP, mas ainda são poucos os sites em funcionamento. Segundo alguns institutos de pesquisa o OLAP baseado na Web será a chave para aplicações na Intranet e deverá oferecer um caminho simples e barato no acesso ao DW. O DW (Data Mining) e OLAP são tecnologias complementares. Para utilizarmos os servidores OLAP para uma variedade mais ampla de desenvolvedores, existem dois padrões no mercado: 1. OLE DB for OLAP: é uma API para interconectar clientes e servidores OLAP da Microsoft de codinome Tensor. 2. MDAPI (Multidimensional API): o MDAPI busca o mesmo objetivo que o Tensor, mas com uma perspectiva mais aberta, suportando interfaces além daquela construída com objetos COM. Fornecedores como Microsoft e IBM (DB2 OLAP Server), possuem servidores de OLAP que permitem que os dados possam ser armazenados tanto em banco de dados relacionais como em multidimensionais (cubos). No passado os Servidores OLAP Multidimensionais tinham que fornecer todos os produtos de conexão às suas bases, hoje existem produtos front-ends que permitem conexão com estes servidores. Outro tipo de desenvolvimento que está ocorrendo no mercado é o de servidores de aplicação OLAP baseado em Java como alternativa para portar OLAP para acessar campos do banco de dados corporativo, reduzindo os requisitos de hardware do cliente. Os fornecedores de OLAP devem confrontar-se com os problemas de utilização em massa. Seus aplicativos precisam se tornar cada vez mais fáceis de instalar, a integração de dados precisa deixar de ser um problema e fazer parte da solução, o treinamento para os usuários precisa ser rápido e objetivo. No futuro o OLAP poderá se tornar tão comum quanto o uso das planilhas eletrônicas. 22 UNIDADE I │ APLICAÇÃO DO BI OLTP, On-line Transactional Processing O OLTP é um tipo de sistema projetado para suportar aplicativos orientados às transações. Os sistemas OLTP são projetados para responder imediatamente às solicitações do usuário, e cada solicitação é considerada uma única transação. As solicitações podem envolve, adicionar, recuperar, atualizar ou remover dados. O objetivo do banco de dados de OLTP é capturar de maneira econômica a maior quantidade de dados possíveis no menor tempo. A combinação de melhorias em hardware e software de bancos de dados reduziu dramaticamente os custos de processamento transacional. Esse tipo de funcionamento tem como principal objetivo aumentar a integridade das transações da empresa, tornando assim melhores as relações tanto internas quanto externas à organização. Ela colabora para o processo de fidelização de clientes, organização de fornecedores e de funcionários, controle de estoque (quando existir), dentre outras ramificações da vida empresarial. Entretanto, essas inovações não estão acompanhando o crescimento dos dados transacionais: » Os aplicativos que mantinham megabytes de dados já estão próximos dos Petabytes e Zettabytes. Os requisitos dos negócios exigem que os dados sejam armazenados por muito mais tempo. » A velocidade de acesso está aumentando e a necessidade por menor latência está aproximando as tecnologias de seus limites. » Muitas empresas estão movendo seus dados transacionais para a nuvem conforme as novas tendências de mercado. » Muitas empresas estão optando por soluções híbridas e processam dados tanto dentro da própria empresa como na nuvem. » Com o aumento dos volumes de dados transacionais as empresas estão hospedando suas informações fora das instalações, ou seja, dentro da nuvem. » Os aplicativos como do salesforce.com (para CRM), Netsuite (para ERP) ou Workday (para RH) têm sido implantados pelas empresas. KPIs (Key Performance Indicators) Os KPIs são as especificações detalhadas utilizadas para rastrear objetivos de negócios. Um KPI pode ter um destino, um conjunto de intervalos, ou ambos, para avaliar o êxito com que um negócio está alcançando seus objetivos. Ele é uma técnica de gestão conhecida como Indicador-chave de Desempenho. Para definir um KPI, escolha à medida que deseja analisar e as dimensões que deseja utilizar para organizar e recuperar os dados. 23 APLICAÇÃO DO BI │ UNIDADE I Os KPIs são medidas quantificáveis para compreender se os objetivos estão sendo atingidos. Esses indicadores determinam se será preciso tomar providencias que melhorem os resultados atuais da empresa. Os indicadores-chave de desempenho só devem ser alterados se os objetivos primários de uma empresa também sofrerem alterações. Existem diferentes categorias de indicadores, que podem ser classificados em: » Quantitativos; » Qualitativos; » Atraso; » Entrada; » Processo; » Resultados; » Práticos; » Direcionais; » Acionáveis; » Financeiros. Alguns exemplos de KPI são: » Time to Market: este indicador corresponde ao tempo total para o lançamento de um produto, ele é disparado desde a idealização do conceito e até quando o produto está disponível para venda. » Lead Time: este indicador informa o tempo de duração de um determinado processo. » Stock Out: este indicador informa em quantas vezes ou quantos dias um determinado produto em estoque chega ao saldo zero. » Market Share: este indicador divide o mercado em fatias e determina o quanto um produto conquistou durante um determinado período de tempo. » Produtividade homem/hora: este indicador indica o número de unidades produzidas por cada indivíduo que trabalha na empresa. » Ociosidade: este indicador é informado em percentual de tempo que uma equipe, unidade de construção ou máquina ficam sem produzir. » Giro de Estoque: este indicador informa o consumo, ou seja a saída das mercadorias do estoque e informa qual o saldo Médio de estoque será necessário. 24 UNIDADE I │ APLICAÇÃO DO BI Os administradores do cubo podem criar medidas específicas para representação de uma condição da pesquisa ou relatório, e utilizar cores para sua sinalização, como por exemplo, em um sistema de estoque, o verde em um determinado produto, pode significar que seu estoque está normal, amarelo esta em falta e vermelho está zerada. Dependendo do seguimento da empresa existem vários indicadores-chave de desempenho que também são utilizados, vale ressaltar em ter eles: “bounce rate”, tempo de navegação, nível de profundidade da visita, número de usuários cadastrados, entre outros. Muitas outras tecnologias de suporte à decisão devem se integrar com a tecnologia OLAP, incluindo pacotes de análise estatística, sistemas de informações geográficas (GIS), e ferramentasde visualização de dados. A maioria dos fornecedores de servidores do tipo OLAP oferecem add-ins para planilhas eletrônicas como opção de front-end, possibilitando, com isto, apresentar dados multidimensionais através delas. A principal vantagem desta abordagem é que ela combina a exibição flexível, a força em formatação e os cálculos para fins específicos das planilhas com o gerenciamento de dados, cálculos e desempenho da tecnologia de banco de dados multidimensionais. Os fornecedores de servidores OLAP só precisam produzir diferentes versões de seus add-ins para cada nova versão de programa de planilhas. Além das planilhas eletrônicas como clientes OLAP existem outras opções. O OLTP é voltado para sistema de transações, regras de negócio que são aplicadas no sistema, por exemplo, um sistema de supermercado. Se visualizarmos com mais detalhes iremos perceber o OLTP em perfeito funcionamento. Como? Ao passarmos no supermercado hoje, iremos verificar nossa nota fiscal ao final da compra, com os produtos, taxas, quantidades e valor total. Se voltarmos no mesmo supermercado amanhã para fazer novas compras, iremos notar que não temos o resumo de compras do dia passado ou de qualquer outro dia. O OLAP é voltado para análise das informações, ou seja, cálculos mais complexos, um sistema de modelagem voltado para desempenho, simplificado e desnormalizado. Um exemplo comum são os sistemas de apoio à decisão. Sistemas de consultas às informações analíticas da empresa onde podemos fazer qualquer tipo de solicitação e ter a resposta quase que de imediato, flexibilidade e muitas outras vantagens que irão possibilitar que o gestor tome sua decisão de forma assertiva e rápida. A tabela 2 apresenta uma comparação entre as tecnologias. Tabela 2. Quadro comparativo OLTP e OLAP. OLTP OLAP Voltado para operações dia a dia Voltado para o desempenho analítico Baixo desempenho em consultas Alto Desempenho em consultas Modelagem ramificada Modelagem simplificada (star) Histórico de operações inexistente Armazém de dados (Histórico existente) Volátil Não volátil 25 APLICAÇÃO DO BI │ UNIDADE I Vale esclarecer alguns pontos do quadro comparativo. OLTP: 1. Quando falamos em modelagem ramificada estamos nos referindo ao tipo de modelagem relacional em que, de fato, o modelo como um todo possui várias ramificações de ligações de chave entre as tabelas. 2. O histórico geralmente não faz parte do modelo em geral. Isso não significa que geralmente esses modelos não guardam históricos, eles guardam em um “tabelão” onde as informações vão sendo sempre acumuladas para posteriormente serem aproveitadas para um DW. 3. Volátil significa a mudança constante dos dados no ambiente. Os dados são sempre repostos e a análise dos dados fica comprometida por conta das operações que são realizadas em um ambiente OLTP. OLAP: 1. Na modelagem, temos o modelo mais utilizado que é o Star Schema e temos também o Snowflake que também pode ser usado. Isso vai depender das necessidades do projeto e o que deverá responder. 2. O armazém de dados é a principal fonte de dados do ambiente OLAP. Irá permitir que todas as operações de drill e entre outras possam ser executadas para facilitar a visualização da informação. 3. Ambiente não volátil se traduz por um ambiente onde teremos as informações sendo sempre inseridas e não modificadas. Isso permite uma análise verídica do passado, possibilitando análise de tendências etc. Tabela 3. Comparação entre sistemas transacionais e analíticos. Característica Sistemas Transacionais (OLTP) Sistemas Analíticos (OLAP) Atualizações Mais frequentes Menos frequentes Tipo de Informação Detalhes Agrupamento Quantidade de Dados Poucos Muitos Precisão Dados atuais Dados históricos Complexidade Baixa Alta Consistência Microscópica Global Exemplos CRM, ERP, Supply Chain MIS, DSS, EIS Terminologia Linhas e Colunas Dimensões, Medidas e Fatos Fonte: <http://msdn.microsoft.com/pt-br/library/cc518031.aspx> 26 UNIDADE I │ APLICAÇÃO DO BI Benefícios propiciados pelo BI O desenvolvimento de um repositório de dados como, por exemplo, um Data Warehouse (DW) ou um Data Mart (DM) bem como as ferramentas a serem usadas tais como ferramentas ETL (análise e desenvolvimento de relatórios), OLAP (análise dinâmica e multidimensional dos dados), entre outras, são fatores importantíssimos na estrutura de um BI. Alguns benefícios do uso e aplicação do BI nas instituições: » Incorporar os projetos de tecnologia com as metas estabelecidas pelas empresas na busca do máximo retorno do investimento. » Compreender as tendências dos negócios, melhorando a consistência no momento de decisão de estratégias e ações a serem tomadas. » Facilitar a identificação de riscos. » Planejamento corporativo mais amplo. » Facilitar o acesso e distribuir informação de modo mais amplo para obter envolvimento de todos dentro da empresa. » Oferecer dados estratégicos para análise com um mínimo de atraso em relação a uma transação ou evento dentro da empresa. ETL – Extração, Transformação e Carga de Dados A ETL, extração, transformação e carga de dados é a fase mais importante na criação de, um Data Warehouse, ela envolve a movimentação dos dados de múltiplas origens obedecendo as regras de cada negócio. Ela é dividida teoricamente em três passos, extração (E), transformação (T) e carga (L – Loader) dos dados. A figura 1 ilustra o ERL. Figura 1. ETL. Fonte: <http://igorportela.com/extract-transform-and-load-etl/> 27 APLICAÇÃO DO BI │ UNIDADE I O primeiro passo a ser realizado no processo de ETL é a definição das fontes de dados em que será realizada a extração. As origens podem vir de vários locais e possuírem diferentes formatos; são encontrados desde os sistemas transacionais das empresas até planilhas, flat files (arquivos textos) dados do Mainframe entre outros. O segundo passo é a transformação e limpeza dos dados. É muito comum na obtenção dos dados encontrarmos muito ‘lixo’ e varias inconsistências. Um erro muito comum está relacionado ao cadastramento dos dados de um cliente, por exemplo, quando um vendedor de algum produto for executar uma venda, ou inscrição, ele está preocupado com sua comissão, e não na qualidade dos dados que está inserindo no sistema, então se por acaso o cliente não possuir o número do CPF ou RG, ele cadastra um número genérico, desde que o sistema aceite, um dos mais utilizados é o 999999999-99 para o CPF. Por isso, nessa fase do DW, deve-se realizar uma limpeza estruturada desses dados e criar um fator de compatibilidade entre eles. Além da limpeza, na maioria das vezes é necessário realizar uma transformação, pois os dados provêm de vários sistemas, e por isso, geralmente uma mesma informação tem diferentes formatos, por exemplo: em alguns sistemas, a informação sobre o sexo do cliente pode estar armazenada no seguinte formato: “M” para Masculino e “F” para Feminino, porém em algum outro sistema está guardado como “H” para Masculino (Homem) e “M” para Feminino (Mulher), em outro ainda, podemos encontrar “1” para Masculino e “2” para Feminino, entre outras combinações. Quando importamos esses dados para o DW, deve-se existir uma padronização, ou seja, os dados devem ser transformados para um único formato, esta etapa é muito importante e caso não seja realizada com cuidado a criação do DW será comprometida, pois ela possuirá dados inconsistentes, quando o usuário for consultar o DW, ele não pode ver informações iguais em formatos diferentes. Assim sendo, quando fazemos o processo de ETL, transformamos esses dados e os deixamos em um formato uniforme sugerido pelo próprio usuário, como por exemplo “M” para Masculino e “F” para Feminino. No DW, teremos somente M e F, fato esse que facilitará a análise dos dados que serão recuperados pela ferramenta OLAP. Podem-se integrar todas as fontes de dados em um único banco. Com isso não existirão mais “ilhas” de dados, mas sim teremos informaçõesricas e totalmente integradas. 28 UNIDADE I │ APLICAÇÃO DO BI Figura 2. Passos de um ETL. Fonte: <http://www.jitterbit.com/images/solutions-ETL-diagram.png> Na maioria das vezes o volume de dados é muito grande, neste caso o sistema não tem condições de processar as extrações e transformações na “janela de tempo” em que o DW não está sendo usado, neste caso é utilizada uma técnica denomina de “Staging” para executar os processos. A Staging é considerada uma área fora do acesso dos usuários, e que não suporta queries dos usuários. Ela pode ser composta por flat files (arquivos textos) ou tabelas de banco de dados na terceira forma normal (normalizadas). Fase de extração e transformação de dados A extração de dados do ambiente operacional para o ambiente de DW demanda uma mudança na tecnologia. Os dados são transferidos de bancos de dados hierárquicos ou de bases de grande porte, como o DB2, para uma nova estrutura de SGBD (Sistema Gerenciador de Banco de Dados) relacional para DW, tais como o DB2 UDB, Oracle, Teradata entre outras soluções proprietárias e baseadas em software livre, a tabela apresenta alguns bancos de dados que formam ou podem ser utilizados em um sistema de DW. A tabela 4 apresenta alguns bancos de dados com seus fabricantes. Tabela 4. Banco de Dados x Fabricante. Banco de dados Fabricante Adabas D Software AG Advanced Pick Pick Systems Broadbase Server Broadbase Information Systems 29 APLICAÇÃO DO BI │ UNIDADE I Banco de dados Fabricante DB2 IBM Fast-Count DBMS MegaPlex Software HOPS HOPS International Microsoft SQL Server Microsoft MK Platform Synergistics Services Group Model 204 Computer Corp. of America NonStop SQL Tandem Ngram Transform-DB Triada Nucleus Server Sand Technology Systems On-line Dynamic Server, Extended Parallel Server Informix OpenIngress Computer Associates Oracle Server Oracle Rdb Oracle Red Brick Warehouse Red Brick Systems SAS System SAS Institute Sybase IQ Sybase Sybase SQL Server, SQL Server MPP Sybase SymfoWARE Fujitsu (Japan) Teradata DBS NCR THOR Hitachi Time Machine Data Management Technologies, Inc. Titanium Micro Data Base Systems, Inc. Unidata Unidade, Inc. UniVerse VMARK Vision Innovative Systems Techniques, Inc WX9000 White Cross Systems Inc. A seleção de dados do ambiente operacional para a criação de um DW normalmente é complexa, é necessário muitas vezes selecionar vários campos de um sistema transacional para compor um único campo no DW. Outro fator que deve ser levado em conta na montagem de um DW é que dificilmente existe uma documentação do modelo de dados dos sistemas antigos, e quando existe ela não está atualizada, por exemplo: um campo data do sistema operacional do tipo DD/MM/AAAA pode ser reformatado para o outro sistema do tipo ano e mês como AAAA/MM. Quando existem vários arquivos de entrada, a escolha das chaves deve ser feita antes que os arquivos sejam intercalados para geração da extração para o DW. Isso significa que se diferentes estruturas de chaves são usadas nos diferentes arquivos de entrada, então deve-se optar por apenas uma dessas estruturas. Os arquivos devem ser gerados obedecendo à mesma ordem das colunas estipuladas no ambiente de DW. 30 UNIDADE I │ APLICAÇÃO DO BI Às vezes pode existir um campo no DW que não possua fonte de dados, então a solução é definir um valor padrão para estes campos. O DW espelha as informações históricas necessárias, enquanto o ambiente operacional focaliza as informações pontuais correntes. Fase de carga de dados A parte de carga dos dados em um DW também possui uma enorme complexidade, e alguns fatores devem ser levados em consideração. No momento da carga é necessário sempre verificar se os campos que são “chaves estrangeiras” estão alinhados com suas respectivas tabelas. Deve-se certificar de que os dados existentes estão de acordo com a tabela da chave primária (integridade dos dados). Em um DW normalmente são mantidos todos os históricos, sendo assim poderá acontecer que as tabelas tenham que ser dimensionadas (slowly change dimension). Apesar de existirem ótimas ferramentas de ETL já consolidadas como o DTS (Data Transformation Service), Data Stage, ETI, Business Objects Data Integration, Sunopsis, Oracle Data Integrator, Oracle Warehouse Builder entre outras, ainda se tem a necessidade de criar rotinas de carga para atender determinadas situações que poderão ocorrer, estas rotinas podem ser shell script, SQL puro ou em C, quando precisa de uma ótima performance. Figura 3. Esquema de um ETL. Fonte: <http://litolima.files.wordpress.com/2010/01/etl003.jpg> 31 APLICAÇÃO DO BI │ UNIDADE I As ferramentas de ETL mais utilizadas no mercado são o Data Stage da IBM, o ETI da ETI Corporation, Sagent da Group 1 Software, Informática Power Center da Informática, DTS da Microsoft, Pentaho (Open Source), Talend (Open Source), Sunopsis e o Oracle Warehouse Builder da Oracle. Todos possuem seus diferenciais e cada um poderá ser utilizado dependendo do caso de cada empresa. Existem outras ferramentas que tem custo zero de aquisição, pois vem embutida junto com um SGBD (Sistema Gerenciador de Banco de Dados), mas em contrapartida são bastante limitadas no tocante a extração de dados e exigem uma maior codificação dos processos de ETL, em relação às outras. As soluções open source, dependendo do porte do projeto, podem atender satisfatoriamente às necessidades da empresa. Uma ferramenta de ETL é essencial para os sistemas OLTP (transacionais), pois ela é uma poderosa fonte para geração dos metadados. Metadados Os metadados podem ser basicamente definidos como “dados que descrevem os dados”, ou seja, são informações úteis para identificar, localizar, compreender e gerenciar os dados. Eles são marcos ou pontos de referência que permitem circunscrever a informação sob todas as formas, pode-se dizer resumos de informações sobre a forma ou conteúdo de uma fonte. O prefixo “Meta” vem do grego e significa “além de”, logo metadados são informações que acrescem valor aos dados e que têm como objetivo principal informar sobre eles para tornar mais fácil a sua organização e manipulação. Quando bem documentamos e disponibilizamos os metadados, enriquecem a semântica do dado produzido, agregando a ele o seu significado real. O metadado fornece suporte às atividades de Administração de Dados, por exemplo, os dados produzidos pelo IBGE, para realização de consultas e utilização em outros sistemas (importação), os metadados são fundamentais. O sistema de metadados do IBGE tem por função facilitar o acesso às informações produzidas pelo IBGE, descrevendo seu acervo institucional nas áreas de Estatística e de Geografia. Por meio desse sistema é possível verificar características e documentos relacionados aos produtos do Instituto. Por meio dos metadados, o usuário pode localizar interpretar e acessar os dados disponíveis em todos os sistemas de informação disponibilizados pela instituição. A figura 4, apresenta onde localizamos os metadados. 32 UNIDADE I │ APLICAÇÃO DO BI Figura 4. Metadados. Fonte: <http://metadados.bn.pt/semweb-jlb.gif> Desde o início dos sistemas de busca, esse tipo de informação é usado para classificar e organizar as pesquisas. A diferença agora é que as informações estão mais dispersas e crescem a uma velocidade exponencial. Pode-se citar como exemplos da utilização dos metados no universo da gestão de arquivos baseada em papel a: » localização física; » no de caixa; » etiqueta de pasta; » sistema de classificação. No mundo do controle das imagens podem incluir tipo de documento, data, entidades com que se relaciona. As definições e regras de negócio, detalhes de segurança, informação de domínios, tags XML também são exemplos. No caso dos DW, os metadados são instrumentos essenciais para a gestão do repositório e incluem informações como lista de conteúdo, origem dos dados, transformações (como filtragens oucálculos efetuados na transferência para a localização atual), versão, modelos de dados entre outros. Os metadados podem ser estruturados ou não estruturados. Um exemplo de metadados não estruturados são os índices produzidos por um sistema de indexação e pesquisa em texto integral. Um exemplo de metados estruturados são os sistemas de classificação de arquivo ou o dicionário de dados de um SGBD. 33 APLICAÇÃO DO BI │ UNIDADE I Os EDI (Electronic Data Interchange) não poderiam funcionar, com uma circulação diária de milhões de documentos entre empresas de todo o mundo se não fossem seguidos rigorosos controles de identificação chamados “transaction sets”, que são baseados nos metadados. No âmbito da gestão documental existe uma distinção entre índices e metadados: em um sistema de indexação por descritores, os dados de índice são geralmente uma parte dos metadados e em um sistema de texto integral em que todas as palavras são parte do índice, os metadados devem ser descritos. Podemos considerar que os metadados são instrumentos essências para a busca e recuperação da informação, mas no caso dos documentos têm uma função adicional do ponto de vista arquivístico: atender aos requisitos de administração, como por exemplo, a determinação do ciclo de vida e, portanto o prazo de retenção dos documentos, base para decisões sobre localização e meio de armazenamento, migração entre outros. Como os metadados são necessários para a gestão dos documentos, já existem nas bases de dados, sua utilização na integração com os sistemas “Line-of-Busines” como os ERP tornam-se fundamental na criação dos DW. Aliás, essa integração deveria ser sempre avaliada ao estabelecer um Plano de Arquivo e de Gestão Documental. A importância dos metadados para a websemântica está basicamente ligada à facilidade de recuperação dos dados, uma vez que estes terão um significado e um valor bem definidos. Nesse sentido, todos os documentos publicados na web devem ser catalogados. Pesquise sobre Websemântica. Aplicação de BI em segmentos verticais A utilização das soluções de BI em diferentes segmentos de mercado apresenta resultados bem significativos. As empresas do setor financeiro, por exemplo, em segundos selecionam seus “melhores clientes” para poder oferecê-los um tratamento diferenciado. Na área de telecomunicações, as operadoras, com os dados coletados, tem a capacidade de ampliar o potencial de suas antenas e Estações Rádio-Base (ERB) a partir de informações de clientes, como números de ligações perdidas ou não atendidas. Com base no comportamento de seus consumidores, uma loja pode selecionar quais produtos apresentam uma melhor combinação para serem vendidos de forma casada. O principal é transformar dados em informações e com elas nortear os negócios. Para que tudo isto funcione as empresas devem ser claras e objetivas nas suas metas para que um projeto de BI atinja o resultado esperado. 34 UNIDADE I │ APLICAÇÃO DO BI Atualmente, as ferramentas de BI não estão mais concentradas apenas nas mãos dos gerentes e executivos de alto escalão responsáveis por decisões. Os funcionários das diversas áreas podem fazer consultas ao banco de dados de sua empresa e gerar relatórios, sem precisar entender muita coisa de programação ou de informática. 35 CAPÍTULO 3 Data Marts Os Data Marts são conjuntos de dados desenvolvidos que pertencem à área dos data warehouses. No passado, eles eram concebidos como uma forma de apresentar dados unicamente agregados, sobre os quais era aplicada uma aritmética qualquer. Este tipo de agregação produzia aplicações muito rígidas que conseguiam responder apenas a um conjunto muito limitado de questões. Atualmente os data marts estão estruturados e muito mais flexíveis. Eles incorporam os dados mais atómicos que se conseguem extrair de um sistema operacional, e são apresentados ao utilizador na forma de um esquema em estrela. Esquema Estrela Para facilitar a análise, o Data Mart organiza os dados em uma estrutura chamada esquema estrela. Esta estrutura esta formada por uma tabela central – tabela de fatos – e um conjunto de tabelas organizadas ao redor dela, as tabelas de dimensões. Nas pontas da estrela estão as tabelas de dimensões que contém os atributos das aberturas que interessam ao negócio e que podem ser utilizadas como critérios de filtro e são relativamente pequenas. Cada tabela de dimensão está relacionada com a tabela de fatos por um identificador. As características de um esquema de estrela são: » O centro da estrela é a tabela de fatos. » As pontas da estrela são as tabelas de dimensões. » Cada esquema está formado por apenas uma tabela de fatos. Normalmente é um esquema totalmente não padronizado e pode estar parcialmente padronizado nas tabelas de dimensões. A figura 5 indica como é utilizado um esquema estrela. Figura 5. Esquema Estrela. Fonte: AcadBI-Modulo3 36 UNIDADE I │ APLICAÇÃO DO BI A figura 6 apresenta um exemplo de um esquema estrela considerando a necessidade de analisar como evolui a Admissão de Funcionários (Fato) por serviço, funcionário e região geográfica ao longo do tempo. Figura 6. Exemplo esquema estrela. O modelo dimensional divide o mundo dos dados em dois grandes tipos: as medidas e as dimensões destas medidas. As medidas são sempre numéricas e são armazenadas nas tabelas de fatos e as dimensões contextuais são armazenadas nas tabelas de dimensões. A tabela de fatos é a tabela primária do modelo dimensional e contém os valores do negócio que deseja analisar. Cada tabela de fatos contém as chaves externas que se relacionam com suas respectivas tabelas de dimensões e as colunas com os valores que serão analisados. Os Data Marts atendem as necessidades individuais de cada unidade específica de negócio ao invés de servir aos interesses organizacionais da corporação inteira. Eles se aperfeiçoaram na entrega de informação de suporte à decisão com foco na gerência sumarizada de dados ao invés do histórico de níveis atomizados. A crescente popularização da implementação de Data Marts se baseia em alguns fatores: » Eles podem ser apropriados e gerenciados por pessoas externas ao departamento de informática das corporações. » Eles têm diminuído drasticamente o custo de implementação e manutenção de sistemas de apoio à decisão. » Protótipos podem ser construídos rapidamente, com tempo médio entre 30 e 120 dias e sistemas completos podem ser construídos entre 3 e 6 meses. 37 APLICAÇÃO DO BI │ UNIDADE I » Eles têm o escopo mais limitado, o que facilita sua identificação para grupos de necessidades dos usuários. Os departamentos e as pequenas unidades de negócio de uma empresa estão optando com frequência por construir o seu próprio sistema de apoio à decisão através dos Data Marts. A maioria dos departamentos de informática está observando a efetividade desta abordagem e estão construindo os seus próprios DW por assunto ou um Data Mart por vez, gradualmente, e com isso estão ganhando experiência no desenvolvimento. Em relação aos DWs, a utilização de Data Marts reduz em tempo e custo o desenvolvimento e é adequada quando se trata de uma implantação de uma solução de BI onde a organização não dispõe de tempo para aguardar uma implementação tradicional. Métodos de desenvolvimento No desenvolvimento de uma solução DW podemos considerar inicialmente o Data Mart como sendo um subconjunto do DW que surge após sua implementação e possui o objetivo de servir de fonte de acesso às informações para os usuários finais, que estão alocados em departamentos ou segmentos específicos da organização. Através de uma interface Front End as aplicações realizam a análise dos dados. Os data marts nessa visão são completamente dependentes do DW, já que extraem seus dados da área de staging e são otimizados para fornecer alta performance. Esse tipo de implementação caracterizada como Top-Down se baseia em um modelo corporativo dos dados, onde são delimitadas e modeladasàs diversas áreas de assunto dentro de uma empresa, para se construir o seu primeiro DW integrando os dados e posteriormente desenvolvendo os Data Marts. A abordagem Bottom-Up é um outro tipo de implementação, ou seja, os DMs são vistos como sendo independentes em relação ao DW, de forma que eles são desenvolvidos previamente como se fossem pequenos DMs do ponto de vista estrutural e depois integrados. Ainda há uma abordagem de desenvolvimento híbrida, onde os DMs não necessitam esperar o DW ser completamente implementado para serem acessados, porém, seu desenvolvimento deve seguir o modelo de dados da organização que expressa à visão organizacional que existe nos diversos DMs a serem construídos. O modelo híbrido serve como um fundação para o desenvolvimento do DW garantindo que gaps de informação ou redundâncias sejam planejadas e catalogadas, ao passo que o projeto avança. Ele trata da necessidade que os usuários possuem por informação imediata ou em curto prazo, e que não pode esperar pela implementação completa de um DW e também do problema de crescimento não planejado da abordagem Bottom-Up. 38 UNIDADE I │ APLICAÇÃO DO BI Data Marts e a Data Warehouse Bus Architecture O DWBA, ou Data Marts e a Data Warehouse Bus Architecture é uma abstração ou modelo que representa o conjunto de processos dos negócios conduzidos pela organização e é composto de definições padrões de tabelas fato e dimensões em conformidade. A ideia é de que um Data Mart trata os processos individuais do negócio e utiliza as tabelas fatos e dimensões apresentadas no modelo, conforme sua necessidade. Os processos apresentados neste modelo, são as atividades que geram valor para a organização, logo, para descrever as propriedades dos processos e poder mensurá-los são desenvolvidos os Data Marts, um de cada vez, sendo que a união desses irá resultar no DW. O Data Mart é composto de tabelas fato e dimensões, sendo que algumas destas dimensões podem ser necessárias em mais de um Data Mart para representar um processo. As tabelas precisam ser compartilhadas e devem estar de acordo com as especificações do negocio. A tabela 5 representa um exemplo dessa relação entre processos e dimensões. Tabela 5. Processos do negócio Dimensões em conformidade Produto Vendedor Cliente Vendas X X X Estoque X Entregas X X Na analise de um ambiente corporativo para se construir um Data Mart se deve evitar a delimitação de barreiras entre os departamentos ou áreas da empresa, os Data Marts devem ser organizados baseados em processos do negócio, como pedidos, compras etc. como observado na tabela. Os diversos setores do negócio da empresa devem, com uma certa frequência, analisar as métricas resultantes de cada processo de negócio, sendo assim, quando os Data Marts forem criados eles refletirão a realidade da utilização dos processos do negócio. Mesmo assim, poderão existir dados redundantes e a utilização de ferramentas de ETL desnecessariamente. Os Data Marts não representam somente dados sumarizados, eles possuem dados altamente granulares, ou seja, com muitos detalhes. As sumarizações dos Data Marts permitem uma melhor otimização de sua performance, mas não servem como substitutos dos detalhados que permitem que o Data Mart responda às requisições analíticas inesperadas dos usuários, que é a caracterização de uma flexibilidade. 39 APLICAÇÃO DO BI │ UNIDADE I Estrutura do Data Warehouse/Data Mart Uma arquitetura de DW/DM é composta por diversas camadas que são: sistemas operacionais (transacionais), área de Staging de dados, área de apresentação de dados, e ferramentas de acessos aos dados, segue uma descrição resumida de cada uma delas: » Sistemas operacionais: são todos os ambientes externos ao DW, que servem como fontes de dados para extração e posterior carga no DW. Esses ambientes são compostos por sistemas “legados” ou transacionais, que armazenam os dados na forma mais primitiva (detalhada, precisa e não redundante). Estes sistemas, na maioria das vezes não foram projetados para ter seus dados integrados e cabe aos processos de ETL tratar os dados e integrá-los, esse procedimento é feito em uma camada da arquitetura do DW denominada de Data Staging Area (área de estágio de dados). » Data Staging Area: corresponde à área onde todos os dados provenientes dos sistemas operacionais são tratados para serem enviados à área de apresentação de dados. A área de Staging possui os dados físicos, lógicos e administrativos separados a fim de evitar que o a equipe de ETL tenha que garantir a segurança de acesso ao nível de linha de código, por exemplo. Na área de Staging são realizadas atividades que compõe o processo de ETL: » Extração: extrair os dados significa que a aplicação deverá ler e entender os dados para então colocá-los na área de estágio para maiores modificações como corrigir conflitos domínio, lidar com elementos ausentes, corrigir nomenclatura de elementos ou colocar os dados em um formato específico. Os dados não tratados são transferidos para armazenamento com um mínimo de reestruturação, porém sem que transformações significativas tenham ocorrido ainda. Dados dos sistemas legados (como por exemplo, XML) são transcritos para arquivos ou bases de dados relacionais nessa etapa. Esse baixo nível de transformações garante que o processo de extração seja rápido e simples e permite maior flexibilidade para reiniciar o processo caso haja alguma interrupção. » Limpeza: muitas vezes os dados dos sistemas de origem apresentam uma qualidade inferior ou não aceitável ao requerido pelo DW. Essa etapa é composta pelas atividades que garantem a qualidade dos dados extraídos, dentre elas: › checar a consistência de valores; › remover duplicações; › garantir conformidade com as regras de negócio. » Colocar dados em conformidade: conformidade dos dados é uma característica requerida quando diversas fontes de dados são “misturadas” em um DW. Queries 40 UNIDADE I │ APLICAÇÃO DO BI não podem acessar essas fontes separadas simultaneamente, ao menos que dados textuais possuam um nome comum ou dados referentes às mensurações numéricas tenham sido racionalizados matematicamente para que as diferenças existentes, ao se integrar os dados, não sejam discrepantes a ponto de invalidar a informação apresentada. Conformar os dados requer um padrão a nível corporativo a ser estabelecido e seguido a fim normalizá-los. » Entregar dados para o Front Room: o objetivo principal da área de staging, também citada por Kimball (2004) como “Back Room”, é deixar os dados preparados para a execução de queries. Segundo o produto final entregue pelos processos, são os dados estruturados fisicamente, de maneira “simétrica”, em esquemas dimensionais denominados esquemas estrela. Estes esquemas dimensionais são requeridos por diversas ferramentas de análise de dados e são fundamentais para a construção de cubos OLAP, reduzindo o tempo de resposta das queries e simplificando o desenvolvimento da aplicação. O conjunto destes esquemas compõe a área de apresentação de dados. Há uma discussão, quanto ao modo como os dados são armazenados na área de staging, que diz respeito à necessidade de usarem estruturas normalizadas dentro da área de staging do DW, seja ela proveniente da aplicação ou resultante de transformações. Há ainda a ressalva de que estruturas normalizadas devem ser mantidas longe de queries (devido ao baixo desempenho resultante) e que a área de apresentação é estritamente dimensional. A área de apresentação de dados nada mais é do que um DW/DM na visão dos usuários, ou seja, tudo que os usuários enxergam e conseguem acessar por meio das ferramentas de manipulação de dados. Ambos os tipos de modelagem de dados, o dimensional e a 3FN podem ser representados em modelos ER, pois ambos são formados por tabelas relacionadas por Joins. O que os diferencia, no entanto, é o nível de normalização. Bancos de dados normalizados atendem muitobem as necessidades de sistemas transacionais, pois permitem que, por exemplo, uma atualização toque a base de dados em um único local. No entanto este tipo de modelagem já não é tão adequado ao DW, pois além de o esquema ter uma complexidade alta, SGDBs relacionais não conseguem executar queries eficientemente contra estruturas normalizadas, o que resulta em queda de desempenho. Fatores fazem com que o uso de estruturas normalizadas contrarie o próprio sentido de existência do DW: alto desempenho de acesso aos dados de forma simples e intuitiva. Os objetivos da modelagem dimensional são então: 41 APLICAÇÃO DO BI │ UNIDADE I » facilidade no entendimento do modelo; » resistência às mudanças; » desempenho alto nas queries. Modelagem dimensional Ao visualizarmos a exibição dos dados na área de apresentação, estes normalmente estão estruturados de uma forma dimensional. Para que isso aconteça será necessária a utilização de técnicas de modelagem dimensional. A modelagem dimensional é utilizada quando se necessita colocar o entendimento do modelo e seu desempenho como prioridades do design de um esquema de banco de dados. Ele é caracterizado por ser um modelo que acomoda mudanças com muita facilidade. Esse tipo de modelagem é adequado ao cenário do desenvolvimento de DW, pois, como na maioria das vezes os requisitos não são tão claros, existe a necessidade de se entender como o usuário (final) entende o negócio, para que a solução consiga efetivamente auxiliar na tomada das decisões. O modelo dimensional também permite representar a visão do negócio que o usuário possui por meio da identificação de elementos familiares a ele, que se traduzem em métricas (ou mensurações) de processos organizacionais. Estas métricas são utilizadas pelos usuários em seu dia-a-dia, muitas vezes como indicadores de desempenho dos processos que são executados dentro das organizações. Quando se é analisado o desempenho, a modelagem dimensional fornece um modelo com poucas tabelas (muito menos que no modelo ER), desta forma os querys são executados de maneira mais eficiente por necessitarem de uma quantidade de joins menores. Quando é relacionado à modelagem dimensional, com o nível de detalhamento das informações apresentadas por um Data Mart, o objetivo não é fornecer somente um conjunto de informações pré-sumarizadas, mas sim remetê-lo a uma baixa adaptabilidade a mudanças de requisitos (usuários confrontarem o DM com querys inesperadas), mas sim informações com alto detalhamento, complementadas por agregações que são realizadas na identificação das informações que o usuário necessita agrupar de forma frequente. Os principais componentes deste tipo de modelo são fatos, dimensões e atributos destas dimensões. A modelagem dimensional procura agrupar os fatos com o maior número de informações contextuais (dimensões) possíveis. Fatos As tabelas de representação de “fatos”, nada mais são do que mensurações de algum processo do negócio. Estes dados dão suporte às operações matemáticas utilizadas para análise e intercessão dos processos em si. 42 UNIDADE I │ APLICAÇÃO DO BI Esta intersecção de diversas métricas é utilizada na avaliação de determinados processos (ex.: quantidade vendida, quantidade produzida, local em que foi vendido) que resulta em uma lista de dimensões descritivas de cada processo. Tabelas fatos são ricas em linhas, porém possuem poucas colunas, outra característica importante do modelo dimensional, que leva a necessidade de se agregar tais dados, diz respeito às tabelas fatos ocuparem aproximadamente 90% do tamanho de armazenamento, desta maneira, valores numéricos e aditivos são os mais úteis neste tipo de abordagem por serem facilmente manipulados. Os dados das tabelas de fatos podem ser caracterizados como: aditivos, semiaditivos e não aditivos. Dimensões As dimensões são descrições detalhadas de cada elemento da tabela de fatos (cada mensuração do processo). As tabelas são ricas em atributos (colunas) e conectada a tabela de fato por meio de chaves estrangeiras. O poder de um DW está diretamente relacionado à profundidade de suas tabelas de dimensões. Ao se identificar fatos e dimensões é necessário uni-los, o que resulta nos chamados esquemas estrela. Esquemas Estrela Ao definirmos quais serão as tabelas de fato e suas respectivas dimensões é necessário agrupá-las. A estrutura que possibilita este tipo de ligação recebe o nome de esquemas em estrela. As tabelas de fato são muito maiores, ou condensam muito mais dados do que as tabelas de dimensão, o que leva a uma heterogeneidade implícita no modelo dimensional e por consequência isso pode caracterizar uma “desvantagem” ao se modelar os dados, tratando-se de data warehouses. Esta forma de modelo é propícia quando se desenvolvem os Data Marts, pois estes são focados em requisitos do negócio de um departamento ou processo em particular, neste caso, assim que estes requisitos são determinados, uma estrutura em estrela é construída, e já esta otimizada para atender requisitos específicos. Os esquemas estrela podem ser enxergados como estruturas centralizadas por uma tabela fato que se liga a diversas tabelas de dimensões através de chaves estrangeiras. Para montar o esquema é necessário identificar os relacionamentos entre as tabelas dimensão e a de fato. É recomenda a utilização de chaves sintéticas (Surrogates Keys) a fim de substituir as chaves “naturais” ou provenientes dos sistemas de origem. 43 APLICAÇÃO DO BI │ UNIDADE I Essa prática consiste em colocar sequência numérica (inteiros) como identificador chave nas tabelas, para obter um maior desempenho ao se responder querys, tornar o modelo resistente a mudanças inerentes a chaves advindas dos dados dos sistemas transacionais e possibilitar uma integração de dados mesmo que estes possuam, originalmente, chaves pouco consistentes. Data Mining A Mineração de Dados ou Data Mining pode ser definida como um conjunto de técnicas automáticas de exploração de grandes massas de dados de forma a descobrir novos padrões e relações que, devido ao grande volume de dados, não seriam facilmente descobertas sem a utilização de ferramentas. Muitas são as técnicas utilizadas na mineração de dados ainda que ela seja mais uma arte do que uma ciência. O sentimento do especialista não pode ser dispensado, mesmo que as mais sofisticadas técnicas sejam utilizadas. As técnicas de mineração de dados já são um pouco antigas, e nos últimos anos elas passaram a ser utilizadas como exploração de dados, por vários motivos: » Os recursos computacionais estão cada vez mais potentes: a mineração de dados necessita de muitos recursos computacionais para conseguir que seus algoritmos manipulem grandes quantidades de dados. Devido aos avanços tecnológicos houve um aumento significativo no poder computacional, acompanhado da queda dos preços dos computadores. O avanço da área de banco de dados, também contribuiu bastante, a construção de bancos de dados distribuídos auxiliou, em muito, a mineração de dados; » A competitividade empresarial exige técnicas mais modernas de decisão: as empresas, principalmente da área de finanças e telecomunicações, sofrem a cada dia com a competição. Como estas empresas sempre detiveram em seus bancos de dados uma enorme quantidade de informação, é natural que a mineração de dados tenha se iniciado dentro de seus limites. Atualmente, muitas outras empresas buscam adquirir dados para analisar melhor seus negócios por meio dos sistemas de apoio à decisão. Para as empresas do ramo de serviços, a aquisição de dados é um fator importantíssimo, pois elas precisam saber que serviço oferecer e para a quem. » Programas comerciais de mineração de dados já podem ser adquiridos: a maioria das empresas que trabalha com sistemas ERP e CRM já oferecem soluções de manipulação de banco de dados e mineração. Fases da Mineração de Dados Em 1996, três empresas se juntaram para criação de uma
Compartilhar