Baixe o app para aproveitar ainda mais
Prévia do material em texto
MODELAGEM E TECNOLOGIA OLAP 1 Modelagem e tecnologia OLAP MODELAGEM E TECNOLOGIA OLAP 2 Modelagem e Tecnologia Online Analytical Processing (OLAP) O que é a tecnologia OLTP e OLAP? Uma coisa é possuir a informação, outra é a forma como a consultamos! Partindo deste princípio, nos primórdios da informatização, quando sistemas que geravam relatórios era a principal fonte de dados residentes na empresa, toda vez que uma análise necessitasse ser feita, era preciso produzir novos relatórios. Estes relatórios tinham que ser produzidos pela área de Informática e, normalmente, precisavam de muito tempo para ser disponíveis aos usuários finais, além disso, apresentavam alguns problemas, como: eram estáticos e o acúmulo de diferentes tipos de relatórios em um sistema gerava problema de manutenção. No cenário que vivenciamos atualmente, onde mudanças mínimas podem fazer a diferença entre o sucesso e a falência, torna-se questão de sobrevivência poder antecipar-se aos concorrentes e entender, de forma mais flexível e ágil, as inúmeras variáveis que regem o mercado. Quando se fala na capacidade de análise, os sistemas usados por uma empresa podem ser divididos em dois tipos: OLTP e OLAP. Os sistemas OLTP (Online Transactional Process), também conhecidos como transacionais, são excelentes para administrar o dia a dia das organizações, mas pecam quando o objetivo é o planejamento estratégico. Os relatórios que os sistemas OLTP fornecem são restritos a uma visão bidimensional do negócio, que não possibilita aos tomadores de decisão a flexibilidade que necessitam na análise da organização como um todo. Esses relatórios trabalham com o conceito de agrupamento linear das informações. Pode-se citar, como exemplo disso, MODELAGEM E TECNOLOGIA OLAP 3 um relatório que exiba as vendas de determinado produto por região, tendo os produtos e as regiões agrupadas em níveis hierárquicos simples. Vide figura abaixo: A maior parte das empresas utiliza-o no processamento dos dados de rotina que são gerados diariamente em transações, em tempo real, e de forma rápida, e dão suporte às funções de execução do negócio organizacional, porém não salvam histórico de dados, logo não são ideais para utilização em suporte à tomada de decisão. Seus principais pontos fortes são: Eficiência: A possibilidade da redução de documentos e maior velocidade na resposta dos cálculos de despesas ou retornos são exemplos de como esse sistema pode beneficiar a empresa que o tem como base de seu SGBD; Simplicidade: Permite que o acesso aos dados seja mais fácil, rápido e organizado, fazendo com que sua utilização aperfeiçoe processos. Devido à necessidade de mais agilidade das informações e sem ficar dependendo de outros para os gestores tomarem decisões, surgiu o conceito de OLAP (Online Analytic Processing). O OLAP proporciona as condições de análise de dados online necessárias para responder às possíveis torrentes de perguntas dos analistas, gerentes e executivos. MODELAGEM E TECNOLOGIA OLAP 4 OLAP é implementado de modo a oferecer respostas rápidas às consultas. As ferramentas OLAP são as aplicações que nossos usuários finais têm acesso para extraírem os dados de suas bases e construir os relatórios capazes de responder as suas questões gerenciais. Elas surgiram juntamente com os Sistemas de Apoio à Decisão para fazerem a consulta e análise dos dados contidos nas bases de dados analíticas (Data Warehouse e Data Marts). O resultado deste tipo de análise é, por meio do comportamento de determinadas variáveis no tempo, descobrir tendências, e com isso transformar os dados transacionais em informação estratégica. A seguir, uma tabela para visualização das diferenças entre o OLTP e OLAP: CARACTERÍSTICAS OLTP OLAP Operação Típica Update Analyze Telas Imutável User defined Nível de Dados Atomizado Altamente sumarizado Idade dos Dados Presente Histórico, atual e projetado Recuperação Um registro por vez Muitos registros Orientação Registro Arrays Modelagem Processo Assunto Os sistemas OLTP são alterados regularmente, pois controlam as operações diárias das empresas. Se uma informação possui um valor incorreto os resultados podem ser catastróficos. Já sistemas OLAP não são alterados constantemente. Por ter uma função de análise, os dados de um sistema OLAP são provenientes de um ou mais sistemas OLTP e arquivos (planilhas, e-mails, XML etc.). Exatamente por ter uma massa de dados maior MODELAGEM E TECNOLOGIA OLAP 5 que um sistema OLTP, um valor incorreto em um sistema OLAP não tem grande importância, pois o erro é diluído no tempo, não sendo analiticamente importante. A capacidade de análise da empresa cresce exponencialmente com este novo tipo de ferramenta. O antigo relatório de vendas de produto por região pode ser expandido para um relatório da evolução das vendas de diferentes produtos por região, faixas etárias ou grupos de produtos no decorrer do tempo. Essa mudança de visão traz o novo conceito: o de agregar informações e não mais simplesmente agrupá-las. OLAP é um conceito de interface com o usuário que proporciona a capacidade de ter ideias sobre os dados, permitindo analisá-los profundamente em diversos ângulos. As funções básicas do OLAP são: • visualização multidimensional dos dados; • exploração; • rotação; • vários modos de visualização. Funciona de forma dedicada à tomada de decisão, possui varias dimensões visualizáveis, hierarquizadas em várias granularidades e segue um modelo lógico multidimensional. São, geralmente, desenvolvidas para trabalhar em bancos de dados não normalizados e com dados históricos. Os dados presentes neste sistema não podem ser alterados, já que o sistema permite update dos dados, mas não manipulações com exclusão ou modificação direta dos dados. Sua principal característica é a visão multidimensional, são consultas que fornecem informações sobre os dados presentes em uma ou mais dimensões. Uma vez que os dados são históricos, as atualizações não precisam ser tão frequentes. Por exemplo, em uma comparação entre a produtividade de três filiais de uma empresa MODELAGEM E TECNOLOGIA OLAP 6 para um determinado produto nos últimos quatro meses, por mês, o dia de hoje ou mesmo ontem não é, em geral, de grande representatividade. As análises, geralmente, agrupam informações, sendo tais agrupamentos mais importantes neste contexto do que os dados detalhados. No exemplo do item anterior, o importante é a produção conjunta mensal, e não a produção de uma unidade particular do produto analisado. Os Métodos de Armazenamento (Modelos Físicos) do OLAP O OLAP é uma interface com o usuário e não uma forma de armazenamento de dados, porém se utiliza do armazenamento para poder apresentar as informações. Os métodos de armazenamento são: • ROLAP (OLAP Relacional): Os dados são armazenados de forma relacional. • MOLAP (OLAP Multidimensional): Os dados são armazenados de forma multidimensional. • HOLAP (OLAP Híbrido): Uma combinação dos métodos ROLAP e MOLAP. • DOLAP (OLAP Desktop): O conjunto de dados multidimensionais deve ser criado no servidor e transferido para o desktop. Permite portabilidade aos usuários OLAP que não possuem acesso direto ao servidor. Os métodos mais comuns de armazenamento de dados utilizados pelos sistemas OLAP são ROLAP e MOLAP, a única diferença entre eles é a tecnologia de banco de dados. O ROLAP usa a tecnologia RDBMS (Relational DataBase Management System), na qual os dados são armazenados em uma série de tabelas e colunas. Enquanto o MOLAP usa a tecnologia MDDB (Multidimensional Database), onde os dados são armazenados em arrays multidimensionais. MODELAGEM E TECNOLOGIA OLAP 7 Os dois fornecem uma base sólidapara análise e apresentam tanto vantagens quanto desvantagens. Para se escolher entre os dois métodos deve-se levar em consideração os requisitos e a abrangência do aplicativo a ser desenvolvido. Desempenho de Consulta entre o MOLAP e ROLAP MOLAP fornece uma resposta rápida para praticamente qualquer consulta, pois no modelo multidimensional são gerados previamente todas as combinações e resumos possíveis. ROLAP responde às consultas da mesma forma que os aplicativos RDBMS, a velocidade da resposta depende da informação desejada, porque a maior parte do processamento é feito em tempo de execução tendo em vista que os dados pré-calculados e resumidos, geralmente, não atendem a todas as solicitações dos usuários. Vantagens e Desvantagens de cada Método de Armazenamento MOLAP Características: • Arquitetura OLAP tradicional; • Os dados são armazenados em cubos dimensionais, em formatos proprietários, e não em banco de dados relacionais; • O usuário trabalha, monta e manipula os dados do cubo diretamente no servidor. Vantagens: • Alto desempenho: os cubos são construídos para uma rápida recuperação de dados; • Pode executar cálculos complexos: todos os cálculos são pré-gerados quando o cubo é criado e podem ser facilmente aplicados no momento da pesquisa de dados. Desvantagens: • Baixa escalabilidade: sua vantagem de conseguir alto desempenho com a pré- geração de todos os cálculos, no momento da criação dos cubos, faz com que o MOLAP seja limitado a uma pouca quantidade de dados. Esta deficiência pode MODELAGEM E TECNOLOGIA OLAP 8 ser contornada pela inclusão apenas do resumo dos cálculos quando se construir o cubo; • Investimentos altos: este modelo exige investimentos adicionais como cubo de tecnologia proprietária. Termos chave: • Armazenamento dos dados em cubos dimensionais e em formato proprietário; • Alto desempenho; • Execução de cálculos complexos; • Baixa escalabilidade. ROLAP Características: • Os dados são armazenados em banco de dados relacionais; • A manipulação dos dados armazenados, no banco de dados relacional, é feita para dar a aparência de operação em cubos; Vantagens: • Alta escalabilidade: usando a arquitetura ROLAP, não há nenhuma restrição na limitação da quantidade de dados a serem analisados, cabendo essa limitação ao próprio banco de dados relacional utilizado; • Pode alavancar as funcionalidades inerentes do banco de dados relacional: Muitos bancos de dados relacionais já vêm com uma série de funcionalidades e a arquitetura ROLAP pode alavancar estas funcionalidades. Desvantagens: • Baixo desempenho: cada relatório ROLAP é basicamente uma consulta SQL (ou várias consultas SQL) no banco de dados relacional e uma consulta pode consumir muito tempo se houver uma grande quantidade de dados; • Limitado pelas funcionalidades SQL: ROLAP se baseia principalmente na geração de instruções SQL para consultar a base de dados relacional, porém essas instruções não suprem todas as necessidades (por exemplo, é difícil realizar cálculos complexos utilizando SQL). Portanto, usar ROLAP é se limitar ao que instruções SQL podem fazer. Termos chave: • Alta escalabilidade; MODELAGEM E TECNOLOGIA OLAP 9 • Pode alavancar as funcionalidades inerentes do banco de dados relacional; • Baixo desempenho; • Limitado pelas funcionalidades SQL. HOLAP Características: • HOLAP tenta combinar as vantagens de MOLAP e ROLAP, extraindo o que há de melhor de cada uma, ou seja, a alta performance do MOLAP com a melhor escalabilidade do ROLAP; • Para informações do tipo síntese, HOLAP utiliza cubos dimensionais para um desempenho mais rápido; • Quando for necessário mais detalhe de uma informação, HOLAP pode ir além do cubo multidimensional para o banco de dados relacional utilizado no armazenamento dos detalhes. Vantagens: • Alto desempenho: os cubos dimensionais apenas armazenam síntese das informações; • Alta escalabilidade: os detalhes das informações são armazenados em um banco de dados relacional. Desvantagens: • Arquitetura de maior custo: é modelo que possui o maior custo de aquisição. Termos chave: • Alto desempenho; • Alta escalabilidade; • Arquitetura de maior custo. DOLAP Característica: • São as ferramentas que, a partir de um cliente qualquer, emitem uma consulta para o servidor e recebem o cubo de informações de volta para ser analisado na estação cliente. Vantagens: • Pouco tráfego na rede: todo o processamento OLAP acontece na máquina cliente; MODELAGEM E TECNOLOGIA OLAP 10 • Não sobrecarrega o servidor de banco de dados: como todo o processamento acontece na máquina cliente, o servidor fica menos sobrecarregado. Desvantagem: • Limitação do cubo de dados: o tamanho do cubo de dados não pode ser muito grande, caso contrário, a análise passa a ser demorada e/ou a máquina do cliente pode não suportar em função de sua configuração. Termos chave: • Pouco tráfego na rede; • Não sobrecarrega o servidor de banco de dados; • Limitação do cubo de dados. Síntese das arquiteturas em Desempenho, Escabilidade e Custo. Além da visão multidimensional dos dados da empresa, outras importantes características dos sistemas OLAP são: • Análise de tendências. A tecnologia OLAP é mais do que uma forma de visualizar a história dos dados. Deve, também, ajudar os usuários a tomar decisões sobre o futuro, permitindo a construção de cenários ("e se ...") a partir de suposições e fórmulas aplicadas, pelos analistas, aos dados históricos disponíveis; • Busca automática (reach through) de dados mais detalhados que não estão disponíveis no servidor OLAP. Detalhes não são normalmente importantes na tarefa de análise, mas quando necessários, o servidor OLAP deve ser capaz de buscá-los; • Dimensionalidade genérica; • Possibilidade de fazer cálculos e manipulação de dados através de diferentes dimensões; MODELAGEM E TECNOLOGIA OLAP 11 • Possibilidade de ver os dados de diferentes pontos de vista (slice and dice), mediante a rotação (pivoting) do cubo e a navegação (drill-up/drill-down) entre os níveis de agregação; • Conjunto de funções de análise e cálculos não triviais com os dados. Cubo Vimos algumas vezes que as informações em OLAP podem ser visualizadas em diversas visões, isto nos leva ao conceito de cubo, permitindo a visualização da informação em diferentes posições, seja por necessidade de verificação da informação detalhada ou resumida, seja por verificação em diferentes pontos de vista. Os cubos são utilizados para organizar a informação, utilizando valores ou medidas, assim efetuando combinações necessárias desses dados. Por meio desses, é formada a visão para efetuar análise do negócio como, produtos, departamentos etc. Cubos são modelos multidirecionais que acabam simplificando o processo de consultas complexas, como criar relatórios ou efetuar análises de situações. Por meio dos cubos podemos definir hierarquias (níveis), como, por exemplo: anos, meses, dias ou país, região, estado e cidade (da visão macro para a micro), assim organizando e agilizando o processo de consulta. Por exemplo, um cubo com informações de vendas, poderá ser composto por dimensões de tempo, região, produto, cliente, e medidas como valor de venda, unidades vendidas, custos, margem etc. Os cubos utilizados no BI podem ser comparados com o tradicional Cubo Mágico. Por meio deles podem ser montadas diversas visões para análise do negócio e obter diversas combinações, assim como no Cubo Mágico pode-se obter várias combinações de cores. É preciso saber que um cubo utilizado no BI não segue o conceito da figura geográfica (todos os lados iguais), pois a palavra apenas serve para definir o conceito, não necessariamente tudo precisa ser igual (dados), pois as múltiplas combinações podem gerar diferentes resultados.O cubo apresenta a característica de possuir armazenamento e indexação em estruturas de dados que otimizam consultas ao invés de atualizações. MODELAGEM E TECNOLOGIA OLAP 12 A Figura ilustra uma representação de um cubo com três dimensões: Produto, Região e Tempo. Cubo, nada mais é do que uma metáfora ajudando a entender como se comporta uma visão multidimensional. É importante dizer que cubo e OLAP ou mesmo cubo e BI não são a mesma coisa. Um cubo é apenas uma visão multidimensional (como se fosse um relatório), OLAP é a técnica, teoria ou ferramenta usada para se construir cubos e BI é o conjunto de cubos, KPI (Indicadores de desempenho), relatórios e demais ferramentas que compõe uma solução de análise gerencial e estratégica de uma empresa. Um cubo, para ser reconhecido como tal, deve prover as seguintes operações: • Drill down: significa descer um nível hierárquico em uma dimensão. Ex.: dimensão tempo, ano para o trimestre e trimestre para o mês; • Drill up/Roll up: significa subir um nível hierárquico em uma dimensão. Ex.: dimensão produto, subir o nível do produto para categoria do produto; • Drill across: significa analisar um nível intermediário dentro de uma mesma dimensão. Ex.: dimensão produto, venda dos produtos em um determinado ano, venda de um produto X no ano Y; MODELAGEM E TECNOLOGIA OLAP 13 • Drill throught: significa alternar a análise de uma dimensão para outra. Ex.: produto para região ou mesmo de uma agregação (todas as vendas de agosto de 2017) para os detalhes (tabela com cada venda no período citado); • Drill back/Write back: é bastante utilizado em previsões e consiste na ação de alterar os valores existentes em um cubo OLAP. Pode ser usado, por exemplo, para medir o impacto na empresa do aumento, em 10% do orçamento, para o ano seguinte; • Slice: significa analisar determinada fatia do cubo OLAP. Ex.: analisar certo produto em uma determinada região; • Dice: significa alterar a visão de um cubo OLAP, alterando a análise de vendas dos produtos por região para vendas por faixa etária de cada mês; • Pivot: permite diferenciar as visualizações por meio de trocas de colunas por linhas ou alterando eixos das tabelas; • Rank: permite ordenar os dados de uma dimensão de acordo com a medida corrente e serve também como filtro com ordenar os valores de vendas por ordem de data ou do maior para o menor valor. Modelagem de Dados Multidimensional O OLAP contém dois tipos básicos de dados: medidas, que são dados numéricos, as quantidades e médias que você usa para tomar decisões comerciais estando bem informado; e dimensões, que são as categorias que você usa para organizar essas medidas. Os bancos de dados OLAP ajudam a organizar os dados por muitos níveis de detalhe, usando as mesmas categorias com as quais você está familiarizado para analisar os dados. Toda modelagem dimensional possui dois elementos imprescindíveis: Entidades e Relacionamentos (E-R) e a modelagem Multidimensional possui os elementos: Tabela Fato e Dimensões. MODELAGEM E TECNOLOGIA OLAP 14 É de grande importância uma boa modelagem multidimensional para permitir bom desempenho, intuitividade e escalabilidade em um banco de dados analítico que é o grande suporte da solução de BI. A cautela e o empenho no planejamento e na elaboração da modelagem poderão garantir, a médio e longo prazo, um armazém de dados de qualidade com insights valiosos para toda a organização no uso do BI. A granularidade é uma das mais importantes definições na modelagem de dados e requer atenção. O grão é o menor nível da informação e é definido de acordo com as necessidades elencadas no início do projeto. Ele é determinado para cada tabela Fato, já que normalmente possuem informações e granularidades distintas. É importante entender o relacionamento que existe entre o detalhamento e a granularidade. Quando falamos de menor granularidade, ou granularidade fina, significa maior detalhamento (menor sumarização) dos dados. Maior granularidade, ou granularidade grossa, significa menor detalhamento (maior sumarização). Assim podemos notar que a granularidade e o detalhamento são inversamente proporcionais. A granularidade afeta diretamente no volume de dados armazenados, na velocidade das consultas e no nível de detalhamento das informações. Quanto maior for o detalhamento, maior será a flexibilidade para se obter respostas. Porém, maior será o volume e menor a velocidade das consultas. Já quanto menor for o detalhamento, menor será o volume, maior a sumarização dos dados e melhor será a performance. Entretanto, menor será a abrangência, ou seja, maior será as restrições das consultas às informações. A sumarização e o detalhamento do grão também podem ser compreendidos pelas operações de Drill Down e Roll Up (Drill Up). Com o Drill Down estamos diminuindo o nível da granularidade, aumentando assim o nível de detalhes. Ao contrário disso, o Roll Up aumenta o nível da granularidade, diminuindo dessa forma, o nível de detalhamento das informações. MODELAGEM E TECNOLOGIA OLAP 15 Deve ser avaliado o equilíbrio entre detalhamento e sumarização para que a granularidade seja modelada com a melhor eficiência e eficácia para as consultas dos usuários, sempre levando em consideração as necessidades apuradas no começo do projeto. Nada vai adiantar deixar a granularidade alta sem que seja alcançado o grão exigido pelo negócio. Também é necessário avaliar o tipo de métrica empregada nas tabelas Fatos. No aspecto de obtenção de respostas, as Fatos com métricas aditivas terão uma melhor flexibilidade para se ter menor granularidade. As métricas semiaditivas, como saldo, ou métricas não aditivas, como percentuais, serão indicadas para se definir uma alta granularidade. Portanto, devemos analisar os diversos fatores e aspectos para uma melhor definição dos grãos das tabelas Fatos. As questões de volume de dados, performance e requisitos devem ser ponderadas para se chegar a uma correta decisão. Por fim, a granularidade é um assunto de grande importância e enorme impacto, que, se mal dimensionado, pode acarretar até mesmo na inviabilização do projeto. http://corporate.canaltech.com.br/materia/business-intelligence/Tipos-de-metricas-existentes-no-Data-Warehouse/ MODELAGEM E TECNOLOGIA OLAP 16 Tabela Fato e Dimensões na Modelagem Multidimensional O que é uma tabela Fato? • Uma coleção de itens de dados, ou seja, os itens do negócio, ou ainda, os eventos do negócio; • São as medições numéricas do negócio; • É evolutivo, muda suas medidas com o tempo; • São os eventos do negócio que vão acontecendo dinamicamente e exigem a presença das dimensões. Existem três características que sempre teremos que analisar nos itens dos negócios para identificação dos Fatos: • Varia ao longo do tempo; • Possui valores numéricos de avaliação; • Seu histórico pode ser mantido e cresce com o passar do tempo. A tabela Fato possui característica quantitativa dentro do DW. A partir dela são extraídas as métricas que são cruzadas com os dados das Dimensões, concebendo, assim, informações significativas para a análise do usuário. A Fato armazena as medições necessárias para avaliar o assunto pretendido. O conteúdo histórico da base de dados analítica, contendo longo período de tempo, fica depositado na Fato. O que são Dimensões? • Junção de tabelas de Fatos através de chave estrangeira; • Linhas extensas com numerosas colunas de texto, altamente descritivas; • Em geral, são tabelas pequenas; • São definições de dimensões de negócio com terminologia familiar aos usuários; • É o acesso às tabelas Fatos; • Altamente indexadas. Um conjunto de uma ou mais hierarquias organizadas de níveis em um cubo que um usuário entende e usa como a basepara a análise de dados. Por exemplo, uma dimensão geográfica talvez inclua níveis para país/região, estado/província e cidade. MODELAGEM E TECNOLOGIA OLAP 17 Ou, uma dimensão de tempo talvez inclua uma hierarquia com níveis para ano, trimestre, mês e dia. Em um relatório de tabela dinâmica ou relatório de gráfico dinâmico, cada hierarquia se torna um conjunto de campos que você pode expandir e recolher para revelar níveis mais baixos ou mais altos. As Dimensões estabelecem a organização dos dados, determinando possíveis consultas/cruzamentos. Por exemplo: região, tempo, canal de venda,… Cada dimensão pode ainda ter seus elementos, chamados membros, organizados em diferentes níveis hierárquicos. A dimensão tempo, por exemplo, pode possuir duas hierarquias: calendário (com os níveis ano, mês e dia) e calendário fiscal (com os níveis ano, semana e dia). O que são Medidas? Os valores a serem analisados, como médias, totais e quantidades. O que são Agregações? Totalizações calculadas nos diversos níveis hierárquicos. Modelo Star Schema (esquema estrela) A estrutura dimensional normalmente é desenhada no formado do esquema estrela. Nesse modelo, as tabelas de Dimensões são ligadas diretamente à tabela Fato. Outra característica marcante é que os dados são desnormalizados, pois a redundância resultante gera benefícios para a otimização das consultas e navegação das informações. A imagem a seguir permite uma visualização simples do que seria um esquema estrela na modelagem de dados multidimensional: MODELAGEM E TECNOLOGIA OLAP 18 Perceba que a Fato fica centralizada no modelo e as Dimensões (tabela auxiliares) ficam na zona periférica, fazendo assim a analogia com o formato estelar. MODELAGEM E TECNOLOGIA OLAP 19 As Dimensões e Fatos são componentes complementares e dependentes entre si. Em um modelo dimensional é obrigatória a existência de ambos. Sem um desses elementos, a compreensão e análise das informações ficam comprometidas no modelo dimensional, ou até mesmo inviabilizadas. Portanto, na estrutura multidimensional, é possível cruzar as informações dos dados centrais (métricas) com os dados periféricos (descritivos), permitindo assim a análise das informações nas mais diferentes visões, adequando-se de acordo com a necessidade do usuário na utilização de um sistema de BI. Modelo Snow Flake (Floco de Neve) O modelo Snow Flake é parecido como o Star Schema. A diferença principal está na normalização das tabelas dimensões. Isso facilita a evolução das dimensões e ajuda a MODELAGEM E TECNOLOGIA OLAP 20 desocupar algum espaço antes utilizado pelas próprias, porém como passa a existir a necessidade de junções para acessar dados normalizados o tempo de resposta acaba ficando maior e talvez, até mesmo pela velocidade e facilidade, o modelo Estrela seja mais popular. A decisão de optar pelo esquema estrela ou pelo floco de neve deve ser tomada levando-se em consideração o volume de dados, o SGBD, as ferramentas utilizadas etc. Abaixo, segue uma tabela com a comparação entre os dois esquemas: Modelo Estrela Modelo Floco de Neve Tabela Dimensão Não normalizada Normalizada Tamanho Físico Grande volume já que os dados se repetem nas tabelas Dimensões não normalizadas Volume reduzido, já que os dados das tabelas Dimensões são normalizados para evitar repetições Velocidade das consultas Rápida Menos rápida do que o modelo estrela devido à normalização Para uma modelagem correta, temos que seguir algumas regras: 1) Carregue dados detalhados para as estruturas dimensionais Modelos dimensionais devem ser populados com um alicerce de dados detalhados para suportar os requisitos imprevisíveis de filtragem e agrupamento necessários para atender as consultas dos usuários de negócios. Usuários, normalmente, não precisam visualizar um registro por vez, mas é impossível prever em quais diferentes maneiras eles pretendem ver os dados e acessar os detalhes. Se apenas dados agregados estiverem disponíveis, então você já deve ter se deparado com padrões de utilização dos dados que levaram os usuários a chegar a uma barreira intransponível quando eles querem acessar os detalhes. É claro, dados detalhados podem ser complementados por modelos dimensionais agregados que trazem vantagens de desempenho para consultas frequentes de dados sumarizados, mas os usuários de MODELAGEM E TECNOLOGIA OLAP 21 negócios não conseguem viver apenas dos dados agregados; eles precisam dos detalhes sangrentos para responder seus diferentes questionamentos. 2) Estruture os modelos dimensionais em torno dos processos de negócios Os processos de negócios são as atividades desenvolvidas por sua empresa; elas representam eventos mensuráveis, como registrar um pedido ou emitir uma fatura para um consumidor. Processos de negócios, normalmente, capturam ou geram métricas únicas de desempenho associadas a cada evento. Essas métricas são traduzidas em fatos, com cada processo de negócios representado por uma única tabela Fato. Além destas tabelas Fato para cada processo, tabelas Fato consolidadas às vezes são criadas para combinar métricas de vários processos em uma tabela Fato com um nível padronizado de detalhe. Novamente, tabelas Fato agregadas são um complemento para as tabelas Fato detalhadas relacionadas aos processos de negócio, e não um substituto para elas. 3) Tenha certeza de que cada tabela Fato tenha uma Dimensão de data associada Os eventos mensuráveis descritos, na Regra 2, sempre têm uma data de algum tipo associada a eles, seja um balancete mensal ou uma transferência de dinheiro registrada em seu centésimo de segundo. Cada tabela Fato deve ter, ao menos, uma chave estrangeira associada a uma tabela de Dimensão de data, cuja granularidade é cada único dia, com os atributos de calendário e suas características não padronizadas relacionadas à data do evento, como o período fiscal ou um indicador corporativo de feriado. Às vezes, múltiplas chaves estrangeiras de data estão ligadas em uma única tabela Fato. 4) Certifique-se de que todos os fatos, em uma única tabela Fato, estejam na mesma granularidade ou no mesmo nível de detalhe Existem três granularidades fundamentais para classificar todas as tabelas Fato: transacional, snapshot periódico, ou snapshot acumulado. Independente de sua granularidade, cada métrica em uma tabela Fato deve estar exatamente no mesmo MODELAGEM E TECNOLOGIA OLAP 22 nível de detalhe. Quando você mistura fatos representando muitos níveis de granularidade, em uma mesma tabela Fato, você estará criando confusão para os usuários de negócios e tornando as aplicações de BI vulneráveis a erros de valores ou outros resultados incorretos. 5) Resolva relacionamentos muitos para muitos em tabelas Fato Como uma tabela Fato guarda os resultados de um evento, de um processo de negócios, existem, inerentemente, relacionamentos muitos para muitos (M:M) entre suas chaves estrangeiras, como diferentes produtos vendidos em diferentes lojas em diferentes dias. Esses campos de chaves estrangeiras nunca devem conter valores nulos. Às vezes, dimensões podem ter valores diferentes para uma única métrica, como diferentes diagnósticos associados com uma consulta médica ou diferentes clientes de uma conta bancária. Nestes casos, seria irracional resolver as dimensões multivaloradas diretamente na tabela Fato, pois isto poderia violar a granularidade natural da métrica. Podemos usar um relacionamento muitos para muitos, com uma tabela de relacionamento em conjunto com a tabela Fato. 6) Resolva os relacionamentos muitos para um nas tabelas Dimensões Hierarquicamente, relacionamentos muitos para um (M:1) entre atributos são normalmente desnormalizados ou concentrados em uma única tabela Dimensão.Caso você não queira passar a maior parte de sua carreira desenhando modelos entidade- relacionamento para sistemas transacionais, você precisa resistir a sua instintiva tendência a normalizar ou criar um snow flake com subdimensões menores para cada relacionamento M:1; desnormalização de dimensões é a regra do jogo na modelagem dimensional. É bastante comum ter muitos relacionamentos M:1 em uma única tabela dimensão. Relacionamentos um para um, como uma única descrição de produto associada a um código de produto, também são encontradas em uma tabela Dimensão. Ocasionalmente, relacionamentos muitos para um são resolvidos na tabela Fato, como no caso de uma tabela de Dimensão detalhada com milhões de linhas e com atributos MODELAGEM E TECNOLOGIA OLAP 23 frequentemente atualizados. Entretanto, usar a tabela Fato para resolver relacionamentos M:1 deve ser feito moderadamente. 7) Gravar nomes de relatórios e valores de domínios de filtros em tabelas Dimensão Os códigos e, mais importante ainda, as decodificações e descrições associadas a eles usadas como nomes de colunas em relatórios e como filtros em consultas devem ser gravadas em tabelas Dimensionais. Evite gravar campos com códigos criptográficos ou volumosos campos descritivos na própria tabela Fato; da mesma forma, não grave apenas o código na tabela de Dimensão e assuma que os usuários não precisam das decodificações descritivas ou que elas podem ser resolvidas na aplicação de BI. Se a informação for um nome de linha/coluna ou um filtro de menu, então ela deve ser tratada como um atributo de Dimensão. Embora tenhamos dito, na Regra #5, que as chaves estrangeiras de tabelas Fato nunca devam ser nulas, também é aconselhável evitar nulos em campos de atributos de tabelas Dimensão trocando o valor nulo por um valor como "NA" (não se aplica) ou algum outro valor padrão, determinado pela administração de dados, para reduzir a confusão entre os usuários, se possível. 8) Tenha certeza de que as tabelas Dimensão usam uma chave artificial Chaves artificiais, sem significado e sequenciais (exceto para a dimensão Data, onde chaves cronologicamente definidas e mais inteligíveis são aceitáveis) provêm um grande número de benefícios operacionais; chaves menores significam menores tabelas Fato, menores índices, e desempenho melhorado. Chaves artificiais são absolutamente necessárias no caso de você estar registrando as alterações dos atributos da Dimensão com uma nova linha para cada mudança. Mesmo que seus usuários de negócios, inicialmente, não visualizem o valor de registrar as alterações nos atributos, usar chaves artificiais tornará uma futura alteração de política menos onerosa. As chaves artificiais também permitem mapear múltiplas chaves transacionais para um único perfil, adicionalmente protegendo contra atividades operacionais MODELAGEM E TECNOLOGIA OLAP 24 inesperadas, como a reutilização de um código de produto obsoleto ou a aquisição de outra empresa com suas próprias regras de codificação. 9) Crie dimensões padronizadas para integrar os dados na empresa Dimensões padronizadas (também conhecidas por dimensões comuns, principais, ou de referência) são essenciais para o banco de dados analítico (DW) empresarial. Gerenciadas no sistema de ETL e então reutilizadas associadas a diversas tabelas Fato; dimensões padronizadas trazem atributos descritivos consistentes para os modelos dimensionais e permitem a habilidade de navegar através dos dados integrados de diferentes processos de negócios. A matriz de negócios da empresa é o diagrama de arquitetura chave para representar os processos de negócios principais da organização e suas dimensões associadas. A reutilização das dimensões padronizadas, finalmente, diminui o tempo de desenvolvimento eliminando o desenho redundante e o esforço de desenvolvimento; entretanto, dimensões padronizadas requerem um compromisso e investimento em administração de dados e governança, assim você não precisa que cada pessoa concorde com cada uma das dimensões para atingir a conformidade. 10) Avalie requisitos e realidade continuamente para desenvolver uma solução de DW/BI que seja aceita pelos usuários de negócios e suporte seu processo de tomada de decisões Os responsáveis pela modelagem dimensional devem, constantemente, balancear os requisitos dos usuários de negócios com as realidades inerentes aos dados de origem associados, para desenvolver um modelo que possa ser implantado, e que, mais importante ainda, tenha uma boa chance de ser útil aos negócios. A avaliação dos requisitos versus realidades é parte da tarefa dos desenvolvedores de DW/BI, apesar de você estar focado na modelagem dimensional, na estratégia do projeto, nas arquiteturas técnica/ETL/BI ou na implantação/planejamento de manutenção. MODELAGEM E TECNOLOGIA OLAP 25 Vantagens da Modelagem Multidimensional Como vimos, o Business Intelligence (BI) é a melhor tecnologia para a empresa tomar decisões estratégicas e rápidas. Transformar dados em informações é preciso ações específicas do BI. Para um melhor processo, temos algumas dicas: • Conhecer melhor seus processos de informações Analise e identifique as informações que estão sendo colhidas durante o processo de captação de dados. • Medir efetividade Com BI sua empresa detecta a efetividade de determinada ação, dado ou ferramenta utilizada na empresa. • Controlar receita e despesas Identifique perdas e custos, aumente seus lucros com as informações coletadas. • Planejar e simular com mais segurança Não arrisque, com BI sua empresa aposta no resultado concreto e não em uma hipótese. • Velocidade na análise de informações Visualize, na hora em que for preciso e na palma da mão, aumentando a praticidade e efetividade dos resultados. • Retorno rápido do investimento Após o investimento o BI proporciona rapidez no ROI (Return On Investment). • Atitude dos gestores Transforme a atitude dos gestores, que deixam de ser reativos e tornam-se proativos. Além desses itens, existem outras vantagens como: flexibilidade, conhecimento empresarial, tomada de decisão, competitividade e relatórios gerenciais. A modelagem multidimensional é o início do projeto de BI, e para o processo desta modelagem é necessário fazer uma análise, só que ao invés da Análise Tradicional é feita a de Sistemas de Apoio à Decisão (SAD). Enquanto na Análise Tradicional são documentados os processos lógicos, o repositório dos dados e as entradas e saídas MODELAGEM E TECNOLOGIA OLAP 26 externas do sistema existente, para o novo sistema que estará sendo desenvolvido, o foco da Análise de Sistemas de Apoio à Decisão é determinar os requisitos e as fontes de dados dos sistemas existentes, documentar como será feita a extração e como disponibilizar os dados aos usuários finais. Nesta análise, as fontes dos dados já existem e estão definidas, então basta entender quais dados são de interesse do usuário e como extrair e tratar esses dados para disponibilizá-los às consultas. A escolha dos dados que são de interesse do usuário e como esses dados serão tratados, ou seja, editados, transformados (após limpeza), agregados e sumarizados são tarefas da Análise de Fonte de Dados, que é outro processo. O modelo deverá iniciar com entrevistas que serão a base para traçar o perfil que irá definir o planejamento do modelo a ser implementado para o ambiente de suporte à decisão que será criado, além de identificar o conteúdo e o volume da base de dados já existente na empresa. Para finalizar o processo de identificação do ambiente de negócios, é preciso discutir e validar as informações levantadas e as premissas para o modelo com o corpo executivo da organização. Algumas vantagens com a modelagem para o início do projeto de BI: • velocidade na análise de informações sempreque as organizações percebem mudanças de tendências; • cruzamento de dados específicos para análises; • maleabilidade das informações que podem ser tratadas; • geração de informações consistentes para análises gerenciais e processos decisórios. A maior vantagem decorrente da utilização do BI é a uniformização da informação fornecida, permitindo dispor de "uma verdade única" dentro da organização e garantindo que todos trabalham com a mesma realidade, facilitando assim a tomada de decisão. A uniformização da informação fornecida permite uma maior rapidez no seu acesso, uma maior fiabilidade da própria informação de negócio, ganhos de MODELAGEM E TECNOLOGIA OLAP 27 eficiência, automatização de processos de análise e de reporting, descentralização do acesso à informação, libertação de recursos etc. Conclusão Observando a importância do recurso informação, torna-se importante que todas as empresas destinem uma atenção especial ao seu formato e à maneira que ela é obtida, pois por meio dessas informações serão tomadas decisões importantes para o desenvolvimento da empresa. Com o estudo dessa técnica de negócio, pode-se concluir que utilizando essa técnica, agiliza-se o processo de geração de informações e auxilia-se os gestores nas tomadas de decisão e até mesmo para manter-se sempre à frente no mercado. Portanto, com a utilização das ferramentas OLAP as empresas poderão ter ganhos significativos de produtividade, pois ao auxiliar na tomada de decisões, disponibiliza informações estratégicas que poderão ser visualizadas de diversas maneiras. Tudo isto de forma instantânea e consistente, com respostas rápidas às consultas e perguntas de gerentes e analistas. As informações geradas com BI proporcionam, aos gestores da empresa, uma visão geral de como andam os negócios da sua empresa e assim traçar metas para melhorar os negócios, além de ser um diferencial competitivo tanto para manter-se no domínio do mercado quanto para agilizar suas análises. MODELAGEM E TECNOLOGIA OLAP 28 BIBLIOGRAFIA CAVALCANTI, Thiago Rodrigues. OLAP. Disponível em: <http://www.itnerante.com.br/profiles/blogs/artigo-suporte-a-decis-o-02-sobre-as- opera-es-de-olap>. Acesso em: 26 maio 2013. CELEDO. Business Intelligence na palma na mão. Disponível em: <http://cio.uol.com.br/gestao/2007/01/16/idgnoticia.2007-01-16.9426691194/>. Acesso em: 13 jul. 2008. CÔRTES, P. L. Business Intelligence, CRM, OLAP, Data Mining, Data Warehouse e Data Mart. In: CÔRTES, P. L. Administração de Sistemas de Informação. São Paulo: Saraiva, 2008. p. 365-437. DAL POZZO, Marco A. Implementação do cubo de decisão em uma data warehouse extraído de um sistema de gerenciamento empresarial. 2002. 42 f. Trabalho de Conclusão de Curso (Bacharelado em Ciências da Computação). Centro de Ciências Exatas e Naturais, Universidade Regional de Blumenau, Blumenau. DAVENPORT, T. H.; PRUSSAK, L. Conhecimento empresarial, como as empresas gerencial seu capital intelectual. 5. ed. Rio de Janeiro: Campos, 1988 FRANÇA, Flávio Almada. A Inteligência por trás do Business Intelligence. Disponível em: <http://flavioaf.wordpress.com/2011/09/28/a-inteligencia-por-traz- do-business-intelligence/>. Acesso em 26 maio 2013. GARTNER, I. Business Intelligence (BI). Gartner IT Glossary. Retrieved June 27, 2013. Disponível em: <http://www.gartner.com/it-glossary/business-intelligence- bi/>. Acesso em 09 mar. 2018. HAHN, Seungrahn et al. Capacity planning for business intelligence applications. 1. ed. San Jose, CA, EUA: International Business Machines Corporation, 2000. KIMBALL, R. (2002). The data warehouse toolkit. [s./l.] Wiley, 464 p. Disponível em: <http://www.kimballgroup.com/>. Acessado em: jul. 2012. MICROSOFT CORPORATION. (2007). Visão geral do OLAP (processamento analítico online). Disponível em: <http://office.microsoft.com/pt-br/excel-help/visao-geral-do- olap-processamento-analitico-online-HP010177437.aspx>. Acesso em: 13 maio 2013. http://cio.uol.com.br/gestao/2007/01/16/idgnoticia.2007-01-16.9426691194/ http://www.gartner.com/it-glossary/business-intelligenc%20e-bi/ http://www.gartner.com/it-glossary/business-intelligenc%20e-bi/ MODELAGEM E TECNOLOGIA OLAP 29 MICROSOFT CORPORATION. OLAP. Disponível em: <http://office.microsoft.com/pt- br/excel-help/visao-geral-do-olap-processamento-analitico-online- HP010177437.aspx>. Acessado em: 26 maio 2013. PETRINI, M.; POZZEBON, M.; FREITAS, M. T. Inteligência de negócios no Brasil. [s./l.] HSM Management, 2005. PRIMAK, Fábio Vinicius. Decisões com B.I. - Business Intelligence. Rio de Janeiro: Ciência Moderna, 2008. TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e modelagem de banco de dados. 4. ed. Rio de Janeiro: Campus, 2007. TURBAN, Efraim; ARONSON, Jay; LIANG, Ting-Peng. Decision support and business intelligence systems. 8. ed. [s./.] Prentice-Hall, 2007. TURBAN, E., & VOLONIMO, L. (2013). Business Intelligence e suporte à decisão. In: A. Evers (Trans.). Tecnologia da Informação para Gestão: em busca do melhor desempenho estratégico e operacional. 8. ed. p. 468. Porto Alegre: Bookman, [s./d.]. http://www.submarino.com.br/books_bio.asp?Query=ProductPage&ProdTypeId=1&ArtistId=4090146&Type=1
Compartilhar