Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Faculdade de Administração e Finanças – FAF Universidade do Estado do Rio de Janeiro – UERJ Bacharelado em Administração Prof. Paulo Massillon (paulo.massillon@gmail.com) Colaboração de Prof. Jorge Soares Data Warehouses e Sistemas OLAP Sistemas Gerenciais Informatizados � Avanços em TI e Crescimento dos BDs � Internet � SGBDs � Dispositivos de memória (maior capacidade e menor custo) � Leitoras de códigos de barras � Sistemas de Informação em geral 2 Introdução 2 OPERACIONAL INFORMAÇÕES ANALÍTICAS TÁTICO INFORMAÇÕES CONSOLIDADAS ESTRATÉGICO INFORMAÇÕES SUMARIZADAS 3 Conceitos Básicos Perfil do Usuário versus Tipo de Informação 4 � Controle Operacional: � Sistemas aplicativos transacionais de qualidade � Automação de processos corporativos � Controle Estratégico: � Busca de informações e conhecimento � Planejamento corporativo Controles Operacional e Estratégico 3 5 Hierarquia Dado – Informação – Conhecimento 6 � Ferramentas: OLTP � De On-line Transactional Processing � Modelagem de Dados para Sistemas OLTP � Foco nos detalhes das transações do dia a dia � Automação dos processos corporativos Controle Operacional Corporativo 4 7 � Ferramentas de BI � De Business Intelligence � Conjunto de tecnologias orientadas a disponibilizar informação e conhecimento corporativos � CRM, KM, DW, ... � Foco em aspectos estratégicos para os negócios corporativos � Requer bases de dados históricas Controle Estratégico Corporativo 8 � Principal objetivo: disponibilizar informações para apoio a decisões em empresas. � Deve disponibilizar dados sobre a história da empresa, viabilizando consultas e análises estratégicas. � Consultas OLAP (On-line Analytical Processing) � Permitem visualização e navegação pelos dados sob diversas perspectivas e níveis de detalhe. Data Warehouses (DW) 5 9 � Coleção de dados � orientados a assuntos � integrados � não voláteis � variáveis com o tempo, destinados a auxiliar decisões de Negócio Willian H. Inmon - 1990 Data Warehouses (DW) Data Warehouse Nível Interm. 10 Exemplo de Ambiente 6 11 Exemplos de Fontes de Dados 12 Exemplos de usos do DW operational data store executive information system 7 13 Característica de Orientação a Assuntos Operacional Data Warehouse Excluir Alterar Incluir Acessar Carregar Acessar 14 Característica de Não Volatilidade 8 Alto nível de detalhes Baixo nível de granularidade (grãos menores) Baixo nível de detalhes Alto nível de granularidade (grãos maiores) Exemplo: Detalhe de cada venda realizada por um vendedor durante um mês Data Hora Vendedor Valor 100 registros por mês Exemplo: Sumário das vendas realizadas por um vendedor durante um mês Mês Vendedor Valor 1 registro por mês 15 Sumarização dos Dados 16 Sistemas OLTP versus OLAP 9 0% 10% 20% 30% 40% 50% Desempenho do SGBD Expectativas da gerência Análise de Regras de Negócio Transformação/Limpeza Expectativas dos Usuários Modelagem de Dados Qualidade dos Dados DCI / Meta Group 17 Maiores Desafios em DWs Valores InválidosValores Inválidos Dependências Inválidas de Datas Dependências Inválidas de Datas Atributos em Duplicata Atributos em Duplicata Ausência de Integridade Referencial Ausência de Integridade Referencial Violações de Regras de Negócio Violações de Regras de Negócio Dados que não “Batem” entre Sistemas Múltiplos Dados que não “Batem” entre Sistemas Múltiplos Falta de Sincronismo entre Fonte e Alvo Falta de Sincronismo entre Fonte e Alvo Relacionamentos Inviáveis Relacionamentos Inviáveis Dados FaltandoDados Faltando Cálculos Inválidos Cálculos Inválidos Faixas InválidasFaixas Inválidas Chaves em DuplicataChaves em Duplicata Formatos Não Padronizados Formatos Não Padronizados Construção Imperfeita de Entidades Construção Imperfeita de Entidades 18 Qualidade dos Dados 10 Qualidade dos Dados � Integridade referencial � Num banco de dados relacional, quando um registro aponta para o outro, dependente deste, há de se fazer regras para que o registro "pai" não possa ser excluído se ele tiver "filhos" (as suas dependências).O relacionamento é feito através das chaves estrangeiras das tabelas, avaliadas antes da execução do comando de delete, insert ou update. 19 Mesmos dados, nomes diferentes Dados diferentes, mesmo nome Dados só encontrados aqui Chaves diferentes, mesmo dados �A passagem de dados do ambiente operacional (legado) para o DW não é tão simples quanto uma mera extração. 20 Característica de Integração dos Dados 11 Sistema 1 Sistema 2 Sexo “M” Sexo “F” Sexo “1” Sexo “2” Extração e Integração DW Sexo “M” Sexo “F” 21 Característica de Integração dos Dados 22 Ferramentas de ETL/ETC � Ferramentas do mercado que facilitam o processo de Extração, Transformação e Carga dos dados, bem como a análise e garantia da qualidade dos dados 12 23 Cubo/Hipercubo de Dados � Recurso para cruzamento/visualização dos dados em aplicações OLAP Exemplo de visão multidimensional 24 13 25 � Um array multidimensional tem um número fixo de dimensões e os valores são armazenados nas células � Cada dimensão consiste de um número de elementos Exemplo de visão multidimensional 26 � Porção física ou lógica do Data Warehouse para atender a uma área da empresa Data Mart DATA MART DW 14 ESTRATÉGIA DE DW INCREMENTAL SIMPLICIDADE PERFORMANCE AUTONOMIA AGILIDADE MENOR CUSTO EXPERIÊNCIA SUBCONJUNTO DO DATA WAREHOUSE 27 Razões para a criação de um Data Mart 28 � É uma forma de Modelagem de Dados � É uma técnica de concepção e visualização de um modelo de dados de um conjunto de medidas que descrevem aspectos comuns de negócios. � É utilizada especialmente para sumarizar e reestruturar dados e apresentá-los em visões que suportem a análise dos valores desses dados. Modelagem Multidimensional 15 29 � Um modelo multidimensional possui três elementos básicos: � Fatos � Dimensões � Medidas (Variáveis) Modelagem Multidimensional Fatos � Definição: � Coleção de itens de dados, composta por dados de medida e de contexto � Representa um item/transação/evento de negócio � Exemplo: � (Tel PN, RJ, Jan, 2.4%) 30 16 � Características: � Medidas de negócio, indicadores � Dados necessários para análise do negócio � Representado por valores numéricos � Evolução no tempo 31 Fatos � Definição: � Elemento que participa na definição de um fato � Exemplo: � Papel, Bolsa, Mês, Lucratividade 32 Dimensões 17 � Características: � Determinam o contexto do assunto � Normalmente não são representadas por valores numéricos � São descritivas/classificatórias � Podem conter membros hierarquicamente organizados 33 Dimensões Onde ? Quem ? Quando ? 1996 O que ? Identificação de Dimensões 34 18 A Dimensão “Tempo” (Quando?) � Sempre presente: DW é série temporal � Deve ser explícita para separar dados: � Entre dias úteis e feriados � Em períodos fiscais � Em estações � Em eventos importantes (copa do mundo, olimpíadas, etc.) 35 Medidas � Definição: � Atributo ou variável numérica que representa um fato � Exemplos: � Valor das vendas, Número de evasões, Quantidade de produtos, etc. 36 19 � Características: � Indicadores de Negócios � São representadas por valores numéricos � Determinada pela combinação das dimensões que participamde um fato 37 Medidas Lucro Líquido Lucro sem Impostos Impostos Receita Bruta Despesas (+) (-) (+) (-) Hierarquias de Medidas: Exemplo 38 20 ONDE ? FATOS QUEM ? QUANDO ? O QUE ? Modelo Estrela (Star Schema) 39 Dimensão Produto Código Produto Nome Produto Código Grupo Nome Grupo Fato Vendas Data Código Vendedor Código Produto Código Cliente Valor da Venda Quantidade Margem Margem % Dimensão Vendedor Código Vendedor Nome Vendedor Código Região Nome Região Dimensão Cliente Código Cliente Nome Cliente Atividade Cidade Estado País Segmento Uma tabela para cada dimensão Vantagens • Reduz o número de junções nas consultas • Simplifica a visão do modelo de dados • Aumenta a performance das consultas 40 Modelo Estrela: exemplo 21 Não representa hierarquias 41 Modelo Estrela: outro exemplo 42 Modelo Floco de Neve (Snow Flake) 22 Fato Tabelas de dimensões normalizadas Dimensão Vendedor Dimensão Cliente Dimensão Produto Produto Código Produto Nome Produto Código Grupo Fato Vendas Data Código Vendedor Código Produto Código Cliente Valor da Venda Quantidade Margem Margem % Vendedor Código Vendedor Nome Vendedor Código Região Cliente Código Cliente Nome Cliente Código Atividade Código Segmento Grupo Código Grupo Nome Grupo Atividade Código Atividade Descrição Segmento Código Segmento Descrição Região Código Região Nome Região 43 Modelo Floco de Neve: exemplo Normalização � Normalização de dados é uma série de passos que se seguem no projeto de um banco de dados e que permitem um armazenamento consistente e um eficiente acesso aos dados em bancos de dados relacionais. Esses passos reduzem a redundância de dados e as chances dos dados se tornarem inconsistentes. 44 23 Representa hierarquias explicitamente 45 Modelo Floco de Neve: outro exemplo � Flocos de neve � representa hierarquias de atributos, explicitamente, pela normalização das tabelas � manutenção das tabelas é mais fácil � economia de espaço de armazenamento � complexidade da arquitetura (grande número de tabelas) � pouco eficiente na recuperação de dados � criação e gerenciamento de chaves artificiais entre dimensões 46 Estrela versus Floco de Neve 24 � Estrela � hierarquia de atributos não é representada � especialistas a apontam como solução mais apropriada para navegação nas dimensões 47 Estrela versus Floco de Neve M ER CA D O S PERÍODOS DE TEMPO VENDAS VALOR Modelo Multidimensional: Visualização 48 25 M ER CA DO TEMPO AD-HOC M ER CA DO TEMPO GERENTE REGIONAL M ER CA DO TEMPO GERENTE DE PRODUTO M ER CA DO TEMPO GERENTE FINANCEIRO 49 Modelo Multidimensional: Visualização � Modelo mais natural para o usuário, o que leva a uma facilidade de “navegação” pelas informações � Acesso a um fato diretamente � O mesmo conjunto de informações associadas a um fato pode ser visto sob várias óticas (dimensões), de forma simples e ágil 50 Modelo Multidimensional: Vantagens 26 51 � Capacidade para fazer, automaticamente: � Drill Up, Drill Down � Slicing � Dicing � Pivoting � Data Surfing � Consultas Ad-Hoc Operações Básicas em Ferramentas OLAP Pais BR USA UK M G S P R J E S D F R N P E R S A M Estado Drill Down Drill Up Aumentar ou Diminuir o Nível de Detalhe Ex: Vendas por Pais Vendas por Estado Drill 52 27 Selecionar as Dimensões para Consulta Ex: Vendas por País por Mês ( Somatório dos Produtos) 53 Slicing Limitar Conjunto de Valores algumas Dimensões Ex: Vendas no Estado de Minas (por Produto por Ano) 54 Dicing 28 Trocar as Dimensões entre Linhas e Colunas Ex: Vendas por Produto por Estado por Estado por Produto 55 Pivoting Executar a mesma análise em outro Conjunto de Dados Ex: Vendas no Brasil Vendas no Reino Unido 56 Data Surfing 29 57 � Bom controle � Péssimos prazos Data Warehouse Vendas Financeiro Clientes Projeto de Data Warehouses Abordagem Top Down � Modelo extremamente ambicioso visando atender todas as necessidades corporativas � Vantagens: � Homogeneização das informações � Capacidade para grande volume de informações � Minimiza enormemente a redundância de dados � Informações gerenciais em um único ambiente físico � Gerenciamento centralizado da informação 58 Projeto de Data Warehouses Abordagem Top Down 30 � Desvantagens: � Maior tempo para a obtenção de resultados (~ 2 anos) � Dificuldade de administrar: envolvimento de um grande número de pessoas, principalmente executivos � Difícil alcançar consenso em questões conceituais � Grande investimento inicial � Processo mais longo: os requisitos podem se modificar até o momento da implementação 59 Projeto de Data Warehouses Abordagem Top Down Data Warehouse Vendas Financeiro Clientes 60 � Delivery rápido � Ilhas de informações dificilmente integráveis Projeto de Data Warehouses Abordagem Bottom Up 31 � Também conhecida como abordadem “Data Mart” � Vantagens: � Menor tempo para obtenção de resultados (3 meses) � Esforço mais fácil de gerenciar � Bom ponto de partida para DSS’s mais sofisticados � Aumento de performance a partir da experiência � Custo mais baixo e menos arriscado no curto prazo 61 Projeto de Data Warehouses Abordagem Bottom Up � Desvantagens: � Duplicidade de dados e processos de extração � Perda do controle por parte do órgão central de TI � Expansibilidade e capacidade de armazenamento limitados � Não resolve diferenças conceituais entre áreas � Limita a capacidade de cruzamento de informações entre áreas, podendo gerar novas “ilhas” de informação � Integrar depois é difícil (de 3 a 4 vezes mais caro) 62 Projeto de Data Warehouses Abordagem Bottom Up
Compartilhar