Prévia do material em texto
PÓS-GRADUAÇÃO EM GESTÃO E ANÁLISE ESTRATÉGICA DE DADOS IEC PUC MINAS Professor: Gideão Nery MODELAGEM DE DADOS DIMENSIONAL Disciplina: PÓS-GRADUAÇÃO IEC PUC MINAS Professor: Gideão Nery MODELAGEM DE DADOS DIMENSIONAL Disciplina: “...Uma base de dados, por maior que seja, não é informação. Para que os dados se transformem em informação, eles precisam ser organizados, qualificados e correlacionados para uma tarefa, dirigida para desempenho específico, aplicada a uma tomada de decisão...” O que vocês estão vendo na imagem acima? BIG DATA Vivemos em um turbilhão de dados e informação “Nunca se produziu tanta informação no mundo. Estima-se que 90% dos dados disponíveis hoje foram criados nos últimos dois anos.” https://www.mundodomarketing.com.br/artigos/priscilla-oliveira/39119/data-driven-como-criar-uma-cultura-orientada-por-dados.html BIG DATA BIG DATA Ok, mas como posso definir o que é Big Data? Quais características me sugerem que estou falando de Big Data? Todos os seus dados não cabem em uma só máquina. BIG DATA Quando falamos de espaço, falamos mais de Terabytes do que Gigabytes. BIG DATA Quando seus dados crescem de forma constante, e em alguns casos de forma exponencial. BIG DATA Curiosidade: ✓ Existem mais dispositivos conectados na internet do que seres humanos na Terra. ✓ Até 2025, mais de 27 bilhões de dispositivos estarão conectados. ✓ Cada dispositivo pode gerar Gigabytes de dados todos os dias. https://forbes.com.br/forbes-tech/2022/08/iot-ate-2025-mais-de-27-bilhoes-de-dispositivos-estarao-conectados MODELAGEM DE DADOS DIMENSIONAL ETL, ARQUITETURA E MODELAGEM ETL Uma das etapas mais importantes da Arquitetura e da Qualidade dos dados está no ETL ou ELT, ou podemos chamar também de Arquitetura da Informação. É a limpeza e tratamento dos dados, descartando o que não será usado e agrupando os dados importantes e correlatos. Outro problema desta desorganização dos dados é que algumas vezes as empresas não sabem calcular seus indicadores e suas regras de negócio. Por exemplo: a equipe comercial calcula de um jeito a quantidade de clientes ativos, a área financeira de outra forma, no marketing o raciocínio é outro, e quando as áreas estão reunidas os números não batem. Na fase de ETL ou ELT, e com a arquitetura da informação, os conceitos são discutidos e padronizados. ETL ETL derivado do inglês Extract Transform and Load (Extração Transformação e Carga), são processos e ferramentas cuja função é a extração de dados de diversos sistemas, transformação desses dados conforme regras de negócios e o carregamento dos dados geralmente para um DM Data Mart e/ou DW Data Warehouse. ELT derivado do inglês Extract Load and Transform (Extração Carga e Transformação), também são processos e ferramentas cuja função é a extração de dados de diversos sistemas, mas que tem o processo de carga antes da transformação, uma vez que utiliza-se de uma base de dados denominada Data Lake Vamos ver como são essas diferenças analisando o gráfico a seguir: ETL x ELT CONCEITOS IMPORTANTES GRANULARIDADE O principal fator da Granularidade está diretamente relacionado com o volume de dados que será levado para o Modelo para ser consultado e analisado. Os níveis que precisam ser avaliados são basicamente: ✓Qual o Período da extração? ✓Qual a menor grão de Período? (Ano, Semestre, Bimestre, Mês, Dia, Hora) ✓Será necessário ir até o nível de Pedido/Produto/Item/Nota Fiscal? Essas e outras questão são importantes e devem ser verificadas antes da construção do Modelo de Dados. Quanto maior a granularidade mais detalhes terá o modelo. Em contrapartida quanto menor for a granularidade menos detalhes terão, e os dados terão agregações dos níveis mais baixos. GARBAGE IN, GARBAGE OUT VISUALIZAÇÃO DE DADOS Após o desenho do Modelo Dimensional, todo o processo de ETL é executado. O processo ETL é realizado através da extração dos dados das bases relacionais, transformando esses dados de acordo com as regras de negócio definidas previamente, e logo após a carga de dados realizada na base dimensional os dados estarão prontos para ser consultados, onde serão realizadas as pesquisas analíticas pelas ferramentas de Visualização de Dados (Data Viz). Assim, todo o processo foi feito para que as informações possam ser analisadas pelos gestores auxiliando então nas tomadas de decisão. MODELAGEM DE DADOS DIMENSIONAL ARQUITETURA E MODELAGEM CONCEITOS IMPORTANTES A Modelagem de Dados consiste no processo de diagramação do fluxo de dados para representar o processo de criação visual, ou esquema, de um sistema de informação ou de partes dele, definindo os sistemas de coleta e gerenciamento de informações de uma empresa ou organização. O objetivo é integrar e armazenar os dados de forma a se obter uma visão unificada das informações e a comunicação entre elas. Modelagem de dados Relacional é diferente da modelagem de dados Dimensional porque o seu foco é totalmente nos dados, e não nas transações sistêmicas. COMO MODELAR OS DADOS É fundamental para desenvolvedores e analistas de dados terem uma noção dos fundamentos de modelagem de dados, em especial da modelagem dimensional, para que as aplicações de BI e Analytics possam refletir de maneira efetiva os níveis de informações que se espera analisar. Vamos ver as seguintes tarefas que precedem a modelagem e são realizadas de forma iterativa: ✓ Identificar os tipos de entidade (tabelas); ✓ Identificar atributos (campos); ✓ Aplicar convenção de nomes (nomenclatura ideal); ✓ Identificar relacionamentos (Pk e Fk); ✓ Associar chaves; ✓ Normalizar para reduzir a redundância dos dados; ✓ Modelar de acordo com a granularidade dos dados. ARQUITETURA E MODELAGEM DE DADOS FUNDAMENTOS DE MODELAGEM DE DADOS FUNDAMENTOS DE MODELAGEM DE DADOS MODELAGEM DE DADOS DIMENSIONAL MODELAGEM DIMENSIONAL MODELAGEM DE DADOS A Modelagem de Dados é uma etapa importante e essencial em qualquer projeto de Analytics e BI. Idealmente, todos profissionais de TI deveriam ter um entendimento básico sobre modelagem de dados. Eles não precisam ser especialistas neste assunto, mas deveriam estar preparados para se envolverem na criação de um modelo, estar apto a ler um modelo de dados existente, entender quando criar um modelo de dados e quando não criar e conhecer as técnicas de projeto de dados fundamentais. Entender o que se quer, ou o que deseja alcançar, é de extrema importância ao relacionar os objetivos do Projeto de Estratégica de Dados com as diretrizes empresariais traçadas em seu planejamento estratégico e seus desdobramentos. Modelar dados Dimensionalmente é criar relações de tabelas onde é possível conectar os dados através de Chaves que ligam suas relações com o Fato ocorrido em busca de padrões que possam auxiliar na tomada de decisão. A elaboração do Modelo de Dados deve se concentrar na observação dos fatos relevantes que ocorrem na realidade das organizações, tendo como a finalidade abstrair conhecimentos desses dados para criar análises e cenários para que a gestão possa tomar suas melhores decisões. MODELAGEM DE DADOS 1 * DIM FATO DIM DIM DIMDIM MODELAGEM DE DADOS – ESTRELA Star Schema DIM * 1 1 * DIM FATO DIM DIM DIMDIM MODELAGEM DE DADOS – FLOCO DE NEVE SnowFlake Schema “O Modelo Dimensional disponibiliza itens necessários para modelar assuntos onde uma série de entradas (dimensões) estarão ligadas à algumas poucas métricas (fatos), criando uma notação legível e objetiva.” Carlos Barbieri Mas o que são fatos e dimensões? O Modelo Dimensional requer a utilização de ferramentas de consultas analíticas, desenvolvidas especialmente para consultar esse tipo de modelo, o que permite aos usuários a exploração de todos os dados disponíveis durante a elaboração das consultas. MODELAGEM DE DADOS A Tabela Fato é a principal tabela da estrutura de dados do modelo Dimensional. É a Fato que vai conectarnas Dimensões para formar o Modelo de Dados. Nessa tabela estão contidos dois elementos conceituais: Medidas ➔ as Medidas (ou métricas) são os fatos propriamente ditos. São os eventos ocorridos na base de dados transacional e que expressa um registro dessa ocorrência. Portanto, a tabela Fato é composta pelas Métricas, que é tudo aquilo que a empresa quer medir. Chaves de Ligação ➔ as Chaves (ou IDs) são chaves que servem para conectar os dados das Dimensões com a Fato. Esses IDs ligam as Dimensões, que por sua vez descrevem as Medidas pelo que se deseja analisar. MODELAGEM DE DADOS MODELAGEM DE DADOS As Dimensões tem características descritivas, ou seja, tabelas que qualificam as informações provenientes da Tabela Fato. É através das Dimensões onde é possível analisar os dados por múltiplas perspectivas. Por exemplo, podemos ter Dimensões como Produto, Cliente, Transportador e Tempo. Via de regra as Dimensões são colunares e contém registros únicos, o que desonera a granularidade dos dados dentro do Modelo. Assim com a Fato, as Dimensões também contém as Chaves (ou IDs), que são chaves que conectam os dados das Dimensões com a Fato. Vamos ver no exemplo a seguir: MODELAGEM DE DADOS MODELAGEM DE DADOS Dimensão: Surrogate Key, Natural Key • Natural Key (NK): identificador único proveniente do sistema de origem. Utilizado para lookup durante de ingestão de dados. • Surrogate Key: chave criada no DW para isolar o ambiente analítico dos sistemas de origem. Funciona como um ID artificial. STAR Schema Dimensão: Degenerated Dimension • Dimensão que não possui atributos, apenas sua chave primária • Ex: item da nota fiscal, nf • Pode-se considerar essa informação como um atributo do fato • Importante trazer para o DW para garantir rastreabilidade com o sistema de origem • A PK da tabela de fato pode ser composta por um subconjunto das FK’s das dimensões e/ou a degenerated dimension Dimensão: Degenerated Dimension • Uma Dimensão Degenerada é representada por uma ou mais colunas de uma tabela de fatos em vez de ser uma tabela separada. Em outras palavras, é uma dimensão que não é suficientemente complexa para fundamentar uma tabela própria e é inserida diretamente na tabela de fatos. • Normalmente, ela consiste em uma ou mais colunas de dados que poderiam ter sido parte de uma dimensão separada, mas são mantidas na tabela de fatos por conveniência e para otimização de desempenho. • Um exemplo comum de uma dimensão degenerada é um número de fatura ou um código de transação em uma tabela de fatos de vendas. Em vez de ter uma tabela de dimensão separada para armazenar informações incluídas sobre a fatura, como Data da Fatura, tipo de pagamento, etc., essas informações são mantidas como parte da tabela de fatos. O número da fatura atua como uma "dimensão degenerada", permitindo a análise dos dados da venda associados a essa fatura específica. Dimensão: Degenerated Dimension FATO DIMENSÃO FATURA Dimensão: Degenerated Dimension Dimensão Degenerada #Dica O que fazer se um evento de negócio não se relaciona com alguma dimensão? Ex: registro de venda onde a data de nascimento do cliente está nula! Diretriz: Sempre incluir nas dimensões um elemento curinga (“Não se aplica”, “Não determinado”, “Não informado”, etc.) para mapear essas situações. ATÉ A PRÓXIMA AULA MODELAGEM DE DADOS DIMENSIONAL Slide 1 Slide 2 Slide 3 Slide 4 Slide 5 Slide 6 Slide 7 Slide 8 Slide 9 Slide 10 Slide 11 Slide 12 Slide 13 Slide 14 Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20 Slide 21 Slide 22 Slide 23 Slide 24 Slide 25 Slide 26 Slide 27 Slide 28 Slide 29 Slide 30 Slide 31 Slide 32 Slide 33 Slide 34 Slide 35 Slide 36 Slide 37 Slide 38 Slide 39 Slide 40 Slide 41 Slide 42 Slide 43 Slide 44 Slide 45 Slide 46 Slide 47 Slide 48 Slide 49 Slide 50 Slide 51 Slide 52 Slide 53 Slide 54