Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

PÓS-GRADUAÇÃO EM 
GESTÃO E ANÁLISE ESTRATÉGICA DE DADOS
IEC PUC MINAS
Professor: Gideão Nery
MODELAGEM DE 
DADOS DIMENSIONAL
Disciplina:
PÓS-GRADUAÇÃO 
IEC PUC MINAS
Professor: Gideão Nery
MODELAGEM DE 
DADOS DIMENSIONAL
Disciplina:
“...Uma base de dados, por maior que
seja, não é informação. Para que os
dados se transformem em informação,
eles precisam ser organizados,
qualificados e correlacionados para
uma tarefa, dirigida para desempenho
específico, aplicada a uma tomada de
decisão...”
O que vocês estão vendo na imagem acima?
BIG DATA
Vivemos em um turbilhão de dados e informação
“Nunca se produziu tanta informação no mundo. Estima-se que 90% dos
dados disponíveis hoje foram criados nos últimos dois anos.”
https://www.mundodomarketing.com.br/artigos/priscilla-oliveira/39119/data-driven-como-criar-uma-cultura-orientada-por-dados.html
BIG DATA
BIG DATA
Ok, mas como posso definir o que é Big Data?
Quais características me sugerem que estou falando de Big Data?
Todos os seus dados não cabem em uma só máquina.
BIG DATA
Quando falamos de espaço, falamos mais de Terabytes do que Gigabytes.
BIG DATA
Quando seus dados crescem de forma constante, e em alguns casos de forma
exponencial.
BIG DATA
Curiosidade:
✓ Existem mais dispositivos conectados na internet do que seres humanos na 
Terra.
✓ Até 2025, mais de 27 bilhões de dispositivos estarão conectados.
✓ Cada dispositivo pode gerar Gigabytes de dados todos os dias.
https://forbes.com.br/forbes-tech/2022/08/iot-ate-2025-mais-de-27-bilhoes-de-dispositivos-estarao-conectados
MODELAGEM DE DADOS DIMENSIONAL
ETL, ARQUITETURA E MODELAGEM
ETL
Uma das etapas mais importantes da Arquitetura e da Qualidade dos dados está no ETL ou
ELT, ou podemos chamar também de Arquitetura da Informação. É a limpeza e tratamento dos
dados, descartando o que não será usado e agrupando os dados importantes e correlatos.
Outro problema desta desorganização dos dados é que algumas vezes as empresas não sabem
calcular seus indicadores e suas regras de negócio.
Por exemplo: a equipe comercial calcula de um jeito a quantidade de clientes ativos, a área
financeira de outra forma, no marketing o raciocínio é outro, e quando as áreas estão reunidas
os números não batem.
Na fase de ETL ou ELT, e com a arquitetura da informação, os conceitos são discutidos e
padronizados.
ETL
ETL derivado do inglês Extract Transform and Load (Extração Transformação e Carga), são
processos e ferramentas cuja função é a extração de dados de diversos sistemas, transformação
desses dados conforme regras de negócios e o carregamento dos dados geralmente para um DM
Data Mart e/ou DW Data Warehouse.
ELT derivado do inglês Extract Load and Transform (Extração Carga e Transformação), também
são processos e ferramentas cuja função é a extração de dados de diversos sistemas, mas que tem
o processo de carga antes da transformação, uma vez que utiliza-se de uma base de dados
denominada Data Lake
Vamos ver como são essas diferenças analisando o gráfico a seguir:
ETL x ELT
CONCEITOS IMPORTANTES
GRANULARIDADE
O principal fator da Granularidade está diretamente relacionado com o volume de dados que será
levado para o Modelo para ser consultado e analisado.
Os níveis que precisam ser avaliados são basicamente:
✓Qual o Período da extração?
✓Qual a menor grão de Período? (Ano, Semestre, Bimestre, Mês, Dia, Hora)
✓Será necessário ir até o nível de Pedido/Produto/Item/Nota Fiscal?
Essas e outras questão são importantes e devem ser verificadas antes da construção do Modelo de
Dados.
Quanto maior a granularidade mais detalhes terá o modelo. Em contrapartida quanto menor for a
granularidade menos detalhes terão, e os dados terão agregações dos níveis mais baixos.
GARBAGE IN, GARBAGE OUT
VISUALIZAÇÃO DE DADOS
Após o desenho do Modelo Dimensional, todo o processo de ETL é executado. O processo ETL é realizado através da
extração dos dados das bases relacionais, transformando esses dados de acordo com as regras de negócio
definidas previamente, e logo após a carga de dados realizada na base dimensional os dados estarão prontos para ser
consultados, onde serão realizadas as pesquisas analíticas pelas ferramentas de Visualização de Dados (Data Viz).
Assim, todo o processo foi feito para que as informações possam ser analisadas pelos gestores auxiliando então nas
tomadas de decisão.
MODELAGEM DE DADOS DIMENSIONAL
ARQUITETURA E MODELAGEM
CONCEITOS IMPORTANTES
A Modelagem de Dados consiste no processo de diagramação do fluxo de dados para representar o
processo de criação visual, ou esquema, de um sistema de informação ou de partes dele, definindo os
sistemas de coleta e gerenciamento de informações de uma empresa ou organização. O objetivo é
integrar e armazenar os dados de forma a se obter uma visão unificada das informações e a
comunicação entre elas.
Modelagem de dados Relacional é diferente da modelagem de dados Dimensional porque o seu foco é
totalmente nos dados, e não nas transações sistêmicas.
COMO MODELAR OS DADOS
É fundamental para desenvolvedores e analistas de dados terem uma noção dos fundamentos de
modelagem de dados, em especial da modelagem dimensional, para que as aplicações de BI e Analytics
possam refletir de maneira efetiva os níveis de informações que se espera analisar.
Vamos ver as seguintes tarefas que precedem a modelagem e são realizadas de forma iterativa:
✓ Identificar os tipos de entidade (tabelas);
✓ Identificar atributos (campos);
✓ Aplicar convenção de nomes (nomenclatura ideal);
✓ Identificar relacionamentos (Pk e Fk);
✓ Associar chaves;
✓ Normalizar para reduzir a redundância dos dados;
✓ Modelar de acordo com a granularidade dos dados.
ARQUITETURA E MODELAGEM DE DADOS
FUNDAMENTOS DE MODELAGEM DE DADOS
FUNDAMENTOS DE MODELAGEM DE DADOS
MODELAGEM DE DADOS DIMENSIONAL
MODELAGEM DIMENSIONAL
MODELAGEM DE DADOS
A Modelagem de Dados é uma etapa importante e essencial em qualquer projeto de Analytics e BI.
Idealmente, todos profissionais de TI deveriam ter um entendimento básico sobre modelagem de dados.
Eles não precisam ser especialistas neste assunto, mas deveriam estar preparados para se envolverem
na criação de um modelo, estar apto a ler um modelo de dados existente, entender quando criar um
modelo de dados e quando não criar e conhecer as técnicas de projeto de dados fundamentais.
Entender o que se quer, ou o que deseja alcançar, é de extrema importância ao relacionar os objetivos
do Projeto de Estratégica de Dados com as diretrizes empresariais traçadas em seu planejamento
estratégico e seus desdobramentos.
Modelar dados Dimensionalmente é criar relações de tabelas onde é possível
conectar os dados através de Chaves que ligam suas relações com o Fato ocorrido
em busca de padrões que possam auxiliar na tomada de decisão.
A elaboração do Modelo de Dados deve se concentrar na
observação dos fatos relevantes que ocorrem na realidade das
organizações, tendo como a finalidade abstrair conhecimentos
desses dados para criar análises e cenários para que a gestão
possa tomar suas melhores decisões.
MODELAGEM DE DADOS
1
*
DIM
FATO
DIM DIM
DIMDIM
MODELAGEM DE DADOS – ESTRELA
Star Schema
DIM
*
1
1
*
DIM
FATO
DIM DIM
DIMDIM
MODELAGEM DE DADOS – FLOCO DE NEVE
SnowFlake Schema
“O Modelo Dimensional disponibiliza itens necessários para modelar assuntos onde uma série
de entradas (dimensões) estarão ligadas à algumas poucas métricas (fatos), criando uma
notação legível e objetiva.”
Carlos Barbieri
Mas o que são fatos e dimensões?
O Modelo Dimensional requer a utilização de ferramentas de consultas analíticas,
desenvolvidas especialmente para consultar esse tipo de modelo, o que permite aos usuários a
exploração de todos os dados disponíveis durante a elaboração das consultas.
MODELAGEM DE DADOS
A Tabela Fato é a principal tabela da estrutura de dados do modelo Dimensional. É a Fato que
vai conectarnas Dimensões para formar o Modelo de Dados. Nessa tabela estão contidos dois
elementos conceituais:
Medidas ➔ as Medidas (ou métricas) são os fatos propriamente ditos. São os eventos
ocorridos na base de dados transacional e que expressa um registro dessa ocorrência.
Portanto, a tabela Fato é composta pelas Métricas, que é tudo aquilo que a empresa quer medir.
Chaves de Ligação ➔ as Chaves (ou IDs) são chaves que servem para
conectar os dados das Dimensões com a Fato. Esses IDs ligam as Dimensões,
que por sua vez descrevem as Medidas pelo que se deseja analisar.
MODELAGEM DE DADOS
MODELAGEM DE DADOS
As Dimensões tem características descritivas, ou seja, tabelas que qualificam as informações
provenientes da Tabela Fato. É através das Dimensões onde é possível analisar os dados por
múltiplas perspectivas. Por exemplo, podemos ter Dimensões como Produto, Cliente,
Transportador e Tempo.
Via de regra as Dimensões são colunares e contém registros únicos, o que desonera a
granularidade dos dados dentro do Modelo.
Assim com a Fato, as Dimensões também contém as Chaves (ou IDs), que são
chaves que conectam os dados das Dimensões com a Fato.
Vamos ver no exemplo a seguir:
MODELAGEM DE DADOS
MODELAGEM DE DADOS
Dimensão: Surrogate Key, Natural Key
• Natural Key (NK): identificador único proveniente do sistema de origem. Utilizado para lookup durante 
de ingestão de dados.
• Surrogate Key: chave criada no DW para isolar o ambiente analítico dos sistemas de origem. Funciona 
como um ID artificial.
STAR Schema
Dimensão: Degenerated Dimension
• Dimensão que não possui atributos, apenas sua chave primária
• Ex: item da nota fiscal, nf
• Pode-se considerar essa informação como um atributo do fato
• Importante trazer para o DW para garantir rastreabilidade com o sistema de origem
• A PK da tabela de fato pode ser composta por um subconjunto das FK’s das
dimensões e/ou a degenerated dimension
Dimensão: Degenerated Dimension
• Uma Dimensão Degenerada é representada por uma ou mais colunas de uma tabela de fatos em vez de ser
uma tabela separada. Em outras palavras, é uma dimensão que não é suficientemente complexa para
fundamentar uma tabela própria e é inserida diretamente na tabela de fatos.
• Normalmente, ela consiste em uma ou mais colunas de dados que poderiam ter sido parte de uma dimensão
separada, mas são mantidas na tabela de fatos por conveniência e para otimização de desempenho.
• Um exemplo comum de uma dimensão degenerada é um número de fatura ou um código de transação em
uma tabela de fatos de vendas. Em vez de ter uma tabela de dimensão separada para armazenar
informações incluídas sobre a fatura, como Data da Fatura, tipo de pagamento, etc., essas informações são
mantidas como parte da tabela de fatos. O número da fatura atua como uma "dimensão degenerada",
permitindo a análise dos dados da venda associados a essa fatura específica.
Dimensão: Degenerated Dimension
FATO
DIMENSÃO FATURA 
Dimensão: Degenerated Dimension
Dimensão Degenerada
#Dica
O que fazer se um evento de negócio não se relaciona com alguma dimensão? 
Ex: registro de venda onde a data de nascimento do cliente está nula!
Diretriz: Sempre incluir nas dimensões um elemento curinga (“Não se aplica”, 
“Não determinado”, “Não informado”, etc.) para mapear essas situações.
ATÉ A PRÓXIMA AULA
MODELAGEM DE DADOS DIMENSIONAL
	Slide 1
	Slide 2
	Slide 3
	Slide 4
	Slide 5
	Slide 6
	Slide 7
	Slide 8
	Slide 9
	Slide 10
	Slide 11
	Slide 12
	Slide 13
	Slide 14
	Slide 15
	Slide 16
	Slide 17
	Slide 18
	Slide 19
	Slide 20
	Slide 21
	Slide 22
	Slide 23
	Slide 24
	Slide 25
	Slide 26
	Slide 27
	Slide 28
	Slide 29
	Slide 30
	Slide 31
	Slide 32
	Slide 33
	Slide 34
	Slide 35
	Slide 36
	Slide 37
	Slide 38
	Slide 39
	Slide 40
	Slide 41
	Slide 42
	Slide 43
	Slide 44
	Slide 45
	Slide 46
	Slide 47
	Slide 48
	Slide 49
	Slide 50
	Slide 51
	Slide 52
	Slide 53
	Slide 54

Mais conteúdos dessa disciplina