EAD-Governança de Dados-Unidade 02

Inteligência de Negócios - Business Intelligence

•

UFPI

Italo Silva

23/05/2024

Prévia do material em texto

Governança de Dados
Lauro de Freitas
Unidade 02
Business Intelligence
BI - Business Intelligence
Business Intelligence - ETL
Fonte: https://blog.info4.com.br/2020/08/17/business-intelligence-a-importancia-do-processo-
de-etl/
Data Warehouse (DW)
✓Data Warehouse é um depósito de dados digitais que serve para
armazenar informações detalhadas relativamente a uma empresa, criando
e organizando relatórios através de históricos que são, depois, usados pela
empresa para ajudar a tomar decisões importantes com base nos fatos
apresentados.
Fonte: https://corporatefinanceinstitute.com/resources/business-intelligence/data-
warehousing/
Data Mart
✓ Um Data Mart é uma subdivisão ou subconjunto de um DW. Os Data
Marts são como pequenas fatias que armazenam subconjuntos de
dados, normalmente organizados para um departamento ou um
processo de negócio.
✓ Normalmente, o Data Mart é direcionado para uma linha de
negócios ou equipe, sendo que a sua informação costuma pertencer
a um único departamento.
Fonte: https://www.guru99.com/data-warehouse-vs-data-mart.html
OLAP - Online Analytical Processing
• OLAP (Online Analytical Processing ou Processo Analítico
em Tempo Real) é uma das ferramentas mais usadas para
a exploração de um Data Warehouse. O OLAP possibilita
alterar e analisar grandes quantidades de dados em várias
perspectivas diferentes. As funções básicas do OLAP são:
✓ Visualização multidimensional dos dados.
✓ Exploração.
✓ Rotação.
✓ Vários modos de visualização.
ODS – Operational Data Store
✓ODS é um repositório de dados onde são colocados os dados que
a empresa trabalha no seu dia a dia, para que sejam consultados
por outros sistemas, ou por áreas de inteligência.
✓Um ODS reúne dados de várias aplicações e não é semelhante a
um Data Warehouse, pois não tem o compromisso de
armazenar um histórico de dados e de servir para processos de
auditoria sobre esses dados.
✓ Entretanto, o ODS deve armazenar dados que tem “valor” para
seus consumidores e de manter-se atualizado.
Fonte: https://bigbear.ai/blog/how-do-you-use-an-operational-data-store/
Data Warehouse x Data Lake
Data Warehouse
• O desafio foi conseguir uma visão unificada entre
sistemas, diferentes tecnologias, formatos de dados
proprietários e controle de acesso.
• A arquitetura de dados se adaptou através de
processos de ETL (Extract Transform Load), técnicas
de modelagem, documentação/metadados e usando
ferramentas e tecnologias proprietárias, otimizadas
para rodar em servidores grandes e caros.
Fonte: https://panoply.io/data-warehouse-guide/data-warehouse-architecture-traditional-vs-
cloud/
Data Lake
• A arquitetura de tecnologia evoluiu para um maior número de aplicações, mais simples e integradas, estimulada
pelo uso da cloud, containers, microservices e service mesh.
• A arquitetura de dados se adaptou aos conceitos de computação distribuída, novas técnicas de modelagem,
modernização dos processos de documentação/metadados e usando tecnologias e formatos de armazenamento
de código aberto, otimizadas para rodar em servidores menores e mais baratos.
Fonte: https://www.infomach.com.br/o-que-e-um-data-lake/
Data Lake
• O Data Lake é o repositório perfeito para quem precisa
abrigar qualquer tipo de dados em qualquer escala.
Dashboards, dados em tempo real, analytics, planilhas,
informações de machine learning, enfim. Não há restrições
para a ferramenta.
• Por isso o nome “Lago de Dados”. Para abrigar informações
no Data Lake, pode-se dispensar, inclusive, a etapa de
tratamento de dados, já que a proposta de quem o utiliza é
abrigar e ter acesso a um número elevadíssimo de dados
brutos de categorias diferentes em um só lugar.
• São referidos como fonte do Big Data.
Fonte: https://blog.dsacademy.com.br/os-4-estagios-para-construir-um-data-
lake-de-forma-eficiente/
Data Lake no NoSQL
• Um Data Lake pode residir em Hadoop, NoSQL, Amazon Simple
Storage Service, Banco de Dados Relacional, ou combinações
diferentes deles.
• Alimentado por fluxos de dados (Data Streams).
• Data Lake tem muitos tipos de elementos de dados, estruturas de
dados e metadados no HDFS, sem levar em conta a importância, IDs
ou resumos e agregados.
• Importante entender a natureza variada dos dados do Data Lake em
relação ao banco de dados NoSQL:
- Semiestruturado.
- Chave: valor (principalmente) com sua estrutura hierárquica.
• Mais frequentemente, um Data Lake é mantido no Hadoop e
alimentado de ou para NoSQL.
- NoSQL é um armazenamento de dados operacional, não analítico.
ETL e ELT
ELT
• ELT significa "Extrair, Carregar e Transformar". Nesse
processo, os dados são aproveitados por meio de um Data
Warehouse para realizar transformações básicas. Isso
significa que não há necessidade de teste de dados. O ELT usa
soluções de Data Warehousing baseadas em nuvem para
todos os diferentes tipos de dados - incluindo tipos de dados
estruturados, não estruturados, semi-estruturados e até
brutos.
ELT
• O processo ELT também trabalha lado a lado com Data Lakes.
"Data Lakes" são tipos especiais de armazenamentos de
dados que, diferentemente dos Data Warehouses OLAP,
aceitam qualquer tipo de dados estruturados ou não
estruturados. Não exigem que você transforme seus dados
antes de carregá-los. Você pode carregar imediatamente
qualquer tipo de informação bruta em um Data Lake,
independentemente do formato ou da falta dela.
• A transformação de dados ainda é necessária antes de
analisar os dados com uma plataforma de inteligência de
negócios. No entanto, a limpeza, enriquecimento e
transformação de dados ocorrem após o carregamento dos
dados no Data Lake.
ELT
Fonte: https://medium.com/analytics-vidhya/etl-and-elt-3377f55f96ab
Definição ETL x ELT
• Extract – Extrair.
• Transform – Transformar.
• Load – Carregar.
• _______________________________________________________________
_______
• Extract – Extrair.
• Load – Carregar.
• Transform – Transformar.
• O ELT é um processo de dados usado para replicar dados de uma fonte para
um banco de dados de destino, sendo uma evolução ETL. Isso porque torna o
processo de replicação de dados muito menos complexo, uma vez que o passo
de transformação é realizado após os dados estarem no destino.
Modelagem Relacional
Modelo Conceitual
Fonte: https://www.visual-paradigm.com/support/documents/vpuserguide/3563/3564/85378_conceptual,l.html
Modelagem Relacional
https://www.visual-paradigm.com/support/documents/vpuserguide/3563/3564/85378_conceptual,l.html
Modelo Lógico
Fonte: https://www.visual-paradigm.com/support/documents/vpuserguide/3563/3564/85378_conceptual,l.html
Modelagem Relacional
https://www.visual-paradigm.com/support/documents/vpuserguide/3563/3564/85378_conceptual,l.html
Modelo Físico
Fonte: https://www.visual-paradigm.com/support/documents/vpuserguide/3563/3564/85378_conceptual,l.html
Modelagem Relacional
https://www.visual-paradigm.com/support/documents/vpuserguide/3563/3564/85378_conceptual,l.html
Modelagem Multi-Dimensional
✓Métrica é também chamada de quantificador ou
medida. Alguns chamam de KPI (Key Performance
Indicator), mas KPI também pode ser considerado
um cálculo entre duas métricas.
✓A ideia por trás do KPI é simples: definir métricas
para que uma empresa possa alcançar um
determinado objetivo, seja ele qual for.
✓ Elas são utilizadas para metrificar algo e sempre
são números, porque precisam ser contáveis.
Esses números são provenientes de transações da
empresa.
Métricas no Data Warehouse
✓ Pode ser representado metaforicamente como um cubo.
✓ A Modelagem Multidimensional é uma técnica de estrutura de dados
otimizada para armazenamento em um DW. O objetivo é otimização,
visando a recuperação mais rápida e segura.
✓ O conceito de Modelagem Dimensional foi desenvolvido pelo professor
Ralph Kimball, o precursor da ideia de Data Warehouse.
Fonte: Nardi (2007)
Modelagem Multidimensional
✓ Toda modelagem dimensional possui dois elementosimprescindíveis: as
tabelas Fatos e as tabelas Dimensões. Ambas são obrigatórias e possuem
característica complementares dentro de um Data Warehouse.
Modelagem Multidimensional
✓ Considerando um banco de dados de lojas, produtos e um data warehouse para
executar relatórios de vendas agrupados por loja, data, ou categoria ou marca do
produto.
Modelo Star Schema
Fonte: https://blog.math.group/metodologia-star-schema-de-modelagem-dimensional
✓ O mesmo cenário no esquema SnowFlake seria estruturado da seguinte
maneira:
Modelo SnowFlake
Fonte: https://dwbi1.wordpress.com/2012/07/16/the-main-weakness-of-snowflake-schemas/
Modelos Star Schema x SnowFlake
Fonte: https://www.databeetle.net/blog/dimensional-modelling/
✓ Modelos Star Schema (mais usados):
• Dimensões Desnormalizadas.
• Voltados para acessos com performance.
• Hierarquias achatadas.
• Mais simples e mais fácil navegação.
• Utilizam mais espaço, repetindo as mesmas descrições ao logo de
toda a tabela.
Considerações
✓ Modelo Snowflake:
• Normalizado.
• Hierarquias mantidas.
• Muitas tabelas ➔Muitas junções – 1:N..
• Reduz o espaço de armazenamento dos dados dimensionais, mas
acrescenta várias tabelas, deixando-o mais complexo.
• Acesso mais lento do que no StarSchema.
Considerações
Considerações
Fonte: https://www.javatpoint.com/data-warehouse-star-schema-vs-snowflake-schema
✓ Modelos Star Schema (mais usado)
• Dimensões Desnormalizadas.
• Voltado para acessos com performance.
• Hierarquias achatadas.
• Mais simples e mais fácil navegação.
• Utiliza mais espaço repetindo as mesmas
descrições ao logo de toda a tabela.
✓ Modelo Snowflake
• Normalizado
• Hierarquias mantidas.
• Muitas tabelas ➔Muitas Junções – 1:N.
• Reduz o espaço de armazenamento dos
dados dimensionais, mas acrescenta
várias tabelas, deixando-o mais complex.
• Acesso mais lento que no StarSchema.
Dimensões em DW
Fonte: Nardi (2007)
✓ As dimensões identificam um indicador
de análise sobre um empreendimento,
negócio ou ação feita.
✓ Através das dimensões é possível
identificar quando (mês, ano), onde
(estado, região) e com quem (segurado,
produto) ocorreu um indicador de
análise (prêmio emitido).
Dimensões
Fonte: rafaelPiton
✓ A tabela dimensão tem como finalidade armazenar informações como
tempo, geografia, produto, cliente.
✓ É comum uma tabela dimensão possuir várias colunas de informação com o
objetivo de representar sua hierarquia.
✓ Sua interação com as tabelas fato é feita através da relação 1:N.
✓ Possuem uma chave primária para garantir a unicidade de seus registros e
está presente na tabela fato, consequentemente como parte de sua chave
primária.
✓ As dimensões armazenam 3 coisas:
• A Surrogate Key
• A Natural Key
• Os atributos
Tabela do Tipo Dimensão
Surrogate Key em Dimensões
✓ Em um banco de dados, as chaves são usadas para identificar
as linhas de uma tabela e fazer as conexões entre elas. No Data
Warehouse, temos a Surrogate Key nas dimensões, que é a
chave artificial utilizada para conectar a tabela na Fato.
✓ A Surrogate Key nada mais é que a Primary Key da dimensão.
Surrogate Key
✓ A Surrogate Key é uma chave artificial e auto incremental.
✓ A palavra artificial vem do tipo, porque ela não existe em lugar nenhum, não está lá no transacional como a
Natural Key (PK que vem do legado), ela é criada no Data Warehouse.
✓ E é auto incremental porque toda vez que é chamada, troca de número, então ela começa com 1 e vai indo para 2,
3, 4, e assim por diante.
Surrogate Key
Fonte: Próprio autor
✓ Ela é gerada automaticamente na hora da carga, quando você
carrega a dimensão no ETL.
✓ Na tabela Fato, essa Surrogate Key vai ser uma Foreign Key, a
chave que serve para relacionar os dados entre duas tabelas,
sempre apontando para uma Primary Key em outra tabela, que no
caso da dimensão, vai ser a Surrogate Key.
✓ Assim, a tabela Fato receberá apenas o código da Surrogate Key da
linha que ela está referenciando e não os atributos.
Surrogate Key
Resumindo, a Surrogate Key:
✓ Tem as características de uma Primary Key.
✓ É utilizada para referenciar a dimensão na Fato.
✓ É auto incremental.
✓ É uma chave artificial.
✓ É criada no Data Warehouse.
✓ Não pode se repetir.
Surrogate Key
Tabelas Fato
✓ Principal tabela do Data Warehouse,
ela vai se conectar nas dimensões.
✓ Podem existir uma ou mais tabelas
fato.
✓ Armazenam principalmente:
• Métricas - que são os fatos
propriamente ditos (tudo que a
empresa for mensurar é uma
métrica).
• Foreign key – chave estrangeira que
serve para relacionar os dados das
Dimensões com a Fato.
Tabelas Fato
O que é Métrica?
✓ É utilizada para medir, quantificar algo, são sempre
números provenientes de transações da empresa.
✓ Tudo que a empresa quer mensurar é métrica,
geralmente sendo o que o usuário quer medir. Por
exemplo: número de vendas ou seguidores em
determinada rede social.
O que é uma Foreign Key?
✓ É uma chave estrangeira que serve para relacionar os
dados entre as tabelas fato e dimensão.
Tabelas Fato
Fonte: https://blog.math.group/metodologia-star-schema-de-modelagem-
dimensional
Tabela fato é a tabela com uma quantidade enorme de linhas, e que
representa os fatos de uma empresa, que podem se repetir ou não.
A tabela dimensão é a tabela que vai auxiliar a tabela fato com dados
complementares ou explicativos, e que possui informações que não se
repetem.
Tabelas Fato
Data Analytics
Analytics
https://plopdo.com/2018/12/07/what-is-big-data-how-data-turns-to-big-data/
• O Big Data traz novos desafios na gestão de dados, como a manutenção de uma linearidade dos
dados, sua integridade e qualidade, a fim de que eles possam ser transformados
em informação útil.
• Soluções de Inteligência Operacional podem correlacionar e analisar dados de fontes variadas
em várias latências (desde o batch, até o tempo real), para revelar informações importantes.
• O Data Analytics pode ser usado em vários segmentos de mercado. Os bancos usam essa
estratégia para evitar possíveis fraudes. Na educação, você pode medir o progresso dos alunos
e avaliar a eficácia do sistema. No varejo, o principal uso é rastrear as características sociais e
comportamentais dos clientes, de modo a prever tendências e hábitos.
Big Data e o Data Analytics
• Geralmente, o processo de análise do fluxo de dados segue as
seguintes etapas:
✓ Coleta.
✓ Ingestão e transformação.
✓ Armazenamento.
✓ Análise.
✓ Desenvolvimento de algoritmos.
✓ Visualização.
• É importante avaliar quais são os principais insights desejados na
etapa de visualização, ou até mesmo o levantamento de quais
problemas de negócio você gostaria de resolver.
Data Analytics
Fonte: https://www.xorlogics.com/2019/02/25/a-data-analytics-roadmap/
• O Data Driven se baseia no uso de ferramentas tecnológicas capazes de coletar e analisar
dados diferentes da sua empresa.
• Esses dados, por sua vez, podem ser compilados por meio de BI ou Inteligência Artificial e
ajudam o gestor a ter uma ideia mais precisa do seu negócio, facilitando a tomada de decisão
estratégica.
Data Driven
Fonte: https://www.behance.net/gallery/106912571/Evolution-of-Data-Driven-
Company/modules/613126097
• Embora ambos os conceitos derivem da Ciência de Dados, existem algumas diferenças
fundamentais.
• O processo Data Driven possui uma abordagem mais quantitativa, uma vez que se baseia em
números e modelos preditivos.
• O Analytics Driven também considera o aspecto qualitativo, estabelecendo padrões e
correlações entre os dados. Podemos dizer que o Analytics Driven vai além da análise de
dados, interpretando, também, o contexto e outras variáveis ligadas a essas informações
que podem impactar nos resultados.
Data Driven x Analytics Driven
Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38
Slide 39
Slide 40
Slide 41
Slide 42
Slide 43
Slide 44
Slide 45
Slide 46
Slide 47
Slide 48
Slide 49
Slide 50
Slide 51