Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 26 - SQL I Data Analytics Perspectiva geral Introdução e Modelagem /Agenda Perspectiva geral Introdução e Modelagem /Agenda Pensamento analítico para decisões de negócios 1 Captura, preparação, limpeza e modelagem de dados 2 Ética e privacidade de dados 3 Compreender como unir perspectivas e estratégias de negócios a diferentes tipos de dados e metodologias de projetos de dados Business questions Tipos de dados e variáveis Agile e SCRUM KPIs e Métricas Aprender como capturar dados de diferentes fontes e estrutura-los de formas a viabilizar consumos massivos e análises complexas Fontes de dados ETL Estatística e análise SQL e Bancos de dados Aprender como as mais recentes discussões de privacidade, ética e leis estão afetando o dia a dia das empresas e dados no mundo Ética e privacidade em dados GDPR e LGPD Cases no mundo /Perspectiva geral | Programa Visualização, modelagem gráfica e comunicação 4 Entender como criar visualizações de dados adequadas ao consumidor, utilizando ferramentas e técnicas de apresentação Data Viz e Design Storytelling Tableau, Power BI e Google Data Studio Objetivos da aula Entender os tipos de estruturas de armazenamento que existem 1 Modelagem 2 Exercitar a modelagem 3 Banco de dados ou Data Base É uma coleção organizada e estruturada de informações ou dados. Geralmente é controlado por um sistema de gerenciamento de banco de dados (DBMS). Existem vários: Relacionais NoSQL Distribuídos Em várias configurações: Cloud Físico Bancos Relacionais Bancos Relacionais 1:n 1:1 n:n Por que Modelar? Estabelece um consenso sobre os conceitos dos objetos do negócio e na terminologia aplicada aos mesmos; Auxilia na determinação do escopo de um sistema e de seus pontos de interface a outros sistemas; Auxilia na previsão de esforço – prazo e custo – com base no modelo de dados; Facilita a compreensão do negócio, além de detectar inconsistências e lacunas do suporte prestado pelos sistemas aos processos do negócio; Serve como importante veículo de comunicação junto às pessoas – técnicas e não técnicas; Auxilia na manutenção dos sistemas de informação. 9 Etapas da Modelagem Modelo Conceitual Representação dos conceitos e características observados no ambiente; Ignorar particularidades de implementação. Modelo Lógico Regras de Derivação: Normalização das estruturas de dados Derivação de estruturas de agregação e generalização-especialização Derivação de relacionamentos Regras de Restrição: Restrição de domínio Restrição de Integridade Restrição de Implementação Modelo Físico Inclui a análise das características e recursos necessários para armazenamento e manipulação das estruturas de dados (estrutura de armazenamento, endereçamento, acesso e alocação física). 10 Modelo Entidade Relacionamento (MER) Entidade: Uma entidade representa um componente concreto ou abstrato (Cliente, Reserva) envolvido na questão de negócio que está sendo tratado; Relacionamento: Indica uma ação (Verbo) que ocorre ou poderá ocorrer entre duas entidades; Cliente Produto Compra 11 Cardinalidade: Indica o número de ocorrências existentes ou que poderão existir no relacionamento entre duas entidades; Atributo: Indica uma característica/propriedade que uma entidade possui. (Colunas/Campos); Modelo Entidade Relacionamento (MER) 12 Atributo Simples: Recebe um valor único como Exemplo: nome. Atributo Composto: Seu conteúdo poderá ser dividido em vários outros atributos; Exemplo: Endereço pode ser dividido em: Rua, Número, Complemento, Bairro, Cep e Cidade. Atributo Multivalorado: Seu conteúdo é formado por mais de um valor.; Exemplo: Telefone. Atributo Determinante: Identifica de forma única uma entidade, ou seja, não pode haver dados repetidos; Atributo Obrigatório (Mandatório): Indica a obrigatoriedade de se atribuir um valor a este atributo; Atributo Opcional: Não há obrigatoriedade de atribuição de valor para este atributo; Domínio: É o conjunto de valores que um determinado atributo poderá receber como conteúdo; Modelo Entidade Relacionamento (MER) 13 Cliente Produto Compra (0,n) (1,n) RG Endereço Descr. Fornecedor Preço Entidade Relacionamento Cardinalidade Atributo Nome Modelo Entidade Relacionamento (MER) 14 Normalização 1FN (Forma Normal) Uma tabela está na 1FN, se e somente se, não possuir atributos multivalor. Para isso, deve-se : a) Identificar a chave primária da entidade; b) Identificar o grupo repetitivo e removê-lo da entidade; c) Criar uma nova entidade com a chave primária da entidade anterior e o grupo repetitivo. 15 Normalização 2FN (Forma Normal) Uma tabela está na 2FN se, e somente se, estiver na 1FN e cada atributo não-chave for dependente da chave primária inteira, isto é, cada atributo não-chave não poderá ser dependente de apenas parte da chave. Para isso , deve-se a) Identificar os atributos que não são funcionalmente dependentes de toda a chave primária; b) Remover da entidade todos esses atributos identificados e criar uma nova entidade com eles. 16 Normalização 3FN (Forma Normal) Uma tabela está na 3NF, se ela estiver na 2NF e cada atributo não chave de R não possui dependência transitiva, para cada chave candidata de R. Para isso, deve-se: Identificar todos os atributos que são funcionalmente dependentes de outros atributos não chave; b) Removê-los. 17 Exercício: separar os atributos em suas entidades Nome do cliente Endereço Residencial do cliente Telefone Residencial do cliente Data de Nascimento Estado civil Sexo Nome do Produto Tipo do Produto Segmento do cliente Número Contrato de Conta-Corrente Valor Saldo Contrato Timestamp Último movimento Contrato Número Contrato de Fundo-Investimento Valor Saldo Fundo-Investimento Data Vencimento Fundo-Investimento Telefone Celular do cliente Endereço Comercial do cliente CPF do cliente Premissas: 1 cliente pode ter mais de um produto 1 produto pode pertencer a mais de um cliente 1 cliente pode ter mais de um endereço 1 cliente pode ter mais de um contrato Data Início Contrato Valor Inicial Aplicação Fundo-Investimento 18 Bancos Not Only SQL Bancos Not Only SQL OLAP x OLTP Sistemas OLAP (On-line Analytical Processing): Permitem manipular e analisar grandes volumes de dados em diversas perspectivas (Data Warehouse, por exemplo) Sistemas OLTP (On-line Transaction Processing): Registram todas as transações geradas nos processos organizacionais (sistema de conta corrente, por exemplo) OLAP x OLTP Sistemas OLAP (On-line Analytical Processing): Permitem manipular e analisar grandes volumes de dados em diversas perspectivas (Data Warehouse, por exemplo) Sistemas OLTP (On-line Transaction Processing): Registram todas as transações geradas nos processos organizacionais (sistema de conta corrente, por exemplo) Data Warehouse Um data warehouse é um tipo de sistema de gerenciamento de dados projetado para ativar e fornecer suporte às atividades de business intelligence (BI) São ideais para análises avançadas de dados que se baseiem em dados históricos de várias fontes em toda a empresa. O processamento analítico em um data warehouse é executado em dados que foram preparados para análise: reunidos, contextualizados e transformados com o objetivo de gerar informações baseadas em análise. Os data warehouses também são capazes de lidar com grandes quantidades de dados de várias fontes. Para saber mais: https://www.oracle.com/br/database/what-is-a-data-warehouse/ https://www.cetax.com.br/data-warehouse/ Data Mart Sub-conjunto de dados onde foi aplicado inteligência de negócios Normalmente é gerado para atender uma necessidade específica Pode ser gerado diretamente de sistemas OLTP ou sistemas OLAP Uso mais comum é a partir dos OLAP Pode ser gerado tanto pelas áreas de TI como de Negócios Nos dias atuais é mais gerado por negócios devido a questões de flexibilidade,custos e velocidade STAR SCHEMA Snowflake Schema Snowflake vs Star Schema Tabelas de Dimensões Definição Tabelas de dimensões representam um aspecto do negócio que está sendo analisado. Sua chave primária serve para manter a integridade referencial na tabela fato à qual está relacionada. Uma dimensão oferece ao usuário um grande número de combinações e intersecções para analisar os dados, possibilitando diversas formas de visualizar os dados. 28 Tabelas de Dimensões Objetivo Servir como cabeçalho das linhas e colunas das analises e filtro nas consultas/relatórios. Características Chaves simples (em geral, artificiais: Surrogate Key); Descrição única para cada registro; Usualmente não depende de tempo Desnormalizada; Hierarquias. 29 Tabelas de Fatos Definição A tabela fato é a tabela central do modelo e contém os valores (numéricos) que se deseja analisar, geralmente, contendo um grande volume de dados. A tabela fato possui chaves externas, que se relacionam com suas tabelas de dimensões, e campos numéricos que são os valores (medidas) que serão analisados. 30 Tabelas de Fatos Objetivo Conter informações de métricas (quantidade, e valores) e datas. Características Chaves composta pela chaves das dimensões; Medida do fato usualmente numérica; Fatos tipicamente aditivos, mas podem ser semi-aditivos e não aditivos. 31 Principal tabela do modelo multidimensional. Armazena predições numéricas de desempenho de negócio Chave – Técnica Data Chave -Técnica Produto Chave-Técnica Loja Valor Venda Total Quantidade Vendida Fato Vendas Diária Fato: Medição do negócio geralmente numéricos e aditivos Ao modelar a(s) tabela(s) de fatos (ou apenas tabela fato), deve-se ter em mente os seguintes pontos: Chave primária é composta, sendo um elemento da chave para cada dimensão; Tabelas de Fatos 32 Chave Data (Período de Tempo) Chave Produto Chave Loja Chave Região Valor Venda Total Quantidade Vendida Fato Vendas Diária Chave Produto Descrição Produto Codigo Marca Nome Marca Codigo Fabricante Nome Fabricante Peso Tipo Armazenamento Dimensão Produto Chave Loja Nome Loja Endereço Loja Dimensão Loja Chave Data Nome Loja Endereço Loja Dimensão Tempo Chave Região Nome Região Dimensão Região Tabelas de Fatos 33 Chave Data (Período de Tempo) Chave Produto Chave Loja Chave Região Valor Venda Total Quantidade Vendida Fato Vendas Diária Chave Produto Chave Marca Descrição Produto Peso Tipo Armazenamento Dimensão Produto Chave Loja Nome Loja Endereço Loja Dimensão Loja Chave Data Nome Loja Endereço Loja Dimensão Tempo Chave Região Nome Região Dimensão Região Chave Marca Código Fabricante Nome Marca Dimensão Marca Chave Fabricante Nome Fabricante Dimensão Fabricante Tabelas de Fatos 34 Dimensional Exercício Modelo E-R de Transação de Nota Fiscal e Estoque Exercício: Transformar num modelo Dimensional 1. Identificar as Dimensões 2. Desenhar o Modelo Dimensional (Star-Schema) 3. Classificar as Dimensões 35 Dimensional Exercício 36
Compartilhar