Prévia do material em texto
Governança de Dados Lauro de Freitas Unidade 04 DAMA DMBOK DAMA-DMBOK Frameworks Alguns frameworks sugerem o conceito e a forma de implementação da Governança de Dados em uma organização. • Framework de Governança de Dados - 5W2H; • Framework de Governança de Dados - IBM; • EDM (Enterprise Data Management Council) e DCAM (Data Management Capacity Assessment Model); • Modelo Data Management Maturity (DMM) do CMMI institute; • Gestão, Governança e Gerência de Dados: DAMA DMBOk V2. Segundo Barbieri (2019), todos os frameworks supracitados mostram alguns caminhos comuns, mas, o DAMA DMBOK V2 mostra- se acima dos demais. Sendo, portanto, a referência mais indicada na implementação e execução de programas de gestão e Governança de Dados. DAMA-DMBOK2 Framework • A DAMA International define 11 áreas de conhecimento cobrindo áreas centrais no Guia DAMA-DMBOKv2 para realizar o gerenciamento de dados. • Cada área de conhecimento tem tópicos de seção que agrupam atividades logicamente. Há também uma seção adicional de Gerenciamento de Dados contendo tópicos que descrevem os requisitos de conhecimento para profissionais de gerenciamento de dados. • E a nova área de conhecimento é Integração de Dados e Interoperabilidade. Fonte: DAMA-DMBOK2 Governança de Dados x Gestão de Dados • Segundo a versão atual do guia DAMA-DMBOK, a Gestão de Dados é uma disciplina formada pelo conjunto de onze funções de gerenciamento de dados integradas. • A integração dessas funções é feita pela função de Governança de Dados, por esta razão ela está localizada como elemento central do framework do DAMA-DMBOK. Fonte: DAMA-DMBOK2 Governança de Dados x Gestão de Dados • A estrutura (pirâmide) de Peter Aiken usa as áreas funcionais do DMBOK para descrever a situação em que muitas organizações se encontram. • Uma organização pode usá-lo para definir um caminho a seguir, buscando um estado em que a organização tenha dados e processos confiáveis para apoiar objetivos estratégicos de negócios. Fonte: https://www.dama.org/cpages/home Governança de Dados x Gestão de Dados Fase 1: aquisição de um aplicativo que inclui banco de dados. Isso significa que a organização tem um ponto de partida para dados modelagem/design, armazenamento de dados e segurança de dados. Para que o sistema funcione dentro de seu ambiente e com seus dados, requer trabalho sobre integração e interoperabilidade. Fonte: https://www.dama.org/cpages/home Governança de Dados x Gestão de Dados Fase 2: assim que começarem a usar o aplicativo, encontrarão desafios em relação à qualidade de seus dados. Para obter dados de qualidade são necessários metadados confiáveis e arquitetura de dados consistente. Estes fornecem clareza sobre como os dados de diferentes sistemas funcionam juntos. Fonte: https://www.dama.org/cpages/home Governança de Dados x Gestão de Dados Fase 3: práticas disciplinadas para gerenciar a qualidade dos dados, metadados e arquitetura requerem uma Governança de Dados, que fornece suporte estrutural para atividades de gerenciamento de dados. A Governança de Dados também permite a execução de iniciativas estratégicas, como: • Gerenciamento de Documentos e Conteúdo, • Gerenciamento de Dados de Referência, • Gerenciamento de Dados Mestre, • Datawarehousing e Business Intelligence. Fonte: https://www.dama.org/cpages/home Governança de Dados x Gestão de Dados Fase 4: a organização aproveita os benefícios de dados bem gerenciados e aprimora seus recursos analíticos. Fonte: https://www.dama.org/cpages/home Governança de Dados x Gestão de Dados • Outra maneira de examinar as áreas de conhecimento do DAMA é explorar as dependências entre elas. • Desenvolvido por Sue Geuens, o framework na Figura reconhece que as funções de Business Intelligence e Analytic dependem de todas as outras funções de gerenciamento de dados. Eles dependem diretamente de Dados Mestre e soluções de datawarehouse. Mas esses, por sua vez, dependem de sistemas e aplicações de alimentação. Fonte: https://jkolb.com.br/estrutura-de-gerenciamento-de-dados-dama-evoluida/ Governança de Dados x Gestão de Dados Hexágono de fatores ambientais: mostra o relacionamento entre pessoas, processo e tecnologia e fornece uma chave para a leitura dos diagramas de contexto do DMBOK. Ele coloca metas e princípios no centro, pois fornecem orientações sobre como as pessoas devem executar atividades e usam efetivamente as ferramentas necessárias para o gerenciamento bem-sucedido dos dados. Fonte: https://www.dama.org/cpages/home Governança de Dados x Gestão de Dados Diagrama de contexto da área de conhecimento: descreve os detalhes das áreas de conhecimento, incluindo detalhes relacionados a pessoas, processos e tecnologia. Eles são baseados no conceito de um diagrama SIPOC usado para gerenciamento de produtos (fornecedores, entradas, processos, saídas e consumidores). Os diagramas de contexto colocam as atividades no centro, pois produzem os resultados que atendem aos requisitos das partes interessadas. Cada diagrama de contexto começa com a definição e os objetivos da área de conhecimento. As atividades que conduzem os objetivos (centro) são classificadas em quatro fases: Planejar (P), Desenvolver (D), Operar (O) e Controlar (C). Governança de Dados x Gestão de Dados No lado esquerdo (que flui para as atividades) estão os insumos e fornecedores. No lado direito (saindo das atividades), estão os Entregáveis e os Consumidores. Os participantes estão listados abaixo das Atividades. Na parte inferior, estão Ferramentas, Técnicas e Métricas que influenciam aspectos da Área de Conhecimento. As listas no diagrama de contexto são ilustrativas, não exaustivas. Os itens serão aplicados de maneira diferente a diferentes organizações. As listas de funções de alto nível incluem apenas os papéis importantes. Fonte: https://jkolb.com.br/a-estrutura-do-dama-dmbok/ Governança de Dados x Gestão de Dados Fonte: https://jkolb.com.br/a-estrutura-do-dama-dmbok/ 1 – Governança de Dados 1 - Governança de Dados • Planejamento, supervisão e controle sobre o gerenciamento de dados e o uso de dados e recursos relacionados a dados. • Em outras palavras, governança de dados é uma estrutura que coordena, orienta e define regras para criação, reuso e consumo dos dados. Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 1 - Governança de Dados • Planejamento, supervisão e controle sobre o gerenciamento de dados e o uso de dados e recursos relacionados a dados. • Em outras palavras, governança de dados é uma estrutura que coordena, orienta e define regras para criação, reuso e consumo dos dados. Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 1 - Governança de Dados Planejamento da Governança de dados é similar a um planejamento de saúde a longo prazo. Segundo Rajeev Priyardashi da IBM, a governança de dados é como planejar a saúde a longo prazo. Criativamente ele nos exemplifica isso com a seguinte pergunta: Por que devo cuidar da minha saúde? • R: Porque pretendo correr e brincar com meus netos quanto tiver meus 70 anos. Por que deve aplicar governança de dados? • R: Porque poderemos tomar melhores decisões de negócio, teremos os melhores insight’s, nossos riscos de segurança de dados serão minimizados. 1 - Governança de Dados E como monitoramos efetividade do programa de saúde? • Checando o peso semanalmente\mensalmente. • Monitorando a pressão. • Realizando checkups regularmente. Como monitoramos a efetividade do programa de governança de dados? • Avaliando o nível no programa de maturidade de dados (Inicial, reprodutível, definido, gerenciado e otimizado) • Monitorando a qualidade dos dados. • Escolhendo as ferramentas e tecnologias para suportar a governança de dados. • Garantindo treinamento adequado para cada membro do time. • Auditandoe comunicando não conformidade de dados e metadados, assim como provendo feedback de cada progresso realizado. 1 - Governança de Dados Não implementar a Governança de Dados representa um risco para qualquer empresa. a) Criação de bases sem critério definido. b) Proliferação de silos informacionais. c) Qualidade duvidosa dos dados. d) Dificuldades em se reutilizar dados existentes. e) Problemas de conformidade regulamentar (auditorias e Compliance). 2 – Arquitetura de Dados 2 – Arquitetura de Dados • Estrutura geral de dados e recursos relacionados a dados como uma parte da arquitetura da empresa. Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html • Determinadas situações podem necessitar estruturações diferentes, o padrão é a divisão do Data Lake em 4 zonas: • Transient Zone; • Raw Data Zone; • Trusted Zone; • Refined Zone. Fonte: Medium Estágios para Armazenamento em um Data Lake Fonte: https://dzone.com/articles/data-lake-governance-best-practices Um hub de dados é um centro de troca de dados que é suportado por tecnologias de ciência de dados, engenharia de dados e data warehouse para interagir com endpoints, como aplicativos e algoritmos. Arquitetura Data Hub Fonte: https://www.altexsoft.com/blog/data-hub/ No Data Mesh, o novo não está na criação de tecnologias e/ou ferramentas, mas sim na combinação de conceitos e práticas consolidadas, criando uma nova abordagem para trabalhar com dados: • Data: pensar nos dados como parte essencial da estratégia executiva e tecnológica. • Product thinking: pensar nos dados como produtos, não como projeto ou serviço, oferecendo uma ótima experiência para os usuários. • Distributed domain driven design architecture: pensar nos dados como parte dos domínios de negócio, distribuindo efetivamente a autonomia e responsabilidade. Podemos observar esta nova arquitetura ganhando espaço junto com Domain-driven design (DDD), microservices e service mesh; • Self-service platform design: reduzir a carga cognitiva dos usuários com padrões, protocolos, tecnologias e ferramentas agnósticas de domínio, disponíveis em uma plataforma de autosserviço. Arquitetura Data Mesh Princípios do Data Mesh: 1. Domain Ownership 2. Data as Product 3. Self-service Data Plataform 4. Federated Computacional Governace Arquitetura Data Mesh Arquitetura Data Mesh Fonte: https://www.thoughtworks.com/insights/articles/data-mesh-in-practice-technology-and-the-architecture 3 – Modelagem e Design de Dados 3 – Modelagem e Design de Dados • Análise, projeto, construção, teste e manutenção (área de conhecimento renomeada, pois foi Desenvolvimento na DAMA- DMBOK 1ª edição) Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html Modelo Relacional 3 – Modelagem e Design de Dados Fonte: Próprio autor Modelo Físico Fonte: https://www.visual-paradigm.com/support/documents/vpuserguide/3563/3564/85378_conceptual,l.html 3 – Modelagem e Design de Dados https://www.visual-paradigm.com/support/documents/vpuserguide/3563/3564/85378_conceptual,l.html Fonte: Nardi (2007) 3 – Modelagem e Design de Dados 3 – Modelagem e Design de Dados Fonte: https://learn.microsoft.com/pt-br/power-bi/guidance/star-schema Modelo Dimensional 3 – Modelagem e Design de Dados Fonte: Próprio autor 4 - Armazenamento e Operações de Dados 4 – Armazenamento e Operações de Dados • Implantar armazenamento de ativos de dados físicos estruturados e gestão (área de conhecimento renomeada, pois foi Operações de Dados na 1ª edição do DAMA-DMBOK) Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html SQL, NoSQL ou NewSQL 4 – Armazenamento e Operações de Dados Fonte: https://blog.devart.com/sql-vs-nosql.html 5 - Segurança de Dados 5 – Segurança de Dados • Garantir privacidade, confidencialidade e acesso apropriado. • LGPD. • É necessário planejar e projetar uma estrutura capaz de garantir a privacidade, confidencialidade e acesso apropriado ao dado. • Consiste no planejamento, desenvolvimento e execução de políticas e procedimentos para assegurar a devida autenticação, autorização, acesso e auditoria nos ativos de dados e informações. (DMBOK, 2012). Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html A Segurança de Dados garante que a privacidade e a confidencialidade dos dados sejam mantidas, que os dados não sejam violados e que os dados sejam acessados adequadamente. A Segurança de Dados inclui o planejamento, o desenvolvimento e a execução de políticas e procedimentos de segurança para fornecer autenticação, autorização, acesso e auditoria adequados de ativos de dados e informações. Objetivos da Segurança de Dados: • Habilitar acesso apropriado a ativos de dados corporativos • Impedir o acesso inadequado a ativos de dados corporativos • Compreender e cumprir regulamentos e políticas relevantes para privacidade, proteção e confidencialidade. • Garantir que as necessidades de privacidade e confidencialidade de todas as partes interessadas sejam aplicadas e auditadas. 5 – Segurança de Dados Fonte: DAMA-DMBOK2 6 - Integração de Dados e Interoperabilidade 6 – Integração de Dados e Interoperabilidade Aquisição, extração, transformação, movimento, entrega, replicação, federação, virtualização e suporte operacional (uma área de conhecimento novo em DMBOKv2). Integração de dados: consolida os dados em formas consistentes (físicas ou virtuais). Dois ou mais sistemas podem compartilhar dados. Interoperabilidade de dados: fornece capacidade para vários sistemas se comunicarem; dois ou mais sistemas permanecem inalterados e podem trabalhar juntos. 6 – Integração de Dados e Interoperabilidade Fonte: https://www.informatica.com/resources/articles/what-is-etl.html 7 - Documentos e Conteúdo 7 – Documentos e Conteúdo • Armazenar, proteger, indexar e habilitar o acesso aos dados encontrados em fontes não estruturadas (arquivos eletrônicos e registros físicos) e disponibilizando esses dados para integração e interoperabilidade com dados estruturados (banco de dados). Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 7 – Documentos e Conteúdo Os 8 princípios incluem: Accountability - Prestação de contas: A organização designa um executivo sênior e uma equipe, adota políticas e processos para orientar a equipe e garante a auditabilidade do programa. Integrity Integridade: Registros e informações têm uma garantia razoável e adequada de autenticidade e confiabilidade. Protection - Proteção: O programa garante um nível razoável de proteção das informações. Compliance: O programa garante a conformidade com as leis aplicáveis e as autoridades vinculantes, bem como com as políticas da organização. Availability - Disponibilidade: O programa garante a recuperação oportuna, eficiente e precisa das informações. Retention - Retenção: O programa garante que a organização retenha suas informações por um tempo apropriado, levando em consideração todos os requisitos operacionais, legais, regulatórios e fiscais. Disposition - Disposição: O programa garante que a organização fornecerá disposição segura e adequada das informações. Transparency - Transparência: O programa, incluindo políticas, processos e atividades, será documentado de forma disponível e compreendida pela equipe e pelas partes interessadas apropriadas. 7 – Documentos e Conteúdo Gestão de Documentos: engloba os processos, técnicas e tecnologias para controlar e organizar documentos e registros ao longo de seu ciclo de vida. O gerenciamento do ciclo de vida inclui: • Inventário. • Política. • Classificação. • Armazenamento. • Recuperação e circulação. • Preservação e Destinação. Gerenciamento de registros: o gerenciamento de registros tem requisitos especiais. Registros bem elaborados possuem características como: • Conteúdo: Deve serpreciso, completo e verdadeiro. • Contexto: Informações descritivas (ou seja, metadados) devem ser mantidas (por exemplo, criador do registro, data de criação). • Pontualidade: um registro deve ser criado logo após o evento, ação ou decisão ocorrer. • Permanência: Uma vez designado como registro, não pode ser alterado pelo tempo legal de sua existência. • Estrutura: Deve ser registrado no formulário ou modelo correto. Gestão de Ativos Digitais: Semelhante à gestão de documentos, mas focada em mídia avançada, como vídeo, logotipos, fotografias. 8 - Dados Mestre e Referência 8 – Dados Mestre e Referência • Gerenciar os dados compartilhados para reduzir a redundância e garantir qualidade de dados através da definição padronizada e uso de valores de dados. Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 8 – Dados Mestre e Referência Dados mestres são o conjunto de identificadores que fornecem contexto sobre dados de negócios, como localização, cliente, produto, ativo, etc. São os dados principais absolutamente essenciais para a execução de operações em uma empresa ou unidade de negócios. Em geral, os dados capturados pelas empresas se enquadram em uma destas três categorias: • Dados transacionais: dados transacionais são dados gerados por várias fontes durante a execução ou suporte a processos de negócios diários. • Dados analíticos: dados analíticos surgem por meio de cálculos ou análises executadas nos dados transacionais. • Dados mestres: dados mestres representam os objetos de negócios reais e críticos sobre os quais essas transações são realizadas, levando também em consideração os parâmetros nos quais a análise de dados é realizada. 8 – Dados Mestre e Referência Categorias mais comuns de dados mestres, juntamente com seus componentes, são: Partes: indivíduos e organizações, além de todo o espectro de funções aninhadas neles: compradores, fornecedores, clientes e funcionários. Produtos: commodities negociadas entre as partes. Estruturas financeiras: ativos, contas, documentos, etc. Conceitos de localização: territórios de vendas, filiais, escritórios. Fonte: https://www.tibco.com/pt-br/reference-center/what-is-master-data 9 – Data Warehousing & Business Intelligence Modelo Dimensional 9 – Data Warehousing & Business Intelligence Fonte: Próprio autor 9 – Data Warehousing & Business Intelligence • Gerenciar o processamento de dados analíticos e permitindo acesso a dados de suporte à decisão para relatórios e análises. https://www.astera.com/type/blog/data-warehouse- definition/ Fonte: Próprio autor Surrogate Key 9 – Data Warehousing & Business Intelligence 9 – Data Warehousing & Business Intelligence Fonte: Rafael Piton Big Data x IoT x Analytics 9 – Data Warehousing & Business Intelligence Fonte: https://www.linkedin.com/pulse/big-data-analytics-internet-things-ayushi- agrawal/ Descoberta de Conhecimento 9 – Data Warehousing & Business Intelligence Fonte: https://www.linkedin.com/pulse/differentiating-business-intelligence-big-data-analytics- nedim-dedi%C4%87/ 10 – Metadados 10 – Metadados • Coletar e categorizar, mantendo, integrando, controlando, gerenciando e entrega de metadados Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 10 – Metadados • Coletar e categorizar, mantendo, integrando, controlando, gerenciando e entrega de metadados • Metadados é frequentemente chamado de dados sobre dados ou informação sobre informação. • Por exemplo ao tirar uma foto, a imagem em si (conteúdo) é o dado, já as informações desta imagem, como: nome, data, horário, resolução, tamanho e até geolocalização (se você tirou pelo celular e o recurso estiver ativo) são considerados metadados Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 10 – Metadados • Metadados são informações estruturadas que descrevem, explicam, localizam ou fazem com que seja mais fácil de recuperar, usar ou gerenciar um recurso de informação, geralmente referem-se a modelos de dados e estruturas e não ao conteúdo propriamente dito, podem conter termos de negócio, atributos de um modelo logico de dados ou tabelas\colunas de um banco de dados. Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 10 – Metadados Segundo o DAMA-DMBOK Gestão de metadados: • “É a função responsável por gerir e armazenar metadados de uma organização, além de viabilizar formas de acesso”. • A gestão de metadados, é parte fundamental na democratização dos dados, sem metadados disponível atualizado e confiável, o cientista de dados terá seu trabalho comprometido. Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 10 – Metadados Metadados – Técnico: • Modelo Logico — Contém as entidades, atributos e relacionamentos. • Modelo físico — Contém os bancos de dados, tabelas. • Integração de dados — Contém movimentação e transformação dos dados (Datalineage). Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 10 – Metadados Metadados – Negócio: Glossário de negócio e taxonomias — Contém os termos de negócio, suas definições, sinônimos e as taxonomias também chamadas de classificações que determinam como um elemento poder ser categorizado, por exemplo para sexo a classificação disponível na companhia seria: Masculino e Feminino. Fonte: https://medium.com/ensina-ai/como-a- governan%C3%A7a-de-dados-podem-ajudar-a- democratiza%C3%A7%C3%A3o-dos-dados- 53174e847ea7 10 – Metadados Mas, como tudo isso funciona? Desde a chegada de um dado, até seu cadastro no portfólio? Fonte: https://medium.com/ensina- ai/como-a-governan%C3%A7a-de-dados- podem-ajudar-a- democratiza%C3%A7%C3%A3o-dos- dados-53174e847ea7 11 – Qualidade dos Dados 11 – Qualidade dos Dados • Definir e monitorar, mantendo a integridade dos dados e melhorando a qualidade dos dados. • Iniciativas de negócios bem-sucedidas começam com dados confiáveis e de qualidade. É por isso que é importante monitorar a qualidade de dados estratégicos em toda a empresa. Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 11 – Qualidade dos Dados Uma pequena lista de dimensões de qualidade de dados: • Exatidão; • Completude; • Consistência; • Integridade; • Razoabilidade; • Pontualidade; • Exclusividade/Eliminação de duplicação; • Validade; • Acessibilidade. Fonte: https://www.alamy.com/data-driven-business- concept-icon-image450776862.html 11 – Qualidade dos Dados Alguns usos incluem: • Aumentar o valor dos dados organizacionais e as oportunidades de usá-los; • Redução de riscos e custos associados a dados de baixa qualidade; • Melhorar a eficiência e a produtividade organizacionais; • Proteger e melhorar a reputação da organização; • Criação de perfil de dados (para estabelecer tendências e descobrir inconsistências nos dados); • Padronização de dados (para garantir que os dados usem o mesmo formato consistente); • Monitoramento de dados (para alertar os administradores de dados quando os limites de DQ não são atendidos); • Análise de dados (para descobrir se os dados estão em conformidade com padrões reconhecíveis); • Limpeza de dados. 11 – Qualidade dos Dados • Quadrante™Mágico do Gartner® para Soluções de Qualidade de Dados 2022. Fonte: Gartner Slide 1 Slide 2 Slide 3 Slide 4 Slide 5 Slide 6 Slide 7 Slide 8 Slide 9 Slide 10 Slide 11 Slide 12 Slide 13 Slide 14 Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20 Slide 21 Slide 22 Slide 23 Slide 24 Slide 25 Slide 26 Slide 27 Slide 28 Slide 29 Slide 30 Slide 31 Slide 32 Slide 33 Slide 34 Slide 35 Slide 36 Slide 37 Slide 38 Slide 39 Slide 40 Slide 41 Slide 42 Slide 43 Slide 44 Slide 45 Slide 46 Slide 47 Slide 48 Slide 49 Slide 50 Slide 51 Slide 52 Slide 53 Slide 54 Slide 55 Slide56 Slide 57 Slide 58 Slide 59 Slide 60 Slide 61 Slide 62 Slide 63 Slide 64 Slide 65 Slide 66 Slide 67 Slide 68 Slide 69 Slide 70 Slide 71 Slide 72 Slide 73 Slide 74