Buscar

Governança de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Conceitos introdutórios
Agovernança de dados e qualidade dos dados tem muito a ver com o manuseio e com a preocupação das empresas em tratar do que é considerado atualmente, o ativo mais valioso: os dados.
Na primeira aula, procurou-se falar dos conceitos introdutórios que vão dar condições do aluno compreender e associar os tópicos das aulas seguintes, relacionando a governança, a gestão de dados, aos negócios da empresa, às regulamentações externas, bem como os processos que utilizam dados para movimentar os negócios.
Os dados da empresa são seu maior ativo, e eles normalmente são empregados para construir informação em um primeiro momento, depois o conhecimento, o qual será utilizado para tomar as decisões na empresa. O dado, por si, é bruto e não tem definição, a não ser seu próprio conteúdo. Já a informação, caracteriza o dado em um contexto, como a identificação de um número sendo um ano ou um valor monetário. Por fim, o conhecimento é a aplicação da informação, onde o ano ou o valor monetário passa a ter valor dado a aplicação que é feita.
Na importância dos dados também se observa o seu ciclo, igualmente importante para a empresa garantir que seu melhor ativo esteja sendo gerido da melhor maneira. Algumas atividades podem ser citadas nesse ciclo, tais como “planejar, projetar e especificar o modelo de dados”, “implementar a infraestrutura”, “inserir, criar, adquirir, derivar, atualizar e capturar”, “armazenar, gerenciar, replicar e distribuir”, “proteger e recuperar”, “arquivar e recarregar”, e por último, quando o dado deixa de ser necessário, a atividade de “remover”.
O ciclo de vida dos dados dentro da empresa está intimamente relacionado com os negócios, bem como as soluções de software que a empresa utiliza, que demanda de cada uma das atividades, gestão e ferramentas diferentes. Por exemplo, o levantamento de requisitos de dados impacta na criação ou adaptação do modelo de dados, que por sua vez, impacta na definição da arquitetura e nos aspectos de segurança. Normalmente há um time dedicado a trabalhar com os dados da empresa, composto de funcionários especialistas em partes desse processo como um todo.
As principais atividades da gestão de dados no ciclo e no bom funcionamento e integração dos dados da empresa são “entender a necessidade de informação da empresa”, “capturar, armazenar, proteger e garantir a integridade dos dados”, “fazer a melhora contínua dos dados e informação”, “garantir privacidade e confidencialidade” e ”maximizar a efetividade do uso e o valor dos dados”.
Além das atividades, também há uma divisão dos papéis e das responsabilidades das pessoas e partes da empresa que estão envolvidas na gestão de dados. O próprio DMBOK, que é um guia de boas práticas para conduzir a governança de dados nas empresas, separa as funções em: Governança, Desenvolvimento, Segurança, Documentação, Dados mestres, Arquitetura, Operações, Qualidade, DW/BI e Metadados.
Devido à grande complexidade inerente aos modelos de dados existentes nas empresas, que suportam as operações e todos os negócios realizados, a responsabilidade e a complexidade precisam ser divididas entre times que se organizarão em conjunto para atingir o propósito da gestão de dados, atendendo cada um na área que melhor conhece e é especializado para atender.
Entre os diferentes papéis, as funções e atividades, que norteiam cada um dos grupos, são divididas em: “planejamento”, “desenvolvimento”, “controle” e “operacional”. Essa divisão acontece para evidenciar quais atividades são focadas em planejamento dentro de uma função, como DW/BI, e quais atividades são voltadas para o desenvolvimento e operação. Nas atividades também estão separados os diferentes tipos de profissionais, como aqueles com papel de gestão e, efetivamente, os desenvolvedores e a equipe técnica responsável por desenhar os esquemas mais importantes e a implementação de toda a estrutura.
Finalmente, no topo de tudo isso está a governança de dados, para garantir que os conjuntos funcionam de maneira independente, porém coordenada com os objetivos estratégicos da empresa, considerando os negócios, e os objetivos estratégicos de TI, considerando a utilização das tecnologias, custos e competitividade da empresa frente ao mercado promovida por meio destes.
Entender onde a governança de dados se encaixa nos dados da empresa.
 
 
Atividade extra:
Vídeo no Youtube, “A importância da governança de dados para as organizações”:
https://www.youtube.com/watch?v=64Cy3Dd83ek
 
 
Referência Bibliográfica:
· Data Management Body of Knowledge, Dama International, Data Management Association, 2017.
· Barbieri, Carlos. Governança de Dados: práticas, conceitos e novos caminhos. Brazil, Altas Books, 2019.
· Rêgo, Bergson. Simplificando a Governança de Dados: governe os dados de forma objetiva e inovadora. Brasport, 2020
Ir para questão
· 
· 
· 
· 
· 
· 
· 
Gestão da arquitetura de dados
Um aspecto importante a ser observado em tudo que permeia os dados da empresa é a arquitetura onde esses dados residem. A arquitetura é um conjunto integrado de especificações para definir os requisitos de dados, guiar a integração e controle dos ativos de dados e alinhar o investimento com a estratégia de negócio. Desse modo, a arquitetura é mais do que a parte técnica, que inicialmente pode ser pensada.
Por definição, faz parte da gestão da arquitetura de dados, as atividades de definir as necessidades de dados da empresa e desenhar um modelo que atenda essas necessidades. Desse modo, tem-se como objetivos: planejar com previsão e se antecipar para oferecer dados de qualidade; identificar e definir requisitos de dados em comum; e desenhar estruturas conceituais e planos para atingir os requisitos imediatos e a longo prazo de dados da empresa.
Na gestão da arquitetura de dados, há diferentes entradas e saídas, entendendo essa gestão como um macroprocesso. As principais entradas são os objetivos e estratégias de negócios e TI, as necessidades dos problemas com dados, as estratégias de dados e a arquitetura técnica. Como saída, tem-se entregáveis primários como: modelos de dados da empresa, arquitetura e tecnologia de dados, integração de dados, arquitetura de business intelligence (BI) e data warehouse (DW) e metadados.
São três os pontos principais na gestão da arquitetura de dados: o modelo de dados em si, porque é o núcleo da arquitetura de dados da empresa; a análise de valor dos dados, visto que ter todos os dados, trabalhar com eles e encontrar valor neles têm custo; e os entregáveis da arquitetura de dados, que basicamente se refere a tudo que essa gestão produz, tais como a própria arquitetura, a integração, a documentação e os metadados.
O modelo de dados da empresa passa por um processo de construção a partir do entendimento da necessidade do cliente, seja ele interno ou externo. Os modelos também podem estar divididos em áreas, com cada área trabalhando em cima do modelo que melhor lhe atende, mas não esquecendo da visão macro, da empresa toda. Na construção do modelo, a empresa deve se preocupar em fazer isso de maneira incremental, preparando as áreas mais críticas para receber as atualizações e depois acoplar as demais áreas.
Na integração de dados e serviços, a arquitetura é importante para garantir que todas as partes continuem comunicantes após estarem integradas. Assim, é necessário perceber como as áreas se comunicam e como novos negócios podem ser conectados aos negócios existentes na empresa. É dessa maneira que a integração acontecerá da forma mais correta. Ainda na integração, são pontos de atenção: quais ferramentas utilizar; como será o processo de extração, transformação e carga dos dados; qual banco de dados será empregado; e como será feita a análise e limpeza dos dados.
Os componentes das soluções providas na integração de dados e serviços têm diferentes classificações, como: atual, aquilo que está em produção; em desenvolvimento, aquilo que almeja estar em produção nos próximos 2 anos; estratégico, aquilo que é considerado para o período após 2 anos; retirada,aquilo que está para ser “aposentado” no mesmo ano; preferência, quando se trata de um componente muito utilizado; específico, quando o componente trata de um problema muito específico da empresa; e emergente, aquilo que está em pesquisa sem previsão de entrar em produção.
Por último, foram discutidos os tópicos de taxonomia e metadados. Ambos estão interligados, e não é comum serem discutidos nas empresas que não adotam gestão e governança de dados. A taxonomia se refere ao vocabulário do negócio e da empresa, de modo a garantir que todas as pessoas e todos os sistemas se refiram aos conceitos de uma maneira única, usando uma expressão em comum. Os metadados se referem às informações adjacentes aos conteúdos principais dos sistemas. Foi citado o exemplo de um sistema de notícias, onde a notícia em si é o conteúdo principal, mas alguns metadados suportam o sistema, como nome do autor, data de publicação, data de atualização, último editor a revisar o documento, entre outras informações.
 
 
Atividade extra:
Vídeo no Youtube, “Taxonomia e metadados”:
https://www.youtube.com/watch?v=JTKC9wvcysI
 
 
Referência Bibliográfica:
· Data Management Body of Knowledge, Dama International, Data Management Association, 2017.
· Barbieri, Carlos. Governança de Dados: práticas, conceitos e novos caminhos. Brazil, Altas Books, 2019.
· Rêgo, Bergson. Simplificando a Governança de Dados: governe os dados de forma objetiva e inovadora. Brasport, 2020.
Ir para questão
· 
· 
· 
· 
· 
· 
· 
Desenvolvimento de dados
Odesenvolvimento de dados está relacionado com as soluções utilizadas na empresa para maximizar o valor das diferentes fontes de informação. Por definição, desenvolvimento de dados inclui as atividades de projetar, implementar e manter soluções que atendam às necessidades de dados da empresa.
Pode-se destacar como objetivos do desenvolvimento de dados: identificar e definir os requisitos de dados; projetar estruturas de dados e outras soluções para atender esses requisitos; implementar e manter os diferentes componentes das soluções; garantir conformidade de solução com a arquitetura de dados; garantir integridade, segurança, usabilidade e manutenção dos dados.
No papel de desenvolvimento de dados, as entradas são as arquiteturas de dados, da aplicação, técnica e de processos, enquanto as saídas são requisitos de dados, modelos de dados conceituais, modelos lógicos e físicos e de dados, bem como os metadados e o modelo do banco de dados.
As atividades de desenvolvimento de dados são parte integrante do ciclo de desenvolvimento de software. São pontos importantes de observações a modelagem, quanto ao modelo lógico e físico; o banco de dados, quanto ao projeto e implementação; e os produtos, quanto a consulta aos dados e o consumo.
A modelagem de dados é a atividade para analisar e projetar os requisitos de dados, adequando-os às estruturas de dados que suportem a operação. Já os requisitos, podem ser obtidos através das necessidades, que podem originar um sistema ou ser a demanda por dados de sistemas previamente existentes.
Os requisitos podem ser encontrados em diferentes documentos dentro da empresa, como as necessidades de desenvolvimento de software relatadas por e-mails ou conversas; os processos da empresa; as necessidades de regulamentação; e análises esporádicas da base de dados. Nesse processo, é importante atentar-se para a segurança, o impacto no modelo de dados, o desenvolvimento em si e o retorno da solução para o usuário.
É importante identificar como um requisito de dado pode ser atendido e quais opções para atendê-lo. Seja por desenvolvimento do modelo ou utilização dos dados presentes no modelo.
Quando a criação de um modelo está vinculada à criação do banco de dados, é importante observar os impactos que podem ser derivados da localização do servidor, sua redundância, e as capacidades de processamento e memória; taxa de crescimento esperado do modelo; tipo de armazenamento e esquema do banco de dados; tempo de armazenamento para descarte ou arquivamento dos dados; tempo de backup; e o conjunto de tecnologias e conhecimentos necessários para operar, de modo a simplificar contratações ou se antecipar às buscas de mercado.
Quando o atendimento de um requisito se dá pela utilização de dados do modelo, é importante observar em quanto tempo a consulta deve ser implementada; quanto tempo a consulta pode levar para retornar e satisfazer a necessidade do usuário; se existe algum horário do dia a consulta se tornará indisponível; o tamanho de dados esperado para a consulta; e como será gerado o retorno da consulta, por portal, PDF ou relatório impresso.
A implementação de soluções consiste nas atividades de gestão de dados para suportar a construção dos sistemas, os testes e a entrega da solução. São elas: gestão de mudanças e implementação do modelo; criação dos dados de teste e procedimentos de segurança; desenvolvimento da migração e programas de conversão; validação da qualidade de dados; criação e entrega do treinamento aos usuários; e documentação da construção da solução.
Por fim, a implementação deve observar os requisitos de integridade, segurança e usabilidade dos dados armazenados ou servidos por meio de consultas. Em integridade, deve-se observar se o banco comporta as modificações necessárias, se o processo de redundância garante a integridade dos dados, sempre verificando se todas as mudanças foram autorizadas e aprovadas. Em segurança, deve-se verificar se o acesso é controlado por credenciais, se as credenciais limitam as informações sensíveis e se todas as mudanças que foram feitas no modelo para atender a um requisito foram documentadas e registradas para auditoria. Em usabilidade, deve-se observar se a documentação foi preparada com a taxonomia vigente, se algum treinamento será dado junto com a disponibilização da ferramenta e se os primeiros dias de uso serão acompanhados por equipe técnica preparada.
 
 
Atividade extra:
Vídeo no Youtube, “Modelagem de dados – Modelo conceitual, lógico e físico”:
https://www.youtube.com/watch?v=8CkMX2qXgdY
 
 
Referência Bibliográfica:
· Data Management Body of Knowledge, Dama International, Data Management Association, 2017.
· Barbieri, Carlos. Governança de Dados: práticas, conceitos e novos caminhos. Brazil, Altas Books, 2019.
· Rêgo, Bergson. Simplificando a Governança de Dados: governe os dados de forma objetiva e inovadora. Brasport, 2020.
Ir para questão
· 
· 
· 
· 
· 
· 
· 
Gestão de Operações e Segurança dos Dados
A gestão da operação dos dados se define como as atividades de planejamento, controle e suporte durante o ciclo de vida dos dados. Os objetivos da gestão de operação de dados são: proteger e garantir a integridade dos dados estruturados; gerenciar a disponibilidade dos dados durante seu ciclo de vida; e otimizar o desempenho das operações no banco de dados.
Por sua vez, a gestão da segurança de dados se refere à autenticação, autorização, acesso e auditoria dos dados. Nesta gestão, os objetivos são: promover acesso autorizado e negar acesso inapropriado aos dados; e atender aos requisitos regulatórios de privacidade e confidencialidade.
As duas gestões estão relacionadas no que diz respeito à proteção e integridade dos ativos de dados. Tanto a operação quanto a segurança estão em sincronia com o ciclo de vida dos dados. Basicamente há dois pontos neste assunto: a permissão de leitura e escrita aos dados; e a adequação ao modelo de dados.
A gestão de operações tem também como foco acompanhar a disponibilidade dos dados. A disponibilidade dos dados é um dos componentes do desempenho de um banco de dados. Além de ter consultas que sejam atendidas dentro do tempo combinado, é importante que os dados estejam disponíveis para essas consultas. Assim, a disponibilidade é medida pelo percentual de tempo que o banco está disponível.
As exigências de disponibilidade aumentam à medida que o negócio cresce e o risco aumenta com a indisponibilidade. São pontos de observação: consumo de dados de terceiros; controle do banco de dados;planejamento para recuperação dos dados; planejamento de retenção dos dados; suporte a bancos especializados.
Além da disponibilidade, também interessa que as consultas e a utilização de um modo geral do banco de dados sejam otimizadas. A otimização de transações consiste em medir o desempenho daquilo que se deseja otimizar, verificar se atende aos requisitos iniciais previamente combinados de tempo esperado para obter uma resposta e, por último, de fato implementar a otimização, observando as oportunidades. São oportunidades de otimização os seguintes pontos: alocação de memória (buffer/cache); falha na atualização das estatísticas de uso; falta de indexação; locking e bloqueio; código SQL de baixa qualidade; e aumento de número de usuários, tamanho ou do uso do banco de dados.
Em termos de segurança, a principal preocupação são os acessos inapropriados e o vazamento de informações que pode originar a partir disso. Os acessos inapropriados podem levar a: execução de comandos que podem fazer os dados perderem a integridade;
E execução de consultas que permitem usuários verem informações confidenciais (internas e externas).
Os acessos inapropriados ainda podem ser divididos em quatro pontos: autenticação (onde é verificado se os usuários dizem ser quem são por meio de alguma informação particular, como senha); autorização (identifica quais direitos individuais o usuário tem e seus privilégios, se a nível de tabela ou a nível de coluna/informação); acesso (habilita os usuários e seus privilégios no esquema de dados, após ter sido previamente identificadas as necessidades); e auditoria (revisa as ações e atividades dos usuários em termos de conformidade regulatória, verificando os dados que estão acessados, com qual frequência e o alinhamento com suas tarefas).
O acesso a informação confidencial ou privilegiada é impactante para a empresa porque ela normalmente está ou deve estar em conformidade regulatória (compliance) com entidades da própria empresa ou entidades externas, como órgãos regulatórios. Por exemplo, as instituições financeiras devem seguir as diretrizes do Banco Central (BACEN) no Brasil. São exemplos: os contratos de confidencialidade (NDA) com terceiros; NDA com os funcionários internos (venda de informações); e a Lei Geral de Proteção aos Dados (LGPD).
 
 
Atividade extra:
Vídeo no Youtube, “Alta disponibilidade em bancos de dados”:
https://www.youtube.com/watch?v=GMsocIQmhPI
 
 
Referência Bibliográfica:
· Data Management Body of Knowledge, Dama International, Data Management Association, 2017.
· Barbieri, Carlos. Governança de Dados: práticas, conceitos e novos caminhos. Brazil, Altas Books, 2019.
· Rêgo, Bergson. Simplificando a Governança de Dados: governe os dados de forma objetiva e inovadora. Brasport, 2020.
Ir para questão
· 
· 
· 
· 
· 
· 
· 
· 
Gestão de Dados Mestres e Qualidade
Antes de adentrar a gestão de dados mestres é importante observar o que são os dados mestres, e isso encapsula os dados que são tidos como padrão para empresa. Os dados mestres são representam a fonte de informação confiável da empresa, que pode ser consultada sem receios de ter informações incorretas e incompletas. São exemplos de dados mestres: clientes, produtos e vendas. Paralelo aos dados mestres, também há os dados de referência, que são informações normalmente utilizadas para preencher e completar os dados mestres. Os dados de referência são normalmente observados como chaves de referência, como campos de cidade, estado, país, grau de escolaridade, tipos de negócios, tipos de notas fiscais, entre outros.
A gestão de dados mestres se resume a planejar, implementar e fazer controle das atividades para garantir consistência com a versão correta dos dados contextualizados. Os objetivos são: prover dados de alta qualidade e integrados; reduzir custos e complexidade de reuso; e suportar BI e esforços de integração.
Por sua vez, a gestão da qualidade está preocupada em estabelecer as maneiras de medir a qualidade e implantar esses indicadores, além de garantir que o dado esteja pronto para uso. Assim, os objetivos são: medir a melhora da qualidade dos dados em relação às expectativas; definir requisitos e especificações para integrar a qualidade no ciclo de desenvolvimento dos sistemas; e prover processos definidos para medir, monitorar e reportar o nível de qualidade dos dados.
Ao fazer a reconciliação de dados, isto é, a integração de diferentes fontes, deve haver preocupação dos dados mestres não ficarem corrompidos. Essas fontes de integração podem ser: dados de indivíduos (sistemas de relação com cliente, informações de funcionários e clientes), dados financeiros (unidades de negócios, centros de custo e de lucro e orçamentos), dados dos produtos (produtos, serviços, ciclo de vida das negociações) e dados geográficos (rastreio e relações hierárquicas de localizações para suportar os processos). Da reconciliação de dados, os principais desafios são: ingestão dos dados com alta fidelidade; e dificuldade na identificação única dos dados (de modo a evitar a duplicidade).
A reconciliação de dados dentro da gestão de dados mestres também é importante por conta do impacto de custo na complexidade e no reuso das informações. A integração efetiva, que diz respeito à arquitetura para controlar os processos e garantir consistência e qualidade, é de suma importância. No entanto, podem surgir dificuldades quando as informações da empresa estão isoladas. E um ponto que pode ser ignorado, mas traz resultados apesar do custo inicial, são os padrões e o estabelecimento deles.
Para citar um exemplo de complexidade e custo no reuso, considere que uma empresa recebeu os dados do Banco Central sobre a situação financeira de um conjunto de CPFs. Para a cobrança, a informação pode ter uma utilidade, enquanto para a área de vendas, essa informação pode ter outra utilidade. Sem padronização, a empresa começaria a utilizar as informações, replicando-as em suas bases dentro das áreas, causando duplicidade. A duplicidade pode levar a inconsistência, quando cada área manipula os dados à sua maneira, e isso impacta diretamente no custo (decisões erradas e armazenamento).
A gestão de dados mestres também oferece apoio à integração, observando os aspectos de gestão da qualidade. Assim, procura observar os aspectos de: aquisição de dados, gestão e auditoria de arquivos; padronização, limpeza e correspondência dos dados; e gestão da replicação, por meio da reconciliação dos dados mestres.
Do ponto de vista da gestão da qualidade, o principal objetivo é padronizar os procedimentos relacionados com qualidade e garantir que seja possível monitorar e medir a qualidade dos ativos de dados. São exemplos de indicadores: acurácia, completude, consistência, precisão, privacidade, integridade, unicidade e validade. Esses indicadores devem ter mensuração, relevância, aceitação, controle e rastreio.
 
 
Atividade extra:
Vídeo no Youtube, “Webinar: Qualidade de Dados na Prática: como aumentar a eficiência operacional e reduzir custos”:
https://www.youtube.com/watch?v=-QXZK1-B0aw
 
 
Referência Bibliográfica:
· Data Management Body of Knowledge, Dama International, Data Management Association, 2017.
· Barbieri, Carlos. Governança de Dados: práticas, conceitos e novos caminhos. Brazil, Altas Books, 2019.
· Rêgo, Bergson. Simplificando a Governança de Dados: governe os dados de forma objetiva e inovadora. Brasport, 2020.
Ir para questão
· 
· 
· 
· 
· 
· 
· 
· 
Gestão de DW e BI
Um data warehouse (DW) é composto de dois componentes principais: uma base de dados para suporte à decisão e programas relacionados à coleta, limpeza, transformação e armazenamento de dados. Nesse sentido, DW pode ser imaginado como um armazém de dados agrupados por assuntos que auxiliam na tomada de decisão. O DW tem os requisitos de dados históricos e analíticos para business intelligence (BI), onde BI permite: consultar, analisar e reportar atividades para monitoramento e compreensão das operações da empresa; e auxiliar nas decisões estratégicas da empresa com dadosresumidos.
A gestão de DW e BI procura fazer a coleção, integração e apresentação dos dados para auxiliar na análise do negócio e na tomada de decisão. As principais atividades são: mover e transformar os dados para uma base em comum; prover diversos meios de acesso e manipulação dos dados; e reportar dados integrados da base em comum.
Dentro da gestão de DW e BI, os projetos envolvem: prover armazenamento integrado de dados, atuais e históricos, organizado por assunto; garantir qualidade e acesso apropriado aos dados; garantir ambiente confiável, estável e de alto desempenho para aquisição, gestão e acesso aos dados; prover ambiente de fácil uso e flexível para acesso aos dados; entregar conteúdo e acesso de maneira incremental, alinhados aos objetivos da empresa; definir, construir e suportar o armazenamento, processo e infraestrutura de dados.
No quesito de BI, uma parte muito importante é a definição de ferramentas de consulta e relatórios. Uma vez que os dados estejam organizados no DW, os processos de BI viabilizam a produção de consultas e relatórios nos dados agregados para auxiliar na tomada de decisão, sendo as principais ferramentas de mercado: Power BI, Tableau e Qlik.
Para organizar os dados no DW, etapas de pré-processamento são necessárias. Nesse processo, pode-se elencar: definição de staging; mapeamento origem-destino; limpeza; transformação; reconciliação; e, por fim, carga. A definição de staging se refere ao espaço virtual que será utilizado como temporário durante as transformações dos dados. O mapeamento origem-destino indicará quais tabelas transacionais do sistema serão utilizadas para compor cada agrupamento dentro do DW. Quanto à limpeza, é necessário observar quais registros estão prontos e em condições para serem utilizados, e os que não estão poderão ser removidos dentro do staging. A transformação modifica as informações para que o mapeamento aconteça e seja mantido no agrupamento da maneira esperada. A reconciliação diz respeito à junção das informações provenientes de diferentes domínios, por exemplo, vendas e região onde o cliente mora. E por último, a carga diz respeito ao processo que fará o carregamento das informações do staging para o repositório final, onde se tornará disponível para os processos de BI.
Dentro dessa gestão, o monitoramento é uma das atividades essenciais devido a tratar de um conjunto de dados isolado do resto das bases de dados vinculadas ao negócio da empresa. Assim, todo cuidado com as bases de origem é necessário ter com a base onde reside o DW. No monitoramento, é importante observar: os gargalos das consultas (se elas levam mais tempo que o combinado com os usuários); as dependências de dados (se todas as tabelas estão sendo carregadas normalmente e se estão disponíveis durante a janela de processamento; refinamento dos índices (para manter as consultas e as integrações operando da maneira mais rápida, dentro do possível); recuperação após falhas (se há processos bem definidos para backup e contenção de falhas quando a carga não for realizada na janela de processamento); e arquivamento dos dados.
Nos cenários mais atuais, uma alternativa que tem ganhado força e oferecido vantagem competitiva para as empresas são os data lakes. A diferença entre data lake e data warehouse é que no data lake, todos os dados crus são mantidos no repositório, enquanto o data warehouse organiza e agrupa os dados para fazer o armazenamento. Isso dá flexibilidade para que novas consultas e novas estratégias sejam avaliadas rapidamente no data lake, enquanto no data warehouse seria necessário criar novos processos para transformar e salvar as informações.
 
 
Atividade extra:
Vídeo no Youtube, “O que é um data lake?”:
https://www.youtube.com/watch?v=U6WS0mNOQ5Y
 
 
Referência Bibliográfica:
· Data Management Body of Knowledge, Dama International, Data Management Association, 2017.
· Barbieri, Carlos. Governança de Dados: práticas, conceitos e novos caminhos. Brazil, Altas Books, 2019.
· Rêgo, Bergson. Simplificando a Governança de Dados: governe os dados de forma objetiva e inovadora. Brasport, 2020.
Ir para questão
· 
· 
· 
· 
· 
· 
· 
· 
Gestão dos documentos e metadados
Nem todos os dados da empresa residem em bancos de dados transacionais. A gestão de documentos atua efetivamente para auxiliar nos processos que permeiam os dados armazenados fora dos bancos de dados tradicionais. Assim, a gestão de documentos fica responsável por fazer o planejamento, implementação e controle de atividades para armazenar, proteger e acessar os dados de arquivos eletrônicos e registros físicos, como textos, imagens, áudio e vídeo.
Os objetivos da gestão de documentos são: proteger e garantir a disponibilidade dos dados armazenados em formatos menos estruturados; habilitar recuperação e uso de maneira eficaz dos dados não-estruturados; atender as obrigações legais e as expectativas dos clientes; garantir a continuidade do negócio por meio da retenção, recuperação e conversão dos arquivos; e controlar os custos do armazenamento desses arquivos.
A gestão de documentos muito tem a ver com o metadados, pois enquanto nos dados transacionais, os metadados são utilizados como suporte e descrição, nos arquivos, os metadados podem ser vistos como essenciais, pois os arquivos normalmente não apresentam estrutura clara e bem definida. Assim, a gestão de metadados se responsabiliza por criar, armazenar e integrar, além de controlar o uso dos metadados. Os principais objetivos são: prover entendimento da empresa a respeito dos termos e seu uso; integrar os metadados de diferentes fontes de dados; prover acesso fácil e integrado aos metadados; e garantir segurança e qualidade nos metadados.
Os arquivos também são referidos como registros, e normalmente ocupam mais espaço que os registros tradicionais, no formato de dados estruturados dos bancos transacionais. Isso implica em custo maior de armazenamento e dificuldade na geração de índices para fazer as consultas de maneira eficiente. Entre os possíveis tipos de arquivos armazenados, podem ser citados: físico, como documentos, memorandos, contratos e relatórios; eletrônicos, como e-mails, anexos e mensagens instantâneas; conteúdo de websites; documentos de todo tipo de mídia e hardware; e dados capturados em bancos de dados de qualquer tipo.
Dentro da recuperação eficiente de dados, dois pontos são importantes de serem observados: quanto ao sistema, onde é necessário ter um sistema para rastrear e armazenar os documentos, com segurança e versionamento, independente de onde os documentos são armazenados; e os papéis, apontando que todos são responsáveis na empresa são responsáveis por armazenar os documentos seguindo procedimentos estabelecidos, além de treinamento adequado para toda a equipe está apta a fazer isso da maneira correta.
Para que haja 
 no negócio, o armazenamento dos documentos deve estar alinhado com: a identificação de documentos existentes e novos; criação e aprovação de políticas; políticas para retenção dos arquivos e políticas de segurança; classificação dos documentos; e definição de armazenamento a curto e longo prazo.
O controle de custos é importante dentro da gestão de documentos devido ao alto custo que esse tipo de armazenamento pode gerar. Devem ser estabelecidas algumas diretrizes, como: o que deve ser armazenado?; como deve ser armazenado? Qual sistema será utilizado para gerenciar o armazenamento e acesso aos arquivos?; por quanto tempo os arquivos devem ficar armazenados?
Os metadados, por sua vez, garantem a contextualização dos documentos e permitem que buscas sejam feitas nesses tipos de arquivos, mas também se referem aos metadados dos registros encontrados nas bases transacionais. A importância dos metadados pode ser destacada em alguns pontos: aumenta o valor estratégico das informações ao contextualizar os dados; reduz os custos de treinamento na mudança de funcionários devido aos metadados ajudarem a documentar a informação; melhora a comunicação entre a equipe de TI e o pessoal de negócios; melhorao desempenho no desenvolvimento dos sistemas; reduz o risco de falhas de projeto por permitir análises melhores de cenários.
Ao tratar dos metadados, o repositórios podem ser: centralizados, onde há alta disponibilidade, recuperação rápida, e apresentam manutenção cara e processos complexos de atualização dado que todos os metadados estão em um mesmo local; distribuídos, onde não há um repositório de persistência, assim é possível ter disponibilidade em tempo real e acesso rápido, porém não apresenta padrão entre os diferentes sistemas da empresa; e híbridos, com acesso quase em tempo real, dado que parte do metadados estarão centralizados, alta disponibilidade e algum atraso devido à combinação dos resultados das diferentes fontes e formas de armazená-los.
A respeito da qualidade dos metadados, são indicadores para esse grupo específico: completude; qualidade da documentação; conformidade de dados no serviço provido; cobertura de data stewards; uso dos metadados (referências feitas); maturidade da gestão dos metadados; e disponibilidade.
 
 
Atividade extra:
Vídeo no Youtube, “O que é GED e como ela auxilia na gestão das informações”:
https://www.youtube.com/watch?v=mtNS4p5mygI
 
 
Referência Bibliográfica:
· Data Management Body of Knowledge, Dama International, Data Management Association, 2017.
· Barbieri, Carlos. Governança de Dados: práticas, conceitos e novos caminhos. Brazil, Altas Books, 2019.
· Rêgo, Bergson. Simplificando a Governança de Dados: governe os dados de forma objetiva e inovadora. Brasport, 2020.
Ir para questão
· 
· 
· 
· 
· 
· 
· 
· 
Projeto de Gestão de Dados
Como último assunto a ser estudado, depois de terem sido observadas todas as gestões e os diferentes papéis da gestão de dados, a relação da governança com a qualidade, também é importante abordar como funciona um projeto de gestão de dados. A condução de um projeto de gestão de dados depende de: escopo (funções da gestão de dados que compreendem o projeto); tipo de projeto (da arquitetura até análise ou implementação); e escopo dentro da organização (unidades de negócios atendidas).
O propósito de ter um projeto de gestão de dados é estabelecer quais áreas farão parte, quais papéis e funções serão implementados, e em que nível acontecerá a transformação. Desse modo, a empresa não precisa passar por uma transformação de uma vez só, mas pode ser feita de maneira incremental.
O escopo do projeto define quais áreas da gestão de dados serão trabalhadas, como governança de dados, arquitetura, operações, entre as outras estudadas também. A escolha deve levar em consideração os princípios estudados.
O tipo de projeto implica em quais pontos  a empresa deve ou não se preocupar, entendendo complexidade e custos. São os tipos de projetos: arquitetura (onde apenas o escopo será definido, entendendo a situação atual da empresa); análise e design (o escopo se transforma em desenho); implementação (a execução do desenho previamente proposto); melhoria operacional (mudanças realizadas sobre o que já tem na empresa, inclusive melhorias para projetos anteriores de gestão de dados); e gestão e administração (para mudança significa de processos e controle deles).
Por sua vez, o escopo da empresa compreende quais unidades de negócios serão foco do projeto, podendo ser áreas administrativas, ou os diferentes de negócios que acontecem dentro de uma mesma empresa. Naturalmente, a empresa deverá considerar as mais críticas e de maior retorno.
Para ser possível a execução do projeto, é necessária a criação de equipe para tal. A criação da equipe deve ocorrer para ter pessoas disponíveis para monitorar, fazer a gestão e constantemente melhorar o projeto e seus resultados, bem como executar. Em aula é sugerida a criação do centro de excelência em gestão de dados, responsável pela elaboração e execução dos projetos de gestão de dados.
O Centro de Excelência em Gestão de Dados (DMCOE em inglês) trata de: separar as unidades de negócio; estabelecer que cada unidade de negócio terá seu pessoal de TI e sistemas dedicados; coordenar a nível de empresa para integrar em uma estrutura de dados; melhorar continuamente a empresa em termos de dados; aumentar as técnica e conhecimento dos dados; e maximizar investimento em tecnologia ao reduzir custos com eficácia.
Os projetos de gestão de dados têm como foco elevar a maturidade de dados da empresa, seja por área, seja por quesito operacional e conhecimento específico. Na avaliação da maturidade de dados, verificar a maturidade de dados da empresa é importante para que a empresa consiga melhorar sua gestão de dados, aumentando produtividade, qualidade, e reduzindo custos e riscos. São 5 níveis, descritos a seguir:
· Nível 1 - A gestão de dados é localizada e sob demanda, cada um tem seu jeito de fazer;
· Nível 2 - A gestão se torna independente da pessoa e padronizada;
· Nível 3 - A gestão de dados é documentada, determinada pelos experts na área e validada;
· Nível 4 - Os resultados da gestão de dados são armazenados e cruzados com os resultados das unidades de negócio. A gestão de dados passa a explorar as oportunidades;
· Nível 5 - Com a mudança de tempo, recursos e tecnologias, a gestão de dados consegue se adaptar rapidamente para novas necessidades e situações.
Outros pontos importantes a respeito da execução do projeto foram registrados como:
· Na execução do projeto, a equipe deve estar atenta aos objetivos e a comunicação é vital para o bom andamento;
· Os diferentes papéis devem ser cumpridos para atender às necessidades, e a governança de dados deve verificar, como um controle geral, se os papéis estão sendo exercidos;
· Os problemas devem ser notificados para a governança o quanto antes e o comitê de governança deve decidir como proceder;
· O impacto do atraso da execução deve ser acompanhado pelo comitê de governança que conta com os principais patrocinadores do projeto. A empresa toda deve estar atenta aos atrasos;
Toda a utilização de dados deve ter algum recurso de backup para eventuais problemas, principalmente na migração. Uma falha de migração sem backup pode deixar a empresa inoperante por dias. 
 
 
Atividade extra:
Vídeo no Youtube, “Governança, Qualidade de Dados e NoSQL: dá para combinar?”:
https://www.youtube.com/watch?v=DZRBV6FjuSw
 
 
Referência Bibliográfica:
 
· Data Management Body of Knowledge, Dama International, Data Management Association, 2017.
· Barbieri, Carlos. Governança de Dados: práticas, conceitos e novos caminhos. Brazil, Altas Books, 2019.
· Rêgo, Bergson. Simplificando a Governança de Dados: governe os dados de forma objetiva e inovadora. Brasport, 2020.
Ir para questão
· 
· 
· 
· 
· 
· 
·

Outros materiais