Buscar

Governança e Qualidade de Dados - 1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

1 Governança e Qualidade de Dados - 1 
Conceitos introdutórios 
 
Agovernança de dados e qualidade dos dados tem muito a ver com o manuseio e com a preocupação 
das empresas em tratar do que é considerado atualmente, o ativo mais valioso: os dados. 
Na primeira aula, procurou-se falar dos conceitos introdutórios que vão dar condições do aluno compre-
ender e associar os tópicos das aulas seguintes, relacionando a governança, a gestão de dados, aos 
negócios da empresa, às regulamentações externas, bem como os processos que utilizam dados para 
movimentar os negócios. 
Os dados da empresa são seu maior ativo, e eles normalmente são empregados para construir informa-
ção em um primeiro momento, depois o conhecimento, o qual será utilizado para tomar as decisões na 
empresa. O dado, por si, é bruto e não tem definição, a não ser seu próprio conteúdo. Já a informação, 
caracteriza o dado em um contexto, como a identificação de um número sendo um ano ou um valor 
monetário. Por fim, o conhecimento é a aplicação da informação, onde o ano ou o valor monetário passa 
a ter valor dado a aplicação que é feita. 
Na importância dos dados também se observa o seu ciclo, igualmente importante para a empresa garantir 
que seu melhor ativo esteja sendo gerido da melhor maneira. Algumas atividades podem ser citadas 
nesse ciclo, tais como “planejar, projetar e especificar o modelo de dados”, “implementar a infraestrutura”, 
“inserir, criar, adquirir, derivar, atualizar e capturar”, “armazenar, gerenciar, replicar e distribuir”, “proteger e 
recuperar”, “arquivar e recarregar”, e por último, quando o dado deixa de ser necessário, a atividade de 
“remover”. 
O ciclo de vida dos dados dentro da empresa está intimamente relacionado com os negócios, bem como 
as soluções de software que a empresa utiliza, que demanda de cada uma das atividades, gestão e fer-
ramentas diferentes. Por exemplo, o levantamento de requisitos de dados impacta na criação ou adapta-
ção do modelo de dados, que por sua vez, impacta na definição da arquitetura e nos aspectos de segu-
rança. Normalmente há um time dedicado a trabalhar com os dados da empresa, composto de funcioná-
rios especialistas em partes desse processo como um todo. 
As principais atividades da gestão de dados no ciclo e no bom funcionamento e integração dos dados da 
empresa são “entender a necessidade de informação da empresa”, “capturar, armazenar, proteger e ga-
rantir a integridade dos dados”, “fazer a melhora contínua dos dados e informação”, “garantir privacidade 
e confidencialidade” e ”maximizar a efetividade do uso e o valor dos dados”. 
Além das atividades, também há uma divisão dos papéis e das responsabilidades das pessoas e partes 
da empresa que estão envolvidas na gestão de dados. O próprio DMBOK, que é um guia de boas práticas 
para conduzir a governança de dados nas empresas, separa as funções em: Governança, Desenvolvi-
mento, Segurança, Documentação, Dados mestres, Arquitetura, Operações, Qualidade, DW/BI e Meta-
dados. 
Devido à grande complexidade inerente aos modelos de dados existentes nas empresas, que suportam 
as operações e todos os negócios realizados, a responsabilidade e a complexidade precisam ser divididas 
entre times que se organizarão em conjunto para atingir o propósito da gestão de dados, atendendo cada 
um na área que melhor conhece e é especializado para atender. 
Entre os diferentes papéis, as funções e atividades, que norteiam cada um dos grupos, são divididas em: 
“planejamento”, “desenvolvimento”, “controle” e “operacional”. Essa divisão acontece para evidenciar 
quais atividades são focadas em planejamento dentro de uma função, como DW/BI, e quais atividades 
são voltadas para o desenvolvimento e operação. Nas atividades também estão separados os diferentes 
tipos de profissionais, como aqueles com papel de gestão e, efetivamente, os desenvolvedores e a equipe 
técnica responsável por desenhar os esquemas mais importantes e a implementação de toda a estrutura. 
Finalmente, no topo de tudo isso está a governança de dados, para garantir que os conjuntos funcionam 
de maneira independente, porém coordenada com os objetivos estratégicos da empresa, considerando 
os negócios, e os objetivos estratégicos de TI, considerando a utilização das tecnologias, custos e com-
petitividade da empresa frente ao mercado promovida por meio destes. 
Entender onde a governança de dados se encaixa nos dados da empresa. 
 
Atividade extra: 
Vídeo no Youtube, “A importância da governança de dados para as organizações”: 
https://www.youtube.com/watch?v=64Cy3Dd83ek 
https://www.youtube.com/watch?v=64Cy3Dd83ek
 
2 Governança e Qualidade de Dados - 1 
Gestão da arquitetura de dados 
 
Um aspecto importante a ser observado em tudo que permeia os dados da empresa é a arquitetura onde 
esses dados residem. A arquitetura é um conjunto integrado de especificações para definir os requisitos 
de dados, guiar a integração e controle dos ativos de dados e alinhar o investimento com a estratégia de 
negócio. Desse modo, a arquitetura é mais do que a parte técnica, que inicialmente pode ser pensada. 
Por definição, faz parte da gestão da arquitetura de dados, as atividades de definir as necessidades de 
dados da empresa e desenhar um modelo que atenda essas necessidades. Desse modo, tem-se como 
objetivos: planejar com previsão e se antecipar para oferecer dados de qualidade; identificar e definir re-
quisitos de dados em comum; e desenhar estruturas conceituais e planos para atingir os requisitos ime-
diatos e a longo prazo de dados da empresa. 
Na gestão da arquitetura de dados, há diferentes entradas e saídas, entendendo essa gestão como um 
macroprocesso. As principais entradas são os objetivos e estratégias de negócios e TI, as necessidades 
dos problemas com dados, as estratégias de dados e a arquitetura técnica. Como saída, tem-se entregá-
veis primários como: modelos de dados da empresa, arquitetura e tecnologia de dados, integração de 
dados, arquitetura de business intelligence (BI) e data warehouse (DW) e metadados. 
São três os pontos principais na gestão da arquitetura de dados: o modelo de dados em si, porque é o 
núcleo da arquitetura de dados da empresa; a análise de valor dos dados, visto que ter todos os dados, 
trabalhar com eles e encontrar valor neles têm custo; e os entregáveis da arquitetura de dados, que basi-
camente se refere a tudo que essa gestão produz, tais como a própria arquitetura, a integração, a docu-
mentação e os metadados. 
O modelo de dados da empresa passa por um processo de construção a partir do entendimento da ne-
cessidade do cliente, seja ele interno ou externo. Os modelos também podem estar divididos em áreas, 
com cada área trabalhando em cima do modelo que melhor lhe atende, mas não esquecendo da visão 
macro, da empresa toda. Na construção do modelo, a empresa deve se preocupar em fazer isso de 
maneira incremental, preparando as áreas mais críticas para receber as atualizações e depois acoplar as 
demais áreas. 
Na integração de dados e serviços, a arquitetura é importante para garantir que todas as partes continuem 
comunicantes após estarem integradas. Assim, é necessário perceber como as áreas se comunicam e 
como novos negócios podem ser conectados aos negócios existentes na empresa. É dessa maneira que 
a integração acontecerá da forma mais correta. Ainda na integração, são pontos de atenção: quais ferra-
mentas utilizar; como será o processo de extração, transformação e carga dos dados; qual banco de 
dados será empregado; e como será feita a análise e limpeza dos dados. 
Os componentes das soluções providas na integração de dados e serviços têm diferentes classificações, 
como: atual, aquilo que está em produção; em desenvolvimento, aquilo que almeja estar em produção 
nos próximos 2 anos; estratégico, aquilo que é considerado para o período após 2 anos; retirada, aquilo 
que está para ser “aposentado” no mesmo ano; preferência, quando se trata de um componente muito 
utilizado; específico, quando o componentetrata de um problema muito específico da empresa; e emer-
gente, aquilo que está em pesquisa sem previsão de entrar em produção. 
Por último, foram discutidos os tópicos de taxonomia e metadados. Ambos estão interligados, e não é 
comum serem discutidos nas empresas que não adotam gestão e governança de dados. A taxonomia 
se refere ao vocabulário do negócio e da empresa, de modo a garantir que todas as pessoas e todos os 
sistemas se refiram aos conceitos de uma maneira única, usando uma expressão em comum. Os meta-
dados se referem às informações adjacentes aos conteúdos principais dos sistemas. Foi citado o exemplo 
de um sistema de notícias, onde a notícia em si é o conteúdo principal, mas alguns metadados suportam 
o sistema, como nome do autor, data de publicação, data de atualização, último editor a revisar o docu-
mento, entre outras informações. 
 
 
Atividade extra: 
Vídeo no Youtube, “Taxonomia e metadados”: 
https://www.youtube.com/watch?v=JTKC9wvcysI 
 
 
https://www.youtube.com/watch?v=JTKC9wvcysI
 
3 Governança e Qualidade de Dados - 1 
Desenvolvimento de dados 
 
Odesenvolvimento de dados está relacionado com as soluções utilizadas na empresa para maximizar o 
valor das diferentes fontes de informação. Por definição, desenvolvimento de dados inclui as atividades 
de projetar, implementar e manter soluções que atendam às necessidades de dados da empresa. 
Pode-se destacar como objetivos do desenvolvimento de dados: identificar e definir os requisitos de da-
dos; projetar estruturas de dados e outras soluções para atender esses requisitos; implementar e manter 
os diferentes componentes das soluções; garantir conformidade de solução com a arquitetura de dados; 
garantir integridade, segurança, usabilidade e manutenção dos dados. 
No papel de desenvolvimento de dados, as entradas são as arquiteturas de dados, da aplicação, técnica 
e de processos, enquanto as saídas são requisitos de dados, modelos de dados conceituais, modelos 
lógicos e físicos e de dados, bem como os metadados e o modelo do banco de dados. 
As atividades de desenvolvimento de dados são parte integrante do ciclo de desenvolvimento de software. 
São pontos importantes de observações a modelagem, quanto ao modelo lógico e físico; o banco de 
dados, quanto ao projeto e implementação; e os produtos, quanto a consulta aos dados e o consumo. 
A modelagem de dados é a atividade para analisar e projetar os requisitos de dados, adequando-os às 
estruturas de dados que suportem a operação. Já os requisitos, podem ser obtidos através das necessi-
dades, que podem originar um sistema ou ser a demanda por dados de sistemas previamente existentes. 
Os requisitos podem ser encontrados em diferentes documentos dentro da empresa, como as necessi-
dades de desenvolvimento de software relatadas por e-mails ou conversas; os processos da empresa; 
as necessidades de regulamentação; e análises esporádicas da base de dados. Nesse processo, é im-
portante atentar-se para a segurança, o impacto no modelo de dados, o desenvolvimento em si e o retorno 
da solução para o usuário. 
É importante identificar como um requisito de dado pode ser atendido e quais opções para atendê-lo. Seja 
por desenvolvimento do modelo ou utilização dos dados presentes no modelo. 
Quando a criação de um modelo está vinculada à criação do banco de dados, é importante observar os 
impactos que podem ser derivados da localização do servidor, sua redundância, e as capacidades de 
processamento e memória; taxa de crescimento esperado do modelo; tipo de armazenamento e es-
quema do banco de dados; tempo de armazenamento para descarte ou arquivamento dos dados; tempo 
de backup; e o conjunto de tecnologias e conhecimentos necessários para operar, de modo a simplificar 
contratações ou se antecipar às buscas de mercado. 
Quando o atendimento de um requisito se dá pela utilização de dados do modelo, é importante observar 
em quanto tempo a consulta deve ser implementada; quanto tempo a consulta pode levar para retornar 
e satisfazer a necessidade do usuário; se existe algum horário do dia a consulta se tornará indisponível; 
o tamanho de dados esperado para a consulta; e como será gerado o retorno da consulta, por portal, PDF 
ou relatório impresso. 
A implementação de soluções consiste nas atividades de gestão de dados para suportar a construção 
dos sistemas, os testes e a entrega da solução. São elas: gestão de mudanças e implementação do 
modelo; criação dos dados de teste e procedimentos de segurança; desenvolvimento da migração e pro-
gramas de conversão; validação da qualidade de dados; criação e entrega do treinamento aos usuários; 
e documentação da construção da solução. 
Por fim, a implementação deve observar os requisitos de integridade, segurança e usabilidade dos dados 
armazenados ou servidos por meio de consultas. Em integridade, deve-se observar se o banco comporta 
as modificações necessárias, se o processo de redundância garante a integridade dos dados, sempre 
verificando se todas as mudanças foram autorizadas e aprovadas. Em segurança, deve-se verificar se o 
acesso é controlado por credenciais, se as credenciais limitam as informações sensíveis e se todas as 
mudanças que foram feitas no modelo para atender a um requisito foram documentadas e registradas 
para auditoria. Em usabilidade, deve-se observar se a documentação foi preparada com a taxonomia 
vigente, se algum treinamento será dado junto com a disponibilização da ferramenta e se os primeiros 
dias de uso serão acompanhados por equipe técnica preparada. 
 
Atividade extra: 
Vídeo no Youtube, “Modelagem de dados – Modelo conceitual, lógico e físico”: 
https://www.youtube.com/watch?v=8CkMX2qXgdY 
https://www.youtube.com/watch?v=8CkMX2qXgdY
 
4 Governança e Qualidade de Dados - 1 
Gestão de Operações e 
Segurança dos Dados 
 
Agestão da operação dos dados se define como as atividades de planejamento, controle e suporte du-
rante o ciclo de vida dos dados. Os objetivos da gestão de operação de dados são: proteger e garantir a 
integridade dos dados estruturados; gerenciar a disponibilidade dos dados durante seu ciclo de vida; e 
otimizar o desempenho das operações no banco de dados. 
Por sua vez, a gestão da segurança de dados se refere à autenticação, autorização, acesso e auditoria 
dos dados. Nesta gestão, os objetivos são: promover acesso autorizado e negar acesso inapropriado aos 
dados; e atender aos requisitos regulatórios de privacidade e confidencialidade. 
As duas gestões estão relacionadas no que diz respeito à proteção e integridade dos ativos de dados. 
Tanto a operação quanto a segurança estão em sincronia com o ciclo de vida dos dados. Basicamente 
há dois pontos neste assunto: a permissão de leitura e escrita aos dados; e a adequação ao modelo de 
dados. 
A gestão de operações tem também como foco acompanhar a disponibilidade dos dados. A disponibili-
dade dos dados é um dos componentes do desempenho de um banco de dados. Além de ter consultas 
que sejam atendidas dentro do tempo combinado, é importante que os dados estejam disponíveis para 
essas consultas. Assim, a disponibilidade é medida pelo percentual de tempo que o banco está disponível. 
As exigências de disponibilidade aumentam à medida que o negócio cresce e o risco aumenta com a 
indisponibilidade. São pontos de observação: consumo de dados de terceiros; controle do banco de da-
dos; planejamento para recuperação dos dados; planejamento de retenção dos dados; suporte a bancos 
especializados. 
Além da disponibilidade, também interessa que as consultas e a utilização de um modo geral do banco 
de dados sejam otimizadas. A otimização de transações consiste em medir o desempenho daquilo que 
se deseja otimizar, verificar se atende aos requisitos iniciais previamente combinados de tempo esperado 
para obter uma resposta e, por último, de fato implementar a otimização, observando as oportunidades. 
São oportunidades de otimização os seguintes pontos: alocação de memória (buffer/cache); falha na atu-
alização dasestatísticas de uso; falta de indexação; locking e bloqueio; código SQL de baixa qualidade; 
e aumento de número de usuários, tamanho ou do uso do banco de dados. 
Em termos de segurança, a principal preocupação são os acessos inapropriados e o vazamento de infor-
mações que pode originar a partir disso. Os acessos inapropriados podem levar a: execução de coman-
dos que podem fazer os dados perderem a integridade; 
E execução de consultas que permitem usuários verem informações confidenciais (internas e externas). 
Os acessos inapropriados ainda podem ser divididos em quatro pontos: autenticação (onde é verificado 
se os usuários dizem ser quem são por meio de alguma informação particular, como senha); autorização 
(identifica quais direitos individuais o usuário tem e seus privilégios, se a nível de tabela ou a nível de 
coluna/informação); acesso (habilita os usuários e seus privilégios no esquema de dados, após ter sido 
previamente identificadas as necessidades); e auditoria (revisa as ações e atividades dos usuários em 
termos de conformidade regulatória, verificando os dados que estão acessados, com qual frequência e o 
alinhamento com suas tarefas). 
O acesso a informação confidencial ou privilegiada é impactante para a empresa porque ela normalmente 
está ou deve estar em conformidade regulatória (compliance) com entidades da própria empresa ou en-
tidades externas, como órgãos regulatórios. Por exemplo, as instituições financeiras devem seguir as di-
retrizes do Banco Central (BACEN) no Brasil. São exemplos: os contratos de confidencialidade (NDA) 
com terceiros; NDA com os funcionários internos (venda de informações); e a Lei Geral de Proteção aos 
Dados (LGPD). 
 
 
Atividade extra: 
Vídeo no Youtube, “Alta disponibilidade em bancos de dados”: 
https://www.youtube.com/watch?v=GMsocIQmhPI 
 
https://www.youtube.com/watch?v=GMsocIQmhPI
 
5 Governança e Qualidade de Dados - 1 
Gestão de Dados Mestres e 
Qualidade 
 
Antes de adentrar a gestão de dados mestres é importante observar o que são os dados mestres, e isso 
encapsula os dados que são tidos como padrão para empresa. Os dados mestres são representam a 
fonte de informação confiável da empresa, que pode ser consultada sem receios de ter informações in-
corretas e incompletas. São exemplos de dados mestres: clientes, produtos e vendas. Paralelo aos dados 
mestres, também há os dados de referência, que são informações normalmente utilizadas para preencher 
e completar os dados mestres. Os dados de referência são normalmente observados como chaves de 
referência, como campos de cidade, estado, país, grau de escolaridade, tipos de negócios, tipos de notas 
fiscais, entre outros. 
A gestão de dados mestres se resume a planejar, implementar e fazer controle das atividades para ga-
rantir consistência com a versão correta dos dados contextualizados. Os objetivos são: prover dados de 
alta qualidade e integrados; reduzir custos e complexidade de reuso; e suportar BI e esforços de integra-
ção. 
Por sua vez, a gestão da qualidade está preocupada em estabelecer as maneiras de medir a qualidade 
e implantar esses indicadores, além de garantir que o dado esteja pronto para uso. Assim, os objetivos 
são: medir a melhora da qualidade dos dados em relação às expectativas; definir requisitos e especifica-
ções para integrar a qualidade no ciclo de desenvolvimento dos sistemas; e prover processos definidos 
para medir, monitorar e reportar o nível de qualidade dos dados. 
Ao fazer a reconciliação de dados, isto é, a integração de diferentes fontes, deve haver preocupação dos 
dados mestres não ficarem corrompidos. Essas fontes de integração podem ser: dados de indivíduos 
(sistemas de relação com cliente, informações de funcionários e clientes), dados financeiros (unidades de 
negócios, centros de custo e de lucro e orçamentos), dados dos produtos (produtos, serviços, ciclo de 
vida das negociações) e dados geográficos (rastreio e relações hierárquicas de localizações para suportar 
os processos). Da reconciliação de dados, os principais desafios são: ingestão dos dados com alta fideli-
dade; e dificuldade na identificação única dos dados (de modo a evitar a duplicidade). 
A reconciliação de dados dentro da gestão de dados mestres também é importante por conta do impacto 
de custo na complexidade e no reuso das informações. A integração efetiva, que diz respeito à arquitetura 
para controlar os processos e garantir consistência e qualidade, é de suma importância. No entanto, po-
dem surgir dificuldades quando as informações da empresa estão isoladas. E um ponto que pode ser 
ignorado, mas traz resultados apesar do custo inicial, são os padrões e o estabelecimento deles. 
Para citar um exemplo de complexidade e custo no reuso, considere que uma empresa recebeu os dados 
do Banco Central sobre a situação financeira de um conjunto de CPFs. Para a cobrança, a informação 
pode ter uma utilidade, enquanto para a área de vendas, essa informação pode ter outra utilidade. Sem 
padronização, a empresa começaria a utilizar as informações, replicando-as em suas bases dentro das 
áreas, causando duplicidade. A duplicidade pode levar a inconsistência, quando cada área manipula os 
dados à sua maneira, e isso impacta diretamente no custo (decisões erradas e armazenamento). 
A gestão de dados mestres também oferece apoio à integração, observando os aspectos de gestão da 
qualidade. Assim, procura observar os aspectos de: aquisição de dados, gestão e auditoria de arquivos; 
padronização, limpeza e correspondência dos dados; e gestão da replicação, por meio da reconciliação 
dos dados mestres. 
Do ponto de vista da gestão da qualidade, o principal objetivo é padronizar os procedimentos relacionados 
com qualidade e garantir que seja possível monitorar e medir a qualidade dos ativos de dados. São exem-
plos de indicadores: acurácia, completude, consistência, precisão, privacidade, integridade, unicidade e 
validade. Esses indicadores devem ter mensuração, relevância, aceitação, controle e rastreio. 
 
 
Atividade extra: 
Vídeo no Youtube, “Webinar: Qualidade de Dados na Prática: como aumentar a eficiência operacional e 
reduzir custos”: 
https://www.youtube.com/watch?v=-QXZK1-B0aw 
https://www.youtube.com/watch?v=-QXZK1-B0aw
 
6 Governança e Qualidade de Dados - 1 
Gestão de DW e BI 
 
Um data warehouse (DW) é composto de dois componentes principais: uma base de dados para suporte 
à decisão e programas relacionados à coleta, limpeza, transformação e armazenamento de dados. Nesse 
sentido, DW pode ser imaginado como um armazém de dados agrupados por assuntos que auxiliam na 
tomada de decisão. O DW tem os requisitos de dados históricos e analíticos para business intelli-
gence (BI), onde BI permite: consultar, analisar e reportar atividades para monitoramento e compreensão 
das operações da empresa; e auxiliar nas decisões estratégicas da empresa com dados resumidos. 
A gestão de DW e BI procura fazer a coleção, integração e apresentação dos dados para auxiliar na 
análise do negócio e na tomada de decisão. As principais atividades são: mover e transformar os dados 
para uma base em comum; prover diversos meios de acesso e manipulação dos dados; e reportar dados 
integrados da base em comum. 
Dentro da gestão de DW e BI, os projetos envolvem: prover armazenamento integrado de dados, atuais 
e históricos, organizado por assunto; garantir qualidade e acesso apropriado aos dados; garantir ambiente 
confiável, estável e de alto desempenho para aquisição, gestão e acesso aos dados; prover ambiente de 
fácil uso e flexível para acesso aos dados; entregar conteúdo e acesso de maneira incremental, alinhados 
aos objetivos da empresa; definir, construir e suportar o armazenamento, processo e infraestrutura de 
dados. 
No quesito de BI, uma parte muito importante é a definição de ferramentas de consulta e relatórios. Uma 
vez que os dados estejam organizados no DW, os processos de BI viabilizam a produção de consultas e 
relatórios nos dados agregados para auxiliarna tomada de decisão, sendo as principais ferramentas de 
mercado: Power BI, Tableau e Qlik. 
Para organizar os dados no DW, etapas de pré-processamento são necessárias. Nesse processo, pode-
se elencar: definição de staging; mapeamento origem-destino; limpeza; transformação; reconciliação; e, 
por fim, carga. A definição de staging se refere ao espaço virtual que será utilizado como temporário du-
rante as transformações dos dados. O mapeamento origem-destino indicará quais tabelas transacionais 
do sistema serão utilizadas para compor cada agrupamento dentro do DW. Quanto à limpeza, é neces-
sário observar quais registros estão prontos e em condições para serem utilizados, e os que não estão 
poderão ser removidos dentro do staging. A transformação modifica as informações para que o mapea-
mento aconteça e seja mantido no agrupamento da maneira esperada. A reconciliação diz respeito à 
junção das informações provenientes de diferentes domínios, por exemplo, vendas e região onde o cliente 
mora. E por último, a carga diz respeito ao processo que fará o carregamento das informações do sta-
ging para o repositório final, onde se tornará disponível para os processos de BI. 
Dentro dessa gestão, o monitoramento é uma das atividades essenciais devido a tratar de um conjunto 
de dados isolado do resto das bases de dados vinculadas ao negócio da empresa. Assim, todo cuidado 
com as bases de origem é necessário ter com a base onde reside o DW. No monitoramento, é importante 
observar: os gargalos das consultas (se elas levam mais tempo que o combinado com os usuários); as 
dependências de dados (se todas as tabelas estão sendo carregadas normalmente e se estão disponí-
veis durante a janela de processamento; refinamento dos índices (para manter as consultas e as integra-
ções operando da maneira mais rápida, dentro do possível); recuperação após falhas (se há processos 
bem definidos para backup e contenção de falhas quando a carga não for realizada na janela de proces-
samento); e arquivamento dos dados. 
Nos cenários mais atuais, uma alternativa que tem ganhado força e oferecido vantagem competitiva para 
as empresas são os data lakes. A diferença entre data lake e data warehouse é que no data lake, todos 
os dados crus são mantidos no repositório, enquanto o data warehouse organiza e agrupa os dados para 
fazer o armazenamento. Isso dá flexibilidade para que novas consultas e novas estratégias sejam avalia-
das rapidamente no data lake, enquanto no data warehouse seria necessário criar novos processos para 
transformar e salvar as informações. 
 
 
Atividade extra: 
Vídeo no Youtube, “O que é um data lake?”: 
https://www.youtube.com/watch?v=U6WS0mNOQ5Y 
 
https://www.youtube.com/watch?v=U6WS0mNOQ5Y
 
7 Governança e Qualidade de Dados - 1 
Gestão dos documentos e 
metadados 
 
Nem todos os dados da empresa residem em bancos de dados transacionais. A gestão de documentos 
atua efetivamente para auxiliar nos processos que permeiam os dados armazenados fora dos bancos de 
dados tradicionais. Assim, a gestão de documentos fica responsável por fazer o planejamento, implemen-
tação e controle de atividades para armazenar, proteger e acessar os dados de arquivos eletrônicos e 
registros físicos, como textos, imagens, áudio e vídeo. 
Os objetivos da gestão de documentos são: proteger e garantir a disponibilidade dos dados armazenados 
em formatos menos estruturados; habilitar recuperação e uso de maneira eficaz dos dados não-estrutu-
rados; atender as obrigações legais e as expectativas dos clientes; garantir a continuidade do negócio por 
meio da retenção, recuperação e conversão dos arquivos; e controlar os custos do armazenamento des-
ses arquivos. 
A gestão de documentos muito tem a ver com o metadados, pois enquanto nos dados transacionais, os 
metadados são utilizados como suporte e descrição, nos arquivos, os metadados podem ser vistos como 
essenciais, pois os arquivos normalmente não apresentam estrutura clara e bem definida. Assim, a gestão 
de metadados se responsabiliza por criar, armazenar e integrar, além de controlar o uso dos metadados. 
Os principais objetivos são: prover entendimento da empresa a respeito dos termos e seu uso; integrar 
os metadados de diferentes fontes de dados; prover acesso fácil e integrado aos metadados; e garantir 
segurança e qualidade nos metadados. 
Os arquivos também são referidos como registros, e normalmente ocupam mais espaço que os registros 
tradicionais, no formato de dados estruturados dos bancos transacionais. Isso implica em custo maior de 
armazenamento e dificuldade na geração de índices para fazer as consultas de maneira eficiente. Entre 
os possíveis tipos de arquivos armazenados, podem ser citados: físico, como documentos, memorandos, 
contratos e relatórios; eletrônicos, como e-mails, anexos e mensagens instantâneas; conteúdo de websi-
tes; documentos de todo tipo de mídia e hardware; e dados capturados em bancos de dados de qualquer 
tipo. 
Dentro da recuperação eficiente de dados, dois pontos são importantes de serem observados: quanto ao 
sistema, onde é necessário ter um sistema para rastrear e armazenar os documentos, com segurança e 
versionamento, independente de onde os documentos são armazenados; e os papéis, apontando que 
todos são responsáveis na empresa são responsáveis por armazenar os documentos seguindo procedi-
mentos estabelecidos, além de treinamento adequado para toda a equipe está apta a fazer isso da ma-
neira correta. 
Para que haja continuidade no negócio, o armazenamento dos documentos deve estar alinhado com: a 
identificação de documentos existentes e novos; criação e aprovação de políticas; políticas para retenção 
dos arquivos e políticas de segurança; classificação dos documentos; e definição de armazenamento a 
curto e longo prazo. 
O controle de custos é importante dentro da gestão de documentos devido ao alto custo que esse tipo de 
armazenamento pode gerar. Devem ser estabelecidas algumas diretrizes, como: o que deve ser arma-
zenado?; como deve ser armazenado? Qual sistema será utilizado para gerenciar o armazenamento e 
acesso aos arquivos?; por quanto tempo os arquivos devem ficar armazenados? 
Os metadados, por sua vez, garantem a contextualização dos documentos e permitem que buscas sejam 
feitas nesses tipos de arquivos, mas também se referem aos metadados dos registros encontrados nas 
bases transacionais. A importância dos metadados pode ser destacada em alguns pontos: aumenta o 
valor estratégico das informações ao contextualizar os dados; reduz os custos de treinamento na mu-
dança de funcionários devido aos metadados ajudarem a documentar a informação; melhora a comuni-
cação entre a equipe de TI e o pessoal de negócios; melhora o desempenho no desenvolvimento dos 
sistemas; reduz o risco de falhas de projeto por permitir análises melhores de cenários. 
Ao tratar dos metadados, o repositórios podem ser: centralizados, onde há alta disponibilidade, recupera-
ção rápida, e apresentam manutenção cara e processos complexos de atualização dado que todos os 
metadados estão em um mesmo local; distribuídos, onde não há um repositório de persistência, assim é 
 
8 Governança e Qualidade de Dados - 1 
possível ter disponibilidade em tempo real e acesso rápido, porém não apresenta padrão entre os dife-
rentes sistemas da empresa; e híbridos, com acesso quase em tempo real, dado que parte do metadados 
estarão centralizados, alta disponibilidade e algum atraso devido à combinação dos resultados das dife-
rentes fontes e formas de armazená-los. 
A respeito da qualidade dos metadados, são indicadores para esse grupo específico: completude; quali-
dade da documentação; conformidade de dados no serviço provido; cobertura de data stewards; uso dos 
metadados (referências feitas); maturidade da gestão dos metadados; e disponibilidade. 
 
 
Atividade extra: 
Vídeo no Youtube, “O que é GED e como ela auxilia na gestão das informações”: 
https://www.youtube.com/watch?v=mtNS4p5mygI 
 
Projeto de Gestão de DadosComo último assunto a ser estudado, depois de terem sido observadas todas as gestões e os diferentes 
papéis da gestão de dados, a relação da governança com a qualidade, também é importante abordar 
como funciona um projeto de gestão de dados. A condução de um projeto de gestão de dados depende 
de: escopo (funções da gestão de dados que compreendem o projeto); tipo de projeto (da arquitetura até 
análise ou implementação); e escopo dentro da organização (unidades de negócios atendidas). 
O propósito de ter um projeto de gestão de dados é estabelecer quais áreas farão parte, quais papéis e 
funções serão implementados, e em que nível acontecerá a transformação. Desse modo, a empresa não 
precisa passar por uma transformação de uma vez só, mas pode ser feita de maneira incremental. 
O escopo do projeto define quais áreas da gestão de dados serão trabalhadas, como governança de 
dados, arquitetura, operações, entre as outras estudadas também. A escolha deve levar em consideração 
os princípios estudados. 
O tipo de projeto implica em quais pontos a empresa deve ou não se preocupar, entendendo complexi-
dade e custos. São os tipos de projetos: arquitetura (onde apenas o escopo será definido, entendendo a 
situação atual da empresa); análise e design (o escopo se transforma em desenho); implementação (a 
execução do desenho previamente proposto); melhoria operacional (mudanças realizadas sobre o que já 
tem na empresa, inclusive melhorias para projetos anteriores de gestão de dados); e gestão e adminis-
tração (para mudança significa de processos e controle deles). 
Por sua vez, o escopo da empresa compreende quais unidades de negócios serão foco do projeto, po-
dendo ser áreas administrativas, ou os diferentes de negócios que acontecem dentro de uma mesma 
empresa. Naturalmente, a empresa deverá considerar as mais críticas e de maior retorno. 
Para ser possível a execução do projeto, é necessária a criação de equipe para tal. A criação da equipe 
deve ocorrer para ter pessoas disponíveis para monitorar, fazer a gestão e constantemente melhorar o 
projeto e seus resultados, bem como executar. Em aula é sugerida a criação do centro de excelência em 
gestão de dados, responsável pela elaboração e execução dos projetos de gestão de dados. 
O Centro de Excelência em Gestão de Dados (DMCOE em inglês) trata de: separar as unidades de 
negócio; estabelecer que cada unidade de negócio terá seu pessoal de TI e sistemas dedicados; coorde-
nar a nível de empresa para integrar em uma estrutura de dados; melhorar continuamente a empresa em 
termos de dados; aumentar as técnica e conhecimento dos dados; e maximizar investimento em tecno-
logia ao reduzir custos com eficácia. 
Os projetos de gestão de dados têm como foco elevar a maturidade de dados da empresa, seja por área, 
seja por quesito operacional e conhecimento específico. Na avaliação da maturidade de dados, verificar 
a maturidade de dados da empresa é importante para que a empresa consiga melhorar sua gestão de 
dados, aumentando produtividade, qualidade, e reduzindo custos e riscos. São 5 níveis, descritos a se-
guir: 
• Nível 1 - A gestão de dados é localizada e sob demanda, cada um tem seu jeito de fazer; 
• Nível 2 - A gestão se torna independente da pessoa e padronizada; 
• Nível 3 - A gestão de dados é documentada, determinada pelos experts na área e validada; 
• Nível 4 - Os resultados da gestão de dados são armazenados e cruzados com os resultados das 
unidades de negócio. A gestão de dados passa a explorar as oportunidades; 
https://www.youtube.com/watch?v=mtNS4p5mygI
 
9 Governança e Qualidade de Dados - 1 
• Nível 5 - Com a mudança de tempo, recursos e tecnologias, a gestão de dados consegue se 
adaptar rapidamente para novas necessidades e situações. 
Outros pontos importantes a respeito da execução do projeto foram registrados como: 
• Na execução do projeto, a equipe deve estar atenta aos objetivos e a comunicação é vital para o 
bom andamento; 
• Os diferentes papéis devem ser cumpridos para atender às necessidades, e a governança de 
dados deve verificar, como um controle geral, se os papéis estão sendo exercidos; 
• Os problemas devem ser notificados para a governança o quanto antes e o comitê de governança 
deve decidir como proceder; 
• O impacto do atraso da execução deve ser acompanhado pelo comitê de governança que conta 
com os principais patrocinadores do projeto. A empresa toda deve estar atenta aos atrasos; 
Toda a utilização de dados deve ter algum recurso de backup para eventuais problemas, principalmente 
na migração. Uma falha de migração sem backup pode deixar a empresa inoperante por dias. 
 
 
Atividade extra: 
Vídeo no Youtube, “Governança, Qualidade de Dados e NoSQL: dá para combinar?”: 
https://www.youtube.com/watch?v=DZRBV6FjuSw 
 
https://www.youtube.com/watch?v=DZRBV6FjuSw

Continue navegando