Baixe o app para aproveitar ainda mais
Prévia do material em texto
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/338843861 Gestão da Qualidade de Dados - Monografia de MBA em Gestão de Tecnologia da Informação Technical Report · October 2006 DOI: 10.13140/RG.2.2.10476.31365 CITATIONS 0 READS 58 1 author: Some of the authors of this publication are also working on these related projects: Improving the Quality of Information at Banco Central do Brasil View project Marcelo Valentim Silva Banco Central do Brasil 2 PUBLICATIONS 0 CITATIONS SEE PROFILE All content following this page was uploaded by Marcelo Valentim Silva on 27 January 2020. The user has requested enhancement of the downloaded file. https://www.researchgate.net/publication/338843861_Gestao_da_Qualidade_de_Dados_-_Monografia_de_MBA_em_Gestao_de_Tecnologia_da_Informacao?enrichId=rgreq-94709a1ab53c9abee032a74fcdd31c96-XXX&enrichSource=Y292ZXJQYWdlOzMzODg0Mzg2MTtBUzo4NTIwNjA4MTU3NTczMTRAMTU4MDE1ODUzNzQ1MA%3D%3D&el=1_x_2&_esc=publicationCoverPdf https://www.researchgate.net/publication/338843861_Gestao_da_Qualidade_de_Dados_-_Monografia_de_MBA_em_Gestao_de_Tecnologia_da_Informacao?enrichId=rgreq-94709a1ab53c9abee032a74fcdd31c96-XXX&enrichSource=Y292ZXJQYWdlOzMzODg0Mzg2MTtBUzo4NTIwNjA4MTU3NTczMTRAMTU4MDE1ODUzNzQ1MA%3D%3D&el=1_x_3&_esc=publicationCoverPdf https://www.researchgate.net/project/Improving-the-Quality-of-Information-at-Banco-Central-do-Brasil?enrichId=rgreq-94709a1ab53c9abee032a74fcdd31c96-XXX&enrichSource=Y292ZXJQYWdlOzMzODg0Mzg2MTtBUzo4NTIwNjA4MTU3NTczMTRAMTU4MDE1ODUzNzQ1MA%3D%3D&el=1_x_9&_esc=publicationCoverPdf https://www.researchgate.net/?enrichId=rgreq-94709a1ab53c9abee032a74fcdd31c96-XXX&enrichSource=Y292ZXJQYWdlOzMzODg0Mzg2MTtBUzo4NTIwNjA4MTU3NTczMTRAMTU4MDE1ODUzNzQ1MA%3D%3D&el=1_x_1&_esc=publicationCoverPdf https://www.researchgate.net/profile/Marcelo_Silva18?enrichId=rgreq-94709a1ab53c9abee032a74fcdd31c96-XXX&enrichSource=Y292ZXJQYWdlOzMzODg0Mzg2MTtBUzo4NTIwNjA4MTU3NTczMTRAMTU4MDE1ODUzNzQ1MA%3D%3D&el=1_x_4&_esc=publicationCoverPdf https://www.researchgate.net/profile/Marcelo_Silva18?enrichId=rgreq-94709a1ab53c9abee032a74fcdd31c96-XXX&enrichSource=Y292ZXJQYWdlOzMzODg0Mzg2MTtBUzo4NTIwNjA4MTU3NTczMTRAMTU4MDE1ODUzNzQ1MA%3D%3D&el=1_x_5&_esc=publicationCoverPdf https://www.researchgate.net/institution/Banco_Central_do_Brasil?enrichId=rgreq-94709a1ab53c9abee032a74fcdd31c96-XXX&enrichSource=Y292ZXJQYWdlOzMzODg0Mzg2MTtBUzo4NTIwNjA4MTU3NTczMTRAMTU4MDE1ODUzNzQ1MA%3D%3D&el=1_x_6&_esc=publicationCoverPdf https://www.researchgate.net/profile/Marcelo_Silva18?enrichId=rgreq-94709a1ab53c9abee032a74fcdd31c96-XXX&enrichSource=Y292ZXJQYWdlOzMzODg0Mzg2MTtBUzo4NTIwNjA4MTU3NTczMTRAMTU4MDE1ODUzNzQ1MA%3D%3D&el=1_x_7&_esc=publicationCoverPdf https://www.researchgate.net/profile/Marcelo_Silva18?enrichId=rgreq-94709a1ab53c9abee032a74fcdd31c96-XXX&enrichSource=Y292ZXJQYWdlOzMzODg0Mzg2MTtBUzo4NTIwNjA4MTU3NTczMTRAMTU4MDE1ODUzNzQ1MA%3D%3D&el=1_x_10&_esc=publicationCoverPdf Universidade Federal de Pernambuco Centro de Informática Especialização em Gestão da Tecnologia da Informação Gestão da Qualidade de Dados Orientando: Marcelo Valentim Silva Orientador: Fernando da Fonseca de Souza Brasília, outubro de 2006 Gestão da Qualidade de Dados ii Agradecimentos Eu gostaria de agradecer às sugestões dadas pelo Orientador Fernando da Fonseca de Souza e pela professora Flávia Barros; à compreensão dada pela minha linda esposa Maria e minhas lindas filhas Karime e a pequenina Ana Clara. Também não posso esquecer de agradecer ao enorme apoio fornecido pelo meu pai, que ao ler meu trabalho certamente fez melhorar em muito o conteúdo. Gostaria também de agradecer à minha mãe por sempre me incentivar a estudar bastante e a meus irmãos por sempre me apoiarem. Gestão da Qualidade de Dados iii Resumo Esta monografia exibe uma metodologia completa de Gestão da Qualidade de Dados, no contexto de Gestão de Conhecimento, contendo: conceitos de Qualidade de Dados; a importância negativa da baixa qualidade de dados; um programa de melhoria da Qualidade de Dados; a importância de um endosso do nível superior da organização; as etapas necessárias para um treinamento em Qualidade de Dados; uma política de responsabilidade dos dados; análises econômicas da baixa Qualidade de Dados e a implementação de um programa de melhoria da Qualidade de Dados. Ainda como parte da Metodologia descrita, esta monografia exibe as dimensões de Qualidade de Dados, o Controle Estatístico de Processo e informações sobre Domínios, Mapeamentos e Dados de Referência da Organização. Além desta metodologia, a monografia exibe a situação atual da área de Qualidade de Dados na organização, considerando as diretrizes estratégicas do Banco Central, onde uma delas é a de Qualidade das Informações. Descreve ainda os Departamentos envolvidos com esta área na organização, e entra em detalhe no Departamento onde o autor desta monografia trabalha. Exibe sua divisão e setor de Administração de Dados, além de um resumo do Ambiente Computacional de todo o Banco Central, e ferramentas utilizadas pelo autor no seu dia a dia. Entre estas ferramentas está o Dicionário de Dados Multiplataforma que serve como base para a parte prática desta monografia. Em seguida a monografia exibe uma proposta de atividade de Gestão da Qualidade de Dados, focada na obtenção de tabelas de dados de referência e, por fim, os resultados obtidos. Entre os resultados obtidos estão alguns grupos de tabelas com significado semelhante, que aparecem em dezenas de sistemas distintos, e que permitirão uma futura consolidação destas tabelas em poucas tabelas de domínio, ou melhor, dados de referência corporativos, o que aumentará a Qualidade de Dados no Banco Central do Brasil. Palavras-chaves: Qualidade de Dados, Qualidade da Informação, Gestão de Conhecimento, Domínio, e Dados de Referência. Gestão da Qualidade de Dados iv Abstract This dissertation presents a complete methodology of Data Quality Management, in the context of Knowledge Management, including: concepts of Data Quality; the trouble with of Low Data Quality; a Data Quality improvement program; the importance of senior- level endorsement; the necessary steps of a Data Quality Training; a Data Ownership Policy; Economic analysis of Low Data Quality and the implementation of a Data Quality improvement program. The methodology also presents Data Quality dimensions, Statistical Process Control and information about Domains, Mappings and Enterprise Reference Data. Besides this methodology, the dissertation exhibits the present day situation of the Data Quality area in the Central Bank of Brazil, considering the strategic policies of the enterprise, including one titled “Information Quality”. It also describes the departments that are responsible for this area in the enterprise, and gets deep in detail on the department where the author of the dissertation works. It presents his division and sector, besides an overview of the Computational Environment of the entire Central Bank, as well as, tools used by the author on his daily activities. Among these tools is the Multiplatform Data Dictionary, which serves as basis for the practical part of this dissertation. The next steps of the dissertation present a proposal of an activity of Data Quality Management, focused on obtaining reference data tables and, at the end, the results. Amongst the obtained results are some groups of tables with similar meaning, that appear on dozens of distinct systems, and that will allow a future consolidation of these tables on some domain tables, or even better, on enterprise reference data, which will improve the amount of Data Quality in the Central Bank of Brazil. Keywords: Data Quality, Information Quality, Knowledge Management, Domain, and Reference Data. Gestão da Qualidadede Dados v Sumário LISTA DE FIGURAS VIII CAPÍTULO 1 INTRODUÇÃO 1 1.1 MOTIVAÇÃO 1 1.2 OBJETIVO 1 1.3 TRABALHO REALIZADO 1 1.4 ORGANIZAÇÃO DO DOCUMENTO 2 CAPÍTULO 2 GESTÃO DE CONHECIMENTO E QUALIDADE DE DADOS 4 2.1 PORQUE A QUALIDADE DE DADOS É FUNDAMENTAL PARA GESTÃO DE CONHECIMENTO 5 2.2 RAZÕES PARA SE PREOCUPAR COM A QUALIDADE DE DADOS 6 2.2.1 QUALIDADE BAIXA DE DADOS PODE CAUSAR PROBLEMAS OPERACIONAIS 6 2.2.2 QUALIDADE BAIXA DE DADOS PREJUDICA A TOMADA DE DECISÕES 7 2.2.3 ALTA QUALIDADE DE DADOS INCENTIVA O USO DE DATA WAREHOUSES (DW) 8 2.2.4 DADOS RUINS CAUSAM INSATISFAÇÕES NOS CLIENTES 8 2.2.5 DADOS RUINS RESTRINGEM PROJETOS DE MIGRAÇÃO DE DADOS 8 2.3 PROPRIETÁRIOS DAS INFORMAÇÕES 9 2.4 QUALIDADE DE DADOS 10 2.5 PROGRAMA DE MELHORIA DA QUALIDADE DE DADOS 12 2.5.1 ENDOSSO DO NÍVEL SUPERIOR DA ORGANIZAÇÃO 12 2.5.2 TREINAMENTO EM QUALIDADE DE DADOS 14 2.5.3 POLÍTICA DE RESPONSABILIDADE DOS DADOS 15 2.5.4 ANÁLISE DO IMPACTO ECONÔMICO RELACIONADO À QUALIDADE BAIXA DE DADOS 15 2.5.5 AVALIAÇÃO DO ESTADO ATUAL E ANÁLISE DE REQUISITOS 15 2.5.6 SELEÇÃO DE UM PROJETO 16 Gestão da Qualidade de Dados vi 2.5.7 IMPLEMENTAÇÃO E IMPLANTAÇÃO DA MELHORIA 17 2.6 QUALIDADE DE DADOS E OPERAÇÕES 17 2.7 QUALIDADE DE DADOS E BANCOS DE DADOS 17 2.7.1 BANCOS DE DADOS LEGADOS 19 2.8 QUALIDADE DE DADOS E DATA WAREHOUSE 20 2.8.1 CERTIFICAÇÃO DE DATA WAREHOUSE 20 2.9 QUALIDADE DE DADOS E DATA MINING 22 2.10 QUALIDADE DE DADOS E INTERCÂMBIO ELETRÔNICO DE DADOS 22 2.10.1 XML 23 2.11 DIMENSÕES DE QUALIDADE DE DADOS 23 2.11.1 DIMENSÕES DE QUALIDADE DE DADOS REFERENTES A VALORES DE DADOS 24 2.11.2 DIMENSÕES DE QUALIDADE DE DADOS REFERENTES A DOMÍNIOS DE DADOS 27 2.12 CONTROLE ESTATÍSTICO DE PROCESSO E O CICLO DE MELHORIA 28 2.12.1 O PRINCÍPIO DE PARETO 29 2.12.2 GRÁFICO DE CONTROLE 30 2.12.3 OS OBJETIVOS DO CONTROLE ESTATÍSTICO DE PROCESSO 32 2.13 DOMÍNIOS, MAPEAMENTOS E DADOS DE REFERÊNCIA DA ORGANIZAÇÃO 35 2.13.1 DOMÍNIOS 35 2.13.2 TIPOS DE DOMÍNIOS 36 2.13.3 GESTÃO DE CONHECIMENTO E CATÁLOGO DE DOMÍNIOS 37 2.13.4 MAPEAMENTOS 37 2.13.5 DOMÍNIOS E MAPEAMENTOS COMO DADOS DE REFERÊNCIA 38 2.13.6 MODELO DE PUBLICAÇÃO E ASSINATURA DE DADOS DE REFERÊNCIA 38 2.13.7 DADOS DE REFERÊNCIA E GERENTES DE DADOS (DATA STEWARDS) 39 2.13.8 CONCORDÂNCIA DE USO 40 2.13.9 PUBLICAÇÃO DOS DADOS DE REFERÊNCIA 40 CAPÍTULO 3 QUALIDADE DE DADOS NO BANCO CENTRAL DO BRASIL 41 3.1 DIRETRIZES DO BANCO CENTRAL DO BRASIL 41 3.2 DESIG (DEPARTAMENTO DE SUPERVISÃO INDIRETA E GESTÃO DA INFORMAÇÃO) 42 3.3 DEINF (DEPARTAMENTO DE TECNOLOGIA DA INFORMAÇÃO) 43 Gestão da Qualidade de Dados vii 3.3.1 DINAM (DIVISÃO DE INTELIGÊNCIA DE NEGÓCIO E ADMINISTRAÇÃO DE DADOS) 44 3.3.2 SUDAD (SUBDIVISÃO DE ADMINISTRAÇÃO E MODELAGEM DE DADOS) 44 3.3.3 AMBIENTE COMPUTACIONAL DO BANCO CENTRAL DO BRASIL 45 3.3.4 DDM (DICIONÁRIO DE DADOS MULTIPLATAFORMA) 45 3.3.5 CONSULTAS AO DDM 46 3.3.6 FERRAMENTA DE WORKFLOW DE PEDIDOS DE ALTERAÇÃO DE MODELOS 50 3.3.7 DOCUMENTOS CRIADOS PELA ADMINISTRAÇÃO DE DADOS 52 3.3.8 QUALIDADE DE DADOS NA DINAM 55 CAPÍTULO 4 APLICAÇÃO DE QUALIDADE DE DADOS NO BACEN 57 4.1 EXTRAÇÃO DE DADOS DO REPOSITÓRIO DO DICIONÁRIO DE DADOS MULTIPLATAFORMA (DDM) 58 4.2 CORREÇÃO DA BASE NO MICROSOFT ACCESS 59 4.2.1 CORREÇÃO DE USERVIEWS 61 4.2.2 CORREÇÃO DE TABELAS ADABAS 63 4.2.3 CORREÇÃO DE TABELAS RELACIONAIS – AMBIENTE DE PRODUÇÃO DB2/SQL SERVER66 4.2.4 CORREÇÃO DE TABELAS RELACIONAIS – AMBIENTE DE LEGADO NO SQL SERVER 68 4.2.5 SITUAÇÃO APÓS AS CORREÇÕES 69 4.2.6 OBTENÇÃO DE TABELAS DE DADOS DE REFERÊNCIA 70 4.2.7 OBTENÇÃO DE GRUPOS DE DADOS DE REFERÊNCIA 71 CAPÍTULO 5 CONCLUSÃO E TRABALHOS FUTUROS 73 REFERÊNCIA BIBLIOGRÁFICA 75 APÊNDICES 76 Gestão da Qualidade de Dados viii Lista de Figuras FIGURA 2.1 - NOMES SIMILARES DE CIDADES ____________________________________ 7 FIGURA 2.2 - EXEMPLO DE PROCESSO_________________________________________ 30 FIGURA 2.3 - EXEMPLO DE DADOS ESTATÍSTICOS IN [LOSHIN, 2001] _________________ 33 FIGURA 3.1 - ORGANOGRAMA DO DEPARTAMENTO DE SUPERVISÃO INDIRETA E GESTÃO DA INFORMAÇÃO (DESIG) ________________________________________________ 42 FIGURA 3.2 - ORGANOGRAMA DO DEPARTAMENTO DE TECNOLOGIA DA INFORMAÇÃO (DEINF)____________________________________________________________ 43 FIGURA 3.3 - DDM (DICIONÁRIO DE DADOS MULTIPLATAFORMA) __________________ 45 FIGURA 3.4 - VISÃO DO DESENVOLVEDOR DE APLICAÇÕES ________________________ 46 FIGURA 3.5 - LISTAGEM DE BASES ADABAS ____________________________________ 46 FIGURA 3.6 - LISTAGEM DOS OBJETOS DA BASE ADM ____________________________ 47 FIGURA 3.7 - LISTAGEM DE BASES RELACIONAIS________________________________ 48 FIGURA 3.8 - PESQUISA NO REPOSITÓRIO DE METADADOS POR PALAVRA CHAVE________ 49 FIGURA 3.9 - FERRAMENTA RATIONAL CLEAR QUEST ____________________________ 50 FIGURA 3.10 - EXEMPLO DE PEDIDO NO CLEAR QUEST ___________________________ 51 FIGURA 3.11 - NOMENCLATURA DE OBJETOS DB2_______________________________ 52 FIGURA 3.12 - LEGENDA DA NOMENCLATURA DE OBJETOS DB2____________________ 53 FIGURA 3.13 - TIPOS DE COLUNA ____________________________________________ 53 FIGURA 3.14 – EXEMPLOS DE COMENTÁRIOS ACEITOS ___________________________ 54 FIGURA 3.15 - VERIFICADOR SINTÁTICO ______________________________________ 54 FIGURA 4.1 - ALGUNS SISTEMAS EXISTENTES NO REPOSITÓRIO DO DDM______________ 59 FIGURA 4.2 - DISTRIBUIÇÃO DE TABELAS DUPLICADAS ___________________________ 60 FIGURA 4.3 - USERVIEWS COM SISTEMAS ESPERADOS INEXISTENTES _________________ 62 FIGURA 4.4 - LISTAGEM DE ALGUMAS USERVIEWS COM NOMES DE SISTEMAS INCORRETOS 62 FIGURA 4.5 - LISTAGEM DE USERVIEWS FORA DO PADRÃO USSS999R _______________ 63 Gestão da Qualidade de Dados ix FIGURA 4.6 - LISTAGEM DE ALGUMAS TABELAS QUE CONTINUARAM SEM DEFINIÇÃO DE SISTEMA ___________________________________________________________ 64 FIGURA 4.7 - ALGUMAS TABELAS QUE SEGUEM A REGRA “SISTEMA_DESCRIÇÃO_DA_TABELA”65 FIGURA 4.8 - LISTAGEM DE 2 TABELAS DE DW CORRETAS SEGUIDAS DE TABELAS COM FORMATO INCORRETO _________________________________________________ 65 FIGURA 4.9 - ALGUMAS TABELAS DW QUE SEGUEM O PADRÃO SSSTB_ABC_ ________ 66 FIGURA 4.10 - SISTEMAS ANTIGOS DO AMBIENTE DE PRODUÇÂO QUE NÃO SEGUEM PADRÃO COM “_” ____________________________________________________ 67 FIGURA 4.11 - ALGUMAS TABELAS DE PRODUÇÃO COM PREFIXO CORRETO__________ 67 FIGURA 4.12 - ALGUMAS TABELAS DE HISTÓRICO NA PRODUÇÃO_________________ 68 FIGURA 4.13 - LISTA DE TABELAS DO LEGADO SQL SERVER FORA DO PADRÃO______ 69 FIGURA 4.14 - DISTRIBUIÇÃO DE TABELAS QUE NÃO MUDARAM DE NOME _____________ 69 FIGURA 4.15 - LISTAGEM DE TABELAS QUE APARECEM MAIS DE 6 VEZES______________ 70 FIGURA 4.16 - LISTAGEM DE TABELAS DO GRUPO DE DADOS DE REFERÊNCIA CADASTRO 71 FIGURA 4.17 - LISTAGEM DE TABELAS AGRUPADAS POR SEMELHANÇA DE NOMES _______ 72 Gestão da Qualidade de Dados 1 Capítulo 1 Introdução 1.1 Motivação Existem duas motivações prioritárias nesta monografia. A motivação inicial deste trabalho de pesquisa é a melhoria na Qualidade dos Dados existentes nos ambientes computacionais do Banco Central do Brasil, pois existem várias ocorrências de baixa qualidade de dados, principalmente devido à maioria dos dados ter sua origem em ambiente de Mainframe, onde a integridade de dados não recebe a prioridade apropriada. Outra motivação importante é a proveniente de uma diretriz estratégica do Banco Central do Brasil relativa à Qualidade das Informações, detalhada como: “garantia de qualidade dos dados e das informações, inclusive com a integração de sistemas, de forma a permitir a melhoria do atendimento ao público, o aperfeiçoamento do desempenho gerencial e a redução dos custos e do tempo dos procedimentos”. 1.2 Objetivo Desenvolver e aplicar uma metodologia de Gestão da Qualidade de Dados incluídaem um processo maior de Gestão de Conhecimento da organização, focalizado nos conjuntos de dados existentes nos ambientes computacionais do Banco Central do Brasil. 1.3 Trabalho Realizado Esta monografia exibe uma metodologia completa de Gestão da Qualidade de Dados, a situação atual da área de Qualidade de Dados no Banco Central do Brasil, uma proposta prática de atividade de Gestão da Qualidade de Dados focada na obtenção de tabelas de dados de referência e os resultados obtidos. Entre eles estão alguns grupos de tabelas com significado semelhante, que aparecem em dezenas de sistemas distintos, e que permitirão uma futura consolidação destas tabelas em poucas tabelas de domínio, ou melhor, dados de referência corporativos, o que aumentará a Qualidade de Dados no Banco Central do Brasil. Gestão da Qualidade de Dados 2 1.4 Organização do Documento Além desta introdução, esta monografia conta com mais cinco capítulos, descritos a seguir. Capítulo 2 – Gestão de Conhecimento e Qualidade de Dados: Esse capítulo apresenta o problema da Baixa Qualidade de Dados existente em praticamente todos os ambientes computacionais, e exibe uma metodologia completa de Gestão de Conhecimento com ênfase na Qualidade de Dados. Exibe conceitos de Qualidade de Dados; um programa de melhoria da Qualidade de Dados; a importância de um endosso do nível superior da organização; as etapas necessárias para um treinamento em Qualidade de Dados; uma Política de Responsabilidade dos Dados, pois dados que não tenham responsáveis definidos não têm como obter qualidade; análises econômicas da baixa Qualidade de Dados e a implementação do programa de melhoria da Qualidade de Dados. Neste capitulo são também exibidas as relações entre Qualidade de Dados e várias áreas, como Operações, Bancos de Dados, Data Warehouse, Data Mining e Intercambio Eletrônico de Dados (mais conhecido na atualidade como padrão XML). Ainda como parte da Metodologia descrita, este capítulo exibe as dimensões de Qualidade de Dados, o Controle Estatístico de Processo e informações sobre Domínios, Mapeamentos e Dados de Referência da Organização. Capítulo 3 – Qualidade de Dados no Banco Central do Brasil: Esse Capítulo apresenta a situação atual da área de Qualidade de Dados na organização, considerando as diretrizes estratégicas do Banco Central, onde uma delas é a de Qualidade das Informações. Descreve ainda os Departamentos envolvidos com esta área na organização, e entra em detalhe no Departamento onde o autor desta monografia trabalha. Exibe sua divisão e setor de Administração de Dados, além de um resumo do Ambiente Computacional de todo o Banco Central e ferramentas utilizadas pelo autor no seu dia a dia. Entra estas ferramentas está o Dicionário de Dados Multiplataforma que serve como base para a parte prática desta monografia, exibida nos capítulos posteriores. Gestão da Qualidade de Dados 3 Este capítulo ainda exibe alguns procedimentos realizados no setor de Administração de Dados relativos explicitamente à Gestão de Qualidade de Dados. Capítulo 4 – Aplicação de Qualidade de Dados no Bacen: Nesse capítulo surge a definição da atividade proposta assim como os procedimentos efetuados e os resultados obtidos. Capítulo 5 – Conclusão e Trabalhos Futuros: Esse capítulo conclui a monografia com um breve resumo das principais contribuições, incluindo a descrição dos principais grupos de Dados de Referência obtidos, apontando algumas limitações, além das possibilidades de trabalhos futuros. Capítulo 2 Gestão de Conhecimento e Qualidade de Dados Este capítulo descreve em detalhes uma metodologia baseada em (Loshin, 2001). Nos últimos 30 anos, avanços na tecnologia de banco de dados fizeram surgir grandes bases de dados legadas controladas por software legado. O paradigma de programação existente na época colocava regras de negócio e políticas de validação de dados dentro do próprio código da aplicação. E, para complicar, a maioria das aplicações legadas era e ainda é mantida por pessoas que não desenvolveram o código, ou seja, não tem experiência nem no projeto nem na implementação dos sistemas originais. O caso do bug do ano 2000, que envolvia a correção de todos os campos de datas que poderiam estar com apenas 2 dígitos para o ano, foi um exemplo bastante comum e trabalhoso. O Banco Central do Brasil ainda possui grande quantidade de dados em bases legadas Adabas sendo gerenciadas por processos em linguagem legada Natural que estão em processo de migração para bases em DB2 a serem manipulados por aplicações em linguagem Java. A coleção de dados de uma organização é um recurso de negócio valioso que ainda é em grande parte pouco aproveitado. A tecnologia evoluiu para distribuir as bases de dados e junto com este processo surgiu uma metodologia que tenta integrar os assuntos técnicos, organizacionais e comportamentais associados ao conhecimento organizacional. Esta metodologia é referida como “Gestão de Conhecimento”. O Gartner Group define Gestão de Conhecimento como “uma disciplina que promove uma visão integrada de identificação, gerencia e compartilhamento de todos os bens de informação de uma organização. Estes bens de informação podem incluir bases de dados, documentos, políticas e procedimentos assim como competências não articuladas Gestão da Qualidade de Dados 5 previamente e experiências próprias dos funcionários”1. Enquanto a Gestão de Conhecimento inclui várias disciplinas como Gestão de Documentos, ou e-mails, o foco deste trabalho é nos conhecimentos embutidos nos conjuntos de dados que podem ser expressados por um conjunto de regras de negócio. Quando as regras de negócio não são documentadas, existem grandes chances de que os significados ou implicações destas regras serão perdidos em um curto período de tempo. O conhecimento é perdido quando os funcionários deixam a organização ou mudam de posição internamente ou quando os gerentes têm muito controle sobre a informação e falham na comunicação interna. Quando as regras de negócio são perdidas, a oportunidade para se tirar proveito dos recursos de informação também é perdida. 2.1 Porque a qualidade de dados é fundamental para Gestão de Conhecimento A oportunidade para se tirar proveito dos recursos de dados e informações só pode ocorrer se houver um entendimento da estrutura e conhecimento das coleções de informações. Para tanto deve existir um método formal para a coleta, documentação e validação de regras de negócio. A metodologia descrita neste trabalho tenta garantir que a qualidade da informação que está presente no sistema satisfaça ou ultrapasse as expectativas pré-definidas. Para garantir essa qualidade é necessário um processo de descrição de requisitos de informação seguido por um processo de validação destes requisitos. Atualmente, está sendo bastante praticada a transferência de dados transacionais para um ambiente de processamento analítico, como Data Warehouse (DW), que serve como ferramenta muito útil para gestão de conhecimento quando utilizada corretamente. Um grande componente do processo de DW é a extração e transformação de dados de sistemas fonte ou legados para o ambiente de DW. Este processo de extração é um ponto 1 http: //cestec1.mty.itesm.mx~laava/sdsites/cursos/pqg_base/definicion1.htm Gestão da Qualidade de Dados 6 importante onde as regras de negócio podem ser tanto descobertas como usadas para garantir a qualidade de dados de toda a organização. Devido a um crescente reconhecimento da qualidade de dados como uma responsabilidade organizacional, está surgindo a necessidade de uma Gestão da Qualidade de Dados. De acordo com o Gartner Group em Hill(1988), “É crítico, para as organizações, desenvolver um programa de qualidade de dados e garantir que este seja conduzido. Um pontochave neste esforço é identificar gerentes dos dados (“data stewards”) nas áreas fins, onde a responsabilidade pelos dados esteja claramente definida... As organizações podem minimizar as inconsistências de dados através de um melhor entendimento dos parâmetros que governam o significado e a movimentação dos dados.” O uso de gestão da qualidade de dados como uma ferramenta para gestão de conhecimento, segundo as definições acima, é o objetivo principal deste trabalho. 2.2 Razões para se preocupar com a Qualidade de Dados O problema da qualidade de dados existe em organizações de todas as áreas. Dados ruins representam custos e reduzem a produtividade. O tempo que é gasto diagnosticando e corrigindo dados errados é um tempo que não é gasto produtivamente. Isto sem contar quando os dados nem são corrigidos. Uma qualidade baixa de dados pode, inclusive, reduzir a satisfação por parte dos clientes. Por exemplo, clientes expostos a relatórios incorretos são menos propensos a confiar na organização que produz estes relatórios. Finalmente, decisões estratégicas baseadas em informações não confiáveis podem resultar em decisões incorretas e possivelmente catastróficas. 2.2.1 Qualidade baixa de dados pode causar problemas operacionais Quando um produto desenvolvido em uma cadeia de manufatura não segue os padrões requeridos em um estágio específico, ele deve ser descartado ou corrigido antes que continue na linha de manufatura. O mesmo deve ocorrer com a informação. Quando um registro de dado é considerado como incorreto, este registro precisa ser apagado ou corrigido durante o processamento. Em algumas vezes esta ação significa o atraso de todo o fluxo de processamento, apesar de que o mais provável é que os registros sejam deixados Gestão da Qualidade de Dados 7 de lado e o fluxo siga em frente, deixando os registros incorretos para serem lidados posteriormente. Quando o nível da qualidade de dados decresce, as ações de correção se tornam mais freqüentes. Isto faz com que mais funcionários sejam alocados nas correções, o que acaba causando um problema operacional. Outra ocorrência de problemas em sistemas devido a dados ruins são os acessos a bases de dados com balanceamento de carga, baseados na distribuição de dados em um atributo que pode levar a um balanceamento totalmente incorreto se metade dos registros referenciados tiver um campo de índice com conteúdo vazio. 2.2.2 Qualidade baixa de dados prejudica a tomada de decisões Informações podem ser usadas para processamento operacional ou analítico. Se os dados forem usados para processamento analítico ou suporte de decisões, a qualidade dos dados pode afetar as análises. Se a gerência superior confia em resultados das análises, eles podem confiar em conclusões tomadas a partir de suposições incorretas. Se estes gerentes estiverem cientes da baixa qualidade dos dados eles podem optar por adiar a tomada de decisão até que melhores informações sejam coletadas. Eis um exemplo: Após a integração de duas bases provenientes de sistemas distintos, podem existir os seguintes valores, exibidos na Figura 2.1. Cidade Valor Total por cidade SP 500 São Paulo 2000 S. Paulo 800 Sao Paulo 200 3500 RJ 300 Rio de Janeiro 2100 2400 Figura 2.1 - Nomes similares de cidades Observe que, se for analisado o valor individual associado diretamente à cidade, o item Rio de Janeiro, com 2100 é o item de maior valor. Se a gerência superior precisar Gestão da Qualidade de Dados 8 fazer o investimento na cidade com o maior valor ela pode vir a escolher esta cidade, o que é uma decisão incorreta, pois o total de São Paulo, com quatro nomes diferentes soma 3500. Em qualquer situação onde houver algum tipo de ranking torna-se necessária uma limpeza detalhada dos valores possíveis para que algo parecido não ocorra. 2.2.3 Alta qualidade de dados incentiva o uso de Data Warehouses (DW) Se a informação, proveniente na maioria das vezes de bases legadas, for de qualidade baixa e estiver sendo utilizada em Data Warehouses, provavelmente uma grande quantidade de tempo será gasta na procura e remoção dos erros. Como muitos DW são recarregados com curta periodicidade (como por exemplo, carga total diária) e se o tempo necessário para corrigir os dados for maior do que o tempo de recarga, a base se torna rapidamente desatualizada e, portanto, pouco útil para os fins desejados. O estágio de carga de dados é a melhor oportunidade para se incluir validação e padronização da qualidade de dados, pois bons dados no DW aumentam o interesse geral pelo seu uso. 2.2.4 Dados ruins causam insatisfações nos clientes Quando os clientes descobrem erros diretamente nos relatórios, pode parecer que a organização não tem como corrigir estes erros de forma proativa. Esta conclusão pode surgir porque são os próprios clientes que descobriram os erros. Isto pode causar graves danos para a imagem da organização. 2.2.5 Dados ruins restringem Projetos de Migração de Dados O componente mais frustrante nos projetos de migração de dados legados para plataformas distribuídas é a dificuldade de obtenção das informações corretas sobre os dados e os sistemas que estão sendo migrados. Usualmente, isto é devido à tendência dos desenvolvedores de programarem primeiro e documentarem depois (se documentarem). E, conforme os sistemas evoluem no tempo, estes são modificados, corrigidos ou melhorados, mas normalmente sem que seja feita a atualização na documentação. O Banco Central do Brasil está passando por um período de grande quantidade de migrações de dados de sistemas legados. Gestão da Qualidade de Dados 9 2.3 Proprietários das informações Em uma metodologia de gestão da qualidade de dados é necessário saber quem são os proprietários das informações nas organizações. Neste trabalho, tais proprietários serão chamados daqui para frente de responsáveis pelas informações. Sem uma distribuição de responsabilidade, é quase impossível medir a qualidade dos dados, quanto menos efetuar melhorias nestes. Para detalhar melhor estas responsabilidades, devem ser analisados os papéis ou atores que podem existir: 1. Fornecedor - Fornece dados que geram informação ao sistema; 2. Adquirente - Aceita dados de fornecedores externos para inserção na organização; 3. Criador - Internamente à organização, dados podem ser criados e encaminhados a outro estágio de processamento; 4. Processador - Qualquer agente que aceita entradas e gera saídas, trazendo possivelmente algum efeito adicional; 5. Empacotador - Adiciona, agrega e sumariza informação para confecção de determinados relatórios; 6. Agente de entrega - Entrega informação empacotada para um consumidor de dados conhecido; 7. Consumidor de dados - Usuário final da informação processada; 8. Gerente intermediário - Pessoa responsável por garantir que os atores estão realizando corretamente suas funções; 9. Gerente superior - Responsável pela operação global da organização; e 10. Decisor - Gerente superior responsável por tomadas de decisão estratégicas e táticas. Na essência, a responsabilidade pelos dados significa o controle da informação como um bem organizacional. Este controle inclui não somente a habilidade para acessar, criar, modificar, empacotar, obter benefícios e remover dados, mas também o direito de: - Designar privilégios de acessos a outras pessoas; Gestão da Qualidade de Dados 10 - Gerenciar a inserção de dados, criando métricas associadas aos estes e procedimentos de ETL (Extração, Transformação e Carga dos Dados); - Gerenciar as regras de negócio, estejam elas no código da aplicação, abstraídas em um formato de regras ou simplesmente documentadas separadamente da implementação; - Gerenciar os metadados, o que inclui as definições de dados, seus nomes, tipos, domínios, restrições, tabelas, relacionamentos, usuários, direitosde acesso, entre outros; - Garantir que sejam seguidos padrões corporativos de nomenclatura; - Gerenciar dados fornecidos por terceiros; e - Manter a qualidade da informação definindo expectativas, métricas de qualidade e fornecendo relatórios de conformidade de qualidade de dados. Isto também inclui definir políticas de qualidade de dados para todos os dados que passam pelo sistema e qualquer processo de limpeza de dados e padronização. 2.4 Qualidade de dados Existem várias visões da Qualidade de Dados. Para o gerente responsável pela distribuição de correspondência, qualidade de dados significa endereços de entrega sem erros (SP = S.Paulo) e “deduplicados” (eliminados de duplicações). Para o gerente de contas, qualidade de dados significa agregação correta da atividade dos clientes (RJ e Rio são a mesma cidade). Para a indústria médica, qualidade de dados pode significar uma habilidade refinada para conectar registros de pacientes. Claramente, cada definição é orientada para a visão individual do que é “bom” e do que não é. Isto leva à conclusão de que não existe uma definição única e simples. Em vez disto, qualidade de dados deve ser definida em termos de como cada consumidor deseja usar os dados. No sentido mais geral, pode-se usar uma definição qualitativa de qualidade de dados e refinar esta definição conforme o caso. Em essência, define-se qualidade de dados Gestão da Qualidade de Dados 11 em termos de adequação ao uso (fitness), ou seja, o nível de qualidade de dados determinado pelos consumidores de dados para satisfazer ou exceder as expectativas. Na prática, isto significa identificar objetivos de qualidade de dados associados a um conjunto de dados e então medir este conjunto de dados em conformidade com estes objetivos. Duas técnicas comuns para a melhoria da Qualidade de Dados são: - Limpeza estática de dados de nomes e endereços; e - Produtos que conectam registros de dados baseados em campos específicos de dados. Entretanto, deve ficar bem claro que o uso de ferramentas para a execução destas técnicas não significa a solução para o problema da qualidade de dados. Em vez disto, a melhor forma para se lidar com a qualidade de dados em uma organização é definir um conjunto de expectativas sobre os dados, fazer medições em relação a estas expectativas e melhorar continuamente até que as expectativas sejam satisfeitas. O que se provou difícil até agora é que, devido ao fato de que os conjuntos de dados de cada caso são diferentes, não existem formas bem definidas de se descrever as expectativas de qualidade de dados. Neste trabalho será avaliada esta necessidade com o desenvolvimento de ferramentas necessárias para, determinar se existe um problema de qualidade de dados, medir o custo da qualidade baixa de dados, avaliar o estado atual dos dados da organização e desenvolver regras de qualidade de dados que possam ser usadas para medição. Para refinar a definição de adequação ao uso, a primeira área a ser focada é a limitação da ruindade dos dados. Isto pode ser referido como “minimização de defeitos”, onde um defeito é qualquer situação onde os valores dos dados não são acessíveis ou não correspondem com exatidão a uma referência estabelecida. Gestão da Qualidade de Dados 12 Eis abaixo uma lista dos tipos de defeitos que devem ser evitados: - Inacessibilidade; - Inexatidão; - Informação não atualizada; - Informação redundante não gerenciável; - Inconsistência com outras fontes; - Dados incompletos; e - Dados incompreensíveis. Por outro lado, é desejável que a informação tenha características de um ambiente de alta qualidade. Eis uma lista das características desejáveis: - A informação existe no tempo certo (ex. Existia em Janeiro e Março de um mesmo ano, mas não em Fevereiro do mesmo ano, quando deveria existir); - O modelo de dados completa e exatamente modela o equivalente no mundo real; - A informação é apresentada em uma forma fácil de entender; - O nível apropriado de detalhe é mantido; e - A informação capturada tem significado em um contexto apropriado. 2.5 Programa de melhoria da qualidade de dados Em cada processo de melhoria existem etapas que precisam ser consideradas para se atingir uma melhoria demonstrável e mensurável. Eis abaixo as etapas: 2.5.1 Endosso do nível superior da organização Um projeto de melhoria da qualidade de dados não pode ter sucesso se não tiver o endosso da gerência de nível superior. Infelizmente, obter tal apoio pode ser muito mais difícil do que se imagina. Existem várias razões interessantes para tanto: Síndrome “Não é minha culpa” Ninguém quer admitir que possam existir erros em seu trabalho. Qualidade baixa de dados implica que existem erros em algum lugar do sistema. Isto é especialmente verdadeiro em lugares em que os funcionários são recompensados por um trabalho bem Gestão da Qualidade de Dados 13 feito. Raramente os funcionários admitem seus próprios erros ou chamam a atenção de seus subordinados. “As novas roupas do Imperador” As pessoas normalmente assumem que as ações de uma pessoa numa posição de autoridade superior são naturalmente corretas e apropriadas e que seria tolice desafiar o status quo. Neste caso, tentar encontrar e corrigir problemas de qualidade de dados pode até ser um risco à segurança do emprego. Negação de Responsabilidade A resposta natural quando uma grande falha ocorre é apontar na direção de outra pessoa. Poucos têm a capacidade de aceitar que a existência de qualidade baixa de dados possa ser devido a sua própria responsabilidade e então a responsabilidade sobre a qualidade de dados fica passando de escrivaninha em escrivaninha, nunca parando em lugar algum. Falta de entendimento Geralmente qualidade de dados é confundida com “limpeza de dados”, “deduplicação” ou padronização de nomes e endereços. Enquanto todos estes itens são partes integrantes de um programa de qualidade de dados, uma rodada periódica de limpeza de dados não substitui um programa de gestão de conhecimento, integrado com uma melhoria contínua da qualidade de dados. Sensação de trabalho sujo Infelizmente existe uma sensação de que procurar problemas e limpar “bagunças” de dados constitui-se num trabalho sujo e inglório. Assim sendo, o envolvimento em atividades de qualidade de dados pode ser visto como uma “ação sem futuro na organização”. Falta de reconhecimento Existe sempre alguma expectativa (por consumidores de dados) de que as coisas deveriam ser corretas. Para tanto se espera que as coisas sejam feitas da forma correta. Os funcionários que se esforçam para garantir que tudo pareça correto são vistos como apenas Gestão da Qualidade de Dados 14 fazendo seu trabalho e não são reconhecidos por estarem executando uma tarefa extremamente importante de gestão de conhecimento. Para que se evitem as conotações negativas associadas com a qualidade de dados, os gerentes superiores precisam se dar conta que um conjunto integrado de soluções de qualidade de dados pode adicionar valor à organização. Isto pode ser obtido através de certo número de etapas, incluindo um treinamento em gestão de conhecimento e qualidade de dados, seguido pela criação e endosso de uma política de responsabilidade de dados, junto com uma análise que demonstre o impacto econômico da qualidade baixa de dados e o valor econômico da mensurável alta qualidade de dados. 2.5.2 Treinamento em qualidade de dados O treinamento em qualidade de dados inicia-se com o entendimento dos princípios do que significa a qualidade no contexto da informação. Um programa de treinamento em qualidade de dados deveria incorporar visões gerais e discussões sobre os seguintes conceitos: • Criação, uso e armazenamento da informação; • Responsabilidade dos dados; • Conceitos de qualidade e do ciclo de melhoria da qualidade; • Impacto econômicoda qualidade de dados; • Dimensões de qualidade de dados; • Aspectos de domínio de dados de referência; • Regras de qualidade de dados e de negócios; • Métricas para medir e avaliar qualidade de dados; • Metadados; • Análise de requisitos de Qualidade de Dados; • Limpeza de dados e padronização; • Detecção de erros, correção e análise de causas usando regras de qualidade de dados; e • Melhoria dos dados. Gestão da Qualidade de Dados 15 2.5.3 Política de responsabilidade dos dados Esta política governa as responsabilidades sobre as coleções de informação existentes na organização. Sem esta política, não há como gerenciar os dados, então, antes que os próximos passos sejam executados, os gerentes superiores precisam estabelecer, aprovar e publicar uma política de responsabilidade de dados, assim como definir e incorporar os procedimentos para cobrança das exigências desta política. 2.5.4 Análise do impacto econômico relacionado à qualidade baixa de dados Após ter a política e os procedimentos de cobrança definidos pela organização, o próximo passo será identificar as áreas que têm a maior necessidade de melhoria. Na análise do impacto econômico relacionado à qualidade baixa de dados, descrita neste artigo, é fornecido um mecanismo que caracteriza o impacto real da qualidade de dados, tanto dentro como fora da organização. Eis as etapas deste mecanismo: • Procurar por sinais de problemas de qualidade de dados; • Mapear o fluxo de informação dentro, através e fora da organização; • Caracterizar os impactos da qualidade baixa de dados em estágios específicos da cadeia de informação; • Medir o custo do impacto da qualidade baixa de dados; e • Construir o scorecard da qualidade de dados. O scorecard da qualidade de dados é uma ferramenta usada para focalizar nos locais da cadeia de informações onde existem problemas de qualidade de dados que têm o maior impacto na organização. Este scorecard pode ser usado como entrada para o próximo passo, a avaliação do estado atual. 2.5.5 Avaliação do estado atual e análise de requisitos Encontrar locais de maior impacto é uma coisa, mas descobrir como lidar com eles é outra. Antes que se possa corrigir um problema precisa-se saber sua importância relativa. É aí que entra a avaliação do estado atual. Em cada local de impacto são selecionadas algumas das dimensões de qualidade de dados (descritas posteriormente) e são medidos os níveis de qualidade de dados. Estes Gestão da Qualidade de Dados 16 níveis são correlacionados com os graus de impacto econômico determinados pela análise de scorecard. Então, são usadas as avaliações do estado atual para descobrir quais áreas de qualidade de dados possuem o maior impacto econômico, para que seja determinada uma medida básica da qualidade de dados total da organização. Os dados acima, junto com o grau de impacto, permitem determinar o que precisa ser corrigido e os níveis necessários para demonstrar melhoria. Isto tudo é determinado durante o estágio de análise de requisitos. Este estágio irá fornecer níveis de qualidade de dados que devem ser atingidos a fim de minimizar os problemas descobertos durante a análise de impacto econômico e a avaliação do estado atual. 2.5.6 Seleção de um projeto Com o scorecard de qualidade de dados, a avaliação do estado atual e a análise de requisitos, existem dados suficientes para que seja selecionado um projeto para melhoria. Com o apoio da gerência superior, é formada uma equipe que recebe um objetivo especifico: elevar o nível de qualidade de dados para o nível determinado durante a análise de requisitos. É importante selecionar um projeto único para execução. Infelizmente, muitos projetos de melhoria de qualidade de dados estão sujeitos a insucessos porque o escopo é muito grande. Pode ser impossível demonstrar sucesso se não houver um foco específico. Deve ser lembrado que o sucesso total do programa é determinado por pequenos sucessos em pequenas etapas. A seleção de um projeto pequeno, mas de alta prioridade para melhoria, e a execução com sucesso deste projeto, permite obter os seguintes objetivos: • Fornecimento de uma melhoria mensurável (tanto em forma de métricas como em benefício econômico) da qualidade de informação da organização; • Obtenção de uma sensação positiva dentro da organização, o que acaba propiciando mais apoio do nível superior e um consenso geral; e • Abertura da possibilidade de projetos adicionais de melhoria. Gestão da Qualidade de Dados 17 2.5.7 Implementação e Implantação da melhoria A implementação da melhoria é o ponto crítico do problema da qualidade de dados. A equipe de melhoria precisa ser capaz de executar os seguintes passos: • Arquitetar a solução – Significa determinar quais etapas reais precisam ser executadas para lidar com o problema da qualidade de dados; • Implementar a solução – Incorpora a aquisição de uma plataforma de desenvolvimento, acesso ao ambiente onde a solução é necessária e acesso aos recursos necessários para executar a implementação; e • Implantar a solução – Significa ser capaz de integrar a solução com os sistemas em produção e mover a nova solução para o ambiente de produção. 2.6 Qualidade de dados e Operações As operações de negócio da organização são definidas por um conjunto de regras que são executadas no dia a dia. Quando o negócio depende do fluxo correto das informações, existe um aspecto da qualidade de dados que interage com a especificação operacional. Em essência, em qualquer negócio que lida com informações, as regras de negócio são regras de qualidade de dados. Isto significa que a qualidade de dados é parte integrante de qualquer especificação operacional. As organizações que reconhecem isto desde o início podem aperfeiçoar as operações ao adotar técnicas de qualidade de dados no processo. Esta ação acaba prevenindo a inserção de dados ruins no fluxo de negócio, eliminando a necessidade de detectar e corrigir estes dados. Assim, uma operação “ciente de qualidade de dados” pode ser executada com custo menor e com maior eficácia do que operações tradicionais. 2.7 Qualidade de dados e Bancos de Dados As pessoas são afetadas diariamente por dados provenientes de bancos de dados, seja devido a correspondências de empresas de marketing direto, contas de luz e cartões de crédito, fornecedores de seguro ou mesmo impostos, multas de trânsito ou até vídeos alugados. Gestão da Qualidade de Dados 18 E não raramente se deparam com erros em dados, como envelopes de uma empresa que são enviados em mais de uma via para o endereço, mas com algumas letras diferentes no nome da pessoa ou no endereço. Existem casos conhecidos de pessoas que já chegam a receber a mesma correspondência em várias vias diferentes, todas objetivando a assinatura de uma revista. E estas correspondências, alem de causar gastos desnecessários para quem envia, causam irritação para os usuários, que recebem várias cópias do mesmo documento e em alguns casos por vários meses seguidos... Como exemplos podem ser descritas correspondências endereçadas a João A Silva; João Silva; Sr. J. A. Silva; Silva Joao, nos endereços Rua Pedro Gusmão, 115; Rua Dr. Pedro Gusmão, 115; R. Pedro Gusmao n.115; P. Gusmão, 115; etc... Ou seja, todas as correspondências são para a mesma pessoa no mesmo endereço, mas por diferença de alguns caracteres podem ser enviadas várias cópias para um mesmo cliente. Apesar de que estes erros possam ter ocorrido devido a problemas computacionais, o mais comum é que tenham sido devido a erros humanos de cadastramento dos dados. Existe um forte reconhecimento da importância da qualidade de dados no mundo de banco de dados. Os bancos de dados são de fato projetados com certas salva-guardas para proporcionar qualidade de dados, apesar de que estas sejam freqüentemente esquecidas na prática. Processos comotestes embutidos de nulos, dependência funcional, normalização de dados e integridade referencial são todos testemunhos da importância que deram os fornecedores de SGDB (Sistemas de Gerenciamento de Banco de Dados) para incluir algum grau de validação de dados dentro do sistema de gerência de banco de dados. Bancos de dados são criados para representar um modelo do mundo real, e sua qualidade pode ser medida pela conformidade com as entidades do mundo real. Na medida em que o banco de dados se consolida, o mundo real tende a divergir do que é representado no banco. Existem algumas áreas de qualidade de dados associadas a sistemas de bancos de dados, como: Gestão da Qualidade de Dados 19 • Aplicações de limpeza estática, que examinam os dados e tentam colocá-los em alguma forma canônica; • Padronização que pode ser aplicada a dados de nomes e endereços; • “Deduplicação”, que é um processo para remoção de dados duplicados de um banco de dados; e • Qualidade de dados baseada em regras, que pode ser usada para direcionar a inserção de informações em um banco de dados. Se existem dependências entre valores de certos atributos, estas regras podem ser adotadas para direcionar o processo de coleta de informação. Como exemplo, um formulário de informações médicas que só requisita dados sobre gravidez se o paciente for do sexo feminino. 2.7.1 Bancos de dados legados Além dos problemas já descritos anteriormente (pessoas que não desenvolveram os sistemas e que fazem a manutenção destes, regras de negócio embutidas no código ou mesmo no próprio dado), existem outros como: • Em alguns sistemas de execução de mainframes, o job scheduler precisa saber exatamente quais são as dependências de execução de jobs de tal forma que possa criar uma programação (schedule) de execução. Isto foi definido, pois se achava que um job precisava iniciar apenas depois do fim de outro, mas com o tempo descobriu-se que um job podia iniciar depois do início do outro. Esta descoberta, junto com uma nova tecnologia associada à locking (bloqueio) permitiu a remoção da dependência e uma programação mais eficiente; e • Mesmo com o avanço da tecnologia, os sistemas legados desenvolvidos antes da introdução de sistemas de bancos de dados relacionais continuaram limitados pela sua plataforma de implementação. Isto pode ter duas conseqüências: (1) Muitas coisas que podem ser implementadas facilmente com a tecnologia de hoje são impossíveis na tecnologia antiga, o que pode ser um argumento para o projeto de renovação do banco de dados, e (2) Artifícios que foram feitos em sistemas antigos para lidar com deficiências de implementação, se tornaram códigos gigantes, o que Gestão da Qualidade de Dados 20 impossibilita a melhoria do sistema na implementação atual. Quem fez os artifícios se mudou para outros locais de trabalho e estes segredos se perderam. 2.8 Qualidade de dados e Data Warehouse Normalmente se diz que a maioria do trabalho realizado na implementação de um Data Warehouse (DW) está nas fases de extração de dados, limpeza e transformação. Entretanto, muitos projetos de DW falham porque não foi dada a atenção devida no entendimento dos requisitos de qualidade de dados ou na validação e garantia de qualidade das informações importadas no warehouse. Muitas organizações relatam que até 70% do seu esforço vai no suporte da limpeza de dados e processo de transformação. A garantia de que dados de alta qualidade entrem no DW diminui a possibilidade de tomadas de decisões estratégicas incorretas. O que distingue a metodologia apresentada aqui da metodologia tradicional é que a nova filosofia considera a idéia de construir qualidade de dados na etapa de projeto de DW. Em vez de confiar em ferramentas de limpeza de dados que estaticamente limpam os dados, esta metodologia presume a validação de itens de dados na inserção no banco. É necessário trabalhar diretamente com os consumidores de dados para entender, identificar e abstrair requisitos de qualidade de dados, determinar as regras de qualidade de dados e integrar ferramentas para testar e validar itens de dados no momento da inserção. Os métodos descritos neste artigo permitem ao usuário integrar uma avaliação na cadeia de informação para medir e validar a qualidade de dados. Ao mesmo tempo, isto irá fornecer feedback para a identificação das causas dos problemas de qualidade de dados. 2.8.1 Certificação de Data Warehouse Uma forma de dar nota à confiabilidade das informações armazenadas em um Data Warehouse é a sua certificação. Um DW será considerado pronto para uso quando os dados inseridos estiverem de acordo com um conjunto de expectativas de qualidade de dados embutidas em um conjunto de regras. Dadas estas regras, serão associadas notas à qualidade dos dados importados no DW. Eis as etapas para esta Certificação: Gestão da Qualidade de Dados 21 1. Definição do conjunto de regras que qualificarão os dados; 2. Importação das regras de qualidade de dados na ferramenta (engine) de regras (esta ferramenta pode ser uma ferramenta de ETL – Extração, Transformação e Carga, adaptada com as regras); 3. Cada regra terá um limite (threshold) de validade associado, como, por exemplo, um percentual, baseado nas expectativas de qualidade dos usuários; 4. Inserção dos registros na ferramenta de regras, onde quaisquer regras relevantes serão testadas; 5. Se nenhuma regra falhar, o registro é considerado válido e é inserido com sucesso no DW; 6. Se alguma regra falhar, o registro incorpora as informações de quais regras foram violadas e posteriormente é enviado para um sistema de reconciliação. O registro que violou alguma regra também pode ser passado para o DW, mas precisa ser marcado como não tendo sido aprovado pelas expectativas dos usuários, e esta informação pode ser usada para análise de desempenho. A contagem de falhas e sucessos é mantida para cada regra; 7. Após o dado ser importado, o valor de validade de cada regra é computado como a razão dos registros válidos pelo total de registros. É gerado um relatório de certificação de qualidade de dados delineando todas as percentagens de validade. Se todas as percentagens de validade excederem os limites associados, o DW é certificado em conformidade com os requisitos de qualidade de dados dos usuários. Do contrário, o DW não é certificado e até que as percentagens possam ser trazidas ao nível de conformidade, não se pode dizer que o DW segue os requisitos de qualidade de dados; 8. Para qualificar o DW após uma certificação considerada falha, os valores de saída dos registros no sistema de reconciliação precisam ser analisados para descobrir a causa das falhas. Estas análises e correções são partes de um fluxo de negócio que confia no mesmo conjunto de regras de qualidade de dados usado para validação. Depois da reconciliação, o dado é submetido novamente através da ferramenta de regras e o relatório de validade é gerado mais uma vez. As informações das causas Gestão da Qualidade de Dados 22 dos erros são utilizadas para retornar às fontes de problemas nos dados legados e corrigir aqueles dados ruins na fonte, levando gradualmente à certificação; e 9. A certificação de DW e Data Marts é um processo contínuo, e o relatório de certificação precisa ser alinhado com as formas que os registros de dados são inseridos no DW. Por exemplo, se um Data Mart é completamente recarregado com uma periodicidade regular, o processo de certificação pode ser inserido como um componente do processo de recarga. Alternativamente, se um DW é recarregado incrementalmente, os resultados da ferramenta de certificação precisam ser persistentes. 2.9 Qualidade de dados e Data Mining Data Mining ou Mineração de Dados, também denominado Descoberta de Conhecimento (Knowledge Discovery), é o processo de procura por padrões ou anomalias emgrandes conjuntos de dados. Data Mining é basicamente um conjunto de algoritmos criados para descobrir conhecimento embutido nos dados. Isto inclui árvores de decisão, redes neurais, algoritmos genéticos e descoberta de regras de associação, junto com outras técnicas estatísticas e de correlação. Data Mining é especialmente valioso quando usado junto com processos de qualidade de dados porque pode funcionar tanto como um consumidor quanto como um produtor de regras de qualidade de dados. Técnicas de qualidade de dados precisam ser usadas para preparar os dados para o processo de descoberta de conhecimento. Em troca, o Data Mining pode expor regras de qualidade de dados que podem ser usadas para outras descobertas de conhecimento. 2.10 Qualidade de dados e Intercâmbio Eletrônico de Dados Intercâmbio Eletrônico de Dados (Electronic Data Interchange – EDI) é o termo usado para qualquer formato padronizado de representação de informação de negócio para os propósitos de comunicação eletrônica. É usado para eliminar o processamento manual na execução de operações de rotina como ordens de compra, ordens de produtos, notas de Gestão da Qualidade de Dados 23 envio, entre outras. Isto aumenta a eficiência e o volume transmitido, baixando o custo por transação. O EDI usa padrões para formatação e transmissão de informação que são independentes da plataforma de hardware. Por definição, é uma atividade baseada em qualidade de dados, devido às regras de validação utilizadas. 2.10.1 XML Um bom exemplo de Intercâmbio Eletrônico de Dados pode ser visto no padrão XML (Extensible Markup Language), que é tanto um framework de definições de estruturas (para a definição de padrões de dados) como um conjunto bem definido de regras para validação baseado em padrões definidos. A sintaxe de XML impõe uma estrutura na forma de um documento através do uso de tags para markup, que são basicamente diretivas de metadados que descrevem os dados em um documento. Um documento XML pode ser bem formado (well formed) se seguir a sintaxe do XML e pode ser considerado válido se for bem formado, se existir uma DTD (declaração do tipo do documento) e se o documento obedecer às regras especificadas na DTD. Apesar das noções de bem formado e válido, deve ser observado que não existe a noção da validação do conteúdo (apenas da estrutura do conteúdo). Como exemplo, considere uma aplicação de seguros onde o formato do XML especifica que qualquer comunicação precisa incluir o nome do seguro, o tipo de seguro e a quantidade comercializada. Mas, se uma mensagem vier com um nome inválido do seguro, a comunicação ainda pode ocorrer, o que irá causar uma falha no processamento. A estrutura da mensagem estava válida, mas o conteúdo não. São nestes casos que uma gestão da qualidade de dados pode ajudar. 2.11 Dimensões de Qualidade de Dados Para realmente melhorar a Qualidade de Dados, é necessário achar uma forma de medi-la, e a primeira etapa na medição de algo é definir o que se trata. Para definir isto cabe listar algumas dimensões de Qualidade de Dados. Gestão da Qualidade de Dados 24 O conceito de dimensões de Qualidade de Dados foi explorado por Richard Wang e o Grupo de Gestão da Qualidade de Dados Total do Massachussets Institute of Technology (MIT), de Cambridge, MA, EUA (Huang, 1999 apud Loshin, 2001). Este estudo se baseou nas técnicas de Gestão da Qualidade Total de Juran (Juran, 1999 apud Loshin, 2001). Estas dimensões podem ser usadas para identificar requisitos de qualidade de dados dos usuários, para delinear os requisitos de características de qualidade de dados de um produto, para medir os níveis de qualidade de dados e para identificar os pontos fracos e oportunidades para melhoria de qualidade de dados. As dimensões podem ser agrupadas em categorias, distinguindo, por exemplo, aspectos de modelos de dados de aspectos de apresentação de dados. As categorias existentes na metodologia de (Loshin, 2001) são: Modelos de dados; - Valores de dados; - Domínios de Informação; - Apresentação de dados; e - Política de Informação. O escopo deste trabalho se restringe às categorias de Valores de dados e Domínios de Informação. 2.11.1 Dimensões de Qualidade de Dados referentes a Valores de Dados Quando a maioria das pessoas pensa em qualidade de dados, pensa normalmente nas dimensões de qualidade de valores de dados. Em ambientes onde os dados não estão apenas sendo servidos aos clientes, mas também sendo utilizados como valores de entrada para ferramentas de Data Mining ou Data Warehouse, é importante fornecer altos níveis de qualidade de dados para os valores de dados. Confiar em dados ruins para propósitos de tomada de decisão leva a decisões estratégicas incorretas e conclusões tomadas a partir de regras derivadas de dados incorretos podem ter efeitos desastrosos. Seguem abaixo as dimensões de Qualidade de Dados referentes a Valores de Dados. Gestão da Qualidade de Dados 25 Exatidão dos valores dos dados A exatidão dos valores dos dados se refere ao grau em que os valores dos dados conferem com uma fonte identificada de informação correta. Existem diferentes fontes possíveis de informação correta: um banco de dados confiável; um conjunto similar que confirme os valores de dados provenientes de outra tabela; valores computados dinamicamente; o resultado de um fluxo manual ou mesmo clientes irritados. Como exemplo de erro de exatidão, pode-se considerar um caso em que houve erro na digitação do endereço de um cliente, que tem um prazo fixo para fazer um pagamento. Se a correspondência com o carnê de pagamento chegar depois da data prevista para o pagamento, o cliente pode ficar muito irritado e nunca mais comprar naquele estabelecimento, pois terá que arcar com multas e juros injustos. Valores nulos Um valor nulo é um valor que está faltando. Entretanto, um valor que está faltando pode fornecer mais informação do que se poderia pensar, pois podem existir inúmeras razões para esta falta de informação. Um valor nulo pode significar um valor não disponível no momento da coleta, um atributo que não é aplicável naquele contexto (por exemplo, sexo para uma pessoa jurídica), ou mesmo um valor que não existe no domínio utilizado e que corretamente classifique esta entidade. Apesar dos bancos de dados fornecerem uma representação default para o valor nulo, existem circunstâncias quando uma representação específica para o valor nulo é necessária. Mesmo assim deve-se tomar cuidado com valores incorretos, como o uso de 99/99/99 para uma data nula. Gestão da Qualidade de Dados 26 Completude Completude se refere à expectativa de que alguns atributos possuam valores definidos em um conjunto de dados. Existem três níveis de completude: 1. Atributos mandatórios que requerem um valor obrigatório; 2. Atributos opcionais, que podem ou não ter um valor; e 3. Atributos não aplicáveis (como a data de falecimento para uma pessoa viva), onde não tem sentido existir um valor. Completude pode ser analisada em um único atributo ou pode ser dependente de valores de outros atributos dentro do registro. Também pode ser discutido completude com respeito a um único atributo em relação a todos os registros ou em relação a um registro. Consistência Consistência pode ser curiosamente simples ou perigosamente complexa. Na sua forma mais básica, ela se refere a valores de dados em um conjunto de dados sendo consistentes com valores em outro conjunto de dados. Como exemplo, pode-se expressar uma restrição de consistência para todos os valores de um atributo de código CEP indicando que cada valor precisa estar de acordo com a definição estrutural dos Correios. Uma segunda restrição de consistência pode declarar que, em cada registro, o CEP precisa estar consistente com o valor do atributo cidade, validado em uma tabela de lookup. Umaterceira restrição de consistência pode especificar que, se o código CEP representa uma área dentro de uma região geográfica, a conta de um usuário, que mora neste CEP, precisa estar associada a um vendedor cujo território inclui aquela região geográfica. A primeira restrição de consistência é aplicada a um único atributo. A segunda é aplicada à relação entre dois atributos dentro do mesmo registro. Já a terceira aplica-se a valores em diferentes tabelas. As restrições de consistência podem ser complexas (como a terceira restrição acima) e freqüentemente refletem regras de negócio inerentes às aplicações que usam os dados. Gestão da Qualidade de Dados 27 Atualidade Atualidade se refere ao grau no qual a informação é atual de acordo com o mundo que ela modela. Ela pode medir o quanto atual a informação é e se é correta mesmo apesar de mudanças relacionadas ao tempo. Eis algumas situações em que esta dimensão é útil: O ideal é que os endereços das pessoas estejam sempre atualizados, mas como a sociedade está em contínua mudança, fica difícil manter os endereços atualizados. Outro exemplo é o preço de um produto que pode estar publicado em uma página da web com um valor antigo e que precisa ser atualizado para a venda não ocorrer com o valor errado. 2.11.2 Dimensões de Qualidade de Dados referentes a Domínios de Dados Um domínio de dados é uma coleção de valores que está relacionada de alguma forma, e representa uma autoridade reconhecida de fonte de dados também chamada de referência de dados, assim como os dicionários e enciclopédias são referências bibliográficas. Domínios de dados podem ser descritivos, o que significa que o conjunto de valores pode ser derivado usando uma descrição aplicada a um conjunto maior de valores, ou enumerados, quando todos os valores são explicitamente listados. Existe um mapeamento entre dois domínios quando se expressa uma relação que associa qualquer valor selecionado no primeiro domínio com um ou mais valores no segundo domínio. Assim como com os domínios, os mapeamentos podem ser descritivos ou enumerados. Um exemplo de um domínio descritivo é a definição de formato para os números de CPF. Um exemplo de domínio enumerado é a lista de estados brasileiros. Domínios e mapeamentos são muito comuns em bancos de dados. É através da descoberta e análise de domínios, que tabelas desnormalizadas podem ser normalizadas, e muitas regras, tanto de qualidade de dados como de negócio, podem ser expressas em termos de relações entre domínios e mapeamentos. Seguem abaixo as dimensões associadas com domínios de dados. Gestão da Qualidade de Dados 28 Concordância Corporativa de uso A noção de abstrair informações em domínios de dados implica que existem usuários suficientes do mesmo conjunto de dados de tal forma que faça sentido gerenciar este conjunto de dados separadamente como um recurso em vez de ter grupos separados gerenciando suas próprias versões. A dimensão de Concordância Corporativa de Uso mede o grau em que diferentes departamentos da organização concordam em usar o domínio de dados corporativo em vez de confiar em seu próprio conjunto de dados. Como exemplo, uma Concordância de Uso que pode ser feita é em relação à tabela de códigos CEP que pode estar em um domínio corporativo e ser utilizada pelos diferentes departamentos de uma organização. Grau de responsabilidade Outra dimensão de qualidade de dados é o grau ao qual a responsabilidade foi alocada em relação ao domínio de informação. Como um domínio de dados representa uma coleção de valores de dados que é reconhecida como uma fonte confiável de dados, é aconselhável que seja apontado um responsável para a manutenção deste domínio. O grau de responsabilidade deve aumentar conforme o grau de Concordância de Uso dentro da organização aumenta. Ubiqüidade Conforme a organização amadurece em relação à qualidade de dados, a Concordância de Uso vai aumentar de um número pequeno de precursores (“early adopters”) para gradualmente conter mais e mais departamentos da organização. Ubiqüidade mede a quantidade de departamentos diferentes que usam dados de referência compartilhados. 2.12 Controle Estatístico de Processo e o Ciclo de Melhoria Neste item pode-se ver como usar as dimensões definidas anteriormente e especificamente quantificar os níveis de qualidade de dados. São relacionadas ferramentas usadas para iniciar as medições e determinar em grosso modo o grau de conformidade para os padrões de qualidade de dados. Gestão da Qualidade de Dados 29 No inicio da década de 1920, Walter Shewhart dos Laboratórios Bell realizou um número de estudos de amostragem que levaram ao desenvolvimento da ferramenta de qualidade conhecida como Controle Estatístico de Processo (Statistical Process Control ou SPC). Ao avaliar a ocorrência de falhas, defeitos e erros no processo de manufatura, ele descobriu que, assim como na natureza, existem vários tipos de variações que podem ocorrer num processo de manufatura. Ele determinou que, estudando os diferentes tipos de variação (isto é, as variações que geram produtos não usáveis) e avaliando as razões entre elas, a ocorrência de baixa qualidade pode ser identificada e o processo que causa estas irregularidades pode ser melhorado. Estas noções não se aplicam apenas à manufatura de produtos, e sim também à qualidade de dados. Vê-se a seguir como o Controle Estatístico de Processo pode ser usado como uma forma de fornecer um contexto para um ciclo contínuo de melhoria de qualidade de dados. SPC é um processo de realização de medições durante o processo de manufatura para controlar a qualidade e detectar variações em qualidade enquanto os itens estão sendo produzidos, em vez de encontrar os defeitos durante inspeção após a produção. 2.12.1 O Princípio de Pareto Em qualquer sistema com causas e efeitos, a maioria dos efeitos é causada por uma pequena percentagem das causas. Este conceito, denominado “O Princípio de Pareto”, foi integrado na prática como a “regra 80-20” – 80 por cento dos efeitos são causados por 20 por cento das causas. Este princípio tem uma aplicação interessante se for usada a análise de Pareto para determinar que aspectos de um sistema (neste caso, qualidade de dados) serão incorporados no processo de Controle Estatístico de Processo. Outro corolário interessante ao Princípio de Pareto é que assim que os problemas grandes estejam resolvidos, existe uma oportunidade menor de melhorias subseqüentes. Em outras palavras, após ter atacado e conquistado os primeiros três ou quatro problemas, não é provável atingir melhorias significativas atacando os problemas adicionais. Isto é muito interessante, pois significa que se pode limitar a quantidade do esforço a ser utilizado para melhorar o que for desejado. Gestão da Qualidade de Dados 30 Como exemplo pode-se analisar a seguinte situação. Um processo qualquer tem seis funções, que totalizam 100 por cento do tempo de execução (também de 100 segundos, para facilitar a análise) conforme a Figura 2.2 a seguir: Função Total em Segundos A 54 B 26 C 8 D 6 E 4 F 2 Figura 2.2 - Exemplo de processo Conseguindo aumentar a velocidade de execução da função A com um fator de 2, reduz-se a execução da aplicação em 27 segundos (metade do tempo da função), baixando o tempo total para 73 segundos. Uma melhoria seguinte da função B também com um fator de 2 resultaria em uma melhoria de 13 segundos, baixando o tempo total para 60 segundos. Se for feito o mesmo com a função C, o tempo total baixaria apenas mais 4 segundos, para 56 segundos. A mesma ação na função D baixaria o tempo total apenas mais 3 segundos, para 53 segundos. Como pode ser visto, a mesma quantidade de esforço gasta nas melhorias resulta em um beneficio que diminui rapidamente. 2.12.2 Gráfico de Controle Uma ferramenta utilizada no ControleEstatístico de Processo é o Gráfico de Controle (Control Chart), que exibe se o processo de informação está sob controle. Basicamente um Gráfico de Controle representa os valores de uma série temporal dentro dos limites de controle inferior e superior. Uma linha central exibe o comportamento esperado médio do sistema. Gestão da Qualidade de Dados 31 Para construir um Gráfico de Controle, devem ser seguidas as seguintes etapas: 1. Selecionar uma ou mais dimensões de qualidade de dados para análise. Usar a análise de Pareto discutida anteriormente para determinar as variáveis ou atributos que têm maior importância no contexto geral e que significam a maior parte do problema (os 20% que significam 80%); 2. Para descobrir a fonte de problemas específicos é preciso garantir a escolha correta das variáveis. Por exemplo, se a dimensão a ser analisada é a Atualidade dos Dados, considere a variável como número atrasado da unidade temporal (minutos, horas ou mesmo meses) em vez de momento do registro. O valor do atraso é muito mais significativo para uma análise de diagnóstico de problemas; 3. Determine o instante correto dentro do fluxo de informações para colocar o instrumento de medição. Esta escolha deve considerar o seguinte: • Deve ser cedo suficiente no fluxo de processamento de informações de tal forma que a detecção e correção do problema naquele ponto possam prevenir erros durante o resto do fluxo; • Deve ser num instante que seja facilmente acessível e modificável, de tal forma que não afete o resto do fluxo; e • Não deve ser num instante em que a simples observação da amostra altere os dados que estão sendo observados; 4. Decida o tipo de gráfico de controle a ser usado: • Um gráfico de variáveis mede características mensuráveis individuais e irá fornecer muitas informações sobre cada item sendo produzido; e • Um gráfico de atributos mede a percentagem ou o número de itens que variam além do esperado, e fornecerá informações resumidas sobre todo o processo, focando nos efeitos acumulados em vez dos efeitos individuais; 5. Escolha a linha de centro e os limites de controle. A linha de centro pode tanto ser: • A média das medidas anteriores; • A média dos dados que ainda não foram medidas ou coletadas; ou • Um padrão predefinido esperado. Gestão da Qualidade de Dados 32 O limite superior de controle é definido como três desvios padrão acima da linha de centro e o limite inferior de controle é definido como três desvios padrão abaixo da linha de centro; 6. Escolha uma amostra. Esta amostra pode consistir em medições individuais de valores de dados ou medição de uma coleção de valores de dados para o propósito de trabalhar com o resumo. É importante que a amostra seja tomada em um ponto do processo que tenha um efeito significativo para a análise; 7. Escolha um método de coleção e histórico (logging) dos dados de amostra. Isto pode variar entre “requisitar pessoas para ler instrumentos e gravar as respostas” a ter um mecanismo integrado de medição e histórico dos resultados da amostra; e 8. Desenhe o gráfico e calcule a linha de centro e os limites de controle baseados nos dados existentes. 2.12.3 Os objetivos do Controle Estatístico de Processo Os objetivos do Controle Estatístico de Processo são: a estabilidade e a previsibilidade. Para melhor análise, podem ser considerados os dados exibidos na Figura 2.3, a seguir. Gestão da Qualidade de Dados 33 Dias Número de registros processados Número de registros com erro Taxa dos erros 1 10000 300 0,03 2 10000 600 0,06 3 10000 532 0,0532 4 10000 476 0,0476 5 10000 620 0,062 6 10000 546 0,0546 7 10000 665 0,0665 8 10000 331 0,0331 9 10000 337 0,0337 10 10000 328 0,0328 11 10000 345 0,0345 12 10000 358 0,0358 13 10000 403 0,0403 14 10000 341 0,0341 15 10000 347 0,0347 16 10000 395 0,0395 17 10000 342 0,0342 18 10000 334 0,0334 19 10000 346 0,0346 20 10000 347 0,0347 21 10000 378 0,0378 22 10000 365 0,0365 23 10000 351 0,0351 24 10000 432 0,0432 O gráfico de controle abaixo se refere aos dados à esquerda, e exibe, os dias no eixo X e as taxas dos erros no eixo Y. Alem disto exibe também o limite superior de controle, a linha de centro e o limite inferior de controle. Observe que os registros entre os dias 2 e 7 estavam acima do limite superior de controle. 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 1 3 5 7 9 11 13 15 17 19 21 23 Figura 2.3 - Exemplo de dados estatísticos in [Loshin, 2001] Estabilidade Quando existe um grande número de pontos de dados fora dos limites de controle (como no início do fluxo exibido acima), isto significa que o processo está muito instável. É função do especialista de qualidade analisar os resultados deste processo para determinar se a instabilidade é devido a causas comuns ou especiais. Quando são identificadas causas especiais, pode-se gradualmente melhorar o processo, fazendo-o mais estável. Se forem Gestão da Qualidade de Dados 34 considerados apenas os dados após o dia 7 no fluxo acima, podem-se refazer os limites de controle e observar que o processo ficou estável. Previsibilidade Com a correção dos erros, a tendência é que os pontos fiquem mais perto uns dos outros, diminuindo também o desvio padrão. Como os limites de controle são funções do desvio padrão, eles também se aproximarão da linha de controle. Este é um tipo de estabilidade diferente, que foca na diminuição da banda dentro da qual são esperados os erros. Este tipo de estabilidade implica numa previsibilidade dos valores de erros futuros. Se nos últimos 30 dias existiram menos de 10 erros por dia, pode-se esperar que amanhã também existam menos do que 10 erros. A noção de previsibilidade é um benefício significativo do Controle Estatístico de Processo. Sabendo que o sistema chegou a um grau de previsibilidade, pode-se não só prever os comportamentos futuros, mas também confirmar que atividades anômalas são devidas a causas especiais. Assumindo ter traduzido as expectativas de qualidade de dados em um conjunto de regras de qualidade de dados, podem-se usar estas regras para validar os registros de dados. Se houver um histórico do número de vezes que um registro tem erro devido a um teste específico, pode-se usar este histórico para desenhar um gráfico diário para cada regra específica. No fim do período de medição, pode-se construir um gráfico de controle que consolide os dados de cada regra de qualidade de dados. Devido ao fato de que cada regra descreve um aspecto específico dos requisitos de qualidade de dados dos usuários, o problema de identificar uma causa especial se reduz a determinar qual das regras de qualidade de dados foi responsável pelo comportamento anômalo. Isto fornece um ponto inicial para o processo de análise das causas. Gestão da Qualidade de Dados 35 2.13 Domínios, Mapeamentos e Dados de Referência da Organização Devido ao fato de que cada tipo de dados é designado para cada atributo de dado em uma tabela de banco de dados, cada atributo destes possui valores de um conjunto de valores específicos. Atributos de tipos de dados inteiros só recebem valores específicos de números inteiros. O mesmo ocorre para qualquer outro tipo de dado, ou mesmo para informações existentes em uma mensagem transmitida: o valor em cada campo da mensagem deve ser o tipo esperado para aquele campo. Cada valor segue regras estruturais (ou sintáticas) assim como algumas regras explícitas conotativas (ou semânticas) que governam se estes valores são corretos ou válidos. De qualquer jeito, são conjuntos de restrições que definem os valores dos atributos. As regras sintáticas satisfazem restrições na forma do valor. Um campo que tem um tipo de dado inteiro não pode receber dados alfabéticos. As regras semânticas são restrições adicionais no conjunto
Compartilhar