Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inserir Título Aqui Inserir Título Aqui Processos ETL Etapas de Extração, Transformação, Carga e Gerenciamento Responsável pelo Conteúdo: Profa. Ms. Lúcia Contente Mós Revisão Textual: Prof. Esp. Claudio Pereira do Nascimento Nesta unidade, trabalharemos os seguintes tópicos: • Contextualização • Introdução ao Tema • Processo de Extração • Processo de Transformação • Processo de Load/Carga • Processo de Gerenciamento / Management • Orientações para Leitura Obrigatória Fonte: iStock/Getty Im ages Objetivos • Conhecer com detalhes os processos de Extração, Transformação, Carga e Gerenciamento; • Conhecer e identificar os diversos tipos de fontes para realização da extração; • Criação e utilização da Staging Area I; • Conhecer e identificar as tarefas da etapa de transformação; • Montagem do Data Quality; • Criação e utilização da Staging Area II; • Conhecer e identificar as tarefas da etapa de Carga de Dados; • Conhecer e aplicar os conceitos da etapa de Gerenciamento. Etapas de Extração, Transformação, Carga e Gerenciamento UNIDADE Etapas de Extração, Transformação, Carga e Gerenciamento Contextualização Conhecer, entender, saber, identificar, analisar de forma detalhada todos os conceitos e atividades que ocorrem nos processos de Extração, Transformação, Carga e Gerencia- mento. Reconhecer a importância dos processos ETL dentro da arquitetura de Business Intelligence e para alcançar a construção de um Data Warehouse. São alguns dos itens mais requisitados para profissionais que sejam Administradores, Analistas de BI. Daí a importância do material que consta nesta unidade. 6 7 Introdução ao Tema O processo de ETL (Extract, Transform and Load) destina-se à extração, transformação e carga dos dados de uma ou mais bases de dados de origem para uma ou mais bases de dados de destino (Data Warehouse). A extração e carga são obrigatórias para o processo, sendo a transformação/limpeza opcional. O processo de ETL (Extract, Transform and Load) é o processo mais crítico e demorado na construção de um Data Warehouse, pois consiste na extração dos dados de bases heterogêneas, na transformação e limpeza destes dados, e na carga dos dados na base do DW. As decisões gerenciais são tomadas com base nas informações geradas pelas ferramentas do tipo front-end. Estas informações são geradas através dos dados armazenados no Data Warehouse. Se estes dados não forem corretamente trabalhados no processo de extração, as informações geradas através deles farão com que decisões sejam tomadas erroneamente, podendo afetar diretamente os negócios da organização. Portanto, os dados devem representar a verdade, a mais pura verdade, nada mais que a verdade (KIMBALL, 1998 apud ABREU, 2007). A maior parte do esforço exigido no desenvolvimento de um DW é consumido neste momento e não é incomum que oitenta por cento de todo esforço seja empregado no processo de ETL, (INMON, 1997 apud ABREU, 2007). Somente a extração dos dados leva mais ou menos 60 por cento das horas de desenvolvimento de um DW (KIMBALL, 1998 apud ABREU, 2007). Esta etapa do processo deve se basear na busca das informações mais importantes em sistemas fontes ou externos e que estejam em conformidade com a modelagem do DW. Tal busca de dados pode ser obstruída por problemas como a distribuição das origens dos dados, que podem estar em bases distintas com plataformas diferentes gerando a demanda de utilização de formas de extração diferentes para cada local (ALMEIDA, 2006 apud ABREU, 2007). No momento de criação do DW é comum uma carga de dados inicial que faça com que a extração busque todos os dados dos sistemas fontes, mas com o decorrer do tempo a extração deve estar preparada apenas para fazer cargas incrementais. A carga incremental que carrega apenas os registros que foram alterados ou inseridos desde a carga inicial é muito mais eficiente (KIMBALL, 1998 apud ABREU, 2007). A transformação dos dados é a fase subsequente à sua extração. Esta fase não só transforma os dados, mas também realiza a limpeza dos mesmos. A correção de erros de digitação, a descoberta de violações de integridade, a substituição de caracteres desconhecidos, a padronização de abreviações pode ser exemplos desta limpeza (GONÇALVES, 2003 apud ABREU, 2007). Segundo Kimball (1998), as características mais relevantes para garantir a qualidade dos dados são: • Unicidade, evitando assim duplicações de informação; • Precisão. Os dados não podem perder suas características originais assim que são carregados para o DW; 7 UNIDADE Etapas de Extração, Transformação, Carga e Gerenciamento • Completude, não gerando dados parciais de todo o conjunto relevante às análises; e • Consistência, ou seja, os fatos devem apresentar consistência com as dimensões que o compõem. É necessário que os dados fiquem em uma forma homogênea para serem carregados no DW. Processo de Extração Acesso aos Dados – Fonte Banco de Dados Os dados nos sistemas fontes podem ser disponibilizados como: Banco de Dados ou arquivos (geralmente do tipo texto). No caso de Banco de dados, são criadas views e tabelas para alimentar o DW. Existem ferramentas que automatizam esse processo, chamadas ferramentas ETL. As vantagens de ser fazer a extração quando a fonte é o banco de dados são: • Flexibilidade e facilidade para extrair os dados; • Uso da linguagem SQL; • Possibilidade de usar vários tipos de filtros; • A formatação dos dados, já ocorre na própria consulta. As desvantagens da utilização no Banco de dados é que quando comparado com a ex- tração de um arquivo .txt a performance é menor além de ser necessário a utilização de vá- rios tipos de conexões, caso tenha vários tipos de bancos de dados como fonte de dados. Acesso aos Dados – Fonte Arquivos Os arquivos podem ser do tipo texto .xml, .csv ou ainda delimitados por algum tipo de caractere como por exemplo “-“. Os arquivos são uma boa forma de extrair e manipular dados, as ferramentas de Etl aceitam e trabalham muito bem com arquivos. Eles têm performance superior aos bancos de dados. No entanto, é necessário ter muita atenção com o formato dos dados e máscaras, além das variações que podemos encontrar para o mesmo tipo de registro. Staging Area Esta área serve como local intermediário entre as fontes de dados e o Data Warehouse. Neste local serão realizadas todas as limpezas e transformações de dados necessárias. Também é aqui que os dados ficarão armazenados para ser mantido um histórico, para possíveis reprocessamentos, conferências e auditorias. Além disso a staging area é utilizada em processos de recuperação, backup, auditoria e rastreabilidade. 8 9 Processo de recuperação: caso haja um erro nas últimas 100 linhas de uma carga de 10 milhões que foi realizada no DW, não é necessário desfazer toda a carga, pois as 100 linhas corretas estão na Staging Area. Processo de Backup: com a Staging Area, é gerado um backup de todas as fontes de dados. Processo de Auditoria: Por ter um armazenamento históricos dos dados, é possível verificar qual foi a carga de dados realizada no último mês, por exemplo. Processo de Rastreabilidade: Como a Staging Area vai receber todos os dados, é possível investigar que tipo de processo etl está apresentando algum tipo de problema. Como é possível notar, a Staging Area exerce uma função fundamental no processo de ETL, daí é de suma importância, criar esta área, geralmente é um Banco de Dados, ou um tablespace. Processo de Transformação As principais atividades de transformação são: limpeza dos dados, garantir a qualidade dos dados (Data Quality), descarte dos dados inválidos e padronização dos dados. Processo de Limpeza dos dados: garantir as propriedades das colunas, garantir as estruturas de dados, garantir dados preenchidos e regras dos dados, garantir regras de negócio e armazenar o dado limpo. Alguns exemplos de problemas com os dados fontes que precisam de limpeza: • Colunas que Faltam valores; • Zerossubstituem os valores que faltam; • Faltam dados que você sabe que deveriam estar ali; • Linhas ou valores estão duplicados; • Formatos de datas estão inconsistentes; • Unidades não estão especificadas; • Nomes de campos estão ambíguos; • Números foram guardados como texto. Processo de Qualidade dos dados: Dados corretos com nomes e descrições, os dados não podem ser ambíguos, todos os dados devem ser únicos. Os dados devem ser consistentes de acordo com as regras definidas e por fim os dados devem ser completos como por exemplo o endereço. Exemplos de Dados com qualidade: A inexistência de dados duplicados, o conhe- cimento do número exato de clientes, a obtenção de uma visão única de cliente ou a segmentação de clientes. 9 UNIDADE Etapas de Extração, Transformação, Carga e Gerenciamento Processo de padronização dos dados: padronizar os dados da coluna das dimen- sões, padronizar e garantir regras de indicadores, garantir as regras de negócio para as colunas, padronizar métricas e tipos de dados. Um exemplo de dado padronizado, no item regra de negócio: Suponha que na empresa nenhum funcionário pode ganhar menos de 1 salário mínimo. Se os dados de salário estiverem padronizados, não se deve encontrar nenhum salário nulo ou inferior ao salário mínimo estabelecido. É importante ressaltar que embora a regra de negócio se refira ao salário, não é possível fazer a padronização na coluna salário sem verificar e padronizar a coluna data de pagamento. Staging Area II Embora não seja obrigatória, recomenda-se fortemente que esta área seja criada, pois é o local onde todos os dados já estão limpos, tratados e padronizados. Neste momento, todos os dados estão prontos para se fazer a carga no DW. Processo de Load/Carga Neste momento, ocorre a carga das tabelas dimensões, das tabelas fato e suas variações, sendo que a carga deve ocorrer nesta ordem, ou seja, primeiro se faz a carga de todos os dados das dimensões e depois os dados do fato. Constitui-se do armazenamento físico dos dados oriundos dos sistemas operacionais da empresa e externos, permitindo um acesso mais rápido e seguro aos dados do Data Warehouse, além de prover maior flexibilidade de tratamento e facilidade manipulação; Com a realização da carga é proporcionada a interação com os usuários finais através de ferramentas visuais tradicionais, tais como sistemas de planilhas de cálculo, browsers, entre outras; Também devem ser criados e mantidos os metadados que descrevem os dados e a organização do sistema, podem ser ainda fórmulas utilizadas para cálculo, descrições das tabelas disponíveis aos usuários, descrições dos campos das tabelas, permissões de acesso, informações sobre os administradores do sistema, entre outras; Processo de Gerenciamento / Management Management, o M talvez seja a letra do ETL que é menos citada, mas nem por isso seja menos importante. O gerenciamento é a parte responsável por encadear e controlar todas as cargas, além de dar segurança, estabilidade e performance para todo o ambiente de ETL. Nesta fase será definido qual é o período da carga de dados, como será o processo de execução da carga, se o processo apresenta alguma irregularidade e como melhorar a performance do processo da carga de dados. 10 11 Gerenciamento de Processos: Faz o controle das tarefas que mantêm o sistema atualizado e consistente, gerenciando as diversas tarefas que são realizadas durante a construção e a manutenção dos componentes de um sistema de Data Warehouse; Gerenciamento de Replicação: Serve para selecionar, editar, resumir, combinar e carregar no Data Warehouse as informações a partir das bases operacionais e das fontes externas, envolvendo programação bastante complexa, sendo que existem ferramentas poderosas que permitem que estes processos sejam gerenciados de forma mais amigável, além do controle da qualidade dos dados que serão carregados. Orientações para Leitura Obrigatória Nagraj Alur, Celso Takahashi, Sachiko Toratani, Denis Vasconcelos; IBM InfoSphere DataStage Data Flow and Job Design; An IBM Redbooks publication; 2008 Chapter 1. IBM InfoSphere DataStage overview Chapter 2. IBM InfoSphere DataStage stages O IBM Information Server é uma revolucionária plataforma de software que ajuda as organizações a obter mais valor a partir das informações heterogêneas complexas espalhadas por seus sistemas. Permite que as organizações integrem dados diferentes e forneçam informações confiáveis sempre e sempre que necessário, na linha e no contexto, para pessoas específicas, aplicativos e processos. Aqui encontra-se a base para os componentes IBM InfoSphere QualityStage e IBM InfoSphere Information Analyzer. Esta publicação desenvolve cenários de uso que descrevem a implementação do fluxo de DataStage e design de trabalho, como o estágio de transação distribuída (DTS), estágio de dimensões que mudam lentamente. Chuck Ballard, Daniel M. Farrell, Amit Gupta, Carlos Mazuela, Stanislav Vohnik; Dimensional Modeling: In a Business Intelligence Environment; An IBM Redbooks publication; 2012 Chapter 1. Introduction Chapter 2. Business Intelligence: The destination Nesta publicação IBM Redbooks, descreve-se as técnicas de modelagem de dados dimensionais, especificamente focadas em business intelligence e data warehousing. É para ajudar o leitor a entender como projetar, manter e usar um modelo dimensional para data warehousing que pode fornecer acesso e desempenho de dados necessários para a inteligência de negócios. 11 UNIDADE Etapas de Extração, Transformação, Carga e Gerenciamento A inteligência de negócios é composta por uma infra-estrutura de data warehousing e um ambiente de consulta, análise e relatórios. Aqui concentra-se na infraestrutura de data warehousing. Mas apenas um elemento específico disso, o modelo de dados - que é considerado o bloco básico de construção do data warehouse. Ou, mais precisamente, o tema da modelagem de dados e seu impacto nas aplicações comerciais e empresariais. O objetivo não é fornecer um tratado sobre técnicas de modelagem dimensional, mas focar em um nível mais prático. Existe conteúdo técnico para projetar e manter esse ambiente, mas também conteúdo comercial. Por exemplo, são usados estudos de caso para demonstrar como a modelagem dimensional pode afetar os requisitos de business intelligence para suas iniciativas de negócios. Além disso, é fornecida uma discussão detalhada sobre os aspectos da consulta de BI e modelagem de dados. Por exemplo, é demonstrada a otimização de consulta e como se pode determinar o desempenho do modelo de dados antes da implementação. POLI, Gabriel Antônio; BARROS, Guilherme Candiani. Business intelligence aplicado a um data warehouse. Franca, 2010. 65 p. Graduação - CIÊNCIA DA COMPUTAÇÃO. A procura por uma melhora contínua nos negócios faz com que empresas invistam em soluções a fim de obterem informações sobre suas necessidades e capacidades operacionais. O uso de um banco de dados aliado a um Data Warehouse auxilia na tomada de decisões, possibilitando o crescimento significativo das empresas. Este trabalho foi elaborado com o intuito de demonstrar a viabilidade de um Data Warehouse de um banco de dados, associado à tecnologia OLAP (Online Analytical Processing) e integrado por meio da ferramenta Microsoft Analisys Services®. Deste modo torna-se possível gerar consultas em um período de tempo curto e hábil, de forma que o usuário final consiga visualizar as informações através da ferramenta Microsoft Office Excel®, oferecendo assim um suporte nas estratégias e tomadas de decisões. 12 13 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Sites Extrair, Transformar e Carregar https://goo.gl/g8QmnG O que é ETL? https://goo.gl/7eXkil Livros Aspectos do Ambiente Gerencial e seus Impactos no Uso dos Sistemas de Inteligência Compe- titiva para Processos Decisórios JAMIL, George Leal. Aspectos do ambiente gerencial eseus impactos no uso dos sistemas de inteligência competitiva para processos decisórios. Perspectivas em Ciência da Informação .Belo Horizonte , v. 6, n. 2, p. 261-274, jul./dez. 2001 A Essencia do Business Intelligence SERRA, Laercio. A essencia do business intelligence. Sao Paulo: Berkeley, 2002. 288 p. Bi: Business Intelligence: Modelagem ‘&’ Tecnologia BARBIERI, Carlos. Bi: business intelligence: modelagem ‘&’ tecnologia. Rio de Janeiro Axcel books do Brasil 2001 424 Decisão nas Organizações: Introdução aos Problemas de Decisão Encontrados nas Organiza- ções e nos Sistemas de Apoio à Decisão SHIMIZU, Tamio. Decisão nas organizações: introdução aos problemas de decisão encontrados nas organizações e nos sistemas de apoio à decisão. São Paulo: Atlas, 2001. 317 p. ISBN 8522427496. Armazenamento e Gerenciamento de Informações EMC; Armazenamento e Gerenciamento De Informações; Ed. EMC2 Arquitetura da Informação CAMARGO, Liriane Soares de Araújo; VIDOTTI, Silvana Aparecida Borsetti Gregorio; Arquitetura da Informação; Ed. LTC Administração de Sistemas de Informação O´BRIEN, James A.; MARAKAS,George M.; Administração de Sistemas De Informação; Ed. Mc Graw Hill 13 UNIDADE Etapas de Extração, Transformação, Carga e Gerenciamento Referências BARBIERI, Carlos. Bi: business intelligence: modelagem ‘&’ tecnologia. Rio de Janeiro: Axcel books do Brasil 2001 424 CELESTINO, André L,; ETL – Extrair, Transformar e Carregar; http://www. andrecelestino.com/etl-extrair-transformar-e-carregar/; 2014 RIBEIRO, Viviane; O que é ETL?; Disponível em: https://vivianeribeiro1.wordpress. com/2011/06/28/o-que-e-etl-2/; 2011 ROSINI, Alessandro Marco; PALMISANO, Angelo. Administração de sistemas de informação e a gestão do conhecimento. São Paulo: Thomson, 2003. xiii, 219 p. ISBN 8522103127. SERRA, Laercio. A essência do business intelligence. São Paulo: Berkeley, 2002. 288 p. ROSINI, Alessandro Marco; PALMISANO, Angelo. Administração de sistemas de informação e a gestão do conhecimento. São Paulo: Thomson, 2003. xiii, 219 p. ISBN 8522103127. TURBAN, Efraim. Business intelligence: um enfoque gerencial para a inteligencia do negócio. Porto Alegre: Bookman, 2009. 256 p. 14
Compartilhar