Buscar

Processos ETL teorico 2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Inserir Título Aqui 
Inserir Título Aqui
Processos ETL
Etapas de Extração, Transformação, Carga e Gerenciamento
Responsável pelo Conteúdo:
Profa. Ms. Lúcia Contente Mós
Revisão Textual:
Prof. Esp. Claudio Pereira do Nascimento
Nesta unidade, trabalharemos os seguintes tópicos:
• Contextualização
• Introdução ao Tema 
• Processo de Extração
• Processo de Transformação
• Processo de Load/Carga
• Processo de Gerenciamento / Management
• Orientações para Leitura Obrigatória
Fonte: iStock/Getty Im
ages
Objetivos
• Conhecer com detalhes os processos de Extração, Transformação, Carga e Gerenciamento;
• Conhecer e identificar os diversos tipos de fontes para realização da extração;
• Criação e utilização da Staging Area I;
• Conhecer e identificar as tarefas da etapa de transformação;
• Montagem do Data Quality;
• Criação e utilização da Staging Area II;
• Conhecer e identificar as tarefas da etapa de Carga de Dados;
• Conhecer e aplicar os conceitos da etapa de Gerenciamento.
Etapas de Extração, Transformação, 
Carga e Gerenciamento
UNIDADE 
Etapas de Extração, Transformação, Carga e Gerenciamento
Contextualização
Conhecer, entender, saber, identificar, analisar de forma detalhada todos os conceitos 
e atividades que ocorrem nos processos de Extração, Transformação, Carga e Gerencia-
mento. Reconhecer a importância dos processos ETL dentro da arquitetura de Business 
Intelligence e para alcançar a construção de um Data Warehouse. São alguns dos itens 
mais requisitados para profissionais que sejam Administradores, Analistas de BI. Daí a 
importância do material que consta nesta unidade.
6
7
Introdução ao Tema 
 O processo de ETL (Extract, Transform and Load) destina-se à extração, 
transformação e carga dos dados de uma ou mais bases de dados de origem para uma ou 
mais bases de dados de destino (Data Warehouse). A extração e carga são obrigatórias 
para o processo, sendo a transformação/limpeza opcional.
O processo de ETL (Extract, Transform and Load) é o processo mais crítico e 
demorado na construção de um Data Warehouse, pois consiste na extração dos dados 
de bases heterogêneas, na transformação e limpeza destes dados, e na carga dos dados 
na base do DW.
As decisões gerenciais são tomadas com base nas informações geradas pelas 
ferramentas do tipo front-end. Estas informações são geradas através dos dados 
armazenados no Data Warehouse. Se estes dados não forem corretamente trabalhados 
no processo de extração, as informações geradas através deles farão com que decisões 
sejam tomadas erroneamente, podendo afetar diretamente os negócios da organização. 
Portanto, os dados devem representar a verdade, a mais pura verdade, nada mais que a 
verdade (KIMBALL, 1998 apud ABREU, 2007). 
A maior parte do esforço exigido no desenvolvimento de um DW é consumido neste 
momento e não é incomum que oitenta por cento de todo esforço seja empregado no 
processo de ETL, (INMON, 1997 apud ABREU, 2007). 
Somente a extração dos dados leva mais ou menos 60 por cento das horas de 
desenvolvimento de um DW (KIMBALL, 1998 apud ABREU, 2007). Esta etapa do 
processo deve se basear na busca das informações mais importantes em sistemas fontes 
ou externos e que estejam em conformidade com a modelagem do DW. Tal busca de 
dados pode ser obstruída por problemas como a distribuição das origens dos dados, 
que podem estar em bases distintas com plataformas diferentes gerando a demanda 
de utilização de formas de extração diferentes para cada local (ALMEIDA, 2006 apud 
ABREU, 2007). 
No momento de criação do DW é comum uma carga de dados inicial que faça 
com que a extração busque todos os dados dos sistemas fontes, mas com o decorrer 
do tempo a extração deve estar preparada apenas para fazer cargas incrementais. A 
carga incremental que carrega apenas os registros que foram alterados ou inseridos 
desde a carga inicial é muito mais eficiente (KIMBALL, 1998 apud ABREU, 2007). A 
transformação dos dados é a fase subsequente à sua extração. Esta fase não só transforma 
os dados, mas também realiza a limpeza dos mesmos. A correção de erros de digitação, 
a descoberta de violações de integridade, a substituição de caracteres desconhecidos, a 
padronização de abreviações pode ser exemplos desta limpeza (GONÇALVES, 2003 
apud ABREU, 2007). Segundo Kimball (1998), as características mais relevantes para 
garantir a qualidade dos dados são: 
• Unicidade, evitando assim duplicações de informação; 
• Precisão. Os dados não podem perder suas características originais assim que são 
carregados para o DW;
7
UNIDADE 
Etapas de Extração, Transformação, Carga e Gerenciamento
• Completude, não gerando dados parciais de todo o conjunto relevante às análises; e 
• Consistência, ou seja, os fatos devem apresentar consistência com as dimensões 
que o compõem. É necessário que os dados fiquem em uma forma homogênea 
para serem carregados no DW.
Processo de Extração
Acesso aos Dados – Fonte Banco de Dados
Os dados nos sistemas fontes podem ser disponibilizados como: Banco de Dados 
ou arquivos (geralmente do tipo texto). No caso de Banco de dados, são criadas views 
e tabelas para alimentar o DW. Existem ferramentas que automatizam esse processo, 
chamadas ferramentas ETL.
As vantagens de ser fazer a extração quando a fonte é o banco de dados são:
• Flexibilidade e facilidade para extrair os dados;
• Uso da linguagem SQL;
• Possibilidade de usar vários tipos de filtros;
• A formatação dos dados, já ocorre na própria consulta.
As desvantagens da utilização no Banco de dados é que quando comparado com a ex-
tração de um arquivo .txt a performance é menor além de ser necessário a utilização de vá-
rios tipos de conexões, caso tenha vários tipos de bancos de dados como fonte de dados.
Acesso aos Dados – Fonte Arquivos
Os arquivos podem ser do tipo texto .xml, .csv ou ainda delimitados por algum tipo de 
caractere como por exemplo “-“. Os arquivos são uma boa forma de extrair e manipular 
dados, as ferramentas de Etl aceitam e trabalham muito bem com arquivos. Eles têm 
performance superior aos bancos de dados. No entanto, é necessário ter muita atenção 
com o formato dos dados e máscaras, além das variações que podemos encontrar para 
o mesmo tipo de registro.
Staging Area
Esta área serve como local intermediário entre as fontes de dados e o Data Warehouse. 
Neste local serão realizadas todas as limpezas e transformações de dados necessárias. 
Também é aqui que os dados ficarão armazenados para ser mantido um histórico, para 
possíveis reprocessamentos, conferências e auditorias.
Além disso a staging area é utilizada em processos de recuperação, backup, auditoria 
e rastreabilidade.
8
9
Processo de recuperação: caso haja um erro nas últimas 100 linhas de uma carga 
de 10 milhões que foi realizada no DW, não é necessário desfazer toda a carga, pois as 
100 linhas corretas estão na Staging Area. 
Processo de Backup: com a Staging Area, é gerado um backup de todas as fontes 
de dados.
Processo de Auditoria: Por ter um armazenamento históricos dos dados, é possível 
verificar qual foi a carga de dados realizada no último mês, por exemplo.
Processo de Rastreabilidade: Como a Staging Area vai receber todos os dados, é 
possível investigar que tipo de processo etl está apresentando algum tipo de problema.
Como é possível notar, a Staging Area exerce uma função fundamental no processo 
de ETL, daí é de suma importância, criar esta área, geralmente é um Banco de Dados, 
ou um tablespace.
Processo de Transformação
As principais atividades de transformação são: limpeza dos dados, garantir a qualidade 
dos dados (Data Quality), descarte dos dados inválidos e padronização dos dados.
Processo de Limpeza dos dados: garantir as propriedades das colunas, garantir as 
estruturas de dados, garantir dados preenchidos e regras dos dados, garantir regras de 
negócio e armazenar o dado limpo.
Alguns exemplos de problemas com os dados fontes que precisam de limpeza:
• Colunas que Faltam valores;
• Zerossubstituem os valores que faltam;
• Faltam dados que você sabe que deveriam estar ali;
• Linhas ou valores estão duplicados;
• Formatos de datas estão inconsistentes;
• Unidades não estão especificadas;
• Nomes de campos estão ambíguos;
• Números foram guardados como texto.
Processo de Qualidade dos dados: Dados corretos com nomes e descrições, os 
dados não podem ser ambíguos, todos os dados devem ser únicos. Os dados devem ser 
consistentes de acordo com as regras definidas e por fim os dados devem ser completos 
como por exemplo o endereço.
Exemplos de Dados com qualidade: A inexistência de dados duplicados, o conhe-
cimento do número exato de clientes, a obtenção de uma visão única de cliente ou a 
segmentação de clientes.
9
UNIDADE 
Etapas de Extração, Transformação, Carga e Gerenciamento
Processo de padronização dos dados: padronizar os dados da coluna das dimen-
sões, padronizar e garantir regras de indicadores, garantir as regras de negócio para as 
colunas, padronizar métricas e tipos de dados.
Um exemplo de dado padronizado, no item regra de negócio: Suponha que na 
empresa nenhum funcionário pode ganhar menos de 1 salário mínimo. Se os dados de 
salário estiverem padronizados, não se deve encontrar nenhum salário nulo ou inferior 
ao salário mínimo estabelecido. É importante ressaltar que embora a regra de negócio 
se refira ao salário, não é possível fazer a padronização na coluna salário sem verificar e 
padronizar a coluna data de pagamento.
Staging Area II
Embora não seja obrigatória, recomenda-se fortemente que esta área seja criada, pois 
é o local onde todos os dados já estão limpos, tratados e padronizados. Neste momento, 
todos os dados estão prontos para se fazer a carga no DW.
Processo de Load/Carga
Neste momento, ocorre a carga das tabelas dimensões, das tabelas fato e suas 
variações, sendo que a carga deve ocorrer nesta ordem, ou seja, primeiro se faz a carga 
de todos os dados das dimensões e depois os dados do fato.
Constitui-se do armazenamento físico dos dados oriundos dos sistemas operacionais 
da empresa e externos, permitindo um acesso mais rápido e seguro aos dados do Data 
Warehouse, além de prover maior flexibilidade de tratamento e facilidade manipulação;
Com a realização da carga é proporcionada a interação com os usuários finais através 
de ferramentas visuais tradicionais, tais como sistemas de planilhas de cálculo, browsers, 
entre outras;
Também devem ser criados e mantidos os metadados que descrevem os dados e a 
organização do sistema, podem ser ainda fórmulas utilizadas para cálculo, descrições 
das tabelas disponíveis aos usuários, descrições dos campos das tabelas, permissões de 
acesso, informações sobre os administradores do sistema, entre outras;
Processo de Gerenciamento / Management
Management, o M talvez seja a letra do ETL que é menos citada, mas nem por 
isso seja menos importante. O gerenciamento é a parte responsável por encadear e 
controlar todas as cargas, além de dar segurança, estabilidade e performance para todo 
o ambiente de ETL. Nesta fase será definido qual é o período da carga de dados, como 
será o processo de execução da carga, se o processo apresenta alguma irregularidade e 
como melhorar a performance do processo da carga de dados.
10
11
Gerenciamento de Processos: Faz o controle das tarefas que mantêm o sistema 
atualizado e consistente, gerenciando as diversas tarefas que são realizadas durante a 
construção e a manutenção dos componentes de um sistema de Data Warehouse;
Gerenciamento de Replicação: Serve para selecionar, editar, resumir, combinar 
e carregar no Data Warehouse as informações a partir das bases operacionais e das 
fontes externas, envolvendo programação bastante complexa, sendo que existem 
ferramentas poderosas que permitem que estes processos sejam gerenciados de forma 
mais amigável, além do controle da qualidade dos dados que serão carregados.
Orientações para Leitura Obrigatória
Nagraj Alur, Celso Takahashi, Sachiko Toratani, Denis Vasconcelos; IBM InfoSphere 
DataStage Data Flow and Job Design; An IBM Redbooks publication; 2008
Chapter 1. IBM InfoSphere DataStage overview
Chapter 2. IBM InfoSphere DataStage stages
O IBM Information Server é uma revolucionária plataforma de software que ajuda 
as organizações a obter mais valor a partir das informações heterogêneas complexas 
espalhadas por seus sistemas. Permite que as organizações integrem dados diferentes 
e forneçam informações confiáveis sempre e sempre que necessário, na linha e no 
contexto, para pessoas específicas, aplicativos e processos.
Aqui encontra-se a base para os componentes IBM InfoSphere QualityStage e 
IBM InfoSphere Information Analyzer. Esta publicação desenvolve cenários de uso 
que descrevem a implementação do fluxo de DataStage e design de trabalho, como o 
estágio de transação distribuída (DTS), estágio de dimensões que mudam lentamente.
Chuck Ballard, Daniel M. Farrell, Amit Gupta, Carlos Mazuela, Stanislav Vohnik; 
Dimensional Modeling: In a Business Intelligence Environment; An IBM Redbooks 
publication; 2012
Chapter 1. Introduction
Chapter 2. Business Intelligence: The destination
Nesta publicação IBM Redbooks, descreve-se as técnicas de modelagem de dados 
dimensionais, especificamente focadas em business intelligence e data warehousing. 
É para ajudar o leitor a entender como projetar, manter e usar um modelo dimensional 
para data warehousing que pode fornecer acesso e desempenho de dados necessários 
para a inteligência de negócios.
11
UNIDADE 
Etapas de Extração, Transformação, Carga e Gerenciamento
A inteligência de negócios é composta por uma infra-estrutura de data warehousing 
e um ambiente de consulta, análise e relatórios. Aqui concentra-se na infraestrutura de 
data warehousing. Mas apenas um elemento específico disso, o modelo de dados - que 
é considerado o bloco básico de construção do data warehouse. Ou, mais precisamente, 
o tema da modelagem de dados e seu impacto nas aplicações comerciais e empresariais. 
O objetivo não é fornecer um tratado sobre técnicas de modelagem dimensional, mas 
focar em um nível mais prático. Existe conteúdo técnico para projetar e manter esse 
ambiente, mas também conteúdo comercial.
Por exemplo, são usados estudos de caso para demonstrar como a modelagem 
dimensional pode afetar os requisitos de business intelligence para suas iniciativas de 
negócios. Além disso, é fornecida uma discussão detalhada sobre os aspectos da consulta 
de BI e modelagem de dados. Por exemplo, é demonstrada a otimização de consulta e 
como se pode determinar o desempenho do modelo de dados antes da implementação. 
POLI, Gabriel Antônio; BARROS, Guilherme Candiani. Business intelligence aplicado 
a um data warehouse. Franca, 2010. 65 p. Graduação - CIÊNCIA DA COMPUTAÇÃO.
A procura por uma melhora contínua nos negócios faz com que empresas invistam 
em soluções a fim de obterem informações sobre suas necessidades e capacidades 
operacionais. O uso de um banco de dados aliado a um Data Warehouse auxilia na 
tomada de decisões, possibilitando o crescimento significativo das empresas. Este 
trabalho foi elaborado com o intuito de demonstrar a viabilidade de um Data Warehouse 
de um banco de dados, associado à tecnologia OLAP (Online Analytical Processing) e 
integrado por meio da ferramenta Microsoft Analisys Services®. Deste modo torna-se 
possível gerar consultas em um período de tempo curto e hábil, de forma que o usuário 
final consiga visualizar as informações através da ferramenta Microsoft Office Excel®, 
oferecendo assim um suporte nas estratégias e tomadas de decisões. 
12
13
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
 Sites
Extrair, Transformar e Carregar
https://goo.gl/g8QmnG
O que é ETL?
https://goo.gl/7eXkil
 Livros
Aspectos do Ambiente Gerencial e seus Impactos no Uso dos Sistemas de Inteligência Compe-
titiva para Processos Decisórios
JAMIL, George Leal. Aspectos do ambiente gerencial eseus impactos no uso dos 
sistemas de inteligência competitiva para processos decisórios. Perspectivas em 
Ciência da Informação .Belo Horizonte , v. 6, n. 2, p. 261-274, jul./dez. 2001
A Essencia do Business Intelligence
SERRA, Laercio. A essencia do business intelligence. Sao Paulo: Berkeley, 2002. 288 p.
Bi: Business Intelligence: Modelagem ‘&’ Tecnologia
BARBIERI, Carlos. Bi: business intelligence: modelagem ‘&’ tecnologia. Rio de 
Janeiro Axcel books do Brasil 2001 424
Decisão nas Organizações: Introdução aos Problemas de Decisão Encontrados nas Organiza-
ções e nos Sistemas de Apoio à Decisão
SHIMIZU, Tamio. Decisão nas organizações: introdução aos problemas de decisão 
encontrados nas organizações e nos sistemas de apoio à decisão. São Paulo: Atlas, 2001. 
317 p. ISBN 8522427496.
Armazenamento e Gerenciamento de Informações
EMC; Armazenamento e Gerenciamento De Informações; Ed. EMC2
Arquitetura da Informação
CAMARGO, Liriane Soares de Araújo; VIDOTTI, Silvana Aparecida Borsetti Gregorio; 
Arquitetura da Informação; Ed. LTC
Administração de Sistemas de Informação
O´BRIEN, James A.; MARAKAS,George M.; Administração de Sistemas De 
Informação; Ed. Mc Graw Hill
13
UNIDADE 
Etapas de Extração, Transformação, Carga e Gerenciamento
Referências
BARBIERI, Carlos. Bi: business intelligence: modelagem ‘&’ tecnologia. Rio de 
Janeiro: Axcel books do Brasil 2001 424
CELESTINO, André L,; ETL – Extrair, Transformar e Carregar; http://www.
andrecelestino.com/etl-extrair-transformar-e-carregar/; 2014
RIBEIRO, Viviane; O que é ETL?; Disponível em: https://vivianeribeiro1.wordpress.
com/2011/06/28/o-que-e-etl-2/; 2011
ROSINI, Alessandro Marco; PALMISANO, Angelo. Administração de sistemas de 
informação e a gestão do conhecimento. São Paulo: Thomson, 2003. xiii, 219 p. 
ISBN 8522103127.
SERRA, Laercio. A essência do business intelligence. São Paulo: Berkeley, 2002. 
288 p.
ROSINI, Alessandro Marco; PALMISANO, Angelo. Administração de sistemas de 
informação e a gestão do conhecimento. São Paulo: Thomson, 2003. xiii, 219 p. 
ISBN 8522103127.
TURBAN, Efraim. Business intelligence: um enfoque gerencial para a inteligencia do 
negócio. Porto Alegre: Bookman, 2009. 256 p.
14

Continue navegando