Processos ETL teorico 2

•

CSV

Karoline Aquino

24/08/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Teste

3.782 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Inserir Título Aqui
Inserir Título Aqui
Processos ETL
Etapas de Extração, Transformação, Carga e Gerenciamento
Responsável pelo Conteúdo:
Profa. Ms. Lúcia Contente Mós
Revisão Textual:
Prof. Esp. Claudio Pereira do Nascimento
Nesta unidade, trabalharemos os seguintes tópicos:
• Contextualização
• Introdução ao Tema
• Processo de Extração
• Processo de Transformação
• Processo de Load/Carga
• Processo de Gerenciamento / Management
• Orientações para Leitura Obrigatória
Fonte: iStock/Getty Im
ages
Objetivos
• Conhecer com detalhes os processos de Extração, Transformação, Carga e Gerenciamento;
• Conhecer e identificar os diversos tipos de fontes para realização da extração;
• Criação e utilização da Staging Area I;
• Conhecer e identificar as tarefas da etapa de transformação;
• Montagem do Data Quality;
• Criação e utilização da Staging Area II;
• Conhecer e identificar as tarefas da etapa de Carga de Dados;
• Conhecer e aplicar os conceitos da etapa de Gerenciamento.
Etapas de Extração, Transformação,
Carga e Gerenciamento
UNIDADE
Etapas de Extração, Transformação, Carga e Gerenciamento
Contextualização
Conhecer, entender, saber, identificar, analisar de forma detalhada todos os conceitos
e atividades que ocorrem nos processos de Extração, Transformação, Carga e Gerencia-
mento. Reconhecer a importância dos processos ETL dentro da arquitetura de Business
Intelligence e para alcançar a construção de um Data Warehouse. São alguns dos itens
mais requisitados para profissionais que sejam Administradores, Analistas de BI. Daí a
importância do material que consta nesta unidade.
6
7
Introdução ao Tema
O processo de ETL (Extract, Transform and Load) destina-se à extração,
transformação e carga dos dados de uma ou mais bases de dados de origem para uma ou
mais bases de dados de destino (Data Warehouse). A extração e carga são obrigatórias
para o processo, sendo a transformação/limpeza opcional.
O processo de ETL (Extract, Transform and Load) é o processo mais crítico e
demorado na construção de um Data Warehouse, pois consiste na extração dos dados
de bases heterogêneas, na transformação e limpeza destes dados, e na carga dos dados
na base do DW.
As decisões gerenciais são tomadas com base nas informações geradas pelas
ferramentas do tipo front-end. Estas informações são geradas através dos dados
armazenados no Data Warehouse. Se estes dados não forem corretamente trabalhados
no processo de extração, as informações geradas através deles farão com que decisões
sejam tomadas erroneamente, podendo afetar diretamente os negócios da organização.
Portanto, os dados devem representar a verdade, a mais pura verdade, nada mais que a
verdade (KIMBALL, 1998 apud ABREU, 2007).
A maior parte do esforço exigido no desenvolvimento de um DW é consumido neste
momento e não é incomum que oitenta por cento de todo esforço seja empregado no
processo de ETL, (INMON, 1997 apud ABREU, 2007).
Somente a extração dos dados leva mais ou menos 60 por cento das horas de
desenvolvimento de um DW (KIMBALL, 1998 apud ABREU, 2007). Esta etapa do
processo deve se basear na busca das informações mais importantes em sistemas fontes
ou externos e que estejam em conformidade com a modelagem do DW. Tal busca de
dados pode ser obstruída por problemas como a distribuição das origens dos dados,
que podem estar em bases distintas com plataformas diferentes gerando a demanda
de utilização de formas de extração diferentes para cada local (ALMEIDA, 2006 apud
ABREU, 2007).
No momento de criação do DW é comum uma carga de dados inicial que faça
com que a extração busque todos os dados dos sistemas fontes, mas com o decorrer
do tempo a extração deve estar preparada apenas para fazer cargas incrementais. A
carga incremental que carrega apenas os registros que foram alterados ou inseridos
desde a carga inicial é muito mais eficiente (KIMBALL, 1998 apud ABREU, 2007). A
transformação dos dados é a fase subsequente à sua extração. Esta fase não só transforma
os dados, mas também realiza a limpeza dos mesmos. A correção de erros de digitação,
a descoberta de violações de integridade, a substituição de caracteres desconhecidos, a
padronização de abreviações pode ser exemplos desta limpeza (GONÇALVES, 2003
apud ABREU, 2007). Segundo Kimball (1998), as características mais relevantes para
garantir a qualidade dos dados são:
• Unicidade, evitando assim duplicações de informação;
• Precisão. Os dados não podem perder suas características originais assim que são
carregados para o DW;
7
UNIDADE
Etapas de Extração, Transformação, Carga e Gerenciamento
• Completude, não gerando dados parciais de todo o conjunto relevante às análises; e
• Consistência, ou seja, os fatos devem apresentar consistência com as dimensões
que o compõem. É necessário que os dados fiquem em uma forma homogênea
para serem carregados no DW.
Processo de Extração
Acesso aos Dados – Fonte Banco de Dados
Os dados nos sistemas fontes podem ser disponibilizados como: Banco de Dados
ou arquivos (geralmente do tipo texto). No caso de Banco de dados, são criadas views
e tabelas para alimentar o DW. Existem ferramentas que automatizam esse processo,
chamadas ferramentas ETL.
As vantagens de ser fazer a extração quando a fonte é o banco de dados são:
• Flexibilidade e facilidade para extrair os dados;
• Uso da linguagem SQL;
• Possibilidade de usar vários tipos de filtros;
• A formatação dos dados, já ocorre na própria consulta.
As desvantagens da utilização no Banco de dados é que quando comparado com a ex-
tração de um arquivo .txt a performance é menor além de ser necessário a utilização de vá-
rios tipos de conexões, caso tenha vários tipos de bancos de dados como fonte de dados.
Acesso aos Dados – Fonte Arquivos
Os arquivos podem ser do tipo texto .xml, .csv ou ainda delimitados por algum tipo de
caractere como por exemplo “-“. Os arquivos são uma boa forma de extrair e manipular
dados, as ferramentas de Etl aceitam e trabalham muito bem com arquivos. Eles têm
performance superior aos bancos de dados. No entanto, é necessário ter muita atenção
com o formato dos dados e máscaras, além das variações que podemos encontrar para
o mesmo tipo de registro.
Staging Area
Esta área serve como local intermediário entre as fontes de dados e o Data Warehouse.
Neste local serão realizadas todas as limpezas e transformações de dados necessárias.
Também é aqui que os dados ficarão armazenados para ser mantido um histórico, para
possíveis reprocessamentos, conferências e auditorias.
Além disso a staging area é utilizada em processos de recuperação, backup, auditoria
e rastreabilidade.
8
9
Processo de recuperação: caso haja um erro nas últimas 100 linhas de uma carga
de 10 milhões que foi realizada no DW, não é necessário desfazer toda a carga, pois as
100 linhas corretas estão na Staging Area.
Processo de Backup: com a Staging Area, é gerado um backup de todas as fontes
de dados.
Processo de Auditoria: Por ter um armazenamento históricos dos dados, é possível
verificar qual foi a carga de dados realizada no último mês, por exemplo.
Processo de Rastreabilidade: Como a Staging Area vai receber todos os dados, é
possível investigar que tipo de processo etl está apresentando algum tipo de problema.
Como é possível notar, a Staging Area exerce uma função fundamental no processo
de ETL, daí é de suma importância, criar esta área, geralmente é um Banco de Dados,
ou um tablespace.
Processo de Transformação
As principais atividades de transformação são: limpeza dos dados, garantir a qualidade
dos dados (Data Quality), descarte dos dados inválidos e padronização dos dados.
Processo de Limpeza dos dados: garantir as propriedades das colunas, garantir as
estruturas de dados, garantir dados preenchidos e regras dos dados, garantir regras de
negócio e armazenar o dado limpo.
Alguns exemplos de problemas com os dados fontes que precisam de limpeza:
• Colunas que Faltam valores;
• Zerossubstituem os valores que faltam;
• Faltam dados que você sabe que deveriam estar ali;
• Linhas ou valores estão duplicados;
• Formatos de datas estão inconsistentes;
• Unidades não estão especificadas;
• Nomes de campos estão ambíguos;
• Números foram guardados como texto.
Processo de Qualidade dos dados: Dados corretos com nomes e descrições, os
dados não podem ser ambíguos, todos os dados devem ser únicos. Os dados devem ser
consistentes de acordo com as regras definidas e por fim os dados devem ser completos
como por exemplo o endereço.
Exemplos de Dados com qualidade: A inexistência de dados duplicados, o conhe-
cimento do número exato de clientes, a obtenção de uma visão única de cliente ou a
segmentação de clientes.
9
UNIDADE
Etapas de Extração, Transformação, Carga e Gerenciamento
Processo de padronização dos dados: padronizar os dados da coluna das dimen-
sões, padronizar e garantir regras de indicadores, garantir as regras de negócio para as
colunas, padronizar métricas e tipos de dados.
Um exemplo de dado padronizado, no item regra de negócio: Suponha que na
empresa nenhum funcionário pode ganhar menos de 1 salário mínimo. Se os dados de
salário estiverem padronizados, não se deve encontrar nenhum salário nulo ou inferior
ao salário mínimo estabelecido. É importante ressaltar que embora a regra de negócio
se refira ao salário, não é possível fazer a padronização na coluna salário sem verificar e
padronizar a coluna data de pagamento.
Staging Area II
Embora não seja obrigatória, recomenda-se fortemente que esta área seja criada, pois
é o local onde todos os dados já estão limpos, tratados e padronizados. Neste momento,
todos os dados estão prontos para se fazer a carga no DW.
Processo de Load/Carga
Neste momento, ocorre a carga das tabelas dimensões, das tabelas fato e suas
variações, sendo que a carga deve ocorrer nesta ordem, ou seja, primeiro se faz a carga
de todos os dados das dimensões e depois os dados do fato.
Constitui-se do armazenamento físico dos dados oriundos dos sistemas operacionais
da empresa e externos, permitindo um acesso mais rápido e seguro aos dados do Data
Warehouse, além de prover maior flexibilidade de tratamento e facilidade manipulação;
Com a realização da carga é proporcionada a interação com os usuários finais através
de ferramentas visuais tradicionais, tais como sistemas de planilhas de cálculo, browsers,
entre outras;
Também devem ser criados e mantidos os metadados que descrevem os dados e a
organização do sistema, podem ser ainda fórmulas utilizadas para cálculo, descrições
das tabelas disponíveis aos usuários, descrições dos campos das tabelas, permissões de
acesso, informações sobre os administradores do sistema, entre outras;
Processo de Gerenciamento / Management
Management, o M talvez seja a letra do ETL que é menos citada, mas nem por
isso seja menos importante. O gerenciamento é a parte responsável por encadear e
controlar todas as cargas, além de dar segurança, estabilidade e performance para todo
o ambiente de ETL. Nesta fase será definido qual é o período da carga de dados, como
será o processo de execução da carga, se o processo apresenta alguma irregularidade e
como melhorar a performance do processo da carga de dados.
10
11
Gerenciamento de Processos: Faz o controle das tarefas que mantêm o sistema
atualizado e consistente, gerenciando as diversas tarefas que são realizadas durante a
construção e a manutenção dos componentes de um sistema de Data Warehouse;
Gerenciamento de Replicação: Serve para selecionar, editar, resumir, combinar
e carregar no Data Warehouse as informações a partir das bases operacionais e das
fontes externas, envolvendo programação bastante complexa, sendo que existem
ferramentas poderosas que permitem que estes processos sejam gerenciados de forma
mais amigável, além do controle da qualidade dos dados que serão carregados.
Orientações para Leitura Obrigatória
Nagraj Alur, Celso Takahashi, Sachiko Toratani, Denis Vasconcelos; IBM InfoSphere
DataStage Data Flow and Job Design; An IBM Redbooks publication; 2008
Chapter 1. IBM InfoSphere DataStage overview
Chapter 2. IBM InfoSphere DataStage stages
O IBM Information Server é uma revolucionária plataforma de software que ajuda
as organizações a obter mais valor a partir das informações heterogêneas complexas
espalhadas por seus sistemas. Permite que as organizações integrem dados diferentes
e forneçam informações confiáveis sempre e sempre que necessário, na linha e no
contexto, para pessoas específicas, aplicativos e processos.
Aqui encontra-se a base para os componentes IBM InfoSphere QualityStage e
IBM InfoSphere Information Analyzer. Esta publicação desenvolve cenários de uso
que descrevem a implementação do fluxo de DataStage e design de trabalho, como o
estágio de transação distribuída (DTS), estágio de dimensões que mudam lentamente.
Chuck Ballard, Daniel M. Farrell, Amit Gupta, Carlos Mazuela, Stanislav Vohnik;
Dimensional Modeling: In a Business Intelligence Environment; An IBM Redbooks
publication; 2012
Chapter 1. Introduction
Chapter 2. Business Intelligence: The destination
Nesta publicação IBM Redbooks, descreve-se as técnicas de modelagem de dados
dimensionais, especificamente focadas em business intelligence e data warehousing.
É para ajudar o leitor a entender como projetar, manter e usar um modelo dimensional
para data warehousing que pode fornecer acesso e desempenho de dados necessários
para a inteligência de negócios.
11
UNIDADE
Etapas de Extração, Transformação, Carga e Gerenciamento
A inteligência de negócios é composta por uma infra-estrutura de data warehousing
e um ambiente de consulta, análise e relatórios. Aqui concentra-se na infraestrutura de
data warehousing. Mas apenas um elemento específico disso, o modelo de dados - que
é considerado o bloco básico de construção do data warehouse. Ou, mais precisamente,
o tema da modelagem de dados e seu impacto nas aplicações comerciais e empresariais.
O objetivo não é fornecer um tratado sobre técnicas de modelagem dimensional, mas
focar em um nível mais prático. Existe conteúdo técnico para projetar e manter esse
ambiente, mas também conteúdo comercial.
Por exemplo, são usados estudos de caso para demonstrar como a modelagem
dimensional pode afetar os requisitos de business intelligence para suas iniciativas de
negócios. Além disso, é fornecida uma discussão detalhada sobre os aspectos da consulta
de BI e modelagem de dados. Por exemplo, é demonstrada a otimização de consulta e
como se pode determinar o desempenho do modelo de dados antes da implementação.
POLI, Gabriel Antônio; BARROS, Guilherme Candiani. Business intelligence aplicado
a um data warehouse. Franca, 2010. 65 p. Graduação - CIÊNCIA DA COMPUTAÇÃO.
A procura por uma melhora contínua nos negócios faz com que empresas invistam
em soluções a fim de obterem informações sobre suas necessidades e capacidades
operacionais. O uso de um banco de dados aliado a um Data Warehouse auxilia na
tomada de decisões, possibilitando o crescimento significativo das empresas. Este
trabalho foi elaborado com o intuito de demonstrar a viabilidade de um Data Warehouse
de um banco de dados, associado à tecnologia OLAP (Online Analytical Processing) e
integrado por meio da ferramenta Microsoft Analisys Services®. Deste modo torna-se
possível gerar consultas em um período de tempo curto e hábil, de forma que o usuário
final consiga visualizar as informações através da ferramenta Microsoft Office Excel®,
oferecendo assim um suporte nas estratégias e tomadas de decisões.
12
13
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
Sites
Extrair, Transformar e Carregar
https://goo.gl/g8QmnG
O que é ETL?
https://goo.gl/7eXkil
Livros
Aspectos do Ambiente Gerencial e seus Impactos no Uso dos Sistemas de Inteligência Compe-
titiva para Processos Decisórios
JAMIL, George Leal. Aspectos do ambiente gerencial eseus impactos no uso dos
sistemas de inteligência competitiva para processos decisórios. Perspectivas em
Ciência da Informação .Belo Horizonte , v. 6, n. 2, p. 261-274, jul./dez. 2001
A Essencia do Business Intelligence
SERRA, Laercio. A essencia do business intelligence. Sao Paulo: Berkeley, 2002. 288 p.
Bi: Business Intelligence: Modelagem ‘&’ Tecnologia
BARBIERI, Carlos. Bi: business intelligence: modelagem ‘&’ tecnologia. Rio de
Janeiro Axcel books do Brasil 2001 424
Decisão nas Organizações: Introdução aos Problemas de Decisão Encontrados nas Organiza-
ções e nos Sistemas de Apoio à Decisão
SHIMIZU, Tamio. Decisão nas organizações: introdução aos problemas de decisão
encontrados nas organizações e nos sistemas de apoio à decisão. São Paulo: Atlas, 2001.
317 p. ISBN 8522427496.
Armazenamento e Gerenciamento de Informações
EMC; Armazenamento e Gerenciamento De Informações; Ed. EMC2
Arquitetura da Informação
CAMARGO, Liriane Soares de Araújo; VIDOTTI, Silvana Aparecida Borsetti Gregorio;
Arquitetura da Informação; Ed. LTC
Administração de Sistemas de Informação
O´BRIEN, James A.; MARAKAS,George M.; Administração de Sistemas De
Informação; Ed. Mc Graw Hill
13
UNIDADE
Etapas de Extração, Transformação, Carga e Gerenciamento
Referências
BARBIERI, Carlos. Bi: business intelligence: modelagem ‘&’ tecnologia. Rio de
Janeiro: Axcel books do Brasil 2001 424
CELESTINO, André L,; ETL – Extrair, Transformar e Carregar; http://www.
andrecelestino.com/etl-extrair-transformar-e-carregar/; 2014
RIBEIRO, Viviane; O que é ETL?; Disponível em: https://vivianeribeiro1.wordpress.
com/2011/06/28/o-que-e-etl-2/; 2011
ROSINI, Alessandro Marco; PALMISANO, Angelo. Administração de sistemas de
informação e a gestão do conhecimento. São Paulo: Thomson, 2003. xiii, 219 p.
ISBN 8522103127.
SERRA, Laercio. A essência do business intelligence. São Paulo: Berkeley, 2002.
288 p.
ROSINI, Alessandro Marco; PALMISANO, Angelo. Administração de sistemas de
informação e a gestão do conhecimento. São Paulo: Thomson, 2003. xiii, 219 p.
ISBN 8522103127.
TURBAN, Efraim. Business intelligence: um enfoque gerencial para a inteligencia do
negócio. Porto Alegre: Bookman, 2009. 256 p.
14