Buscar

Extração de Dados para ETL

Prévia do material em texto

Podcast 
Disciplina: Integração e Fluxo de Dado (ETL) 
Título do tema: Extração de Dados 
Autoria: Washington Henrique Carvalho Almeida 
Leitura crítica: Henrique Salustiano Silva 
 
Abertura: 
Olá, ouvinte! No podcast de hoje vamos falar sobre Extração de Dados. 
O primeiro passo da integração é extrair com sucesso dados dos principais 
sistemas de origem. Cada fonte de dados possui um conjunto distinto de 
características que precisam ser gerenciadas para extrair de forma efetiva os 
dados para o processo de ETL. 
As empresas evoluem e adquirem ou herdam vários sistemas 
computadorizados, com a finalidade de ajudar na administração de seus 
negócios, tais como sistemas de ponto de venda, gerenciamento de inventário, 
controle de produção e de contabilidade geral, mas que são frequentemente 
física e logicamente incompatíveis. 
A etapa de extração pode ser entendida como a fase em que os dados são 
extraídos de diversas fontes organizacionais e conduzidos para uma área de 
transição em que os dados são convertidos para um único formato. A 
conversão se faz necessária devido à heterogeneidade existente nas 
informações provenientes de várias fontes, sendo importante uma conformação 
prévia para o tratamento adequado. 
Na etapa de extração, os dados são capturados de múltiplas fontes, sendo 
necessário diferentes ferramentas adaptadas para cada fonte. Assim, o 
processo ETL necessita integrar efetivamente sistemas diferentes, tais como 
sistemas gerenciadores de banco de dados; Sistemas operacionais; Hardware; 
Protocolos de comunicação. 
O sucesso do data warehouse é a limpeza e coesão dos dados nele contidos. 
Um armazenamento de dados unificado exige uma visão completa de cada um 
dos seus sistemas de dados de origem, sendo necessário incluir a etapa de 
entendimento dos dados no projeto de ETL. A análise do sistema de origem se 
divide em duas fases: a fase de descoberta de dados e a fase de detecção de 
anomalias nos dados. 
Na fase de descoberta de dados, a equipe de ETL deve se aprofundar mais na 
descoberta dos dados para determinar cada sistema, tabela e atributo de 
origem necessário para carregar o data warehouse. Deve-se determinar a fonte 
adequada para cada elemento, em que uma boa análise evita atrasos 
causados pelo uso de uma fonte errada. 
V
er
sã
o
 
 
 
O processo de análise dos sistemas de origem é utilizado para uma melhor 
compreensão do seu conteúdo. Esse entendimento é obtido pela aquisição dos 
diagramas entidade-relacionamento (DER). 
Caso o diagrama entidade-relacionamento não exista, pode ser criado, 
utilizando para isso o processo de engenharia reversa, que é uma técnica que 
desenvolve um diagrama entidade-relacionamento a partir dos metadados do 
banco de dados existente. 
Dessa forma, o objetivo da consulta de extração aponta-se para obter todas as 
chaves relevantes. Pode ser tão simples quanto selecionar várias colunas, 
quanto selecionar várias colunas de uma tabela, ou ser tão completo quanto 
criar dados inexistentes e pode variar de ter de unir algumas tabelas ou unir 
várias tabelas de fontes de dados heterogêneos. 
Fechamento: 
Este foi nosso podcast de hoje! Até a próxima!

Continue navegando