Baixe o app para aproveitar ainda mais
Prévia do material em texto
Podcast Disciplina: Integração e Fluxo de Dado (ETL) Título do tema: Extração de Dados Autoria: Washington Henrique Carvalho Almeida Leitura crítica: Henrique Salustiano Silva Abertura: Olá, ouvinte! No podcast de hoje vamos falar sobre Extração de Dados. O primeiro passo da integração é extrair com sucesso dados dos principais sistemas de origem. Cada fonte de dados possui um conjunto distinto de características que precisam ser gerenciadas para extrair de forma efetiva os dados para o processo de ETL. As empresas evoluem e adquirem ou herdam vários sistemas computadorizados, com a finalidade de ajudar na administração de seus negócios, tais como sistemas de ponto de venda, gerenciamento de inventário, controle de produção e de contabilidade geral, mas que são frequentemente física e logicamente incompatíveis. A etapa de extração pode ser entendida como a fase em que os dados são extraídos de diversas fontes organizacionais e conduzidos para uma área de transição em que os dados são convertidos para um único formato. A conversão se faz necessária devido à heterogeneidade existente nas informações provenientes de várias fontes, sendo importante uma conformação prévia para o tratamento adequado. Na etapa de extração, os dados são capturados de múltiplas fontes, sendo necessário diferentes ferramentas adaptadas para cada fonte. Assim, o processo ETL necessita integrar efetivamente sistemas diferentes, tais como sistemas gerenciadores de banco de dados; Sistemas operacionais; Hardware; Protocolos de comunicação. O sucesso do data warehouse é a limpeza e coesão dos dados nele contidos. Um armazenamento de dados unificado exige uma visão completa de cada um dos seus sistemas de dados de origem, sendo necessário incluir a etapa de entendimento dos dados no projeto de ETL. A análise do sistema de origem se divide em duas fases: a fase de descoberta de dados e a fase de detecção de anomalias nos dados. Na fase de descoberta de dados, a equipe de ETL deve se aprofundar mais na descoberta dos dados para determinar cada sistema, tabela e atributo de origem necessário para carregar o data warehouse. Deve-se determinar a fonte adequada para cada elemento, em que uma boa análise evita atrasos causados pelo uso de uma fonte errada. V er sã o O processo de análise dos sistemas de origem é utilizado para uma melhor compreensão do seu conteúdo. Esse entendimento é obtido pela aquisição dos diagramas entidade-relacionamento (DER). Caso o diagrama entidade-relacionamento não exista, pode ser criado, utilizando para isso o processo de engenharia reversa, que é uma técnica que desenvolve um diagrama entidade-relacionamento a partir dos metadados do banco de dados existente. Dessa forma, o objetivo da consulta de extração aponta-se para obter todas as chaves relevantes. Pode ser tão simples quanto selecionar várias colunas, quanto selecionar várias colunas de uma tabela, ou ser tão completo quanto criar dados inexistentes e pode variar de ter de unir algumas tabelas ou unir várias tabelas de fontes de dados heterogêneos. Fechamento: Este foi nosso podcast de hoje! Até a próxima!
Compartilhar