Buscar

Processo ETL para Data Warehousing

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Aula 10 – Processo Datawarehousing 
 
Ambiente do Data Warehouse 
 
Vamos inciar nossa aula observando novamente o ambiente onde está inserido o Data Warehouse: 
 
 
 
Podemos verificar que os dados são inicialmente extraídos de sistemas operacionais e de fontes externas, 
posteriormente são integrados e transformados para serem carregados no Data Warehouse. Esta é uma etapa 
crítica da construção de um Data Warehouse pois envolve toda a movimentação dos dados. A mesma se dá 
basicamente em três passos, conhecidos como Extração, Transformação (passo este que inclui a limpeza dos 
dados) e Carga dos dados. Este processo é conhecido na áea de TI como Processo ETL 
 
Este processo é responsável por integrar, transformar e salvar dados, não importando sua fonte nem seu 
destino. 
 
 Os dados, oriundos de diversas fontes de dados são submetidos a severas transformações e 
disponibilizados de forma normalizada. 
 
 Em ambientes complexos existe a possibilidade de utilização de softwares que executam as 
transformações automaticamente. 
 
 Dependendo da periodicidade de atualização dos dados devem ser estabelecidos mecanismos de 
sincronização de dados para garantir a integridade dos dados. 
 
 
 
Extração de dados 
 
A extração é o primeiro passo na obtenção de dados para o ambiente do DW. Basicamente diz respeito à 
busca dos dados nas diversas fontes de origem e à cópia destes dados para a área de transformação de dados, 
a fim de serem trabalhadas posteriormente. 
 
Nesta construção deste processo é fundamental o acesso e a clara compreensão dos dados de origem. 
Normalmente há a geração de arquivos intermediários para a carga uma vez que a existência de uma única 
fonte de dados é rara. 
 
Uma vez que os dados são extraídos devem passar por uma série de tratamentos. O primeiro passo destes 
tratamentos refere-se à limpeza ou filtragem dos dados, onde o objetivo é garantir a integridade dos dados 
através de programas ou rotinas especiais que tentam identificar anomalias e resolve-las, deixando os dados 
em um estado consistente antes de serem instalados no Data Warehouse. 
 
Exemplos: correção de erros de digitação, descoberta de violações de integridade, substituição de 
caracteres desconhecidos, padronização de abreviações. 
 
Em algumas situações, múltiplos estágios de transformações são necessários para que o dado possa ser 
migrado para o Data Warehouse, dependendo da natureza dos sistemas fontes. 
 
A etapa de Transformação dos Dados é a maior preocupação da área de informática pois se não existir uma 
estratégia adequada, o Data Warehouse pode falhar. 
 
Transformação de dados 
 
É comum a utilização dos seguintes termos quando nos referimos à Transformação de Dados: 
 
Limpeza 
Tem por objetivo deixar os elementos de dados padronizados (uniformizados), não duplicados, corretos, 
consistentes e espelhando a realidade. Dentre as atividades executadas podemos citar a correção de 
inconsistências de códigos e caracteres especiais, solução de problemas de conflito de domínios, 
recuperação de dados perdidos e a correção de valores duplicados ou errados. 
 
Integração 
Enriquecimento 
Qualificação (Scoring) 
Validação 
Atualização de mudanças 
Cálculos 
 
Locais Potenciais de “Dados Sujos” 
 
 
- casas decimais 
- truncagem, regras de arredondamento 
- galões/litros 
 
 
- Mudanças de códigos e algorítimos 
- Diferentes regras de codificação 
- Reutilização de códigos 
 
 
- Proibido em Data Warehouse!!!! 
- Não há forma possível de análise 
- Não há forma de “tradução” da linguagem natural 
 
 
 
Carga de dados 
 
Depois de transformados e “limpos” os dados estão aptos para serem carregados no Data Warehouse. A 
etapa de carga também demanda muita atenção de TI pois exige uma série de cuidados, por exemplo: 
 
 
 
Assim como nos bancos de dados operacionais, é preciso asegurar que as regras de integridade das chaves 
estrangeiras sejam respeitadas no momento da carga. 
 
 
 
A carga incremental normalmente é feita para tabelas de fatos e a carga total é feita em tabelas de dimensão 
onde o analista terá que excluir os dados existentes e incluí-los novamente. Mas isso depende da necessidade 
do negócio em questão. 
 
 
 
Todo banco de dados possui um conjunto de técnicas para otimizar o processo de carga, tais como evitar a 
geração de log durante o processo, criar índices e agregar dados. 
 
 
 
O serviço de carga também precisa suportar as exigências antes e depois da carga atual, como eliminar e 
recriar índices e particionamento físico de tabelas e índices. 
 
Todas estas atividades que devem ser asseguradas pelo Processo ETL são discutidas e definidas quando da 
etapa de Projeto do Data Warehouse, que será nosso próximo assunto. Antes vamos entender as dificuldades 
do Processo ETL. 
 
Dificuldades do Processo ETL 
 
 
 
Externas 
 
- Prazos muito curtos; 
- Relacionamento com outras equipes: 
 - a falta de tempo dos analistas OLTP 
 - a falta de paciência dos usuários; 
Falta de documentação: 
 - Necessidade de reduzir custos do projeto. 
 
Internas 
 
 
 
 
 
 
Qual é o resultado de enganos sucessivos no ETL? 
 
Estes dados estão errados!!!! 
 
- Perda da confiança dos usuários; 
 - Perda da motivação dos usuários para apoiar; 
 - Redução no moral da equipe de sistemas 
 
Quanto custa a baixa qualidade dos dados ? 
 
Rever regras de negócio, distorções dos dados nas fontes e nos destinos; 
Rever o processo (etapa a etapa); 
Corrigir programas, rotinas e dados; 
Refazer a carga, analisar resultados e ajustar; 
Convencer os usuários, a gerência, etc a acreditar no projeto; 
Desenvolver aplicações fora do escopo original para ajudar no convencimento do usuário. 
 
Tipos de Implementação do DW 
 
As abordagens de implementação de Data Warehouse em uso pelas organizações são três: 
 
Implementação Top Down 
 
Esta abordagem é conhecida como padrão inicial do conceito de Data Warehouse e necessita de maior 
planejamento assim como demanda um trabalho maior de definições conceituais de tecnologia antes de 
iniciar-se o projeto propriamente dito. 
 
As decisões sobre fontes de dados que serão utilizadas, segurança, estruturas de dados, qualidade de dados, 
padrões de dados e os vários modelos de dados dos sistemas transacionais atuais devem estar completos 
antes do início da implementação. 
 
Nesta arquitetura o processo se inicia com a extração, a transformação e a integração das informações dos 
sistemas transacionais e dados externos para um ODS ou diretamente das fontes operacionais. A seguir, os 
dados e metadados são transferidos para o Data Warehouse, a partir do qual são extraídos os dados e 
metadados para os Data Marts, onde as informações estão em maior nível de sumarização e, normalmente, 
não apresentam o nível histórico encontrado no Data Warehouse. 
 
A figura a seguir ilustra este tipo de abordagem: 
 
 
O ponto positivo a se detacar na abordagem Top Down é que obriga a empresa a definir regras de negócio 
de forma corporativa, antes de iniciar-se o projeto de Data Warehouse em si. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Implementação Bottom Up 
 
Esta abordagem permite que o planejamento e o desenho dos Data Marts possam ser realizados sem esperar 
que seja definida uma infra-estrutura corporativa para o Data Warehouse. Essa infra-estrutura não deixará de 
existir, apenas poderá ser implementada incrementalmente conforme forem sendo realizados os Data Marts. 
 
Como a implementação Top Down é politicamentedifícil de ser definida e cara, a abordagem Bottom Up 
vem se tornando popular. É bastante aceita pelos executivos por possuir um retorno de investimento rápido. 
 
O objetivo desta implementação é a construção de um Data Warehouse incremental a partir do 
desenvolvimento de Data Marts independentes. O processo começa com a extração, a transformação e a 
integração dos dados para um ou mais Data Marts. 
 
A figura a seguir ilustra este tipo de abordagem: 
 
 
 
Um dos grandes problemas dessa implementação é a falta de um gerenciador que garanta padrões únicos de 
metadados. Essa dificuldade é responsável pela falha na elaboração incremental do Data Warehouse. Podem 
ocorrer redundâncias de dados e inconsistências entre os Data Marts, mas que podem ser minimizados por 
meio de um planejamento, monitoração e estabelecimento de regras ( metodologia ). Outro problema é que 
o processo de extração pode tornar-se crítico na interferência junto aos sistemas transacionais, devido à 
estrutura de múltiplos Data Marts. 
 
Vantagens 
 
 
a construção dos Data Marts é altamente direcionada, permitindo um rápido desenvolvimento. 
Normalmente, um Data Marts pode ser colocado em produção em um período de quatro a nove meses; 
 
 
 
um dos maiores desafios do desenvolvimento de um ambiente DW é a manutenção do mesmo enfoque por 
toda a equipe. A elaboração de Data Marts incrementais permite que os principais negócios sejam enfocados 
inicialmente, sem que haja gastos no desenvolvimento de áreas que não são essenciais ao problema; 
 
 
 
a arquitetura baseada em Data Marts com incremento demonstra rapidamente seu valor, permitindo uma 
base para investimentos adicionais com um nível mais elevado de confiança; 
 
 
 
a estratégia de Data Marts incrementais obriga a entrega de recursos de informação passo a passo. Isso 
permite à equipe crescer e aprender, reduzindo risco. 
 
Desvantagens 
 
 
 
um dos maiores perigos no ambiente do Data Warehouse é a criação de Data Marts independentes. Essa 
solução pode não considerar a arquitetura de forma global. Desse modo, os Data Marts independentes 
transformam-se em Data Marts legados, ou “legamarts” que dificultam, quando não inviabilizam, futuras 
integrações. Acabam se tornando parte do problema e não da solução; 
 
 
 
durante a construção dos Data Marts incrementais, é necessário que se mantenha um rígido controle do 
negócio como um todo; 
 
 
 
normalmente, esse tipo de arquitetura emprega o desenvolvimento de Data Marts em paralelo. Isso pode 
conduzir a uma rígida administração, tentando coordenar os esforços e recursos das múltiplas equipes, 
especialmente nas áreas de regras e semântica empresariais; 
 
 
 
nesses casos, os usuários finais dos Data Marts encontram-se felizes querendo mais informação para seus 
Data Marts . Ao mesmo tempo, outros usuários de outros Data Marts aguardam o incremento de seus Data 
Marts . Isso obriga a equipe de Data Marts a vencer desafios políticos, de recurso e de administração. 
 
Implementação Intermediária 
 
Essa abordagem integra a implementação Top Down com a Bottom Up. Nessa abordagem, efetua-se a 
modelagem de dados do Data Warehouse com visão macro. A partir daí, cada Data Mart pode ser gerado a 
partir do macromodelo de dados do Data Warehouse e integrado ao modelo físico do Data Warehouse. A 
figura a seguir ilustra este tipo de abordagem: 
 
 
A principal vantagem dessa abordagem é a garantia da consistência dos dados, pois o modelo de dados para 
os Data Marts é único. 
 
A opção por um dos tipos de abordagem de implementação é influenciada por fatores como infra-estrutura 
de TI, arquitetura escolhida, escopo da implementação, recursos disponíveis e, principalmente, pela 
necessidade ou não de acesso aos dados corporativos, recursos disponíveis e velocidade de implementação. 
 
Vejamos as características de cada um destes tipos de abordagem: 
 
Metodologia para o Projeto de Data Warehouse 
 
O sucesso do desenvolvimento de um Data Warehouse depende da escolha correta da estratégia a ser 
adotada, de forma que seja adequada às características e necessidades específicas do ambiente onde será 
implementado. 
No que diz respeito à metodologia para o desenvolvimento de projetos de Data Warehouse não existe uma 
abordagem única entre os autores. A figura a seguir ilustra as etapas deste processo: 
 
 
 
 
 
Planejamento 
Nesta etapa ocorre a definição do escopo do projeto, considerando-se as áreas críticas da empresa e as 
necessidades mais permanentes de informações gerenciais. 
 
Levantamento de necessidades 
Nesta etapa serão identificados dois modelos de projeto: o modelo dimensional e o modelo relacionado às 
fontes das informações. 
O modelo dimensional representa os blocos conceituais de dados necessários para atender os objetivos do 
sistema de suporte à decisão. 
O modelo relacionado às fontes das informações permite avaliar a qualidade e a integridade dos dados-fonte, 
além da sua duração histórica. 
 
Modelagem Dimensional 
Consiste em fazer um projeto de quais os indicadores (medidas) que serão analisados, e as dimensões de 
análise, considerando quais indicadores são necessários para gerenciar o negócio. 
Deve considerar quais são os dados disponíveis para gerar os indicadores, e aqueles que precisam serem 
disponibilizados 
Como fator crítico de sucesso, a modelagem de dados deverá passar por observações nem sempre percebidas 
em um projeto de Banco de Dados convencional, como por exemplo, o nível de granularidade ou detalhe e o 
volume desses dados. 
 
Projeto Físico dos BDs 
Nessa etapa são definidas as tabelas Fato e Dimensão bem como os relacionamentos, indices e a 
implantação de regras associadas. 
 
Projeto ETL 
Nesta etapa são definidos vários elementos que irão compor as atividades do processo de ETL, por exemplo: 
Filtro de Dados: procedimentos e condições para se eliminar os elementos de dados indesejáveis no modelo 
dimensional; 
Integração de Dados: define a forma de se correlacionar informações existentes em fontes distintas, e que 
deverão ser integradas no Data Warehouse; 
Condensação de Dados: define a forma de se reduzir volumes de dados visando a obter informações 
resumidas e sumarizadas; 
Conversão/Integração de Dados: define os procedimentos para padronizar dados que se encontram com 
unidades, formatos e dimensões diferentes. Por exemplo: vendas de produtos no mês, produção de 
componentes por dia e compra de materiais por semana; 
Derivação de Dados: define os meios e fórmulas para produzir dados virtuais, a partir de dados existentes. 
 
Desenvolvimento de aplicações 
O objetivo final do Data Warehouse é o ambiente de consultas OLAP. Este ambiente deve ter uma interface 
amigável e simples, onde o usuário pode construir suas consultas, de acordo com sua necessidade ou 
intuição. Caso necessário podem ser desevolvidas aplicações para os usuários. Neste caso é preciso tomar 
cuidado com telas carregadas e excessos de informação. 
 As aplicações ou ferramentas deste ambente devem possibilitar a visualização de dados em formas variadas 
e a importação dos dados obtidos para ferramentas do usuário final, como por exemplo, planilhas e 
processadores de textos. 
 
Validação e Teste 
Nesta etapa o sistema é testado considerando-se, o máximo possível, as simulações de volume e de 
processamentos. 
 
Treinamento 
Nesta etapa todos os usuários envolvidos com a atividade gerencial de negócio deverão ser treinados, não 
apenas às ferramentas/aplicações, mas também nos conceitos associados ao Data Warehouse. 
 
Implantação 
A etapa de implantação deveráconter um rigoroso acompanhamento de uso das aplicações 
disponibilizadas. Para isto, a equipe do projeto deverá incentivar os usuários a apresentarem críticas e 
sugestões de melhorias para as próximas versões do sistema. 
 
Considerações sobre o Projeto de Data Warehouse 
 
As etapas de Planejamento e Modelagem são decisivas para o sucesso de sua implementação. Uma solução 
bem desenhada tem por objetivos: 
 
Analisar as informações dos usuários, satisfazendo suas necessidades. 
Monitorar e comparar as operações do momento atual com momentos passados. 
Prever situações futura 
 
Projeto Data Warehouse – Mitos e Fatos 
 
 
 
 
Principais Aplicações Comerciais que utilizam Data Warehouse 
 
 
 
Saiba mais: 
Para saber mais sobre os tópicos estudados nesta aula, pesquise na internet sites, vídeos 
e artigos sobre casos de empresas que utilizam o Data Warehouse, para refinar seu 
conhecimento. Se ainda tiver alguma dúvida, fale com seu professor online utilizando os 
recursos disponíveis no ambiente de aprendizagem.

Outros materiais