Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 10 – Processo Datawarehousing Ambiente do Data Warehouse Vamos inciar nossa aula observando novamente o ambiente onde está inserido o Data Warehouse: Podemos verificar que os dados são inicialmente extraídos de sistemas operacionais e de fontes externas, posteriormente são integrados e transformados para serem carregados no Data Warehouse. Esta é uma etapa crítica da construção de um Data Warehouse pois envolve toda a movimentação dos dados. A mesma se dá basicamente em três passos, conhecidos como Extração, Transformação (passo este que inclui a limpeza dos dados) e Carga dos dados. Este processo é conhecido na áea de TI como Processo ETL Este processo é responsável por integrar, transformar e salvar dados, não importando sua fonte nem seu destino. Os dados, oriundos de diversas fontes de dados são submetidos a severas transformações e disponibilizados de forma normalizada. Em ambientes complexos existe a possibilidade de utilização de softwares que executam as transformações automaticamente. Dependendo da periodicidade de atualização dos dados devem ser estabelecidos mecanismos de sincronização de dados para garantir a integridade dos dados. Extração de dados A extração é o primeiro passo na obtenção de dados para o ambiente do DW. Basicamente diz respeito à busca dos dados nas diversas fontes de origem e à cópia destes dados para a área de transformação de dados, a fim de serem trabalhadas posteriormente. Nesta construção deste processo é fundamental o acesso e a clara compreensão dos dados de origem. Normalmente há a geração de arquivos intermediários para a carga uma vez que a existência de uma única fonte de dados é rara. Uma vez que os dados são extraídos devem passar por uma série de tratamentos. O primeiro passo destes tratamentos refere-se à limpeza ou filtragem dos dados, onde o objetivo é garantir a integridade dos dados através de programas ou rotinas especiais que tentam identificar anomalias e resolve-las, deixando os dados em um estado consistente antes de serem instalados no Data Warehouse. Exemplos: correção de erros de digitação, descoberta de violações de integridade, substituição de caracteres desconhecidos, padronização de abreviações. Em algumas situações, múltiplos estágios de transformações são necessários para que o dado possa ser migrado para o Data Warehouse, dependendo da natureza dos sistemas fontes. A etapa de Transformação dos Dados é a maior preocupação da área de informática pois se não existir uma estratégia adequada, o Data Warehouse pode falhar. Transformação de dados É comum a utilização dos seguintes termos quando nos referimos à Transformação de Dados: Limpeza Tem por objetivo deixar os elementos de dados padronizados (uniformizados), não duplicados, corretos, consistentes e espelhando a realidade. Dentre as atividades executadas podemos citar a correção de inconsistências de códigos e caracteres especiais, solução de problemas de conflito de domínios, recuperação de dados perdidos e a correção de valores duplicados ou errados. Integração Enriquecimento Qualificação (Scoring) Validação Atualização de mudanças Cálculos Locais Potenciais de “Dados Sujos” - casas decimais - truncagem, regras de arredondamento - galões/litros - Mudanças de códigos e algorítimos - Diferentes regras de codificação - Reutilização de códigos - Proibido em Data Warehouse!!!! - Não há forma possível de análise - Não há forma de “tradução” da linguagem natural Carga de dados Depois de transformados e “limpos” os dados estão aptos para serem carregados no Data Warehouse. A etapa de carga também demanda muita atenção de TI pois exige uma série de cuidados, por exemplo: Assim como nos bancos de dados operacionais, é preciso asegurar que as regras de integridade das chaves estrangeiras sejam respeitadas no momento da carga. A carga incremental normalmente é feita para tabelas de fatos e a carga total é feita em tabelas de dimensão onde o analista terá que excluir os dados existentes e incluí-los novamente. Mas isso depende da necessidade do negócio em questão. Todo banco de dados possui um conjunto de técnicas para otimizar o processo de carga, tais como evitar a geração de log durante o processo, criar índices e agregar dados. O serviço de carga também precisa suportar as exigências antes e depois da carga atual, como eliminar e recriar índices e particionamento físico de tabelas e índices. Todas estas atividades que devem ser asseguradas pelo Processo ETL são discutidas e definidas quando da etapa de Projeto do Data Warehouse, que será nosso próximo assunto. Antes vamos entender as dificuldades do Processo ETL. Dificuldades do Processo ETL Externas - Prazos muito curtos; - Relacionamento com outras equipes: - a falta de tempo dos analistas OLTP - a falta de paciência dos usuários; Falta de documentação: - Necessidade de reduzir custos do projeto. Internas Qual é o resultado de enganos sucessivos no ETL? Estes dados estão errados!!!! - Perda da confiança dos usuários; - Perda da motivação dos usuários para apoiar; - Redução no moral da equipe de sistemas Quanto custa a baixa qualidade dos dados ? Rever regras de negócio, distorções dos dados nas fontes e nos destinos; Rever o processo (etapa a etapa); Corrigir programas, rotinas e dados; Refazer a carga, analisar resultados e ajustar; Convencer os usuários, a gerência, etc a acreditar no projeto; Desenvolver aplicações fora do escopo original para ajudar no convencimento do usuário. Tipos de Implementação do DW As abordagens de implementação de Data Warehouse em uso pelas organizações são três: Implementação Top Down Esta abordagem é conhecida como padrão inicial do conceito de Data Warehouse e necessita de maior planejamento assim como demanda um trabalho maior de definições conceituais de tecnologia antes de iniciar-se o projeto propriamente dito. As decisões sobre fontes de dados que serão utilizadas, segurança, estruturas de dados, qualidade de dados, padrões de dados e os vários modelos de dados dos sistemas transacionais atuais devem estar completos antes do início da implementação. Nesta arquitetura o processo se inicia com a extração, a transformação e a integração das informações dos sistemas transacionais e dados externos para um ODS ou diretamente das fontes operacionais. A seguir, os dados e metadados são transferidos para o Data Warehouse, a partir do qual são extraídos os dados e metadados para os Data Marts, onde as informações estão em maior nível de sumarização e, normalmente, não apresentam o nível histórico encontrado no Data Warehouse. A figura a seguir ilustra este tipo de abordagem: O ponto positivo a se detacar na abordagem Top Down é que obriga a empresa a definir regras de negócio de forma corporativa, antes de iniciar-se o projeto de Data Warehouse em si. Implementação Bottom Up Esta abordagem permite que o planejamento e o desenho dos Data Marts possam ser realizados sem esperar que seja definida uma infra-estrutura corporativa para o Data Warehouse. Essa infra-estrutura não deixará de existir, apenas poderá ser implementada incrementalmente conforme forem sendo realizados os Data Marts. Como a implementação Top Down é politicamentedifícil de ser definida e cara, a abordagem Bottom Up vem se tornando popular. É bastante aceita pelos executivos por possuir um retorno de investimento rápido. O objetivo desta implementação é a construção de um Data Warehouse incremental a partir do desenvolvimento de Data Marts independentes. O processo começa com a extração, a transformação e a integração dos dados para um ou mais Data Marts. A figura a seguir ilustra este tipo de abordagem: Um dos grandes problemas dessa implementação é a falta de um gerenciador que garanta padrões únicos de metadados. Essa dificuldade é responsável pela falha na elaboração incremental do Data Warehouse. Podem ocorrer redundâncias de dados e inconsistências entre os Data Marts, mas que podem ser minimizados por meio de um planejamento, monitoração e estabelecimento de regras ( metodologia ). Outro problema é que o processo de extração pode tornar-se crítico na interferência junto aos sistemas transacionais, devido à estrutura de múltiplos Data Marts. Vantagens a construção dos Data Marts é altamente direcionada, permitindo um rápido desenvolvimento. Normalmente, um Data Marts pode ser colocado em produção em um período de quatro a nove meses; um dos maiores desafios do desenvolvimento de um ambiente DW é a manutenção do mesmo enfoque por toda a equipe. A elaboração de Data Marts incrementais permite que os principais negócios sejam enfocados inicialmente, sem que haja gastos no desenvolvimento de áreas que não são essenciais ao problema; a arquitetura baseada em Data Marts com incremento demonstra rapidamente seu valor, permitindo uma base para investimentos adicionais com um nível mais elevado de confiança; a estratégia de Data Marts incrementais obriga a entrega de recursos de informação passo a passo. Isso permite à equipe crescer e aprender, reduzindo risco. Desvantagens um dos maiores perigos no ambiente do Data Warehouse é a criação de Data Marts independentes. Essa solução pode não considerar a arquitetura de forma global. Desse modo, os Data Marts independentes transformam-se em Data Marts legados, ou “legamarts” que dificultam, quando não inviabilizam, futuras integrações. Acabam se tornando parte do problema e não da solução; durante a construção dos Data Marts incrementais, é necessário que se mantenha um rígido controle do negócio como um todo; normalmente, esse tipo de arquitetura emprega o desenvolvimento de Data Marts em paralelo. Isso pode conduzir a uma rígida administração, tentando coordenar os esforços e recursos das múltiplas equipes, especialmente nas áreas de regras e semântica empresariais; nesses casos, os usuários finais dos Data Marts encontram-se felizes querendo mais informação para seus Data Marts . Ao mesmo tempo, outros usuários de outros Data Marts aguardam o incremento de seus Data Marts . Isso obriga a equipe de Data Marts a vencer desafios políticos, de recurso e de administração. Implementação Intermediária Essa abordagem integra a implementação Top Down com a Bottom Up. Nessa abordagem, efetua-se a modelagem de dados do Data Warehouse com visão macro. A partir daí, cada Data Mart pode ser gerado a partir do macromodelo de dados do Data Warehouse e integrado ao modelo físico do Data Warehouse. A figura a seguir ilustra este tipo de abordagem: A principal vantagem dessa abordagem é a garantia da consistência dos dados, pois o modelo de dados para os Data Marts é único. A opção por um dos tipos de abordagem de implementação é influenciada por fatores como infra-estrutura de TI, arquitetura escolhida, escopo da implementação, recursos disponíveis e, principalmente, pela necessidade ou não de acesso aos dados corporativos, recursos disponíveis e velocidade de implementação. Vejamos as características de cada um destes tipos de abordagem: Metodologia para o Projeto de Data Warehouse O sucesso do desenvolvimento de um Data Warehouse depende da escolha correta da estratégia a ser adotada, de forma que seja adequada às características e necessidades específicas do ambiente onde será implementado. No que diz respeito à metodologia para o desenvolvimento de projetos de Data Warehouse não existe uma abordagem única entre os autores. A figura a seguir ilustra as etapas deste processo: Planejamento Nesta etapa ocorre a definição do escopo do projeto, considerando-se as áreas críticas da empresa e as necessidades mais permanentes de informações gerenciais. Levantamento de necessidades Nesta etapa serão identificados dois modelos de projeto: o modelo dimensional e o modelo relacionado às fontes das informações. O modelo dimensional representa os blocos conceituais de dados necessários para atender os objetivos do sistema de suporte à decisão. O modelo relacionado às fontes das informações permite avaliar a qualidade e a integridade dos dados-fonte, além da sua duração histórica. Modelagem Dimensional Consiste em fazer um projeto de quais os indicadores (medidas) que serão analisados, e as dimensões de análise, considerando quais indicadores são necessários para gerenciar o negócio. Deve considerar quais são os dados disponíveis para gerar os indicadores, e aqueles que precisam serem disponibilizados Como fator crítico de sucesso, a modelagem de dados deverá passar por observações nem sempre percebidas em um projeto de Banco de Dados convencional, como por exemplo, o nível de granularidade ou detalhe e o volume desses dados. Projeto Físico dos BDs Nessa etapa são definidas as tabelas Fato e Dimensão bem como os relacionamentos, indices e a implantação de regras associadas. Projeto ETL Nesta etapa são definidos vários elementos que irão compor as atividades do processo de ETL, por exemplo: Filtro de Dados: procedimentos e condições para se eliminar os elementos de dados indesejáveis no modelo dimensional; Integração de Dados: define a forma de se correlacionar informações existentes em fontes distintas, e que deverão ser integradas no Data Warehouse; Condensação de Dados: define a forma de se reduzir volumes de dados visando a obter informações resumidas e sumarizadas; Conversão/Integração de Dados: define os procedimentos para padronizar dados que se encontram com unidades, formatos e dimensões diferentes. Por exemplo: vendas de produtos no mês, produção de componentes por dia e compra de materiais por semana; Derivação de Dados: define os meios e fórmulas para produzir dados virtuais, a partir de dados existentes. Desenvolvimento de aplicações O objetivo final do Data Warehouse é o ambiente de consultas OLAP. Este ambiente deve ter uma interface amigável e simples, onde o usuário pode construir suas consultas, de acordo com sua necessidade ou intuição. Caso necessário podem ser desevolvidas aplicações para os usuários. Neste caso é preciso tomar cuidado com telas carregadas e excessos de informação. As aplicações ou ferramentas deste ambente devem possibilitar a visualização de dados em formas variadas e a importação dos dados obtidos para ferramentas do usuário final, como por exemplo, planilhas e processadores de textos. Validação e Teste Nesta etapa o sistema é testado considerando-se, o máximo possível, as simulações de volume e de processamentos. Treinamento Nesta etapa todos os usuários envolvidos com a atividade gerencial de negócio deverão ser treinados, não apenas às ferramentas/aplicações, mas também nos conceitos associados ao Data Warehouse. Implantação A etapa de implantação deveráconter um rigoroso acompanhamento de uso das aplicações disponibilizadas. Para isto, a equipe do projeto deverá incentivar os usuários a apresentarem críticas e sugestões de melhorias para as próximas versões do sistema. Considerações sobre o Projeto de Data Warehouse As etapas de Planejamento e Modelagem são decisivas para o sucesso de sua implementação. Uma solução bem desenhada tem por objetivos: Analisar as informações dos usuários, satisfazendo suas necessidades. Monitorar e comparar as operações do momento atual com momentos passados. Prever situações futura Projeto Data Warehouse – Mitos e Fatos Principais Aplicações Comerciais que utilizam Data Warehouse Saiba mais: Para saber mais sobre os tópicos estudados nesta aula, pesquise na internet sites, vídeos e artigos sobre casos de empresas que utilizam o Data Warehouse, para refinar seu conhecimento. Se ainda tiver alguma dúvida, fale com seu professor online utilizando os recursos disponíveis no ambiente de aprendizagem.
Compartilhar