Baixe o app para aproveitar ainda mais
Prévia do material em texto
- -1 INTELIGÊNCIA EMPRESARIAL PROCESSOS DATAWAREHOUSING - -2 Olá! Nesta aula, você irá: 1. Entender o processo de construção do Data Warehouse, suas etapas e interligações. Ambiente do Data Warehouse Vamos inciar nossa aula observando novamente o ambiente onde está inserido o Data Warehouse: Podemos verificar que os dados são inicialmente extraídos de sistemas operacionais e de fontes externas, posteriormente são integrados e transformados para serem carregados no Data Warehouse. Esta é uma etapa crítica da construção de um Data Warehouse pois envolve toda a movimentação dos dados. A mesma se dá basicamente em três passos, conhecidos como Extração, Transformação (passo este que inclui a limpeza dos dados) e Carga dos dados. Este processo é conhecido na áea de TI como Processo ETL Este processo é responsável por integrar, transformar e salvar dados, não importando sua fonte nem seu destino. Os dados, oriundos de diversas fontes de dados são submetidos a severas transformações e disponibilizados de forma normalizada. Em ambientes complexos existe a possibilidade de utilização de softwares que executam as transformações automaticamente. - -3 Dependendo da periodicidade de atualização dos dados devem ser estabelecidos mecanismos de sincronização de dados para garantir a integridade dos dados. Extração de dados A extração é o primeiro passo na obtenção de dados para o ambiente do DW. Basicamente diz respeito à busca dos dados nas diversas fontes de origem e à cópia destes dados para a área de transformação de dados, a fim de serem trabalhadas posteriormente. Nesta construção deste processo é fundamental o acesso e a clara compreensão dos dados de origem. Normalmente há a geração de arquivos intermediários para a carga uma vez que a existência de uma única fonte de dados é rara. Uma vez que os dados são extraídos devem passar por uma série de tratamentos. O primeiro passo destes tratamentos refere-se à limpeza ou filtragem dos dados, onde o objetivo é garantir a integridade dos dados através de programas ou rotinas especiais que tentam identificar anomalias e resolve-las, deixando os dados em um estado consistente antes de serem instalados no Data Warehouse. Exemplos: correção de erros de digitação, descoberta de violações de integridade, substituição de caracteres desconhecidos, padronização de abreviações. Em algumas situações, múltiplos estágios de transformações são necessários para que o dado possa ser migrado para o Data Warehouse, dependendo da natureza dos sistemas fontes. A etapa de Transformação dos Dados é a maior preocupação da área de informática pois se não existir uma estratégia adequada, o Data Warehouse pode falhar. Transformação de dados É comum a utilização dos seguintes termos quando nos referimos à Transformação de Dados: Limpeza - -4 Tem por objetivo deixar os elementos de dados padronizados (uniformizados), não duplicados, corretos, consistentes e espelhando a realidade. Dentre as atividades executadas podemos citar a correção de inconsistências de códigos e caracteres especiais, solução de problemas de conflito de domínios, recuperação de dados perdidos e a correção de valores duplicados ou errados. Integração Enriquecimento Qualificação (Scoring) Validação Atualização de mudanças Cálculos Locais Potenciais de “Dados Sujos” Quantidades • casas decimais • truncagem, regras de arredondamento • galões/litros Dados codificados • Mudanças de códigos e algorítimos • Diferentes regras de codificação • Reutilização de códigos Texto puro • Proibido em Data Warehouse!!!! • Não há forma possível de análise • Não há forma de “tradução” da linguagem natural Carga de dados Depois de transformados e “limpos” os dados estão aptos para serem carregados no Data Warehouse. A etapa de carga também demanda muita atenção de TI pois exige uma série de cuidados, por exemplo: Integridade dos dados Assim como nos bancos de dados operacionais, é preciso asegurar que as regras de integridade das chaves estrangeiras sejam respeitadas no momento da carga. Tipos de carga a ser realizadas – incremental ou total A carga incremental normalmente é feita para tabelas de fatos e a carga total é feita em tabelas de dimensão onde o analista terá que excluir os dados existentes e incluí-los novamente. Mas isso depende da necessidade do negócio em questão. Otimização do processo de carga • • • • • • • • • - -5 Todo banco de dados possui um conjunto de técnicas para otimizar o processo de carga, tais como evitar a geração de log durante o processo, criar índices e agregar dados. Suporte completo ao processo de carga O serviço de carga também precisa suportar as exigências antes e depois da carga atual, como eliminar e recriar índices e particionamento físico de tabelas e índices. Todas estas atividades que devem ser asseguradas pelo Processo ETL são discutidas e definidas quando da etapa de Projeto do Data Warehouse, que será nosso próximo assunto. Antes vamos entender as dificuldades do Processo ETL. Dificuldades do Processo ETL Externas • Prazos muito curtos; • Relacionamento com outras equipes: - a falta de tempo dos analistas OLTP - a falta de paciência dos usuários; Falta de documentação: • Necessidade de reduzir custos do projeto. Internas Extração • Erros humanos como troca de nomes e tipos de variáveis; • Uso de regras de extração em desarmonia com as regras necessárias; • Dados não esperados sendo extraídos (tipo, tamanho, formato e conteúdo). Transporte • Incompatibilidade entre ambientes operacionais diferentes; • Necessidade de quebrar o processo em etapas gerando dados estocados. Transformação • Inserção de erros de transformação (escala de valor ou unidade); • Uso de equações matemáticas. Carga de dados • Aplicação de seleções não planejadas no momento da carga; • Erros de codificação, tipo e formato de dados; • Diferença entre modelagens de dados. Qual é o resultado de enganos sucessivos no ETL? • • • • • • • • • • • • • - -6 • Perda da confiança dos usuários; • Perda da motivação dos usuários para apoiar; • Redução no moral da equipe de sistemas Quanto custa a baixa qualidade dos dados ? • Rever regras de negócio, distorções dos dados nas fontes e nos destinos; • Rever o processo (etapa a etapa); • Corrigir programas, rotinas e dados; • Refazer a carga, analisar resultados e ajustar; • Convencer os usuários, a gerência, etc a acreditar no projeto; • Desenvolver aplicações fora do escopo original para ajudar no convencimento do usuário. Tipos de Implementação do DW As abordagens de implementação de Data Warehouse em uso pelas organizações são três: Top down Implementação Top Down Esta abordagem é conhecida como padrão inicial do conceito de Data Warehouse e necessita de maior planejamento assim como demanda um trabalho maior de definições conceituais de tecnologia antes de iniciar- se o projeto propriamente dito. As decisões sobre fontes de dados que serão utilizadas, segurança, estruturas de dados, qualidade de dados, padrões de dados e os vários modelos de dados dos sistemas transacionais atuais devem estar completos antes do início da implementação. Nesta arquitetura o processo se inicia com a extração, a transformação e a integração das informações dos sistemas transacionais e dados externos para um ODS ou diretamente das fontes operacionais. A seguir, os dados e metadados são transferidos para o Data Warehouse, a partir do qual são extraídos os dados e metadados para • • • • • • • • • - -7 os Data Marts, onde as informações estão em maior nível de sumarização e, normalmente, não apresentam o nível histórico encontrado no Data Warehouse. A figura a seguir ilustra este tipo de abordagem: Fonte: Adaptado de Oliveira, S.R. M - Data Warehouse: Arquitetura, Projeto e Abordagens de Implementação O ponto positivo a se detacar na abordagem Top Down é que obriga a empresa a definir regras de negócio de forma corporativa, antes de iniciar-se o projeto de Data Warehouseem si. Vantagens Herança de arquitetura: todos os Data Marts originados de um Data Warehouse utilizam a arquitetura e os dados desse DW, facilitando a manutenção; Visão de empreendimento: todos os negócios da empresa estão concentrados no Data Warehouse; Repositório de metadados centralizado e simples: essa centralização permite manutenções mais simples do que quando da utilização de múltiplos repositórios; Herança de arquitetura: a arquitetura top down garante a existência de um único conjunto de aplicações para extração, limpeza e integração dos dados, além de processos centralizados de manutenção e monitoração. Desvantagens Implementação muito longa: os Data Warehouses são, normalmente, desenvolvidos de forma iterativa, por áreas de assuntos. Como, finanças, vendas e recursos humanos. Mesmo assim, são necessários, em média, 15 ou mais meses para que a primeira área de assunto entre em produção, dificultando a garantia de apoio político e orçamentário; Alta taxa de risco: não existem garantias para o investimento nesse tipo de ambiente; - -8 Herança de cruzamentos funcionais: é necessária uma equipe de desenvolvedores e usuários finais altamente capacitados, para avaliar as informações e consultas que garantam à empresa habilidade para sobreviver e prosperar nas competições políticas e organizacionais; Expectativas relacionadas ao ambiente: a demora do projeto e a falta de retorno podem aumentar as expectativas dos usuários. Bottom Up Implementação Bottom Up Esta abordagem permite que o planejamento e o desenho dos Data Marts possam ser realizados sem esperar que seja definida uma infra-estrutura corporativa para o Data Warehouse. Essa infra-estrutura não deixará de existir, apenas poderá ser implementada incrementalmente conforme forem sendo realizados os Data Marts. Como a implementação Top Down é politicamente difícil de ser definida e cara, a abordagem Bottom Up vem se tornando popular. É bastante aceita pelos executivos por possuir um retorno de investimento rápido. O objetivo desta implementação é a construção de um Data Warehouse incremental a partir do desenvolvimento de Data Marts independentes. O processo começa com a extração, a transformação e a integração dos dados para um ou mais Data Marts. A figura a seguir ilustra este tipo de abordagem: Fonte: Adaptado de Oliveira, S.R. M - Data Warehouse: Arquitetura, Projeto e Abordagens de Implementação Um dos grandes problemas dessa implementação é a falta de um gerenciador que garanta padrões únicos de metadados. Essa dificuldade é responsável pela falha na elaboração incremental do Data Warehouse. Podem - -9 ocorrer redundâncias de dados e inconsistências entre os Data Marts, mas que podem ser minimizados por meio de um planejamento, monitoração e estabelecimento de regras ( metodologia ). Outro problema é que o processo de extração pode tornar-se crítico na interferência junto aos sistemas transacionais, devido à estrutura de múltiplos Data Marts. Vantagens Implementação rápida: a construção dos Data Marts é altamente direcionada, permitindo um rápido desenvolvimento. Normalmente, um Data Marts pode ser colocado em produção em um período de quatro a nove meses; Manutenção do enfoque da equipe: um dos maiores desafios do desenvolvimento de um ambiente DW é a manutenção do mesmo enfoque por toda a equipe. A elaboração de Data Marts incrementais permite que os principais negócios sejam enfocados inicialmente, sem que haja gastos no desenvolvimento de áreas que não são essenciais ao problema; Retorno rápido: a arquitetura baseada em Data Marts com incremento demonstra rapidamente seu valor, permitindo uma base para investimentos adicionais com um nível mais elevado de confiança; Herança incremental: a estratégia de Data Marts incrementais obriga a entrega de recursos de informação passo a passo. Isso permite à equipe crescer e aprender, reduzindo risco. Desvantagens Perigo de “legamarts”: um dos maiores perigos no ambiente do Data Warehouse é a criação de Data Marts independentes. Essa solução pode não considerar a arquitetura de forma global. Desse modo, os Data Marts independentes transformam-se em Data Marts legados, ou “legamarts” que dificultam, quando não inviabilizam, futuras integrações. Acabam se tornando parte do problema e não da solução; Desafio de possuir a visão do empreendimento: durante a construção dos Data Marts incrementais, é necessário que se mantenha um rígido controle do negócio como um todo; Administrar e coordenar múltiplas equipes e iniciativas: normalmente, esse tipo de arquitetura emprega o desenvolvimento de Data Marts em paralelo. Isso pode conduzir a uma rígida administração, tentando coordenar os esforços e recursos das múltiplas equipes, especialmente nas áreas de regras e semântica empresariais; A maldição de sucesso: nesses casos, os usuários finais dos Data Marts encontram-se felizes querendo mais informação para seus Data Marts . Ao mesmo tempo, outros usuários de outros Data Marts aguardam o incremento de seus Data Marts . Isso obriga a equipe de Data Marts a vencer desafios políticos, de recurso e de administração. - -10 A opção por um dos tipos de abordagem de implementação é influenciada por fatores como infra-estrutura de TI, arquitetura escolhida, escopo da implementação, recursos disponíveis e, principalmente, pela necessidade ou não de acesso aos dados corporativos, recursos disponíveis e velocidade de implementação. Vejamos as características de cada um destes tipos de abordagem: Metodologia para o Projeto de Data Warehouse (Fonte: Adaptado de Oliveira, S.R. M - Data Warehouse: Arquitetura, Projeto e Abordagens de Implementação e Favaretto, F. – material de aula - PUC/PR) O sucesso do desenvolvimento de um Data Warehouse depende da escolha correta da estratégia a ser adotada, de forma que seja adequada às características e necessidades específicas do ambiente onde será implementado. No que diz respeito à metodologia para o desenvolvimento de projetos de Data Warehouse não existe uma abordagem única entre os autores. A figura a seguir ilustra as etapas deste processo: Fonte: Adaptado de Oliveira, S.R. M - Data Warehouse: Arquitetura, Projeto e Abordagens de Implementação - -11 Planejamento: Nesta etapa ocorre a definição do escopo do projeto, considerando-se as áreas críticas da empresa e as necessidades mais permanentes de informações gerenciais. Levantamento de necessidades: Nesta etapa serão identificados dois modelos de projeto: o modelo dimensional e o modelo relacionado às fontes das informações. O modelo dimensional representa os blocos conceituais de dados necessários para atender os objetivos do sistema de suporte à decisão. O modelo relacionado às fontes das informações permite avaliar a qualidade e a integridade dos dados-fonte, além da sua duração histórica. Modelagem Dimensional: Consiste em fazer um projeto de quais os indicadores (medidas) que serão analisados, e as dimensões de análise, considerando quais indicadores são necessários para gerenciar o negócio. Deve considerar quais são os dados disponíveis para gerar os indicadores, e aqueles que precisam serem disponibilizados Como fator crítico de sucesso, a modelagem de dados deverá passar por observações nem sempre percebidas em um projeto de Banco de Dados convencional, como por exemplo, o nível de granularidade ou detalhe e o volume desses dados. Desenvolvimento de aplicações: O objetivo final do Data Warehouse é o ambiente de consultas OLAP. Este ambiente deve ter uma interface amigável e simples, onde o usuário pode construir suas consultas, de acordo com sua necessidade ou intuição. Caso necessário podem ser desevolvidas aplicações para os usuários. Neste caso é preciso tomar cuidado com telas carregadas e excessos de informação. - -12 As aplicações ou ferramentas deste ambente devem possibilitar a visualização de dados em formas variadas e a importação dos dados obtidos para ferramentas do usuário final, comopor exemplo, planilhas e processadores de textos. Projeto ETL: Nesta etapa são definidos vários elementos que irão compor as atividades do processo de ETL, por exemplo: Filtro de Dados: procedimentos e condições para se eliminar os elementos de dados indesejáveis no modelo dimensional; Integração de Dados: define a forma de se correlacionar informações existentes em fontes distintas, e que deverão ser integradas no Data Warehouse; Condensação de Dados: define a forma de se reduzir volumes de dados visando a obter informações resumidas e sumarizadas; Conversão/Integração de Dados: define os procedimentos para padronizar dados que se encontram com unidades, formatos e dimensões diferentes. Por exemplo: vendas de produtos no mês, produção de componentes por dia e compra de materiais por semana; Derivação de Dados: define os meios e fórmulas para produzir dados virtuais, a partir de dados existentes. Projeto Físico dos BDs: Nessa etapa são definidas as tabelas Fato e Dimensão bem como os relacionamentos, indices e a implantação de regras associadas. Validação e testes: Nesta etapa o sistema é testado considerando-se, o máximo possível, as simulações de volume e de processamentos. Treinamento: Nesta etapa todos os usuários envolvidos com a atividade gerencial de negócio deverão ser treinados, não apenas às ferramentas/aplicações, mas também nos conceitos associados ao Data Warehouse. Implantação: A etapa de implantação deverá conter um rigoroso acompanhamento de uso das aplicações disponibilizadas. Para isto, a equipe do projeto deverá incentivar os usuários a apresentarem críticas e sugestões de melhorias para as próximas versões do sistema. Considerações sobre o Projeto de Data Warehouse As etapas de Planejamento e Modelagem são decisivas para o sucesso de sua implementação. Uma solução bem desenhada tem por objetivos: • Analisar as informações dos usuários, satisfazendo suas necessidades. • Monitorar e comparar as operações do momento atual com momentos passados. • Prever situações futuras. Projeto Data Warehouse – Mitos e Fatos • • • - -13 Principais Aplicações Comerciais que utilizam Data Warehouse Saiba mais Para saber mais sobre os tópicos estudados nesta aula, pesquise na internet sites, vídeos e artigos sobre casos de empresas que utilizam o Data Warehouse, para refinar seu conhecimento. Se ainda tiver alguma dúvida, fale com seu professor online utilizando os recursos disponíveis no ambiente de aprendizagem. - -14 CONCLUSÃO Nesta aula, você: • Compreendeu o processo de construção do Data Warehouse, suas etapas e interligações.•
Compartilhar