Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 7 – Data Warehouse Introdução Como vimos na nossa aula 1 as questões para tomada de decisão impõem novos requisitos aos SGBDs, uma vez que os dados utilizados para suporte à decisão são conceitualmente diferentes dos dados utilizados nos bancos de dados para processamento de transações. Diariamente nas organizações uma grande quantidade de dados sobre as diversas operações é gerada e armazenada. Os sistemas utilizados no dia-a-dia das empresas são projetados para permitir o funcionamento da organização e não são adequados para apoiar a análise destes dados por tomadores de decisão. Os tomadores de decisão necessitam de informações confiáveis sobre operações atuais, tendências e mudanças. Além disso, os dados necessários para a tomada de decisão estão espalhados em diversas áreas da empresa. Consequentemente, a integração e análise dos dados existentes nestes diferentes sistemas, é uma tarefa árdua que demanda tempo e recursos. Por este motivo, surge a necessidade de um ambiente voltado para os tomadores de decisão, que permita que estes analisem dados confiáveis de forma eficiente e flexível. Os bancos de dados que conseguem armazenar tais dados e arquiteturas computacionais que podem processar estes dados também são diferentes, assim como também são diferentes as características dos sistemas que permitem a consulta a estas bases de tomada de decisão. Data Warehouse Para suprir as deficiências de inadequação do ambiente operacional para análise de informações pelos tomadores de decisão, surge o Data Warehouse, que integra e organiza os dados de modo consistente, confiável e disponível, sempre que necessário. Mas ....o que é o Data Warehouse? Segundo Turban et All, “Um data warehouse é um conjunto de dados produzido para oferecer suporte à tomada de decisões; é um repositório de dados atuais e históricos de possível interesse aos gerentes de toda a organização. Os dados normalmente são estruturados de modo a estarem disponíveis em um formato pronto para as atividades de processamento analítico. Portanto, um data warehouse é uma coleção de dados orientada por asunto, integrada, variável no tempo e não volátil, que proporciona suporte ao processo de tomada de decisão” Atenção! O Data Warehouse é um banco de dados que armazena dados sobre as operações da empresa como, por exemplo, vendas e compras, extraídos de uma fonte única ou múltipla, oferecendo enfoque histórico, para permitir um suporte efetivo à tomada de decisão. Este banco de dados é construído utilizando-se processos de limpeza, transformação, integração e carga dos dados, e atualizado periodicamente. Características do Date Warehouse Vamos então, aprender um pouco mais sobre as características do Data Warehouse. Integração Os dados necessários aos tomadores de decisão estão em diversas áreas da empresa. Geralmente esses dados não estão padronizados e é necessário integrar antes de serem carregados em um DW de forma que passem a ter um único significado. A maior parte do trabalho na construção de um DW está na análise dos sistemas em operação e dos dados que ele contém. Como não existem padrões de codificação, cada analista pode definir a mesma estrutura de dados de várias formas, fazendo com que dados que signifiquem a mesma informação sejam representados de diversas maneiras dentro dos sistemas utilizados pela empresa o longo dos anos. Exemplo: A representação do sexo de uma pessoa pode ter sido definida como um campo alfanumérico de uma posição: M ou F e em outro sistema a mesma informação pode ser representada por 1 e 0 ou H e M, e assim por diante. Volatilidade Os dados não sofrem atualizações. Eles são carregados uma única vez e, a partir desse momento, só podem ser consultados, pois representam as informações em um determinado instante de tempo. Os dados passam por filtros antes de entrarem no DW; com isso, muitos dados nunca saem do ambiente transacional e outros são resumidos de tal forma que não são encontrados fora do DW. Variante no tempo Os dados são armazenados para fornecer informações de uma perspectiva histórica. A cada mudança ocorrida num dado, uma nova entrada é criada e não atualizada, como acontece nos sistemas tradicionais. Localização Os dados podem estar fisicamente armazenados de três formas: centralizados, distribuídos e por níveis de detalhes. Centralizados: solução muito utilizada, mas com o inconveniente de requerer investimento em um servidor com alta capacidade de processamento e armazenamento. Distribuídos: dados armazenados em diferentes locais, chamados DataMarts, de acordo com áreas de interesse (Exemplo: financeiro, marketing). Níveis de Detalhes: dados altamente consolidados/resumidos em um servidor e dados detalhados em outro. Credibilidade de dados Para o sucesso de qualquer Data Warehouse é determinante a credibilidade dos dados. Simples distorções podem causar sérios problemas quando se quer extrair dados para suportar decisões estratégicas para o negócio das empresas. Dados não confiáveis podem resultar em relatórios inúteis, sem importância. Por exemplo, um simples CEP errado não afetará uma simples transação de compra e venda, mas poderá influenciar informações referentes a uma cobertura geográfica ou uma expansão de rede de filiais. Orientado ao assunto Um DW sempre armazena dados importantes sobre temas específicos da empresa de acordo com o interesse das pessoas que irão utilizá-los. Exemplo: Assunto clientes e faturamento para os setores de marketing e finanças. Data Warehouse: Forma de funcionamento A partir do Data Warehouse é possível a obtenção de modo imediato de respostas para perguntas que normalmente não possuem respostas em seus sistemas operacionais, permitindo a tomada de decisão com base em fatos, não em intuições ou especulações. Importante ressaltar que o Data Warehouse não é um software que pode ser comprado e instalado em todos os computadores da empresa em algumas horas, sua implantação exige a integração de vários produtos e processos. Além disto, o Data Warehouse não é um fim, mas sim uma facilidade que permite às empresas analisar informações históricas, podendo utilizá-las para a melhoria dos processos atuais e futuros. Atenção! A confiabilidade do Data Warehouse é imprescindível, e a resposta a uma pergunta como “ Qual foi o total de vendas do produto X na região Y no ano de 2001? “ deve ser a mesma, seja qual for a ocasião em que se faça tal pergunta, ou quem faça. Os dados históricos não mudam. Principal desafio na construção de data warehouse Integração de dados, eliminando as redundâncias e identificando informações iguais que possam estar representadas sob formatos diferentes em sistemas distintos, uma vez que os dados de origem estão espalhados em diversos locais, gerados por sistemas diferentes, desenvolvidos em diferentes ambientes e linguagens. A figura a seguir ilustra o ambiente do Data Warehouse: - Principais tarefas efetuadas pelo DW - Obter dados dos BDs operacionais e externos - Armazenar os dados - Fornecer informações para tomada de decisão - Administrar o sistema e os dados - Principais componentes do DW - Mecanismos para acessar e transformar dados - Mecanismo para armazenamento de dados - Ferramentas para análise de dados - Ferramentas de gerência Obtenção de Dados Busca de Informações Modelo de Camadas Podemosentender melhor o funcionamento do Data Warehouse, através do Modelo de Camadas, ilustrado na figura a seguir: Granularidade Outro conceito muito importante quando falamos de Data Warehouse é o conceito de “granularidade”. A granularidade diz respeito ao nível de detalhe dos dados existentes no Data Warehouse. Quanto maior o nível de detalhe, menor o nível de granularidade. A granularidade diz respeito ao nível de detalhe dos dados existentes no Data Warehouse. Quanto maior o nível de detalhe, menor o nível de granularidade. A granularidade afeta o volume de dados armazenados no Data Warehouse e o tipo de consulta que pode ser suportada por este Data Warehouse. Atenção! Definir a granularidade adequada é vital para que o Data Warehouse atenda seus objetivos: - Mais detalhes - Mais dados - Análise mais longa - Informação mais detalhada. - Menos detalhes - Menos dados - Análise mais curta - Informação menos detalhada. Exemplo: Visualização da evolução de vendas, mensalmente, por vendedor. Datamarts Muitas vezes, apesar do Data Warehouse possuir um grande volume de dados de toda a empresa, é necessário trabalhar apenas com uma parte desses dados, correspondente a um setor da empresa, ou fazer a implantação do Data Warehouse de forma fracionada até se formar o sistema corporativo. O Data Warehouse (Armazém de dados) pode ser subdividido em mercados de dados [Data Marts] que guardam subconjuntos específicos de dados a partir do repositório original. Um Datamart é um banco de dados de suporte à decisão construído para utilização por um departamento ou grupo específico de uma empresa. Pode ser considerado como um subconjunto de dados que possui regras de negócio e de cálculo específicas, sumarizados ou agregados de um database maior. Utilização de Data Mart : “Pequenos” bancos de dados departamentais orientados por assunto. Solução “Tática” (possuem implementação mais simples). Menor tempo de desenvolvimento. Atenção: a integração de Data Marts exige planejamento avançado. Exemplo O Data Mart de mercado de massa contém dados apenas de clientes residenciais, enquanto o Data Mart de Business só contém informações de clientes empresariais. 08IE_aula07_doc01.pdf
Compartilhar