Buscar

aula10-inteligência empresarial

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

- -1
INTELIGÊNCIA EMPRESARIAL
PROCESSOS DATAWAREHOUSING
- -2
Olá!
Nesta aula, você irá:
1. Entender o processo de construção do Data Warehouse, suas etapas e interligações.
Ambiente do Data Warehouse
Vamos inciar nossa aula observando novamente o ambiente onde está inserido o Data Warehouse:
Podemos verificar que os dados são inicialmente extraídos de sistemas operacionais e de fontes externas,
posteriormente são integrados e transformados para serem carregados no Data Warehouse. Esta é uma etapa
crítica da construção de um Data Warehouse pois envolve toda a movimentação dos dados. A mesma se dá
basicamente em três passos, conhecidos como Extração, Transformação (passo este que inclui a limpeza dos
dados) e Carga dos dados. Este processo é conhecido na áea de TI como Processo ETL
Este processo é responsável por integrar, transformar e salvar dados, não importando sua fonte nem seu destino.
Os dados, oriundos de diversas fontes de dados são submetidos a severas transformações e disponibilizados de
forma normalizada.
Em ambientes complexos existe a possibilidade de utilização de softwares que executam as transformações
automaticamente.
- -3
Dependendo da periodicidade de atualização dos dados devem ser estabelecidos mecanismos de sincronização
de dados para garantir a integridade dos dados.
Extração de dados
A extração é o primeiro passo na obtenção de dados para o ambiente do DW. Basicamente diz respeito à busca
dos dados nas diversas fontes de origem e à cópia destes dados para a área de transformação de dados, a fim de
serem trabalhadas posteriormente.
Nesta construção deste processo é fundamental o acesso e a clara compreensão dos dados de origem.
Normalmente há a geração de arquivos intermediários para a carga uma vez que a existência de uma única fonte
de dados é rara.
Uma vez que os dados são extraídos devem passar por uma série de tratamentos. O primeiro passo destes
tratamentos refere-se à limpeza ou filtragem dos dados, onde o objetivo é garantir a integridade dos dados
através de programas ou rotinas especiais que tentam identificar anomalias e resolve-las, deixando os dados em
um estado consistente antes de serem instalados no Data Warehouse.
Exemplos: correção de erros de digitação, descoberta de violações de integridade, substituição de caracteres
desconhecidos, padronização de abreviações.
Em algumas situações, múltiplos estágios de transformações são necessários para que o dado possa ser migrado
para o Data Warehouse, dependendo da natureza dos sistemas fontes.
A etapa de Transformação dos Dados é a maior preocupação da área de informática pois se não existir uma
estratégia adequada, o Data Warehouse pode falhar.
Transformação de dados
É comum a utilização dos seguintes termos quando nos referimos à Transformação de Dados:
Limpeza
- -4
Tem por objetivo deixar os elementos de dados padronizados (uniformizados), não duplicados, corretos,
consistentes e espelhando a realidade. Dentre as atividades executadas podemos citar a correção de
inconsistências de códigos e caracteres especiais, solução de problemas de conflito de domínios, recuperação de
dados perdidos e a correção de valores duplicados ou errados.
Integração
Enriquecimento
Qualificação (Scoring)
Validação
Atualização de mudanças
Cálculos
Locais Potenciais de “Dados Sujos”
Quantidades
• casas decimais
• truncagem, regras de arredondamento
• galões/litros
Dados codificados
• Mudanças de códigos e algorítimos
• Diferentes regras de codificação
• Reutilização de códigos
Texto puro
• Proibido em Data Warehouse!!!!
• Não há forma possível de análise
• Não há forma de “tradução” da linguagem natural
Carga de dados
Depois de transformados e “limpos” os dados estão aptos para serem carregados no Data Warehouse. A etapa de
carga também demanda muita atenção de TI pois exige uma série de cuidados, por exemplo:
Integridade dos dados
Assim como nos bancos de dados operacionais, é preciso asegurar que as regras de integridade das chaves
estrangeiras sejam respeitadas no momento da carga.
Tipos de carga a ser realizadas – incremental ou total
A carga incremental normalmente é feita para tabelas de fatos e a carga total é feita em tabelas de dimensão
onde o analista terá que excluir os dados existentes e incluí-los novamente. Mas isso depende da necessidade do
negócio em questão.
Otimização do processo de carga
•
•
•
•
•
•
•
•
•
- -5
Todo banco de dados possui um conjunto de técnicas para otimizar o processo de carga, tais como evitar a
geração de log durante o processo, criar índices e agregar dados.
Suporte completo ao processo de carga
O serviço de carga também precisa suportar as exigências antes e depois da carga atual, como eliminar e recriar
índices e particionamento físico de tabelas e índices.
Todas estas atividades que devem ser asseguradas pelo Processo ETL são discutidas e definidas quando da etapa
de Projeto do Data Warehouse, que será nosso próximo assunto. Antes vamos entender as dificuldades do
Processo ETL.
Dificuldades do Processo ETL
Externas
• Prazos muito curtos;
• Relacionamento com outras equipes:
- a falta de tempo dos analistas OLTP
- a falta de paciência dos usuários;
Falta de documentação:
• Necessidade de reduzir custos do projeto.
Internas
Extração
• Erros humanos como troca de nomes e tipos de variáveis;
• Uso de regras de extração em desarmonia com as regras necessárias;
• Dados não esperados sendo extraídos (tipo, tamanho, formato e conteúdo).
Transporte
• Incompatibilidade entre ambientes operacionais diferentes;
• Necessidade de quebrar o processo em etapas gerando dados estocados.
Transformação
• Inserção de erros de transformação (escala de valor ou unidade);
• Uso de equações matemáticas.
Carga de dados
• Aplicação de seleções não planejadas no momento da carga;
• Erros de codificação, tipo e formato de dados;
• Diferença entre modelagens de dados.
Qual é o resultado de enganos sucessivos no ETL?
•
•
•
•
•
•
•
•
•
•
•
•
•
- -6
• Perda da confiança dos usuários;
• Perda da motivação dos usuários para apoiar;
• Redução no moral da equipe de sistemas
Quanto custa a baixa qualidade dos dados ?
• Rever regras de negócio, distorções dos dados nas fontes e nos destinos;
• Rever o processo (etapa a etapa);
• Corrigir programas, rotinas e dados;
• Refazer a carga, analisar resultados e ajustar;
• Convencer os usuários, a gerência, etc a acreditar no projeto;
• Desenvolver aplicações fora do escopo original para ajudar no convencimento do usuário.
Tipos de Implementação do DW
As abordagens de implementação de Data Warehouse em uso pelas organizações são três:
Top down
Implementação Top Down
Esta abordagem é conhecida como padrão inicial do conceito de Data Warehouse e necessita de maior
planejamento assim como demanda um trabalho maior de definições conceituais de tecnologia antes de iniciar-
se o projeto propriamente dito.
As decisões sobre fontes de dados que serão utilizadas, segurança, estruturas de dados, qualidade de dados,
padrões de dados e os vários modelos de dados dos sistemas transacionais atuais devem estar completos antes
do início da implementação.
Nesta arquitetura o processo se inicia com a extração, a transformação e a integração das informações dos
sistemas transacionais e dados externos para um ODS ou diretamente das fontes operacionais. A seguir, os dados
e metadados são transferidos para o Data Warehouse, a partir do qual são extraídos os dados e metadados para
•
•
•
•
•
•
•
•
•
- -7
os Data Marts, onde as informações estão em maior nível de sumarização e, normalmente, não apresentam o
nível histórico encontrado no Data Warehouse.
A figura a seguir ilustra este tipo de abordagem:
Fonte: Adaptado de Oliveira, S.R. M - Data Warehouse: Arquitetura, Projeto e Abordagens de Implementação
O ponto positivo a se detacar na abordagem Top Down é que obriga a empresa a definir regras de negócio de
forma corporativa, antes de iniciar-se o projeto de Data Warehouseem si.
Vantagens
Herança de arquitetura: todos os Data Marts originados de um Data Warehouse utilizam a arquitetura e os
dados desse DW, facilitando a manutenção;
Visão de empreendimento: todos os negócios da empresa estão concentrados no Data Warehouse;
Repositório de metadados centralizado e simples: essa centralização permite manutenções mais simples do
que quando da utilização de múltiplos repositórios;
Herança de arquitetura: a arquitetura top down garante a existência de um único conjunto de aplicações para
extração, limpeza e integração dos dados, além de processos centralizados de manutenção e monitoração.
Desvantagens
Implementação muito longa: os Data Warehouses são, normalmente, desenvolvidos de forma iterativa, por
áreas de assuntos. Como, finanças, vendas e recursos humanos. Mesmo assim, são necessários, em média, 15 ou
mais meses para que a primeira área de assunto entre em produção, dificultando a garantia de apoio político e
orçamentário;
Alta taxa de risco: não existem garantias para o investimento nesse tipo de ambiente;
- -8
Herança de cruzamentos funcionais: é necessária uma equipe de desenvolvedores e usuários finais altamente
capacitados, para avaliar as informações e consultas que garantam à empresa habilidade para sobreviver e
prosperar nas competições políticas e organizacionais;
Expectativas relacionadas ao ambiente: a demora do projeto e a falta de retorno podem aumentar as
expectativas dos usuários.
Bottom Up
Implementação Bottom Up
Esta abordagem permite que o planejamento e o desenho dos Data Marts possam ser realizados sem esperar que
seja definida uma infra-estrutura corporativa para o Data Warehouse. Essa infra-estrutura não deixará de existir,
apenas poderá ser implementada incrementalmente conforme forem sendo realizados os Data Marts.
Como a implementação Top Down é politicamente difícil de ser definida e cara, a abordagem Bottom Up vem se
tornando popular. É bastante aceita pelos executivos por possuir um retorno de investimento rápido.
O objetivo desta implementação é a construção de um Data Warehouse incremental a partir do desenvolvimento
de Data Marts independentes. O processo começa com a extração, a transformação e a integração dos dados para
um ou mais Data Marts.
A figura a seguir ilustra este tipo de abordagem:
Fonte: Adaptado de Oliveira, S.R. M - Data Warehouse: Arquitetura, Projeto e Abordagens de Implementação
Um dos grandes problemas dessa implementação é a falta de um gerenciador que garanta padrões únicos de
metadados. Essa dificuldade é responsável pela falha na elaboração incremental do Data Warehouse. Podem
- -9
ocorrer redundâncias de dados e inconsistências entre os Data Marts, mas que podem ser minimizados por meio
de um planejamento, monitoração e estabelecimento de regras ( metodologia ). Outro problema é que o processo
de extração pode tornar-se crítico na interferência junto aos sistemas transacionais, devido à estrutura de
múltiplos Data Marts.
Vantagens
Implementação rápida: a construção dos Data Marts é altamente direcionada, permitindo um rápido
desenvolvimento. Normalmente, um Data Marts pode ser colocado em produção em um período de quatro a
nove meses;
Manutenção do enfoque da equipe: um dos maiores desafios do desenvolvimento de um ambiente DW é a
manutenção do mesmo enfoque por toda a equipe. A elaboração de Data Marts incrementais permite que os
principais negócios sejam enfocados inicialmente, sem que haja gastos no desenvolvimento de áreas que não são
essenciais ao problema;
Retorno rápido: a arquitetura baseada em Data Marts com incremento demonstra rapidamente seu valor,
permitindo uma base para investimentos adicionais com um nível mais elevado de confiança;
Herança incremental: a estratégia de Data Marts incrementais obriga a entrega de recursos de informação
passo a passo. Isso permite à equipe crescer e aprender, reduzindo risco.
Desvantagens
Perigo de “legamarts”: um dos maiores perigos no ambiente do Data Warehouse é a criação de Data Marts
independentes. Essa solução pode não considerar a arquitetura de forma global. Desse modo, os Data Marts
independentes transformam-se em Data Marts legados, ou “legamarts” que dificultam, quando não inviabilizam,
futuras integrações. Acabam se tornando parte do problema e não da solução;
Desafio de possuir a visão do empreendimento: durante a construção dos Data Marts incrementais, é
necessário que se mantenha um rígido controle do negócio como um todo;
Administrar e coordenar múltiplas equipes e iniciativas: normalmente, esse tipo de arquitetura emprega o
desenvolvimento de Data Marts em paralelo. Isso pode conduzir a uma rígida administração, tentando coordenar
os esforços e recursos das múltiplas equipes, especialmente nas áreas de regras e semântica empresariais;
A maldição de sucesso: nesses casos, os usuários finais dos Data Marts encontram-se felizes querendo mais
informação para seus Data Marts . Ao mesmo tempo, outros usuários de outros Data Marts aguardam o
incremento de seus Data Marts . Isso obriga a equipe de Data Marts a vencer desafios políticos, de recurso e de
administração.
- -10
A opção por um dos tipos de abordagem de implementação é influenciada por fatores como infra-estrutura de TI,
arquitetura escolhida, escopo da implementação, recursos disponíveis e, principalmente, pela necessidade ou
não de acesso aos dados corporativos, recursos disponíveis e velocidade de implementação.
Vejamos as características de cada um destes tipos de abordagem:
Metodologia para o Projeto de Data Warehouse
(Fonte: Adaptado de Oliveira, S.R. M - Data Warehouse: Arquitetura, Projeto e Abordagens de Implementação e
Favaretto, F. – material de aula - PUC/PR)
O sucesso do desenvolvimento de um Data Warehouse depende da escolha correta da estratégia a ser adotada,
de forma que seja adequada às características e necessidades específicas do ambiente onde será implementado.
No que diz respeito à metodologia para o desenvolvimento de projetos de Data Warehouse não existe uma
abordagem única entre os autores. A figura a seguir ilustra as etapas deste processo:
Fonte: Adaptado de Oliveira, S.R. M - Data Warehouse: Arquitetura, Projeto e Abordagens de Implementação
- -11
Planejamento: Nesta etapa ocorre a definição do escopo do projeto, considerando-se as áreas críticas da
empresa e as necessidades mais permanentes de informações gerenciais.
Levantamento de necessidades: Nesta etapa serão identificados dois modelos de projeto: o modelo
dimensional e o modelo relacionado às fontes das informações.
O modelo dimensional representa os blocos conceituais de dados necessários para atender os objetivos do
sistema de suporte à decisão.
O modelo relacionado às fontes das informações permite avaliar a qualidade e a integridade dos dados-fonte,
além da sua duração histórica.
Modelagem Dimensional: Consiste em fazer um projeto de quais os indicadores (medidas) que serão
analisados, e as dimensões de análise, considerando quais indicadores são necessários para gerenciar o negócio.
Deve considerar quais são os dados disponíveis para gerar os indicadores, e aqueles que precisam serem
disponibilizados
Como fator crítico de sucesso, a modelagem de dados deverá passar por observações nem sempre percebidas em
um projeto de Banco de Dados convencional, como por exemplo, o nível de granularidade ou detalhe e o volume
desses dados.
Desenvolvimento de aplicações: O objetivo final do Data Warehouse é o ambiente de consultas OLAP. Este
ambiente deve ter uma interface amigável e simples, onde o usuário pode construir suas consultas, de acordo
com sua necessidade ou intuição. Caso necessário podem ser desevolvidas aplicações para os usuários. Neste
caso é preciso tomar cuidado com telas carregadas e excessos de informação.
- -12
As aplicações ou ferramentas deste ambente devem possibilitar a visualização de dados em formas variadas e a
importação dos dados obtidos para ferramentas do usuário final, comopor exemplo, planilhas e processadores
de textos.
Projeto ETL: Nesta etapa são definidos vários elementos que irão compor as atividades do processo de ETL, por
exemplo:
Filtro de Dados: procedimentos e condições para se eliminar os elementos de dados indesejáveis no modelo
dimensional;
Integração de Dados: define a forma de se correlacionar informações existentes em fontes distintas, e que
deverão ser integradas no Data Warehouse;
Condensação de Dados: define a forma de se reduzir volumes de dados visando a obter informações resumidas
e sumarizadas;
Conversão/Integração de Dados: define os procedimentos para padronizar dados que se encontram com
unidades, formatos e dimensões diferentes. Por exemplo: vendas de produtos no mês, produção de componentes
por dia e compra de materiais por semana;
Derivação de Dados: define os meios e fórmulas para produzir dados virtuais, a partir de dados existentes.
Projeto Físico dos BDs: Nessa etapa são definidas as tabelas Fato e Dimensão bem como os relacionamentos,
indices e a implantação de regras associadas.
Validação e testes: Nesta etapa o sistema é testado considerando-se, o máximo possível, as simulações de
volume e de processamentos.
Treinamento: Nesta etapa todos os usuários envolvidos com a atividade gerencial de negócio deverão ser
treinados, não apenas às ferramentas/aplicações, mas também nos conceitos associados ao Data Warehouse.
Implantação: A etapa de implantação deverá conter um rigoroso acompanhamento de uso das aplicações
disponibilizadas. Para isto, a equipe do projeto deverá incentivar os usuários a apresentarem críticas e sugestões
de melhorias para as próximas versões do sistema.
Considerações sobre o Projeto de Data Warehouse
As etapas de Planejamento e Modelagem são decisivas para o sucesso de sua implementação. Uma solução bem
desenhada tem por objetivos:
• Analisar as informações dos usuários, satisfazendo suas necessidades.
• Monitorar e comparar as operações do momento atual com momentos passados.
• Prever situações futuras.
Projeto Data Warehouse – Mitos e Fatos
•
•
•
- -13
Principais Aplicações Comerciais que utilizam Data Warehouse
Saiba mais
Para saber mais sobre os tópicos estudados nesta aula, pesquise na internet sites, vídeos e
artigos sobre casos de empresas que utilizam o Data Warehouse, para refinar seu
conhecimento. Se ainda tiver alguma dúvida, fale com seu professor online utilizando os
recursos disponíveis no ambiente de aprendizagem.
- -14
CONCLUSÃO
Nesta aula, você:
• Compreendeu o processo de construção do Data Warehouse, suas etapas e interligações.•

Outros materiais

Materiais relacionados

Perguntas relacionadas

Perguntas Recentes