Processo de ETL em um Data Warehouse

•

UAM

Leonardo Musso

27/03/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE ANHEMBI MORUMBI
PÓS-GRADUAÇÃO EM BUSINESS INTELLIGENCE E ANALYTICS
PROCESSO DE ETL EM UM DATA WAREHOUSE
AVALIAÇÃO N1
LEONARDO HENRIQUE MUSSO
RA: 2022309557
Novembro
2022
SUMÁRIO:
1. QUESTÃO 1: 3
2. QUESTÃO 2: 3
3. QUESTÃO 3: 4
1. QUESTÃO 1:
No caso apresentado da seguradora, o tempo de realização do projeto é limitado, principalmente quando é necessário auxiliar a área de marketing e vendas. As várias bases que englobam muitas informações e dados necessitam de análise prévia antes de sua extração. Um dos grandes desafios está em otimizar todos os processos para que o tempo de espera dos utilizadores seja o menor possível. A partir desse contexto e do roteiro de estudos, como é possível realizar esse procedimento por meio da ferramenta Knowage?
RESPOSTA: Através da metodologia OLTP (Online Transaction Processing) e a OLAP (Online Analytical Processing) atrelada ao ETL (Extract, Transform and Load). Os Data Sources: OLTP são os responsáveis pela extração de dados mais brutos para a posterior transformação e carga no Data Warehouse; OLAP fazendo a análise dos dados e procurando padrões a fim de detectar relacionamentos sistemáticos entre variáveis onde permite que se encontrem informações através da busca de padrões e associações escondidas, construção de modelos analíticos, realizar classificações e predições. Os resultados dessa mineração de dados podem ser apresentados por ferramentas de visualização, como o Spago BI (atualmente Knowage). O Knowage na verdade é um conjunto de ferramentas possuindo duas suítes, a Knowage Server que é um servidor com uma suíte completa, que permite criar desde Data Sources até relatórios, é a ferramenta principal do conjunto e a Knowage Report Designer que é utilizado para criar relatórios e depois publicá-los no servidor.
2. QUESTÃO 2:
Para áreas como marketing e vendas de uma seguradora, existe uma grande dificuldade na hora de tomar decisões rápidas. Muitos se utilizam apenas da experiência pessoal (ou na falta dela) na hora de decidir e, muitas vezes, são escolhas vitais para a organização, portanto, deveriam ter sido baseadas em um estudo histórico. Além disso, uma seguradora, com o apoio de seu departamento de TI, consegue trabalhar com dados coletados ao longo dos anos, influenciando efetivamente as decisões de marketing e vendas. Dessa forma, como podemos utilizar a tecnologia de Data Warehouse associada à ferramenta iReport para apoiar as tomadas de decisão?
RESPOSTA: Considera-se como última etapa do processo de Data Warehouse a geração de relatórios e a ferramenta para essa finalidade é o iReport. O Data Warehouse é um tipo de sistema onde é feito o gerenciamento de dados com a função de ativar e fornecer suporte às atividades do Business Intelligence. Trata-se de um conjunto de dados orientado para assunto, integrado, não volátil, variante ao tempo, no apoio a decisões gerenciais consequentemente criando data marts que se relacionam entre si. O iReport é um aplicativo Open Source, ou seja seus códigos fonte são distribuídos gratuitamente de acordo com a definição do GNU (General Public License). Ele é capaz de criar visualmente os mais completos e complexos relatórios para aplicações Java no formato do framework Jasper Reports, que por sua vez também é uma aplicação Open Source e ajuda na tomada de decisão através de relatórios que podem ser gravados em diversos destinos, tais como: tela, impressora, HTML, PDF, XLSX, RTD, ODT, CSV e XML. É desenvolvido na linguagem Java e portanto, é uma ferramenta multiplataforma. Através de uma interface gráfica bem intuitiva, o desenvolvedor é capaz de criar qualquer tipo de relatório da forma mais simples e rápida, mesmo sabendo que o iReport desenvolve um formato XML utilizado pelo Jasper Reports. O que não é difícil de manipular para os desenvolvedores iniciantes o iReport evita a necessidade de modificações no código fonte. Para desenvolvedores experientes na manipulação desse formato o tempo de desevolvimento é reduzido consideravelmente.
3. QUESTÃO 3:
Os dados importados via processo de ETL de um banco de dados do sistema da seguradora apresentam problemas advindos do processo de coleta e, por não estarem estruturados, se faz necessário executar o mesmo processo utilizado em dados estruturados, até que seja possível conseguir o DW. Assim, que conceitos de extração e tratamento de dados poderiam ser utilizados para evitar esses problemas?
RESPOSTA: O processo de ETL (Extract, Transform and Load) ser refere a extração, transformação e carga de dados de uma ou mais bases de dados de origem para uma ou mais bases de dados de destino para o Data Warehouse. A extração e carga são obrigatórias para o processo, sendo a transformação / saneamento da base uma ação opcional, porém neste caso apresentado seria indispensável esse processo para evitar tais problemas na estruturação dos dados. O ETL se dá na extração dos dados do sistema de origem e cada sistema pode também utilizar uma organização de dados diferente. Essa extração converte para um determinado formato para a entrado no processamento da transformação que é a próxima etapa do ETL. Na parte da transformação são aplicadas uma série de regras aos dados brutos extraídos do sistema. Dependendo dos dados extraídos algumas fontes necessitarão de muito pouca manipulação nos dados.
4