Buscar

BD_Coleta de Dados_trilha01

Prévia do material em texto

COLETA DA DADOS –
O DATA COLLECTION
Professor curador: Luis Flavio da Silva
CIÊNCIA DE DADOS
(BIG DATA)
COLETA DE DADOS – O DATA COLLECTION
TRILHA 1
REQUERIMENTOS E 
ARQUITETURA DE UM 
DATA WAREHOUSE
COLETA DE DADOS – O DATA COLLECTION
REQUERIMENTOS E 
ARQUITETURA DE UM 
DATA WAREHOUSE
COLETA DE DADOS – O DATA COLLECTION
Fonte: IBM 100 Icons.
BANCO DE DADOS RELACIONAL
Em 1970, Edgar F. Codd, matemático
formado em Oxford trabalhou na IBM San
Jose Research Lab. Publicou um artigo
que mostrava como as informações
poderiam ser armazenadas em grandes
bancos de dados e acessadas sem saber
como a informação foi estruturada ou
onde o banco de dados está.
BANCO DE DADOS: UM POUCO DE HISTÓRIA
COLETA DE DADOS – O DATA COLLECTION
Fonte: Kimball e Caserta (2008). Fonte: Inmon.
DATA WAREHOUSE: ARQUITETURAS
COLETA DE DADOS – O DATA COLLECTION
ASSISTA AO VÍDEO 
“What do Data Warehouse and Business Intelligence do?” 
Disponível no link: <https://www.youtube.com/watch?v=hmzQT4Ih8AA>.
DATA WAREHOUSE: O QUE ELE FAZ
COLETA DE DADOS – O DATA COLLECTION
DATA WAREHOUSE: O QUE ELE NÃO É
• Um produto.
• Uma linguagem.
• Um projeto.
• Data Model.
• Uma cópia de suas transações de sistema.
COLETA DE DADOS – O DATA COLLECTION
DATA WAREHOUSE: MELHOR DEFINIÇÃO
Data Warehouse é um processo de armazenamento que reúne dados de
múltiplas transações (internet, internet das coisas, Cloud etc.) e dados legados
de outros sistemas de armazenamento, integrando-os de forma não volátil e
variável em relação ao tempo, extraindo-os, confirmando-os e entregando-os
em uma base de dados dimensional, organizada de forma adequada para
suportar as consultas dos usuários e para que as melhores decisões possam ser
tomadas, baseando-se nos fatos que se podem extrair dos dados. (INMON,
1996; KIMBALL e CASERTA, 2004; PROVOST e FAWCETT, 2016).
COLETA DE DADOS – O DATA COLLECTION
Requerimentos 
e Realidade
Arquitetura
Implementação 
do Sistema
Teste e Entrega
DATA WAREHOUSE: REQUERIMENTOS E 
ARQUITETURA
COLETA DE DADOS – O DATA COLLECTION
• Necessidades do negócio.
• Data profiling – o perfil do 
dados.
• Requerimentos de 
Compliance.
• Requerimentos de 
segurança.
DATA WAREHOUSE: REQUERIMENTOS E 
ARQUITETURA
• Integração dos dados.
• Latência dos dados.
• Armazenamento e tempo 
de armazenamento.
• Interface para entrega ao 
usuário.
COLETA DE DADOS – O DATA COLLECTION
Cloud
IoT
Data Bases 
Operacionais
Internet
ETL
Data Bases 
Diversas
Staging Area
DATA 
WAREHOUSE: 
BACK ROOR
Fo
n
te: A
d
ap
tad
o
 d
e A
m
aral (2
0
1
6
, p
. 3
6
).
COLETA DE DADOS – O DATA COLLECTION
Fonte: Adaptado de Kimball e Caserta (2004).
DATA WAREHOUSE: A MISSÃO, O ETL 
EXTRAI LIMPA
TORNA 
CONFORME
ENTREGA
OPERAÇÕES: Programação, Tratamento de Excessões, Reinicialização, 
Controle de Qualidade, Versionamento, Suporte
Mainframe
Sistema Legado
Aplicações
do Usuário Final
COLETA DE DADOS – O DATA COLLECTION
RH Vendas
ContabilidadeCompras
DATA WAREHOUSE
DEFINIÇÃO CORRETA
DEFINIÇÃO 
EQUIVOCADA
Baseada em Processo
Baseado em
Departamento
Dados Atômicos Agregador de Dados
Baseada em Métrica
de Dados
Baseado em User 
Question
DATA MARTS
Em um data warehouse, os dados atômicos são o 
menor nível de detalhe. Eles fornecem os dados 
básicos para todas as transformações de dados.
COLETA DE DADOS – O DATA COLLECTION
DATA LAKE
COLETA DE DADOS – O DATA COLLECTION
DATA LAKE: DEFINIÇÃO
Embora existam várias definições para Data Lake, a mais simples seria um enorme
e único data store para todos os dados de uma empresa, desde dados brutos (o
que implica uma cópia exata de suas fontes originais). O Data Lake possui dados
estruturados de bancos de dados relacionais (linhas e colunas), dados
semiestruturados (CSV, logs, XML, JSON), dados não estruturados (e-mails,
documentos, PDF) e até dados binários (imagens, áudio, vídeo), que estejam
disponíveis para toda a organização, em um conjunto único que pode ser
reutilizados em toda empresa, incluindo Data Warehouses “tradicionais”, hubs
operacionais (WIKIPEDIA, 2015; IBM INDUSTRIAL MODELS, 2016).
COLETA DE DADOS – O DATA COLLECTION
Fo
n
te
: I
B
M
 (
2
0
1
6
, 
p
. 6
)
DATA LAKE: ARQUITETURA
COLETA DE DADOS – O DATA COLLECTION
Fonte: DONEPUDI (2016).
ARQUITETURAS: DATA LAKE vs. DATA WAREHOUSE
COLETA DE DADOS – O DATA COLLECTION
Fo
n
te
:D
O
N
EP
U
D
I(
2
0
1
6
).
Data Warehouse Data Lake
SCHEMA
O data model foi criado para armazenar dados.
A desvantagem dessa abordagem é o enorme 
tempo investido para design e planejamento.
Traga todos os dados e, em seguida, crie um esquema com baseado 
na sua necessidade, que é referido como schema on read.
Esta abordagem de trazer tudo como está dá muita flexibilidade e 
agilidade; entretanto, alguns ajustes precisarão ser realizados.
STORAGE
O Stage Data não retém dados; assim que tratados, 
são enviados para o DW ou Data Marts.
Uma vez que os dados estão armazenados, busca-se 
dados antigos; retrabalhá-los tem custo elevado 
para as empresas.
Nenhum data é descartado. Diferente da Stage Areas, os dados vão 
diretamente para o armazenamento, tornando o processo muito 
econômico.
PROCESSAMENTOS
O Processamento Massivo de Data Sets, na prática, 
muda com muita frequência.
Processar um volume médio de dados em grandes 
volumes (múltiplos de Terabytes) tem um custo 
muito alto.
Processa massivamente os data sets através dos Disparate Sources, 
suporta grandes movimentações de dados e pode processar 
enormes volumes de dados (acima de Zettabytes).
ESCALABILIDADE
Geralmente, um Stage Data utiliza um RDBMS de 
mercado que crescem verticalmente; entretanto, 
existe um limite máximo.
Custos de configurar, manter e escalar é alto.
Pode ser escalado horizontalmente.
ARQUITETURAS: DATA LAKE vs. DATA WAREHOUSE
COLETA DE DADOS – O DATA COLLECTION
DATA WAREHOUSE: EXERCÍCIOS
1. Ache a escola técnica onde você se formou e verifique
quantas alunos entraram, quantos alunos se formaram e
qual foi a porcentagem de concluintes em seu curso.
COLETA DE DADOS – O DATA COLLECTION
DATA WAREHOUSE: EXERCÍCIOS
2. Uma empresa de serviços tecnologia decidiu que terá, nas
áreas operacionais, somente pessoal com formação de nível
médio-técnico e, nas áreas de ligadas a estratégia, pessoal com
formação universitária.
COLETA DE DADOS – O DATA COLLECTION
DATA WAREHOUSE: EXERCÍCIOS
A empresa pretende construir um novo site operacional, no qual
espera ter 50% de mulheres na prestação de serviços de TIC. A
instalação deverá ser fora do eixo São Paulo-Rio-Minas.
Para tomar esta decisão, ela precisa ter os dados de educação de
várias regiões para determinar onde se instalará.
Esta empresa estaria disposta a investir em parcerias com escolas e
desenvolver a região onde pretende se instalar.
COLETA DE DADOS – O DATA COLLECTION
DATA WAREHOUSE: EXERCÍCIOS
Baseado nesses dados, responda:
• Qual região seria a mais interessante para esta empresa se 
instalar e desenvolver a região.
• Qual o potencial feminino dos curso de TIC e na opinião 
grupo como se poderia incentivar estas formações?
COLETA DE DADOS – O DATA COLLECTION
REFERÊNCIAS
AMARAL, F. Introdução à Ciência de Dados . Rio de Janeiro: Alta Books, 2016.
CHAUDHURI, S.; DAYAL, U. An overview of data warehousing and OLAP technology. SIGMO Rec.
1997. Disponível em: <http://dx.doi.org/10.1145/248603.248616>. Acesso em: 04 set. 2017.
INMON, W. The Data Warehouse and data mining. ACM 39. V. 1996. Disponívelem:
<http://dx.doi.org/10.1145/240455.240470>. Acesso em: 04 set. 2017.
______. Como construir um Data Warehouse. Rio de Janeiro: Campus, 1997.
KIMBALL, R.; CASERTA, J. The Data Warehouse ETL Toolkit: Pratical Techniques for Extracting,
Cleanning, and Delivering Data. Indianapolis, IL: Willey, 2004.
KRISHNAN, K. Data Warehouse in the age of Big Data. Waltham: Morgan Kaufmann, 2013.
PROVOST, F.; FAWCETT, T. Data Science para Negócios. Rio de Janeiro: Alta Books, 2016.

Continue navegando