Baixe o app para aproveitar ainda mais
Prévia do material em texto
COLETA DA DADOS – O DATA COLLECTION Professor curador: Luis Flavio da Silva CIÊNCIA DE DADOS (BIG DATA) COLETA DE DADOS – O DATA COLLECTION TRILHA 1 REQUERIMENTOS E ARQUITETURA DE UM DATA WAREHOUSE COLETA DE DADOS – O DATA COLLECTION REQUERIMENTOS E ARQUITETURA DE UM DATA WAREHOUSE COLETA DE DADOS – O DATA COLLECTION Fonte: IBM 100 Icons. BANCO DE DADOS RELACIONAL Em 1970, Edgar F. Codd, matemático formado em Oxford trabalhou na IBM San Jose Research Lab. Publicou um artigo que mostrava como as informações poderiam ser armazenadas em grandes bancos de dados e acessadas sem saber como a informação foi estruturada ou onde o banco de dados está. BANCO DE DADOS: UM POUCO DE HISTÓRIA COLETA DE DADOS – O DATA COLLECTION Fonte: Kimball e Caserta (2008). Fonte: Inmon. DATA WAREHOUSE: ARQUITETURAS COLETA DE DADOS – O DATA COLLECTION ASSISTA AO VÍDEO “What do Data Warehouse and Business Intelligence do?” Disponível no link: <https://www.youtube.com/watch?v=hmzQT4Ih8AA>. DATA WAREHOUSE: O QUE ELE FAZ COLETA DE DADOS – O DATA COLLECTION DATA WAREHOUSE: O QUE ELE NÃO É • Um produto. • Uma linguagem. • Um projeto. • Data Model. • Uma cópia de suas transações de sistema. COLETA DE DADOS – O DATA COLLECTION DATA WAREHOUSE: MELHOR DEFINIÇÃO Data Warehouse é um processo de armazenamento que reúne dados de múltiplas transações (internet, internet das coisas, Cloud etc.) e dados legados de outros sistemas de armazenamento, integrando-os de forma não volátil e variável em relação ao tempo, extraindo-os, confirmando-os e entregando-os em uma base de dados dimensional, organizada de forma adequada para suportar as consultas dos usuários e para que as melhores decisões possam ser tomadas, baseando-se nos fatos que se podem extrair dos dados. (INMON, 1996; KIMBALL e CASERTA, 2004; PROVOST e FAWCETT, 2016). COLETA DE DADOS – O DATA COLLECTION Requerimentos e Realidade Arquitetura Implementação do Sistema Teste e Entrega DATA WAREHOUSE: REQUERIMENTOS E ARQUITETURA COLETA DE DADOS – O DATA COLLECTION • Necessidades do negócio. • Data profiling – o perfil do dados. • Requerimentos de Compliance. • Requerimentos de segurança. DATA WAREHOUSE: REQUERIMENTOS E ARQUITETURA • Integração dos dados. • Latência dos dados. • Armazenamento e tempo de armazenamento. • Interface para entrega ao usuário. COLETA DE DADOS – O DATA COLLECTION Cloud IoT Data Bases Operacionais Internet ETL Data Bases Diversas Staging Area DATA WAREHOUSE: BACK ROOR Fo n te: A d ap tad o d e A m aral (2 0 1 6 , p . 3 6 ). COLETA DE DADOS – O DATA COLLECTION Fonte: Adaptado de Kimball e Caserta (2004). DATA WAREHOUSE: A MISSÃO, O ETL EXTRAI LIMPA TORNA CONFORME ENTREGA OPERAÇÕES: Programação, Tratamento de Excessões, Reinicialização, Controle de Qualidade, Versionamento, Suporte Mainframe Sistema Legado Aplicações do Usuário Final COLETA DE DADOS – O DATA COLLECTION RH Vendas ContabilidadeCompras DATA WAREHOUSE DEFINIÇÃO CORRETA DEFINIÇÃO EQUIVOCADA Baseada em Processo Baseado em Departamento Dados Atômicos Agregador de Dados Baseada em Métrica de Dados Baseado em User Question DATA MARTS Em um data warehouse, os dados atômicos são o menor nível de detalhe. Eles fornecem os dados básicos para todas as transformações de dados. COLETA DE DADOS – O DATA COLLECTION DATA LAKE COLETA DE DADOS – O DATA COLLECTION DATA LAKE: DEFINIÇÃO Embora existam várias definições para Data Lake, a mais simples seria um enorme e único data store para todos os dados de uma empresa, desde dados brutos (o que implica uma cópia exata de suas fontes originais). O Data Lake possui dados estruturados de bancos de dados relacionais (linhas e colunas), dados semiestruturados (CSV, logs, XML, JSON), dados não estruturados (e-mails, documentos, PDF) e até dados binários (imagens, áudio, vídeo), que estejam disponíveis para toda a organização, em um conjunto único que pode ser reutilizados em toda empresa, incluindo Data Warehouses “tradicionais”, hubs operacionais (WIKIPEDIA, 2015; IBM INDUSTRIAL MODELS, 2016). COLETA DE DADOS – O DATA COLLECTION Fo n te : I B M ( 2 0 1 6 , p . 6 ) DATA LAKE: ARQUITETURA COLETA DE DADOS – O DATA COLLECTION Fonte: DONEPUDI (2016). ARQUITETURAS: DATA LAKE vs. DATA WAREHOUSE COLETA DE DADOS – O DATA COLLECTION Fo n te :D O N EP U D I( 2 0 1 6 ). Data Warehouse Data Lake SCHEMA O data model foi criado para armazenar dados. A desvantagem dessa abordagem é o enorme tempo investido para design e planejamento. Traga todos os dados e, em seguida, crie um esquema com baseado na sua necessidade, que é referido como schema on read. Esta abordagem de trazer tudo como está dá muita flexibilidade e agilidade; entretanto, alguns ajustes precisarão ser realizados. STORAGE O Stage Data não retém dados; assim que tratados, são enviados para o DW ou Data Marts. Uma vez que os dados estão armazenados, busca-se dados antigos; retrabalhá-los tem custo elevado para as empresas. Nenhum data é descartado. Diferente da Stage Areas, os dados vão diretamente para o armazenamento, tornando o processo muito econômico. PROCESSAMENTOS O Processamento Massivo de Data Sets, na prática, muda com muita frequência. Processar um volume médio de dados em grandes volumes (múltiplos de Terabytes) tem um custo muito alto. Processa massivamente os data sets através dos Disparate Sources, suporta grandes movimentações de dados e pode processar enormes volumes de dados (acima de Zettabytes). ESCALABILIDADE Geralmente, um Stage Data utiliza um RDBMS de mercado que crescem verticalmente; entretanto, existe um limite máximo. Custos de configurar, manter e escalar é alto. Pode ser escalado horizontalmente. ARQUITETURAS: DATA LAKE vs. DATA WAREHOUSE COLETA DE DADOS – O DATA COLLECTION DATA WAREHOUSE: EXERCÍCIOS 1. Ache a escola técnica onde você se formou e verifique quantas alunos entraram, quantos alunos se formaram e qual foi a porcentagem de concluintes em seu curso. COLETA DE DADOS – O DATA COLLECTION DATA WAREHOUSE: EXERCÍCIOS 2. Uma empresa de serviços tecnologia decidiu que terá, nas áreas operacionais, somente pessoal com formação de nível médio-técnico e, nas áreas de ligadas a estratégia, pessoal com formação universitária. COLETA DE DADOS – O DATA COLLECTION DATA WAREHOUSE: EXERCÍCIOS A empresa pretende construir um novo site operacional, no qual espera ter 50% de mulheres na prestação de serviços de TIC. A instalação deverá ser fora do eixo São Paulo-Rio-Minas. Para tomar esta decisão, ela precisa ter os dados de educação de várias regiões para determinar onde se instalará. Esta empresa estaria disposta a investir em parcerias com escolas e desenvolver a região onde pretende se instalar. COLETA DE DADOS – O DATA COLLECTION DATA WAREHOUSE: EXERCÍCIOS Baseado nesses dados, responda: • Qual região seria a mais interessante para esta empresa se instalar e desenvolver a região. • Qual o potencial feminino dos curso de TIC e na opinião grupo como se poderia incentivar estas formações? COLETA DE DADOS – O DATA COLLECTION REFERÊNCIAS AMARAL, F. Introdução à Ciência de Dados . Rio de Janeiro: Alta Books, 2016. CHAUDHURI, S.; DAYAL, U. An overview of data warehousing and OLAP technology. SIGMO Rec. 1997. Disponível em: <http://dx.doi.org/10.1145/248603.248616>. Acesso em: 04 set. 2017. INMON, W. The Data Warehouse and data mining. ACM 39. V. 1996. Disponívelem: <http://dx.doi.org/10.1145/240455.240470>. Acesso em: 04 set. 2017. ______. Como construir um Data Warehouse. Rio de Janeiro: Campus, 1997. KIMBALL, R.; CASERTA, J. The Data Warehouse ETL Toolkit: Pratical Techniques for Extracting, Cleanning, and Delivering Data. Indianapolis, IL: Willey, 2004. KRISHNAN, K. Data Warehouse in the age of Big Data. Waltham: Morgan Kaufmann, 2013. PROVOST, F.; FAWCETT, T. Data Science para Negócios. Rio de Janeiro: Alta Books, 2016.
Compartilhar