Buscar

BIG DATA Aula 03

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

CIÊNCIA DE DADOS BIG DATA ANALYTIC
CICLO DE VIDA E INTRODUÇÃO À LINGUAGEM R
DESCOBERTA DO CONHECIMENTO
AGENDA
Data Warehouse;
Data Mart;
Data Mining;
Knowledge Discovery in Database (KDD);
Conclusão.
DATA WAREHOUSE
Segundo Haisten(1999), a origem do termo vem dos estudos do MIT na década de 70. Pela primeira vez houve uma distinção entre sistemas operacionais e aplicações analíticas, surgindo o princípio de separar esses dois tipos de processamento em armazéns de dados diferentes;
Segundo Ballard & Herreman (1998) e Teresko (1999), o conceito surgiu na década de 80 quando os SGBD’s emergiram como produtos comerciais dando suporte ao SAD;
Bill Inmon (1997), organizou os repositórios de informações em um bem corporativo, dando origem ao termo Data Warehouse;
DEFINIÇÕES
DATA WAREHOUSE
É uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil que tem por objetivo dar suporte aos processos de tomada de decisão (Inmon, 1997);
Não é simplesmente um produto ou processo, mas uma estratégia que reconhece a necessidade de consolidar os dados armazenados em sistemas de informações dedicados a ajudar os profissionais de negócio a tomarem decisões mais rápidas e efetivas (Singh, 1997)
DEFINIÇÕES
DATA WAREHOUSE
É o processo pelo qual os dados relacionados de vários sistemas operacionais são fundidos para proporcionar uma única e integrada visão de informação de negócios que abrange todas as divisões de empresa (Wang, 1998).
É uma arquitetura de armazenamento que tem como objetivo guardar dados extraídos a partir de sistemas transacionais, de sistemas operacionais e de fontes externas, combinando os dados em uma forma agregada, resumida e adequada para análise e geração de relatórios Organizacionais, para atender as demandas do negócio;
DEFINIÇÕES
DATA WAREHOUSE
DATA WAREHOUSE
Orientado a assuntos
Dados organizados por assunto e não por aplicação, como os BD’s operacionais;
Por exemplo: vendas de produtos a diferentes clientes, atendimentos de clientes, voos realizados; 
Integrado
Dados provém de diversas fontes;
Dados podem ser sumarizados ou eliminados;
Por exemplo: formato dos dados deve ser padronizado para uniformizar nomes, unidades de medida; 
CARACTERÍSTICAS
DATA WAREHOUSE
Dados Históricos
o histórico dos dados por um período de tempo superior ao usual em BD’s transacionais permite analisar tendências e mudanças;
Não é volátil
os dados de uma Data Warehouse não são modificados como em sistemas transacionais (exceto para correções), mas somente carregados e acessados para leituras, com atualizações apenas periódicas;
CARACTERÍSTICAS
DATA WAREHOUSE
Separar o Data Warehouse do ambiente dos SPT’s é muito importante, pois permite que os usuários que precisam tomar decisões utilizem, explorem e analisem os seus dados sem impactar o desempenho dos SPT’s;
AMBIENTE
DATA WAREHOUSE
Tem como objetivo suportar o Processamento Analítico On-Line (OLAP), ou seja, é estruturado por assunto ou tema para responder a algumas questões;
Por exemplo: total de vendas de um determinado produto nos últimos seis meses;
Já os Sistemas Transacionais devem suportar o Processamento de Transações On-Line (OLTP);
Por exemplo: viabilizar a venda de um determinado produto;
AMBIENTE
DATA WAREHOUSE
Forte ligação entre os sistemas OLAP e OLTP;
A geração dos dados do Data Warehouse ocorre a partir dos dados dos Sistemas Transacionais;
É importante construir um catálogo a com a descrição dos dados que vão participar no Data Warehouse;
O catálogo contém os metadados;
Metadados: origem, formatos, descrição de transformações, regras de negócios, padronização do nome, dentre outros.
AMBIENTE
DATA MART
São subconjuntos de dados, dentro de um Data Warehouse, projetados para dar suporte a negócios de unidades organizacionais específicas (Nimer, 1998);
São muito interessantes para resolver certos problemas, mas não necessariamente substitutos de um projeto de Data Warehouse. Não deve ser um pequeno Data Warehouse, com a finalidade de ser rápido ou possuir dados ainda não suportados (Kimball, 1997);
DEFINIÇÃO
DATA MART
Desempenha o papel de um DW departamental, regional ou funcional;
EXEMPLO
DATA MART
Data Marts surgem de duas formas: Top-down e Bottom-up;
Top-down
a empresa cria um DW e depois parte para a segmentação;
divide o DW em áreas menores gerando assim pequenos bancos orientados por assuntos aos departamentos.
Bottom-up
A empresa, por estratégia sua, prefere primeiro criar um banco de dados para somente uma área;
Com isso os custos são bem inferiores de um projeto de DW completo;
A partir da visualização dos primeiros resultados parte para outra área e assim sucessivamente até resultar em um Data Warehouse.
CRIAÇÃO
DATA MART
DATA MINING
É o processo de extração de conhecimentos de grandes bases de dados, convencionais ou não;
O objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados;
DEFINIÇÃO
DATA MINING
Criar parâmetros para entender o comportamento do consumidor;
Identificar afinidades entre as escolhas de produtos e serviços;
Prever hábitos de compras;
Analisar comportamentos habituais para detectar fraudes.
APLICAÇÃO
KNOWLEDGE DISCOVERY IN DATABASES (KDD)
Procedimento não trivial, automatizado e que visa buscar em grandes bases de dados, novos conhecimentos e novos padrões de relacionamento de dados, que possuem algum tipo de produtividade e informação quando apresentados para um especialista na área;
Consiste em muito mais do que apenas a Mineração de Dados;
A mineração de dados é o componente principal do KDD.
DEFINIÇÃO
CONCLUSÃO
O KKD é um processo composto por seis etapas: seleção de dados, limpeza de dados, enriquecimento, transformação ou codificação dos dados, mineração de dados e apresentação dos resultados;
Podem existir variações na quantidades de etapas.
Discutidas na próxima aula.

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais