Buscar

BIG DATA Aula 01

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

CIÊNCIA DE DADOS BIG DATA ANALYTIC
CICLO DE VIDA E INTRODUÇÃO À LINGUAGEM R
AGENDA
Introdução
Definição
Fontes de Dados
Conclusão
INTRODUÇÃO
Antigamente havia pouca produção de informação nas Organizações e pelas pessoas;
Formas de armazenamento: diários, livros, cadernetas;
Armazenamento feito por comerciantes nas Organizações;
Muitas Organizações não eram informatizadas;
Atualmente Organizações informatizadas: grandes volumes de dados e velocidade das informações;
INTRODUÇÃO
Mudança do comportamento na sociedade;
Uso de computadores, e-mail, blogs, livros eletrônicos, informatização de empresas (bancos, áreas, vendas);
 Proliferação do uso da Internet;
Disponível em: computadores, tablets, ipads, smartphones, smart tvs, equipamentos de segurança, automóveis, aviões, dentre outros;
Maior números de usuários conectados, maior produção de informações;
INTRODUÇÃO
Informações produzidas ininterruptamente pelas mais diversas formas e em imensa quantidade;
Aplicações: científicas, engenharias, redes sociais, redes de sensores, dados médicos e biológicos, comércio eletrônico, mercado financeiro, dentre outras;
Dados desordenados e desestruturados;
Por exemplo, Redes Sociais: FaceBook, Twitter e LinkedIn: as pessoas deixam de ser consumidoras e passam a gerar informações;
INTRODUÇÃO
Informações dos mais diversos assuntos: cotidiano pessoal, acontecimentos, anúncios, trânsito e tantos outros;
Utilização do Waze e Uber, por exemplo;
É nesse contexto que houve a necessidade de tratar essa grande quantidade de dados gerados;
INTRODUÇÃO
Física, Biologia (genômica), Saúde Pública e Medicina já manipulam, armazenam e utilizam grandes massas de dados;
Um ótimo exemplo é o Projeto Genoma;
Um genoma é o conjunto completo do DNA de um organismo, e contém quase todas as informações necessárias para construí-lo e mantê-lo vivo;
Nos seres humanos possuem mais de 3 bilhões de pares de bases de DNA;
INTRODUÇÃO
Armazenado em um arquivo de aproximadamente 3 GB;
Levou quase uma década para o sequenciamento de três bilhões de pares-base;
Com o uso de novas tecnologias, hoje levamos um dia para sequenciar a mesma quantidade de pares-base;
INTRODUÇÃO
Outro bom exemplo é o universo bibliotecário;
Desde os anos 194 já existia a preocupação em quantificar o grande volume de dados bibliotecários;
De acordo com RIDER, Arthur Fremont, 1994, naquela época já se estimava que as bibliotecas norte-americanas iriam dobrar de tamanho (em volume de informações) a cada 16 anos;
Baseado nessa estimativa, a biblioteca de Yale teria aproximadamente 200 milhões de volumes, distribuídos em cerca de 6.000 kms de prateleiras;
INTRODUÇÃO
Outro bom exemplo é o GenBank;
Banco de dados de sequências genéticas;
Armazena uma coleção anotada de todas as sequências de DNA publicamente disponíveis;
Faz parte de uma rede de colaboração juntamente com o European Molecular Biology Laboratory (EMBL) e o DNA DataBank of Japan (DDBJ);
INTRODUÇÃO
Ele começou a acumular sequências em 1982 e apresentava 606 sequências nucleotídicas e 680.338 bases;
Em Junho, 2016 possuía 213.200.907.819 (bilhões) de bases e 196.120.813 (milhões) de sequências;
Atualmente ele dobra de tamanho a cada 18 meses;
INTRODUÇÃO
INTRODUÇÃO
O custo do sequenciamento do genoma diminuiu exponencialmente nos últimos anos, assim como o número de genomas sequenciados e armazenados está a aumentar a um ritmo semelhante;
o que cria amplas oportunidades para a investigação biomédica em geral e em particular para a medicina personalizada; 
Naturalmente, esta tendência irá produzir um forte aumento na quantidade de dados gerados. 
INTRODUÇÃO
 
 
DEFINIÇÃO
Big Data, o termo foi introduzido pela NASA, em 1990, para descrever grandes conjuntos de dados;
Os cientistas lidavam com os dados gerados nas pesquisas e que eram livremente compartilhados, gerando novos conhecimentos;
Popularização do termos Big Data: evolução do processamento e armazenamento, e redução de custos;
Nos dias atuais aplicado nas mais diversas áreas;
DEFINIÇÃO
Ainda não existe um consenso em relação a sua definição;
Existem várias definições na literatura;
Vejamos algumas;
*
DEFINIÇÕES
*
DEFINIÇÕES
FONTES DE DADOS
No Big Data há uma série de variáveis que fazem parte da sua composição;
Além do volume significativo, surge também a variedade, uma vez que são coletados de diferentes fontes como os sistemas ERP, CRM ou ainda das Redes Sociais;
Big Data = Transações + Interações + Observação
FONTES DE DADOS
 
 
 
 
 
CONCLUSÃO
Big Data é o conjunto de soluções tecnológicas capaz de lidar com dados estruturados e não estruturados em volume, velocidade, variedade, veracidade e valor inéditos até hoje;
Na prática, esta tecnologia permite analisar qualquer tipo de informação digital em tempo real, sendo fundamental para tomada de decisões.
*
*
*

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais