Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
CIÊNCIA DE DADOS BIG DATA ANALYTIC CICLO DE VIDA E INTRODUÇÃO À LINGUAGEM R AGENDA Introdução Definição Fontes de Dados Conclusão INTRODUÇÃO Antigamente havia pouca produção de informação nas Organizações e pelas pessoas; Formas de armazenamento: diários, livros, cadernetas; Armazenamento feito por comerciantes nas Organizações; Muitas Organizações não eram informatizadas; Atualmente Organizações informatizadas: grandes volumes de dados e velocidade das informações; INTRODUÇÃO Mudança do comportamento na sociedade; Uso de computadores, e-mail, blogs, livros eletrônicos, informatização de empresas (bancos, áreas, vendas); Proliferação do uso da Internet; Disponível em: computadores, tablets, ipads, smartphones, smart tvs, equipamentos de segurança, automóveis, aviões, dentre outros; Maior números de usuários conectados, maior produção de informações; INTRODUÇÃO Informações produzidas ininterruptamente pelas mais diversas formas e em imensa quantidade; Aplicações: científicas, engenharias, redes sociais, redes de sensores, dados médicos e biológicos, comércio eletrônico, mercado financeiro, dentre outras; Dados desordenados e desestruturados; Por exemplo, Redes Sociais: FaceBook, Twitter e LinkedIn: as pessoas deixam de ser consumidoras e passam a gerar informações; INTRODUÇÃO Informações dos mais diversos assuntos: cotidiano pessoal, acontecimentos, anúncios, trânsito e tantos outros; Utilização do Waze e Uber, por exemplo; É nesse contexto que houve a necessidade de tratar essa grande quantidade de dados gerados; INTRODUÇÃO Física, Biologia (genômica), Saúde Pública e Medicina já manipulam, armazenam e utilizam grandes massas de dados; Um ótimo exemplo é o Projeto Genoma; Um genoma é o conjunto completo do DNA de um organismo, e contém quase todas as informações necessárias para construí-lo e mantê-lo vivo; Nos seres humanos possuem mais de 3 bilhões de pares de bases de DNA; INTRODUÇÃO Armazenado em um arquivo de aproximadamente 3 GB; Levou quase uma década para o sequenciamento de três bilhões de pares-base; Com o uso de novas tecnologias, hoje levamos um dia para sequenciar a mesma quantidade de pares-base; INTRODUÇÃO Outro bom exemplo é o universo bibliotecário; Desde os anos 194 já existia a preocupação em quantificar o grande volume de dados bibliotecários; De acordo com RIDER, Arthur Fremont, 1994, naquela época já se estimava que as bibliotecas norte-americanas iriam dobrar de tamanho (em volume de informações) a cada 16 anos; Baseado nessa estimativa, a biblioteca de Yale teria aproximadamente 200 milhões de volumes, distribuídos em cerca de 6.000 kms de prateleiras; INTRODUÇÃO Outro bom exemplo é o GenBank; Banco de dados de sequências genéticas; Armazena uma coleção anotada de todas as sequências de DNA publicamente disponíveis; Faz parte de uma rede de colaboração juntamente com o European Molecular Biology Laboratory (EMBL) e o DNA DataBank of Japan (DDBJ); INTRODUÇÃO Ele começou a acumular sequências em 1982 e apresentava 606 sequências nucleotídicas e 680.338 bases; Em Junho, 2016 possuía 213.200.907.819 (bilhões) de bases e 196.120.813 (milhões) de sequências; Atualmente ele dobra de tamanho a cada 18 meses; INTRODUÇÃO INTRODUÇÃO O custo do sequenciamento do genoma diminuiu exponencialmente nos últimos anos, assim como o número de genomas sequenciados e armazenados está a aumentar a um ritmo semelhante; o que cria amplas oportunidades para a investigação biomédica em geral e em particular para a medicina personalizada; Naturalmente, esta tendência irá produzir um forte aumento na quantidade de dados gerados. INTRODUÇÃO DEFINIÇÃO Big Data, o termo foi introduzido pela NASA, em 1990, para descrever grandes conjuntos de dados; Os cientistas lidavam com os dados gerados nas pesquisas e que eram livremente compartilhados, gerando novos conhecimentos; Popularização do termos Big Data: evolução do processamento e armazenamento, e redução de custos; Nos dias atuais aplicado nas mais diversas áreas; DEFINIÇÃO Ainda não existe um consenso em relação a sua definição; Existem várias definições na literatura; Vejamos algumas; * DEFINIÇÕES * DEFINIÇÕES FONTES DE DADOS No Big Data há uma série de variáveis que fazem parte da sua composição; Além do volume significativo, surge também a variedade, uma vez que são coletados de diferentes fontes como os sistemas ERP, CRM ou ainda das Redes Sociais; Big Data = Transações + Interações + Observação FONTES DE DADOS CONCLUSÃO Big Data é o conjunto de soluções tecnológicas capaz de lidar com dados estruturados e não estruturados em volume, velocidade, variedade, veracidade e valor inéditos até hoje; Na prática, esta tecnologia permite analisar qualquer tipo de informação digital em tempo real, sendo fundamental para tomada de decisões. * * *
Compartilhar