Prévia do material em texto
Business Analytics: Big Data O que é Big Data? Prof. Esp. Nicholas Alves Said Góes Antes de tudo, o que é um dado? ● São as menores unidades de informação. ● É um registro atribuído a algo. ● É a gravação de caracteres ou símbolos que tem um significado. ● São conceitos ou posições em um mapa ● Do latim datum (“aquilo que se dá”) Ou simplesmente um dado Big Data? É de comer? McKinsey Global Institute define como “A intensa utilização de redes sociais online, de dispositivos móveis para conexão à Internet, transações e conteúdos digitais e também o crescente uso de computação em nuvem tem gerado quantidades incalculáveis de dados. O termo Big Data refere-se a este conjunto de dados cujo crescimento é exponencial e cuja dimensão está além da habilidade das ferramentas típicas de capturar, gerenciar e analisar dados”. "O Gartner, por sua vez, define como Big Data o termo adotado pelo mercado para descrever problemas no gerenciamento e processamento de informações extremas as quais excedem a capacidade das tecnologias de informações tradicionais ao longo de uma ou várias dimensões. Big Data está focado principalmente em questões de volume de conjunto de dados extremamente grandes gerados a partir de práticas tecnológicas, tais como mídia social, tecnologias operacionais, acessos à Internet e fontes de informações distribuídas. Big Data é essencialmente uma prática que apresenta novas oportunidades de negócios." (Cezar Taurion, Big Data) Big Data? É de comer? (Season 2) “Big data é a área do conhecimento que estuda como tratar, analisar e obter informações a partir de conjuntos de dados grandes demais para serem analisados por sistemas tradicionais.” Wikipedia, 2022 “Big Data é um processo de análise e interpretação de um grande volume de dados armazenados remotamente.” FIA, 2021 “Big Data é a análise e a interpretação de grandes volumes de dados de grande variedade. Para isso são necessárias soluções específicas para Big Data que permitam a profissionais de TI trabalhar com informações não-estruturadas a uma grande velocidade.” Canaltech, 2015 Big Data? Se for de comer, passo (Season ∞) “Big data pode ser descrito em termos de desafios de gerenciamento de dados que – devido aos crescentes volume, velocidade e variedade dos dados – não podem ser resolvidos com bancos de dados tradicionais. Embora haja várias definições para big data, a maioria delas inclui o conceito comumente conhecido como "três Vs" de big data: Volume: varia de terabytes e petabytes de dados Variedade: inclui dados de uma ampla variedade de origens e formatos (por exemplo, logs da web, interações de mídia social, comércio eletrônico e transações online, transações bancárias, etc.) Velocidade: cada vez mais, os negócios enfrentam requisitos rígidos do momento em que os dados são gerados até o momento em que as descobertas práticas são entregues aos usuários. Portanto, os dados precisam ser coletados, armazenados, processados e analisados em curtos períodos de tempo, variando de diariamente até em tempo real” AWS, 2022 Por que precisamos do Big Data? De acordo com o artigo de 2015 “20 fatos sobre a internet que você (provavelmente) não sabe”, os dados gerados nos últimos dois anos superam o volume produzido em toda a história da humanidade. O mesmo artigo indicava que até 2020, cerca de 1,7 megabyte de informações inéditas seriam criadas por segundo para cada indivíduo no planeta. https://forbes.com.br/fotos/2015/10/20-fatos-sobre-a-internet-que-voce-provavelmente-nao-sabe/ Mais sobre volume de dados… O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a cada mês são gerados mais de 700 milhões de minutos por mês. A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá assistir todos os vídeos do Youtube. Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS. O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu “motor” de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação. Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não. https://cetax.com.br/big-data/ Mas e aquela história de “V”s do Big Data E quais os principais Vs? Volume: Quantidade de dados realmente grandes, que estão crescendo a todo tempo. Velocidade: Habilidade de obter, registrar e consumir/analisar, sempre no menor tempo possível (normalmente próximo ao tempo real) Variedade: Dados de diversos formatos, de diversas fontes e diversos contextos. Veracidade: Dados confiáveis e consistentes (na medida do possível). Valor: Os dados registrados devem ter valor ou trazer benefícios na sua análise. Quais desafios temos com esses Vs? Suportar diversos tipos de dados; Lidar com volumes extremamente grandes de dados; Processamentos em tempo real, ou quase isso; Distribuição de processamento; Ambientes escaláveis; Basicamente encontrar soluções que suportem todos os Vs. E conseguir encontrar a ferramenta adequada para o seu cenário. Ecossistema Big Data Big Data… Mas e onde entra o Data Lake nisso? Segundo a AWS, "um data lake é um repositório centralizado que permite armazenar todos os seus dados estruturados e não estruturados em qualquer escala. Você pode armazenar seus dados como estão, sem precisar primeiro estruturá-los e executar diferentes tipos de análise, desde painéis e visualizações até processamento de big data, análise em tempo real e machine learning para orientar melhores decisões.” Mas e os Data Warehouses? A AWS diz que, “um data warehouse é um repositório central de informações que podem ser analisadas para tomar decisões mais adequadas. Os dados fluem de sistemas transacionais, bancos de dados relacionais e de outras fontes para o data warehouse, normalmente com uma cadência regular. Analistas de negócios, engenheiros de dados, cientistas de dados e tomadores de decisões acessam os dados por meio de ferramentas de inteligência de negócios (BI), clientes SQL e outros aplicativos de análise.” Data Warehouses estão defasados então? Muito pelo contrário, são tecnologias complementares. É comum ver uma combinação de Bancos de Dados, Data Lake e Data Warehouse atuando juntos para a análise de dados. Não… Próximo! Para clarear mais as coisas… Bancos de dados capturam e armazenam registros detalhados de uma transação. Exige que os dados sejam organizados de forma tabular e que sua estrutura seja definida previamente. Data warehouse é projetado para análises de relações e tendências entre um grande volume de dados . Também exige que os dados sejam organizados de forma tabular e que sua estrutura seja definida previamente. Data lake é um repositório centralizado para todos os dados, podendo ser estruturados, semiestruturados e não estruturados. Uma tabelinha para começar a ficar esperto Características Data warehouse Data lake Dados Dados relacionais de sistemas transacionais, bancos de dados operacionais e aplicativos de linha de negócios Todos os dados, incluindo estruturados, semiestruturados e não estruturados Esquema Geralmente projetado antes da implementação do data warehouse, mas também pode ser gravado no momento da análise (esquema na gravação ou esquema na leitura) Gravado no momento da análise (esquema na leitura) Preço/performance Resultados de consulta mais rápidos, usando armazenamento local Resultados da consulta cada vez mais rápidos usando armazenamento de baixo custo e desacoplamento de computação e armazenamento Qualidade dos dados Dados altamente organizados, que representam a versão central da verdade Quaisquer dados, organizados ou não (ou seja, dados brutos) Usuários Analistas de negócios,cientistas de dados e desenvolvedores de dados Analistas de negócios (usando dados organizados), cientistas de dados, desenvolvedores de dados, engenheiros de dados e arquitetos de dados Análises Geração de relatórios em lote, BI e visualizações Machine learning, análise exploratória, descoberta de dados, streaming, análise operacional, big data e criação de perfil Fonte: https://aws.amazon.com/pt/data-warehouse/