Baixe o app para aproveitar ainda mais
Prévia do material em texto
Indaial – 2021 Análise e VisuAlizAção dos dAdos Prof. Arquelau Pasta 1a Edição Big dAtA AnAlytics: Elaboração: Prof. Arquelau Pasta Copyright © UNIASSELVI 2021 Revisão, Diagramação e Produção: Equipe Desenvolvimento de Conteúdos EdTech Centro Universitário Leonardo da Vinci – UNIASSELVI Ficha catalográfica elaborada pela equipe Conteúdos EdTech UNIASSELVI Impresso por: P291b Pasta, Arquelau Big data analytics: análise e visualização dos dados. / Arquelau Pasta – Indaial: UNIASSELVI, 2021. 228 p.; il. ISBN 978-65-5663-747-1 ISBN Digital 978-65-5663-748-8 1. Big data analytics. - Brasil. II. Centro Universitário Leonardo da Vinci. CDD 004 Prezado acadêmico! Seja bem-vindo à disciplina de Big Data Analytics: Análise e Visualização dos Dados. Este livro didático foi elaborado com o intuito de contribuir e aprimorar o seu conhecimento acerca destas três unidades principais: Unidade 1: Big Data Analytics; Unidade 2: Trabalhando com Dados e Unidade 3: Big Data para Negócios. Em muitas empresas, a análise de dados já faz parte da rotina de negócios. Esta é uma das estratégias utilizadas no auxílio da otimização dos processos administrativos e ajuda no entendimento do padrão de comportamento dos clientes e do mercado, buscando tornar os produtos e/ou serviços mais competitivos, e por que não mais lucrativos. O que observamos é que a quantidade de dados gerados cresce a cada dia e nem pensar em fazer uma análise nesses dados de forma manual. É neste momento que entra em ação o Big Data Analytics. Com o avanço das tecnologias digitais, as plataformas estão possibilitando cada vez mais a geração de dados, mas ainda há pouca análise desses dados. Este cenário permite que haja uma forte tendência na criação de novas técnicas e ferramentas capazes de realizar análises em tempo real, visando a um melhor desempenho para aqueles que souberem interpretar as informações geradas. Com investimentos na utilização de ferramentas de Big Data Analytics, as empresas podem desenvolver seus produtos e/ou serviços de forma mais eficiente e eficaz, tendo significativa melhora em seus processos. A correta utilização do Big Data Analytics possibilita que as empresas atraiam mais clientes, mantenham os já existentes, explorem novos mercados e, de quebra, se tornem mais competitivas e lucrativas. Aproveitamos este momento para destacar que os exercícios NÃO SÃO OPCIONAIS. O objetivo de cada exercício deste livro didático é a fixação de determinado conceito, bem como o aprimoramento dos seus saberes. É aí que reside a importância de você realizar todas as atividades propostas. Sugerimos fortemente que, em caso de dúvida em algum exercício, você entre em contato com seu tutor externo e que não passe para o exercício seguinte enquanto o atual não estiver completamente compreendido. Por fim, ressaltamos que, mesmo sendo uma área muito ampla, o livro didático lhe oferece um início sólido e consistente do tema. Desejamos a você uma excelente experiência nos estudos dos conteúdos desta disciplina! Prof. Arquelau Pasta APRESENTAÇÃO Olá, acadêmico! Para melhorar a qualidade dos materiais ofertados a você – e dinamizar, ainda mais, os seus estudos –, nós disponibilizamos uma diversidade de QR Codes completamente gratuitos e que nunca expiram. O QR Code é um código que permite que você acesse um conteúdo interativo relacionado ao tema que você está estudando. Para utilizar essa ferramenta, acesse as lojas de aplicativos e baixe um leitor de QR Code. Depois, é só aproveitar essa facilidade para aprimorar os seus estudos. GIO QR CODE Olá, eu sou a Gio! No livro didático, você encontrará blocos com informações adicionais – muitas vezes essenciais para o seu entendimento acadêmico como um todo. Eu ajudarei você a entender melhor o que são essas informações adicionais e por que você poderá se beneficiar ao fazer a leitura dessas informações durante o estudo do livro. Ela trará informações adicionais e outras fontes de conhecimento que complementam o assunto estudado em questão. Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é o material-base da disciplina. A partir de 2021, além de nossos livros estarem com um novo visual – com um formato mais prático, que cabe na bolsa e facilita a leitura –, prepare-se para uma jornada também digital, em que você pode acompanhar os recursos adicionais disponibilizados através dos QR Codes ao longo deste livro. O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com uma nova diagramação no texto, aproveitando ao máximo o espaço da página – o que também contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo. Preocupados com o impacto de ações sobre o meio ambiente, apresentamos também este livro no formato digital. Portanto, acadêmico, agora você tem a possibilidade de estudar com versatilidade nas telas do celular, tablet ou computador. Preparamos também um novo layout. Diante disso, você verá frequentemente o novo visual adquirido. Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa continuar os seus estudos com um material atualizado e de qualidade. Acadêmico, você sabe o que é o ENADE? O Enade é um dos meios avaliativos dos cursos superiores no sistema federal de educação superior. Todos os estudantes estão habilitados a participar do ENADE (ingressantes e concluintes das áreas e cursos a serem avaliados). Diante disso, preparamos um conteúdo simples e objetivo para complementar a sua compreensão acerca do ENADE. Confira, acessando o QR Code a seguir. Boa leitura! ENADE LEMBRETE Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela um novo conhecimento. Com o objetivo de enriquecer seu conheci- mento, construímos, além do livro que está em suas mãos, uma rica trilha de aprendizagem, por meio dela você terá contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complementa- res, entre outros, todos pensados e construídos na intenção de auxiliar seu crescimento. Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo. Conte conosco, estaremos juntos nesta caminhada! SUMÁRIO UNIDADE 1 - INTRODUÇÃO AO BIG DATA ANALYTICS ......................................................... 1 TÓPICO 1 - A ERA DOS DADOS ..............................................................................................3 1 INTRODUÇÃO .......................................................................................................................3 2 É TEMPO DE DADOS ............................................................................................................3 RESUMO DO TÓPICO 1 .........................................................................................................10 AUTOATIVIDADE ...................................................................................................................11 TÓPICO 2 - DO SMART AO BIG DATA ................................................................................... 13 1 INTRODUÇÃO ..................................................................................................................... 13 2 DO MICRO AO MACRO ...................................................................................................... 13 3 DATA DEVICES .................................................................................................................. 21 4 DATA COLLECTORS ........................................................................................................ 22 5 DATA AGGREGATORS ......................................................................................................22 6 DATA USERS E BUYERS................................................................................................... 22 RESUMO DO TÓPICO 2 ........................................................................................................ 25 AUTOATIVIDADE ................................................................................................................. 26 TÓPICO 3 - OS Vs DO BIG DATA .......................................................................................... 29 1 INTRODUÇÃO .................................................................................................................... 29 2 BIG DATA E SEUS V’s ....................................................................................................... 29 2.1 VOLUME .................................................................................................................................................30 2.2 VELOCIDADE ........................................................................................................................................32 2.3 VERACIDADE .......................................................................................................................................33 2.4 VARIEDADE ..........................................................................................................................................35 2.5 VALOR .................................................................................................................................................... 37 2.6 VISUALIZAÇÃO ....................................................................................................................................38 2.7 VOLATILIDADE .....................................................................................................................................39 RESUMO DO TÓPICO 3 ........................................................................................................ 42 AUTOATIVIDADE ................................................................................................................. 43 TÓPICO 4 - O CICLO DE VIDA DO BIG DATA ....................................................................... 45 1 INTRODUÇÃO .................................................................................................................... 45 2 AS FASES DO BIG DATA ................................................................................................... 45 2.1 DESCOBERTA....................................................................................................................................... 48 2.2 PREPARAÇÃO DOS DADOS ...............................................................................................................51 2.3 PLANEJAMENTO DE MODELOS ......................................................................................................52 2.4 CONSTRUINDO O MODELO ...............................................................................................................53 2.5 COMUNICAR OS RESULTADOS ........................................................................................................53 2.6 OPERACIONALIZAÇÃO ......................................................................................................................54 RESUMO DO TÓPICO 4 ........................................................................................................ 55 AUTOATIVIDADE ................................................................................................................. 56 TÓPICO 5 - OS MITOS E VERDADES DO BIG DATA .............................................................59 1 INTRODUÇÃO .....................................................................................................................59 2 VERDADES E MENTIRAS SOBRE BIG DATA ....................................................................59 2.1 MITO 1 – BIG DATA É PARA GRANDES EMPRESAS ......................................................................60 2.2 MITO 2 – BIG DATA REQUER GRANDES ORÇAMENTOS E GRANDES EQUIPES ...................60 2.3 MITO 3 – QUANTO MAIS DADOS, MELHOR! ...................................................................................61 2.4 MITO 4 – O BIG DATA SUBSTITUIRÁ O DATA WAREHOUSE ......................................................62 2.5 MITO 5 – BIG DATA TORNA QUALQUER EMPRESA LUCRATIVA ..............................................62 RESUMO DO TÓPICO 5 ........................................................................................................ 63 AUTOATIVIDADE ................................................................................................................. 64 TÓPICO 6 - APLICAÇÕES MAIS USUAIS DE BIG DATA ......................................................67 1 INTRODUÇÃO .....................................................................................................................67 2 QUEM USA BIG DATA? ......................................................................................................67 LEITURA COMPLEMENTAR ................................................................................................. 71 RESUMO DO TÓPICO 6 .........................................................................................................76 AUTOATIVIDADE .................................................................................................................. 77 REFERÊNCIAS ......................................................................................................................79 UNIDADE 2 — TRABALHANDO COM DADOS ...................................................................... 83 TÓPICO 1 — PROCESSANDO DADOS PARA BIG DATA ....................................................... 85 1 INTRODUÇÃO .................................................................................................................... 85 2 PROCESSAMENTO DE DADOS ........................................................................................ 86 2.1 EXPLOSÃO DE DADOS ........................................................................................................................87 2.1.1 Como lidar com a escalabilidade em Big Data? ..................................................................90 2.1.2 Escalabilidade horizontal .........................................................................................................94 2.1.3 Escalabilidade vertical ..............................................................................................................96 RESUMO DO TÓPICO 1 .........................................................................................................99 AUTOATIVIDADE ................................................................................................................100 TÓPICO 2 - BIG DATA E A COMPUTAÇÃO EM NUVEM ......................................................103 1 INTRODUÇÃO ...................................................................................................................103 2 BIG DATA E CLOUD COMPUTING ....................................................................................103 2.1 IAAS: INFRAESTRUTURA COMO SERVIÇO ..................................................................................106 2.2 PAAS: PLATAFORMA COMO SERVIÇO ......................................................................................... 107 2.3 SAAS: SOFTWARE COMO SERVIÇO ..............................................................................................108 2.4 FAAS: FUNÇÕES COMO SERVIÇO .................................................................................................109 3 OS TIPOS DE IMPLANTAÇÃO DE NUVENS ..................................................................... 112 3.1 NUVEM PÚBLICA ................................................................................................................................112 3.2 NUVEM PRIVADA...............................................................................................................................113 3.3 COMMUNITY CLOUD .........................................................................................................................113 3.4 NUVEM HÍBRIDA ................................................................................................................................114 RESUMO DO TÓPICO 2 ....................................................................................................... 116 AUTOATIVIDADE .................................................................................................................117 TÓPICO 3 - BANCOS DE DADOS PARA BIG DATA............................................................. 119 1 INTRODUÇÃO ................................................................................................................... 119 2 TIPOS DE BANCOS DE DADOS PARA BIG DATA ............................................................120 2.1 BANCO DE DADOS NOSQL .............................................................................................................. 122 3 CLASSIFICAÇÕES DE BANCOS DE DADOS NÃO RELACIONAIS .................................. 131 3.1 BANCOS DE DADOS ORIENTADO A CHAVE/VALOR...................................................................131 3.2 BANCOS DE DADOS ORIENTADOS A DOCUMENTOS ............................................................... 133 3.3 BANCOS DE DADOS ORIENTADOS A COLUNAS ....................................................................... 137 3.4 BANCOS DE DADOS ORIENTADOS A GRAFOS .......................................................................... 139 4 MONGODB .......................................................................................................................142 5 A ABORDAGEM NÃO RELACIONAL ............................................................................... 144 5.1 CRIAÇÃO OU GERAÇÃO DE CHAVE ............................................................................................... 147 6 PREPARAÇÃO DOS DADOS ............................................................................................148 LEITURA COMPLEMENTAR ............................................................................................... 151 RESUMO DO TÓPICO 3 .......................................................................................................155 AUTOATIVIDADE ................................................................................................................156 REFERÊNCIAS ....................................................................................................................158 UNIDADE 3 — BIG DATA PARA NEGÓCIOS ........................................................................163 TÓPICO 1 — BIG DATA NAS ORGANIZAÇÕES ....................................................................165 1 INTRODUÇÃO ...................................................................................................................165 2 BIG DATA NAS ORGANIZAÇÕES .....................................................................................166 2.1 FASES DO BIG DATA ..........................................................................................................................168 2.1.1 Fase 1 – descoberta ................................................................................................................. 169 2.1.2 Fase 2 – preparação e processamento dos dados ......................................................... 169 2.1.3 Fase 3 – planejamento do modelo ...................................................................................... 170 2.1.4 Fase 4 – construção do modelo ........................................................................................... 171 2.1.5 Fase 5 – comunicação dos resultados ............................................................................... 171 2.1.6 Fase 6 – medição da eficácia ................................................................................................ 171 2.2 COMO AS EMPRESAS USAM BIG DATA PARA CAPTAR E RETER SEUS CLIENTES? ........ 173 2.2.1 Transformando dados em decisões .................................................................................... 175 2.3 O BIG DATA NO MARKETING............................................................................................................176 2.4 BIG DATA E GERENCIAMENTO DE RISCOS ..................................................................................177 2.5 BIG DATA E A CADEIA DE SUPRIMENTOS ................................................................................... 179 RESUMO DO TÓPICO 1 ....................................................................................................... 181 AUTOATIVIDADE ................................................................................................................182 TÓPICO 2 - INOVAÇÃO E TOMADA DE DECISÃO COM BIG DATA .....................................185 1 INTRODUÇÃO ...................................................................................................................185 2.1 BIG DATA E OS SISTEMAS DE INFORMAÇÃO .............................................................................. 187 2.1.1 Implementação de Sistemas de Big Data em Organizações ........................................190 2.2 BIG DATA E SEUS TIPOS DE ANÁLISES ....................................................................................... 192 2.2.1 Análise descritiva ..................................................................................................................... 193 2.2.2 Análise diagnóstica ................................................................................................................ 195 2.2.3 Análise preditiva ..................................................................................................................... 196 2.2.4 Análise prescritiva ..................................................................................................................198 RESUMO DO TÓPICO 2 ...................................................................................................... 200 AUTOATIVIDADE ................................................................................................................201 TÓPICO 3 - BIG DATA NA PRÁTICA .................................................................................. 203 1 INTRODUÇÃO .................................................................................................................. 203 2 IMPLANTANDO BIG DATA NAS EMPRESAS .................................................................. 203 2.1 EM BUSCA DOS DADOS PERFEITOS ............................................................................................ 204 2.2 DESENHANDO UMA METODOLOGIA PARA BIG DATA ............................................................. 206 2.3 ESCOLHAM SUAS ARMAS ..............................................................................................................207 2.3.1 Hadoop ......................................................................................................................................208 2.3.2 Bancos de dados NoSQL ...................................................................................................... 209 2.3.3 MapReduce ..............................................................................................................................211 2.3.4 Yarn ............................................................................................................................................ 213 2.3.5 Spark .......................................................................................................................................... 215 2.3.6 Tableau .....................................................................................................................................216 2.4 PREPARE SEUS GUERREIROS ...................................................................................................... 217 LEITURA COMPLEMENTAR .............................................................................................. 220 RESUMO DO TÓPICO 3 ...................................................................................................... 223 AUTOATIVIDADE ............................................................................................................... 224 REFERÊNCIAS ................................................................................................................... 226 1 UNIDADE 1 - INTRODUÇÃO AO BIG DATA ANALYTICS OBJETIVOS DE APRENDIZAGEM PLANO DE ESTUDOS A partir do estudo desta unidade, você deverá ser capaz de: • definir e esclarecer os principais conceitos relacionados ao Big Data Analytics; • analisar e discutir, a partir dos conceitos e da compreensão dos componentes que fazem parte da arquitetura de Big Data; • identificar as principais problemáticas associadas à elaboração de um projeto de Big Data Analytics; • analisar as fontes de origem e tipos de dados a serem trabalhados no Big Data Analytics; • categorizar as principais vertentes do Big Data Analytics. Esta unidade está dividida em seis tópicos. No decorrer dela, você encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado. TÓPICO 1 – A ERA DOS DADOS TÓPICO 2 – DO SMART AO BIG DATA TÓPICO 3 – OS Vs DO BIG DATA TÓPICO 4 – O CICLO DE VIDA DO BIG DATA TÓPICO 5 – OS MITOS E VERDADES DO BIG DATA TÓPICO 6 – APLICAÇÕES MAIS USUAIS DE BIG DATA Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure um ambiente que facilite a concentração, assim absorverá melhor as informações. CHAMADA 2 CONFIRA A TRILHA DA UNIDADE 1! Acesse o QR Code abaixo: 3 A ERA DOS DADOS 1 INTRODUÇÃO Devido ao rápido crescimento das tecnologias de rede sem fio (por exemplo, 5G) e à crescente demanda por serviços com alta qualidade de serviço solicitação (QoS), o gerenciamento de recursos de rede torna-se uma etapa permanentemente mais desafiadora que requer ser corretamente projetada para avançar o desempenho da rede. Os dados digitais produzidos são, em parte, resultado do uso de dispositivos conectados à internet. Assim, smartphones, tablets e computadores transmitem dados de seus usuários. Objetos inteligentes conectados transmitem informações do uso de objetos cotidianos pelo consumidor. Além dos dispositivos conectados, os dados vêm de uma ampla gama de fontes: dados demográficos, dados climáticos, dados científicos e médicos, dados de consumo de energia etc. Todos esses dados fornecem informações da localização dos usuários dos dispositivos, suas viagens, seus interesses, seus hábitos de consumo, suas atividades de lazer, e seus projetos e assim por diante. Neste tópico, você compreenderá a origem dos dados, quais são as principais fontes que estão gerando esta quantidade gigantesca. Além disso, conhecerá as novas tendências na geração de dados. TÓPICO 1 - UNIDADE 1 2 É TEMPO DE DADOS A quantidade de dados gerados cresceu vertiginosamente, nos últimos anos, atingindo uma posição sem precedentes vistos, levando a qualquer dado para atrair mais atenção do que com dados em tabelas de qualquer banco de dados. Em 2020, o surto do COVID-19 intensificou ainda mais a geração de dados digitais, pode se dizer que 2020 introduziu uma nova era, na qual a tecnologia e os dados assumiram papéis mais significativos em nosso cotidiano. A cada clique do mouse, a cada reação nas mídias sociais, compartilhamento, foto enviada, áudio ou vídeo do Youtube ou qualquer outra plataforma de streaming, os dados são gerados, sem levar em consideração os dados gerados pelos ERP, softwares ou até mesmo a escrita deste livro. Esses dados, quando devidamente analisados, nos auxiliam a entender melhor este mundo que se atualiza a cada milissegundo numa velocidade mais do que incrível. 4 Em 2015, estimava-se que 2,5 quintilhões de bytes eram gerados todos os dias. O Instituto Gartner (2018 apud GASTOS GLOBAIS [...], 2018), estimou que até 2020 teríamos um total de 40 trilhões de gigabytes de dados sendo gerados por dia, isto significa 2,2 milhões de terabytes sendo gerados diariamente. A plataforma Domo (2020), especializada em dados, apresenta um infográfico com informações de onde vem esta quantidade de dados gerados. FIGURA 1 – FONTE DA ORIGEM DOS DADOS FONTE: <https://bit.ly/3ingqlW>. Acesso em: 23 abr. 2021. De acordo com uma estimativa da IBM, 2,5 quintilhões de bytes de dados são criados todos os dias. Um relatório recente da Domo (2020) estima a quantidade de dados gerados a cada minuto em plataformas on-line populares. A seguir, estão alguns dos principais dados do relatório: • usuários do Facebook compartilham quase 4,16 milhões posts de conteúdo; • usuários do Twitter enviam quase 300.000 tweets; • usuários do Instagram curtem quase 1,73 milhão de fotos; 5 • usuários do YouTube carregam 500 horas de novo conteúdo de vídeo; • usuários da Apple baixam quase 51.000 aplicativos; • usuários de Skype fazem quase 110.000 novas chamadas; • a Amazon recebe 4.300 novos visitantes; • assinantes da Netflix transmitem quase 405.000 horas de vídeo. Todos esses dados sendo gerados diariamente e de modo não sigiloso estão à disposição, porém, simplesmente ter acesso a eles não os fazem valer. Você precisa saber qual a finalidade, para o que você os quer, quais são seus interesses sobres eles, o que você quer extrair? Amaral (2016, p. 11) destaca que: Na era da informação e conhecimento, analisar dados não é uma atividade qualquer para empresas e governos, é uma questão de sobrevivência. Em um mundo globalizado, e cada vez mais competitivo, em que dados eletrônicos são produzidos de forma exponencial, quem for capaz de extrair informação e conhecimento de dados de forma eficiente, venderá mais, produzirá mais, gastará menos, terá clientes mais satisfeitos, fornecedores mais eficientes e estará em conformidade com agências reguladoras e fiscalizadoras. Não somos capazes ainda de avaliar com precisão como essa nova era que está surgindo será, mas sabemos que a produção e análise de dados terão um papel fundamental. A globalização e o e-commerce estão mudando radicalmente as preferências dos consumidores e uma enxurrada de jovens empreendedores da internet que está impulsionando mudanças descontínuas no ambiente de negócios surgiu. Essa mudança está se tornando mais ambígua e difícil de prever e planejar. Por exemplo, o Facebook transformou o mercado de varejo on-line à medida que várias plata- formas transformaram as telecomunicações, e o Google transformou o universo de pes- quisas. Com certeza uma mudança fundamental nas teorias recentes da estratégia é que a vantagem competitiva não é algo que uma empresa possui nem algo que possa proteger. Desde o início das aplicações de computadores para problemas de negócios, na década de 1950, e certamente desde meados da década de 1960, quando os primeiros sistemas de gerenciamento de banco de dados bem-sucedidos começaram a aparecer, houve um aumento constante na quantidade de dados armazenados e no reconhecimento do valor desses dados, além da simples informatização das tarefas rotineiras. Na linguagem do Big Data, o volume de dados tem aumentado de forma constante e substancial, da década de 1960 até os dias atuais. Podemos dizer que os avanços tecnológicos e as mudanças geradas por estes avanços, produziram um tipo de “universo paralelo”, que está em franca expansão de novos conteúdos, novos dados, novas fontes de informações. Dados são criados cons- tante e diariamente a uma taxa cada vez maior. Smartphones, mídias sociais, sensores acoplados nos mais diversos equipamentos, exemplo para diagnóstico médico, terminais bancários, geram dados que precisam ser processados e armazenados em tempo real. 6 Mesmo conseguindoacompanhar este gigantesco fluxo de dados é extremamente difícil ter uma noção do que estes dados tratam, especialmente quando não são tratados com as noções tradicionais de estrutura de dados, para identificar padrões significativos e extrair informações úteis. Esses desafios do dilúvio de dados apresentam a oportunidade de transformar negócios, governo, ciência e vida cotidiana. Várias empresas estão na liderança do desenvolvimento de sua capacidade de coletar e explorar dados: • As operadoras de cartão de crédito monitoram cada compra que seus clientes fazem e podem identificar compras fraudulentas ou até mesmo o uso indevido do cartão, por roubo, como exemplo, com alto grau de precisão usando regras derivadas do processamento de bilhões de transações; • As operadoras de telefonia móvel analisam os padrões de chamada dos assinantes para determinar, por exemplo, se os contatos frequentes de um chamador estão em uma rede concorrente. Se essa rede concorrente está oferecendo uma promoção atraente que pode causar o cancelamento do contrato do assinante, a empresa de telefonia móvel pode oferecer proativamente ao assinante um incentivo para permanecer em seu contrato. • Para empresas como LinkedIn e Facebook, o dado em si é seu principal produto. As avaliações dessas empresas são fortemente derivadas dos dados que coletam e hospedam, que contém cada vez mais valor intrínseco à medida que os dados crescem. Após todo esse cenário, você já deve ter se perguntado: qual é a quantidade que eu gero por dia? Vamos começar com as suas redes sociais, quantas curtidas, quantos comentários você faz por dia? E seus e-mails, particular e de trabalho, quantos você recebe por dia, sejam “oficiais” ou spans. Quantas vezes você fez uma pesquisa no Google? Quantos anúncios são enviados para você enquanto você assiste a um vídeo no Youtube? Então, o que essas empresas fazem com estes dados? Onde essas empresas armazenam estes dados e para quê? Devemos dar uma parada e perguntarmos: onde fica nossa privacidade neste cenário? Como garantir que nossos dados pessoais, bancários, por exemplo, não sejam utilizados por pessoas que querem tirar proveito de forma incorreta? Será que a Lei Geral de Proteção de Dados nos garantirá esta privacidade? INTERESSANTE 7 A ciência de dados surgiu com a necessidade de lidarmos com a enorme quantidade de dados e informações geradas por nossas ações em conjunto com algum artefato – neste caso, tecnológico. Ela atende a uma demanda interdisciplinar, na qual estão inseridas outras tecnologias voltadas aos dados, como Big Data. O termo foi mencionado inicialmente em meados de 2010, mas, antes, seus conceitos eram compreendidos por outros termos, como OLAP (Online Analytical Processing) e BI (Business Intelligence). Podemos notar que, apesar de conseguirmos visualizar claramente a quantidade de dados que temos ao nosso redor, variantes do termo já vêm sendo utilizadas há algum tempo (GONÇALVES; ROGÉRIO; MORAES, 2019, p. 4, grifo do original). Devido à grande quantidade ou estrutura destes dados, eles não podem simplesmente ser analisados apenas usando bancos de dados ou métodos tradicionais. Essas análises exigem novas ferramentas e tecnologias para armazenar, gerenciar e realizar o benefício do negócio. Essas novas ferramentas e tecnologias permitem a criação, manipulação e gerenciamento de grandes conjuntos de dados e os ambientes de armazenamento que os abrigam. O que nos faz perceber que existe uma grande quantidade de dados gerados nas mais diversas fontes, e nos mais variados formatos, sejam estruturados ou não. A taxa de criação de dados está acelerando, impulsionada por muitos dos itens. As mídias sociais e o sequenciamento genético, as pesquisas na área da saúde, estão entre as fontes de Big Data que mais crescem e exemplos de fontes não tradicionais de dados sendo usadas para análise. Por exemplo, em 2012, os usuários do Facebook postaram 700 atualizações de status por segundo em todo o mundo, que podem ser aproveitadas para deduzir interesses latentes ou visões políticas dos usuários e mostrar anúncios relevantes. Por exemplo, na atualização em que uma mulher muda seu status de relacionamento de “solteira” para “noiva”, desencadearia anúncios de vestidos de noiva, planejamento de casamento ou serviços de mudança de nome. O Facebook também pode construir gráficos sociais para analisar quais usuários estão conectados uns aos outros como uma rede interconectada. Em março de 2013, o Facebook lançou um novo recurso chamado “pesquisa gráfica”, permitindo que usuários e desenvolvedores pesquisassem gráficos sociais para pessoas com interesses semelhantes, hobbies e locais compartilhados. 8 FIGURA 2 – ORIGEM DOS DADOS FONTE: <https://shutr.bz/3504qio>. Acesso em: 23 abr. 2021. A popularização da internet, a partir dos anos 1995, sinalizou uma mudança de rota, não apenas na quantidade de dados, mas também mais significativamente na taxa em que os dados chegaram, isto é velocidade de geração de dados; a diversidade de fontes de onde chegaram e os tipos de dados disponíveis para quase todos, o que significa a variedade dos dados gerados. Mais importante do que as mudanças quantitativas, houve uma enorme mudança qualitativa na quantidade de detalhes, realizada e mantida por essas bases de dados. Essas mudanças, combinadas com mudanças drásticas na tecnologia disponível para analisar e extrair informações desses dados, o custo e a disponibilidade de processamento e armazenamento para os dados, e mecanismos de origem/ entrega, como smartphones e sensores, por sua vez, impulsionaram mudanças nas oportunidades que podem ser criadas pela excelência no uso de dados e informações. Mais do que isso, eles têm impulsionado mudanças no que consideramos ser dados disponíveis para análise, em que vemos os possíveis resultados como sendo, como vemos a informação em si e, o mais importante, a capacidade que temos de usar os resultados para impactar eventos reais. Mas a internet e o acesso resultante do consumidor a grandes quantidades de dados, em grande parte não estruturados, foi apenas a primeira onda de mudanças no volume de dados. Apesar de ter o efeito de disponibilizar esses dados a qualquer momento e a quase qualquer pessoa, e, pelo menos, tão importante, tornando quase todos uma fonte potencial (e muitas vezes real) de dados, eles acessaram apenas uma pequena fração da geração potencial e uso de dados. 9 Duas tendências existentes, e uma tendência emergente, preencheram esse vazio e estão aumentando drasticamente o volume, a velocidade, a variedade e, especialmente, os detalhes oportunos dos dados gerados e consumidos. São mobilidade, comunicação sem fio e tendência para dados “abertos”. A primeira tendência, mobilidade, cria cada vez mais dados e ao mesmo tempo a demanda por dados. Ela reduz drasticamente o tempo no qual a informação é percebida como valor, as vezes para segundos. Fizemos uma pergunta simples: quanto tempo você está disposto a esperar para receber uma atualização de uma notícia? Lembre-se, você tem um smartphone e acesso à Internet a sua disposição. A segunda tendência, comunicação sem fio, tem possibilitado a utilização de sensores em quase todos os lugares. A quantidade de dados gerados por sensores de temperatura, vento, condições climáticas, ou até mesmo situações envolvendo a saúde humana, como, por exemplo, medição de glicose, também está crescendo e tornando uma fonte para análise destes dados. A última tendência “dados abertos”, se deve à utilização crescente de todos estes dispositivos por parte de um número cada vez maior de pessoas, deixando de estar presente somente nos ambientes corporativos, fazendo parte do nosso cotidiano. Para uma empresa, é essencial ter acesso a cada vez mais dados do ambiente em que opera. Isso permitirá examinar não as classes de comportamento, mas casos individuais. Isso explica por que essa revolução trouxe o surgimentodas chamadas “startups”, cujo objetivo é processar automaticamente os dados conhecidos como Big Data. Certamente nos encontramos na frente de um dos elementos do que algumas pessoas chamam de “nova revolução industrial”. Está claro que a onipresença dos dados e devido à grande quantidade em que estão sendo gerados, irá criar uma demanda por profissionais que saibam coletar, armazenar, processar e, o mais importante, extrair informações desse grande conjunto de dados, para que cada vez mais sejamos capazes de entender as implicações que este novo universo nos traz. 10 Neste tópico, você adquiriu certos aprendizados, como: RESUMO DO TÓPICO 1 • A quantidade de dados gerados no mundo está crescente vertiginosamente. • Empresas, como as operadoras de cartão de crédito, telefonia, LinkedIn, Facebook, dentre tantas outras, têm os dados como seus ativos principais. • Existem três grandes tendências para a geração de novos dados, sendo elas a mobilidade, a comunicação sem fio e a de dados abertos. • Devido à quantidade de dados gerados, eles não podem ser analisados com um simples banco de dados. 11 1 O Big Data refere-se ao volume, variedade e velocidade de dados – estruturados ou não –transmitidos através de redes em processos de transformação e em dispositivos de armazenamento até que se torne um conhecimento útil para as empresas. Diante deste contexto, podemos afirmar que o Big Data começou: a) ( ) Com o surgimento de grande volume de dados gerados em função dos avanços tecnológicos. b) ( ) Com o avanço nas metodologias de tomada de decisões estratégicas das empresas. c) ( ) Com o avanço no poder de processamento dos computadores disponíveis para a população. d) ( ) Com a necessidade de estarmos sempre conectados as redes sociais divulgando no cotidiano. e) ( ) Com a criação de novas ferramentas de gerenciamento de banco de dados relacionais. 2 Usando de habilidades de programação, conhecimento de domínio e conhecimento matemático e estatístico, podemos analisar dados brutos e encontrar padrões ocultos. Uma empresa interessada em encontrar insights para gerenciar melhor a tomada de decisões a respeito de seus cliente e produtos, terá melhores chances se investir em: a) ( ) Banco de dados Relacionais. b) ( ) ERP. c) ( ) Data Science. d) ( ) Big Data. e) ( ) Governança de Dados. 3 O Big Data Analytics é considerado um desdobramento do Big Data, softwares capazes de trabalhar com dados para transformá-los em informações úteis às empresas. O Big Data Analytics se difere do BI (Business Intelligence) por apresentar: a) ( ) A priorização do ambiente de negócios, não levando em consideração as demais áreas da empresa. b) ( ) A análise das dúvidas já conhecidas pela empresa, com o objetivo de obter respostas. c) ( ) Melhorar a qualidade na coleta dos dados para diminuir o espaço no bando de dados. d) ( ) A análise dos dados existente e dos futuros para indicar novos caminhos para a empresa. e) ( ) A melhora na comunicação com seus clientes, ofertando novas promoções. AUTOATIVIDADE 12 4 O Ministério Público Federal possui um conjunto de dados, em que o volume, a velo- cidade e a variedade de dados são muito grandes, tornando-se difícil de gerenciá-los, manipulá-los e analisá-los. A este conjunto de dados, damos o nome de: a) ( ) Data Warehouse. b) ( ) Data Mart. c) ( ) Big Data. d) ( ) Cloud Computing. e) ( ) Business Analytics. 5 No universo Big Data, as empresas buscam desbloquear o potencial de dados para gerar valor. Elas também estão impacientes para encontrar novas maneiras de processar esses dados e tomar decisões mais inteligentes, o que resultará em melhor atendimento ao cliente, melhor eficiência de processos e melhores resultados estratégicos. Sabendo disso, responda, na sua visão, como o Big Data pode auxiliar as empresas na construção desse valor? 13 DO SMART AO BIG DATA 1 INTRODUÇÃO O surgimento de novas tecnologias, aplicações e fenômenos sociais cria novos modelos de negócios, comunidades e complexidades do sistema. Algumas dessas mudanças não são lineares e criam mudanças de tipo, como novas forças empresariais motrizes e novas estruturas organizacionais, que, por sua vez, impulsionam novas formas de interagir e conduzir negócios. Facebook, LinkedIn, Google e Twitter, combinados com dispositivos móveis, introduzem tais tecnologias emergentes, que geram ferramentas para fácil construção comunitária, colaboração e criação de conhecimento, baseadas em redes sociais. Um requisito fundamental para uma análise de dados bem-sucedida é ter acesso a dados semanticamente ricos que vinculem elementos de informação pertinentes para análise objetiva. No entanto, a situação mudou com o Big Data, porque os dados agora vêm de várias fontes de tipos muito diferentes e de diferentes formas (estruturadas, não estruturadas). Isso nos leva a dizer que novas ferramentas de processamento de dados são agora necessárias, assim como métodos capazes de combinar milhares de conjuntos de dados. Neste tópico, você irá compreender e distinguir a classificação dos dados em relação a sua organização, verá exemplos práticos desta organização dos dados e compreenderá também como os novos elementos participantes do ecossistema do Big Data estão interagindo. UNIDADE 1 TÓPICO 2 - 2 DO MICRO AO MACRO É incrível como a quantidade de dados para analisar cresceu tão dramaticamente durante os últimos 20 anos. Lembramos os dias antes da Web, antes do Big Data, antes das mídias sociais e antes do mobile, é incrível como a quantidade de dados para analisar cresceu, um banco de dados de clientes com informações básicas, dados de compras de varejo de terceiros ou informações de relatórios de crédito eram tão ricos ou tão detalhados quanto os dados que uma empresa esperava analisar. 14 Naquela época era possível construir um bom negócio baseado em informações a partir de algo tão simples quanto realizar pesquisas regulares de benchmark e vender os resultados para as empresas. Naquela época, as empresas estavam trabalhando com menos informações do que precisavam, e, simplesmente, não havia fluxo de informações profundas de clientes, concorrentes e do setor em comparação com o que existe hoje. O feeling e a experiência eram características de negócio levadas em consideração nas reuniões de planejamento. Os dados gerados podem vir de várias formas, incluindo dados estruturados e não estruturados, como dados financeiros, arquivos de texto, arquivos multimídia e mapeamentos genéticos. Diferente da maioria de análise de dados, o Big Data trabalha, em sua maioria, com dados não estruturados ou quando semiestruturados, fato que faz com que tenhamos diferentes técnicas e ferramentas para extração e processamento destes dados. Mata (2019, p. 15) retrata um pouco da origem dos dados, remontando as planilhas eletrônicas: Os dados que antes eram apenas armazenados em planilhas ele- trônicas ou em Banco de Dados Relacionais para fins de consulta e/ ou conformidade, hoje estão prontos para uso com as mais diversas finalidades. Essa realidade permitiu que áreas da ciência começas- sem a ganhar destaque, tais como a Computação, a Estatística, a Matemática, o Processamento de Linguagem Natural e muitas ou- tras que abrangem o conhecimento. Além disso, novas tecnologias emergiram a partir dessa nova realidade, em que muitas empresas investem recursos em soluções de Análise de Dados (Data Analy- tics) cada vez mais robustas, sejam proprietárias ou open-sources. É necessário desenvolver esses dados, explorando o conteúdo de e-mails e chamadas de voz, e combinar essas informações com atividades de navegação no site da empresa. Além disso, também é possível estudar mensagens trocadas em redes sociais (Facebook, Twitter, LinkedIn etc.) a fim de identificar novas tendências ou identificar os produtos que estão sendo mais comentados. O acesso aos dados possibilita o enriquecimentode análises quantitativas e qualitativas. Os contatos dos clientes podem ser analisados através de dados coletados por um call center. Esse tipo de produto também pode ser oferecido em quantidade limitada, assim como os prospectos eletrônicos. O processo de coleta, processamento e interpretação de informações, não se limita à definição de ideias, mas também consiste em materializá-las, a fim de garantir uma melhor produção de conhecimento que leve à inovação. A inteligência competitiva permite que cada empresa otimize suas ofertas de serviços em termos qualitativos e quantitativos, bem como otimize sua tecnologia de produção. 15 GRÁFICO 1 – ORGANIZAÇÃO DOS DADOS FONTE: O autor O Gráfico 1 mostra quatro tipos de estruturas de dados, com 80 a 90% do crescimento futuro de dados provenientes de tipos de dados não estruturados. Embora diferente, os quatro são comumente misturados. Um Sistema Gerenciador de Banco de Dados Relacionais (SGBDR), por exemplo, armazena registro de uma chamada de call center de várias empresas, seja para atendi- mento ao cliente ou suporte técnico. O SGBDR pode armazenar as características dessas chamadas como a data, hora da chamada, ou o tipo da máquina e o problema apresentado. Além disso, o sistema provavelmente terá dados não estruturados, quase ou semiestruturados, como informações de registro de chamadas de um campo de observação contidas no formulário, livre retiradas de um corpo de e-mail relativo ao problema, histórico de bate-papo do cliente ou transcrição de uma chamada telefônica descrevendo o problema técnico e o arquivo de solução ou áudio da conversa de chamada telefônica. Muitos insights poderiam ser extraídos dos dados não estruturados, quase ou semiestruturados nos dados do call center. Não obstante, a análise de dados estruturados tende a ser a técnica mais utilizada, se faz necessária uma técnica diferente para responder aos desafios da análise de dados semiestruturados (mostrados como XML), quase estruturados (mostrados como um clickstream) e dados não estruturados. Vamos apresentar os quatro modelos de dados e como cada um deles pode aparecer, para que você consiga diferenciá-los. • Dados estruturados: possuem estrutura bem definida e rígida. Este tipo não é diferente do tipo definido para eles. Contém dados, formato e estrutura definidos (ou seja, dados de transação, bancos de dados tradicionais, arquivos CSV e até planilhas simples). Veja exemplo no Quadro 1. 16 O melhor exemplo de dados estruturados é o de um banco de dados, no qual os dados são definidos conforme o esquema, que, por sua vez, define as tabelas, seus campos e tipos. Os dados estruturados compreendem apenas uma pequena parcela dos dados que estão sendo analisados no mundo. Esse formato é representado por linhas e colunas e estão armazenados em Bancos de Dados Relacionais ou planilhas eletrônicas, tais como: Oracle, Excel, MySQL, entre outros. Algumas características dessas estruturas são a facilidade de acesso e manipulação, além de um esquema de armazenamento e organização bem definidos. Isso quer dizer que podemos obter respostas rápidas para alguns tipos de perguntas ao realizar uma simples consulta em um banco de dados. Para exemplificar, podemos extrair a média de idade dos alunos com sexo masculino do Ensino Médio considerando uma determinada escola com um simples SQL e utilizando campos estruturados, como idade, sexo, escolaridade e escola (MATA, 2019, p. 26). Lembrem-se, não estamos falando dos tipos de dados de um Banco de Dados, mas da estrutura dos dados coletados para análise. ATENÇÃO QUADRO 1 – EXEMPLO DE DADOS ESTRUTURADOS FONTE: Adaptado de IBGE (2020) 17 • Dados semiestruturados: arquivos de dados textuais com um padrão perceptível que permite a análise – como arquivos de dados Extensible Markup Language (XML) autodescritos e definidos por um esquema XML. Veja um exemplo no Quadro 2. Schreiner (2020, p. 71) destaca que: “A Web é composta por uma grande quantidade de dados semiestruturados e crus, como as páginas Web (cuja estrutura descrita no documento HTML expressa muito pouco do significado do conteúdo do documento) e conteúdo multimídia (imagens, sons e vídeos). Os dados semiestruturados são dados que ainda não foram categorizados, organizados num repositório específico, como um banco de dados, mas que, todavia, tem informações associadas a eles, como metadados, que o tornam mais acessível ao processamento do que os dados brutos. Mata (2019, p. 26-27) nos apresenta desta forma os dados semiestruturados: No que se refere a dados semiestruturados, estes normalmente estão espalhados pela Web em arquivos HTML, XML ou em Banco de Dados não Relacionais, como o MongoDB, que possui uma estrutura semelhante a um arquivo JSON. Se pensarmos em um arquivo XML ou HTML, perceberemos que existe uma diferença nesses tipos de estruturas: a hierarquia ou a estrutura em árvore. As tags ou elementos possuem uma certa organização e qualificam os documentos. Os nós apresentam uma certa flexibilidade e não contêm uma representação fixa ou rígida como em um modelo estruturado, ao contrário, alguns campos (tags) podem conter descrições ou informações textuais, por exemplo, páginas web (como HTML e CSS), campos de e-mail, informações de redes sociais etc. QUADRO 2 – EXEMPLO DADOS SEMIESTRUTURADOS FONTE: O autor 18 • Dados quase estruturados: dados textuais com formatos de dados erráticos que podem ser formatados com esforço, ferramentas e tempo (por exemplo, dados de fluxo de cliques da Web que podem conter inconsistências nos valores e formatos de dados). Acompanhe o exemplo na Figura 3. FIGURA 3 – EXEMPLO DE DADOS QUASE ESTRUTURADOS FONTE: <https://shutr.bz/3g30JP7>. Acesso em: 23 abr. 2021. • Dados não estruturados: dados que não têm estrutura inerente, que podem incluir documentos de texto, PDFs, imagens, sons e vídeo. Veja na Figura 4. FIGURA 4 – EXEMPLO DE DADOS NÃO ESTRUTURADOS FONTE: <https://www.youtube.com/user/wwwuniasselvi>. Acesso em: 23 abr. 2021. 19 A principal diferença entre os dados estruturados e os não estruturados consiste principalmente na sua classificação, na qual os dados estruturados possuem características detalhadas de sua composição, tipo, tamanho, restrições, enquanto os não estruturados não as contém, exemplo dos arquivos textuais, arquivos de mídia (som e imagem). IMPORTANTE Mata (2019, p. 47) destaca que: “Dados não estruturados representam uma fonte rica para extração de insights e são alvo de interesse das empresas especialmente nos dias de hoje. Por isso, é necessário construir uma arquitetura que suporte o alto volume de dados e que seja flexível a variados tipos de estruturas”. Francisco (2015) nos apresenta um gráfico detalhando a evolução da quantidade de dados gerados, suas respectivas fontes e a estrutura na qual estão classificados. GRÁFICO 2 – EVOLUÇÃO DOS DADOS GERADOS E SUA CATEGORIZAÇÃO FONTE: Francisco (2015, p. 9) 20 Devemos concordar que, após a popularização da microcomputação, as três principais tendências de tecnologia da informação na última década foram a computação em nuvem, os dispositivos mobile e as mídias sociais. Essas três megatendências transformaram nossa economia, nossa sociedade e nossas vidas cotidianas. O Big Data é definido como coleções de conjuntos de dados cujo volume, velocidade ou variedade é tão grande que é difícil armazenar, gerenciar, processar e analisar os dados usando bancos de dados tradicionais e ferramentas de processamento de dados. Nos últimos anos, houve um crescimento exponencial dos dados estruturados e não estruturados gerados pela tecnologia da informação, industrial, saúde, internet das Coisas (IoT) e outros sistemas. Ressaltamos que para garantir a coleta relevante, e antes de passar a analisar os dados, é essencial definir para quais necessidades analíticas esses dados serão pesquisados e coletados, e com quais técnicas e ferramentas. Os quatro tipos de dadosdescritos anteriormente, às vezes, são generalizados em apenas dois grupos: dados estruturados e não estruturados. O Big Data descreve novos tipos de dados com os quais a maioria das organizações pode não estar acostumada a trabalhar. O Big Data vem de duas formas: os dados estruturados destinados ao processamento de computadores e a linguagem não estruturada que as pessoas leem, escrevem e falam. Infelizmente, nenhum sistema de computador hoje pode traduzir de forma confiável linguagem não estruturada para os formatos estruturados de bancos de dados, planilhas e a web semântica. Mas eles podem fazer um monte de processamento útil, e eles estão se tornando mais versáteis. As aplicações de Big Data abrangem uma ampla gama de domínios, incluindo (mas não se limitando apenas) casas, cidades, meio ambiente, sistemas de energia, varejo, logística, indústria em geral, agricultura, Internet das Coisas (IoT) e saúde. O Big Data tem o potencial de alimentar a próxima geração de aplicativos inteligentes que aproveitarão o poder dos dados para tornar os aplicativos mais inteligentes. Os aplicativos de Big Data abrangem uma ampla gama de domínios como web, varejo e marketing, sistema bancário e financeiro, industrial, saúde, ambiental, Internet das Coisas (IoT) e sistemas cibernéticos. O verdadeiro desafio no Big Data é a descoberta dos dados certos em massas de dados não estruturados, mais do que nossos recursos de análise Big Data desafiam nossos recursos de detecção de dados. A tendência do Big Data está gerando uma enorme quantidade de informações de muitas novas fontes. Esse dilúvio de dados requer análises avançadas e novos players do mercado para aproveitar essas oportunidades e novas dinâmicas de mercado. 21 Ao mesmo tempo, muitas empresas estão agora inundadas com um grande volume e velocidade de dados de vários locais e fontes: dados B2B, dados B2C, dados de tráfego, dados transacionais, dados de fornecedores de terceiros, dados macroeconômicos e assim por diante. Além das fontes de dados mais tradicionais, dados da Web, dados de mídia social, dados móveis e novas fontes de terceiros adicionaram outra camada de complexidade ao quebra-cabeça de big data que as empresas estão ansiosas para resolver. Embora alguns nem saibam por onde começar a lidar com a avalanche de dados, outros ainda estão lutando para sair do relatório básico. Organizações e empresas de análises de dados estão percebendo que os dados que podem coletar de indivíduos contêm valor intrínseco e, como resultado, uma nova economia está surgindo. À medida que este novo ecossistema se define, existe quatro principais elementos nesta interconexão. 3 DATA DEVICES Dispositivos de dados coletam dados de vários locais e geram continuamente novos dados sobre esses dados. Para cada gigabyte de novos dados criados, um petabyte adicional de dados é criado sobre esses dados: • Por exemplo, considere alguém jogando um videogame on-line através de um PC, console de jogo ou smartphone. Neste caso, o provedor de videogame captura dados de habilidade e dos níveis alcançados pelo jogador. Sistemas inteligentes monitoram e registram como e quando o usuário joga o jogo. Como consequência, o provedor de jogos pode ajustar a dificuldade do jogo, sugerir outros jogos relacionados que provavelmente interessariam ao usuário, e oferecer equipamentos adicionais e melhorias para o personagem com base na idade, sexo e interesses do usuário. Essas informações podem ser armazenadas localmente ou enviadas para a nuvem do provedor de jogos para analisar os hábitos e oportunidades de jogo para upsell e cross-sell, e identificar perfis arquetípicos de tipos específicos de usuários. • Os smartphones fornecem outra rica fonte de dados. Além de mensagens e uso bá- sico do telefone, eles armazenam e transmitem dados de uso da Internet, uso de SMS e localização em tempo real. Esses metadados podem ser usados para analisar padrões de tráfego, escaneando a densidade de smartphones em locais para rastrear a velocidade dos carros ou o congestionamento relativo de tráfego em estradas mo- vimentadas. Desta forma, dispositivos GPS em carros podem dar aos motoristas atu- alizações em tempo real e oferecer rotas alternativas para evitar atrasos no trânsito. • Os cartões de fidelidade de compras no varejo registram não apenas a quantidade que o indivíduo gasta, mas as localizações das lojas que a pessoa visita, os tipos de produtos comprados, as lojas onde as mercadorias são compradas com mais frequência, e as combinações de produtos comprados juntos. A coleta desses dados fornece insights dos hábitos de compra e viagem e a probabilidade de anúncios bem- sucedidos direcionados a certos tipos de promoções de varejo. 22 4 DATA COLLECTORS Os coletores de dados incluem entidades amostrais que coletam dados do dispositivo e usuários. • Dados de uma operadora de TV a cabo que rastreia os programas que uma pessoa assiste, quais canais de TV alguém vai ou não vai pagar para assistir sob demanda, e os preços que alguém está disposto a pagar pelo conteúdo de TV Premium; • Lojas de varejo que rastreiam o caminho que um cliente percorre em sua loja enquanto empurra um carrinho de compras com um chip RFID para que eles possam medir quais produtos obtêm mais tráfego de pé usando dados geoespaciais coletados dos chips RFID. 5 DATA AGGREGATORS Agregadores de dados, essas organizações compilam dados dos dispositivos e padrões de uso coletados por agências governamentais, lojas de varejo e sites. Por sua vez, eles podem optar por transformar e embalar os dados como produtos para vender para listar corretores, que podem querer gerar listas de marketing de pessoas que podem ser boas metas para campanhas de anúncios específicas. 6 DATA USERS E BUYERS Os usuários e compradores de dados, esses grupos se beneficiam diretamente dos dados coletados e agregados por outros dentro da cadeia de valor de dados. • Os bancos de varejo, atuando como compradores de dados, podem querer saber quais clientes têm maior probabilidade de solicitar um segundo empréstimo ou uma outra linha de crédito. Para fornecer informações para essa análise, os bancos de varejo podem comprar dados de um agregador de dados. Esse tipo de dados pode incluir informações demográficas de pessoas que vivem em locais específicos; pessoas que parecem ter um nível específico de dívida, mas ainda possuem pontuações de crédito sólidas (ou outras características, como pagar contas em dia e ter contas de poupança) que podem ser usadas para inferir créditos; e aqueles que estão pesquisando na web para obter informações de como pagar dívidas ou fazer projetos de reforma de casas. A obtenção de dados dessas várias fontes e agregadores permitirá uma campanha de marketing mais direcionada, o que teria sido mais desafiador antes do Big Data devido à falta de informações ou tecnologias de alto desempenho. • Usando tecnologias como o Hadoop para realizar o processamento de linguagem natural em dados textuais não estruturados de sites de mídia social, os usuários podem medir a reação a eventos como campanhas presidenciais. 23 As pessoas podem, por exemplo, querer determinar sentimentos públicos em relação a um candidato analisando blogs relacionados e comentários on-line. Da mesma forma, os usuários de dados podem querer rastrear e se preparar para desastres naturais identificando quais áreas uma enchente afeta primeiro, com base em quais áreas geográficas estão tuitando sobre isso ou discutindo-o através das mídias sociais. FIGURA 5 – ELEMENTOS DE INTERAÇÃO NO ECOSSISTEMA DO BIG DATA FONTE: <https://bit.ly/3dHKkyq>. Acesso em: 23 abr. 2021. De acordo com a figura apresentada para este ecossistema de Big Data emergente, os tipos de dados e a dinâmica de mercado relacionada variam muito. Esses conjuntos de dados podem incluir dados de sensores, texto, conjuntos de dados estruturados e mídias sociais. Com isso em mente, vale lembrar que esses conjuntosde dados não funcionarão bem dentro dos bancos de dados tradicionais, arquitetados para agilizar relatórios e dashboards e serem gerenciados centralmente. Em vez disso, problemas e projetos de Big Data requerem diferentes abordagens para ter sucesso. Os analistas precisam fazer parcerias com TI e DBAs para obter os dados necessários dentro de um repositório que contenha dados brutos, dados agregados e dados com vários tipos de estrutura. Ao observarmos o contexto do ecossistema emergente de Big Data, nos deparamos com novos atores surgindo. Atores que trabalham com a curadoria, o armazenamento, a produção, o tratamento e o processamento destes dados. Além disso, a necessidade de aplicar técnicas analíticas mais avançadas a problemas de negócios cada vez mais complexos tem impulsionado o surgimento de novas funções, novas plataformas tecnológicas e novos métodos analíticos. 24 Apache Hadoop é uma estrutura de código aberto que permite que as empresas processem grandes quantidades de informações de forma altamente paralela. Hadoop representa uma implementação específica do paradigma MapReduce e foi projetado por Doug Cutting e Mike Cafarella, em 2005, para usar dados com estruturas variadas. Disponível em: https://hadoop.apache.org/. NOTA 25 RESUMO DO TÓPICO 2 Neste tópico, você adquiriu certos aprendizados, como: • Dados estruturados possuem estrutura bem definida e rígida. • Dados semiestruturados são arquivos de dados textuais com um padrão perceptível que permite a análise. • Dados quase estruturados: dados textuais com formatos de dados erráticos que podem ser formatados com esforço, ferramentas e tempo. • Dados não estruturados: dados que não têm estrutura inerente, que podem incluir documentos de texto, PDFs, imagens, sons e vídeo. • Houve uma evolução gigantesca na geração de dados desestruturados com o advento da Internet e das redes sociais. • O Big Data trabalha com dados não estruturados. • Existem quatro principais elementos no ecossistema de Big Data, sendo eles: dispositivos de dados, coletores de dados, agregadores de dados e usuários e compradores de dados. 26 1 O Big Data trabalha com dados oriundos das mais diversas fontes, em sua maioria, gerados pelas mídias sociais. Quando estamos trabalhando com esse tipo de dados, nos referimos a qual tipo: a) ( ) Quase estruturado. b) ( ) Não estruturado. c) ( ) Estruturado. d) ( ) Semiestruturado. e) ( ) Pré estruturados. 2 A Nota Fiscal Eletrônica gera também um arquivo no formato XML. Em relação ao tipo de estrutura de dados para Big Data, este formato consiste em qual tipo de dados: a) ( ) Dados estruturados. b) ( ) Não estruturados. c) ( ) Semi estruturados. d) ( ) Quase estruturados. e) ( ) Desestruturados. 3 Os bancos de dados relacionais trabalham com tabelas contendo os atributos a serem armazenados. Este tipo de dado no Big Data é considerado como: a) ( ) Quase estruturado. b) ( ) Não estruturado. c) ( ) Estruturado. d) ( ) Semiestruturado. e) ( ) Pré estruturados. 4 O mouse se tornou um periférico muito importante, os praticantes de jogos eletrônicos possuem mouses muito sensíveis que respondem aos comandos quase que em tempo real. Esses comandos, muitas vezes acionados por clique nos botões do mouse, também geram dados que podem ser analisados pelo Big Data. Ao analisar essa afirmação, estamos falando de qual tipo de estrutura de dados? a) ( ) Não estruturado. b) ( ) Quase estruturado. c) ( ) Estruturado. d) ( ) Pré estruturados. e) ( ) Semiestruturado. AUTOATIVIDADE 27 5 Quando usamos nosso cartão, seja ele de crédito ou débito, em nossa compras, os dados gerados por essa ação informam não somente o valor da compra, mas uma série de outras informações podem ser geradas, como a loja onde compramos, o tipo de produto comprado, a periodicidade de nossas compras, ou seja, nosso hábito de compras. A coleta desses dados se dá por intermédio de qual elemento da interconexão do ecossistema de Big Data? a) ( ) Data Devices. b) ( ) Data Center. c) ( ) Data Collectors. d) ( ) Data Users. e) ( ) Data Buyers. 28 29 TÓPICO 3 - OS Vs DO BIG DATA 1 INTRODUÇÃO No universo Big Data, as empresas buscam desbloquear o potencial de dados para gerar valor. Eles também estão impacientes para encontrar novas maneiras de processar esses dados e tomar decisões mais inteligentes, o que resultará em melhor atendimento ao cliente, melhor eficiência de processos e melhores resultados estratégicos. Na literatura, o conceito de Big Data é definido em termos da teoria dos “três Vs”, dos “cinco Vs”, ou dos “sete Vs”. A velocidade exponencial com que os dados são gerados, bem como a multiplicidade de fontes que os geram em diferentes formatos (digital, texto, imagens etc.), são características desse fenômeno. Neste tópico, você compreenderá estas características e como elas auxiliar a explicar os desafios postos para quem deseja desenvolver um projeto de Big Data. UNIDADE 1 2 BIG DATA E SEUS V’s O mundo dos dados está se tornando mais competitivo a cada dia, como refletido em termos de volume, variedade e valor. É por isso que agora falamos sobre Big Data. Os dados são um ativo fundamental para a criação de valor, bem como um elemento que favorece e promove a inovação, o crescimento e o desenvolvimento. Com a revolução digital, os dados assumiram um papel central na economia. No entanto, alcançar todo o potencial dos dados depende da forma como são apresentados. Deve ser usado e reutilizado de diferentes maneiras sem diminuir seu valor. Vimos que a velocidade em que os dados são gerados é incrível, o volume de dados gerados está crescendo cada vez mais e a variedade dos dados é outro fator importantíssimo quando falamos de dados. Isso vem de encontro ao conceito que define o Big Data como: “[...] um grande volume de informações, com alta velocidade e/ ou ativos de informações de alta variedade que exige formas inovadoras e econômicas de processamento de informações que permitem uma melhor percepção na tomada de decisão e automação de processos” (BIG DATA, 2018, s. p.). 30 Gonçalves, Rogério e Morais (2019, p. 19) destacam que o “O termo Big Data é, muitas vezes, caracterizado por três vertentes que, inclusive, são conhecidas como os três Vs: volume, variedade e veracidade”, acrescentando em seguida mais dois Vs: “É comum nos depararmos com outros dois Vs que também contemplam de forma coerente os conceitos sobre essa tecnologia: o valor e a velocidade”. 2.1 VOLUME O Big Data é uma forma de dados cujo volume é tão grande que não caberia em uma única máquina, portanto, ferramentas e frameworks especializados são necessários para armazenar processos e analisar tais dados. Quando comparados com dados pequenos, o Big Data aumentou em volume e velocidade e expandiu-se para incluir uma variedade de outros tipos de dados. Por exemplo, aplicativos de mídia social processam bilhões de mensagens todos os dias, sistemas industriais e de energia podem gerar terabytes de dados de sensores todos os dias, aplicativos de agregação de táxi podem processar milhões de transações em um dia etc. Os volumes de dados gerados pela moderna TI, industrial, saúde, Internet das Coisas e outros sistemas estão crescendo exponencialmente impulsionados pela redução dos custos de armazenamento e processamento de dados e pela necessidade de extrair insights valiosos dos dados para melhorar os processos de negócios, eficiência e servidão aos consumidores. Embora não exista um limite fixo para que o volume de dados seja considerado como big data, no entanto, normalmente, o termo big data é usado para dados em grande escala difíceis de armazenar, gerenciar e processar usando bancos de dados tradicionais e arquiteturas de processamento de dados. O volume de dados gerados é tão grande que é impossível ser armazenado, processado e analisado por apenas uma máquina. Você se lembra da época em que se levava disquete?Para recordar as medidas em byte, veja este comparativo, disponível em: https://bit.ly/3oSZENQ. DICAS 31 FIGURA 6 – VOLUME DE DADOS GERADOS FONTE: <https://bit.ly/350c4t5>. Acesso em: Acesso em: 23 abr. 2021. Também Mata (2019, p. 23), ao analisar a questão de volume dos dados, menciona que o volume: [...] diz respeito à quantidade de dados – com tamanhos na ordem de peta, hepta ou exabytes sendo gerados e que, uma vez extraídos, deverão ser suportados na arquitetura de Big Data. Isso quer dizer que o quesito escalabilidade precisa ser pensado no início de uma implementação do Big Data. O volume de dados é muito bem evidenciado quando falamos da quantidade de e-mails enviados, da quantidade de mensagens trocadas em nossas redes sociais, na quantidade de transações bancárias realizadas, em praticamente todas as ações efetuadas nessa nova era. Todos esses elementos servem de ponto de partida para entendermos o volume, a quantidade, de dados gerados no mundo atualmente. Esta enorme quantidade de dados gerada diariamente nos permite fazer as mais variadas análises nos mais variados tipos de dados. Esse também é um fator muito relevante no tocante à armazenagem desses dados, como vemos a expansão dos servidores, dos serviços de nuvem disponibilizados que vêm aumentando constantemente. 32 2.2 VELOCIDADE A segunda característica diz respeito à dinâmica do volume de dados, ou seja, a natureza sensível ao tempo do Big Data, já que a velocidade de sua criação e uso é muitas vezes (quase) em tempo real. A velocidade dos dados é muito alta e os dados precisam ser analisados em tempo real. O crescimento dos dados e a explosão das mídias sociais mudaram a forma como olhamos para eles. Houve um tempo em que costumávamos acreditar que os dados de ontem eram recentes. No entanto, canais de notícias e rádios mudaram a rapidez com que recebemos a notícia. Hoje, as pessoas respondem nas redes sociais para atualizá-los com o mais recente acontecimento, o imediatismo nas respostas. Nas mídias sociais, às vezes, algumas mensagens antigas (um tweet, atualizações de status etc.) não é algo que interessa aos usuários. Muitas vezes descartam mensagens antigas e prestam atenção às atualizações recentes. O movimento dos dados agora é quase em tempo real e a janela de atualização foi reduzida a frações dos segundos. Velocidade simplesmente significa que os dados têm um fluxo contínuo e uma velocidade rápida entrando em sua organização, que, às vezes, é referida como “streaming”. Infelizmente, como o volume de dados aumentou dramaticamente em toda a empresa, a velocidade também aumentou. Isso se deve principalmente ao crescimento da Internet e do uso móvel, de tal forma que os dados estão fluindo 24 horas por dia, sete dias por semana, todos os dias do ano. Portanto, se você é uma empresa de internet, sua arquitetura de dados e ferramentas devem acomodar o processamento de alta velocidade de dados e volume o tempo todo, sem parar. Como resultado, empresas como varejistas on-line são capazes de compilar grandes histórias de cada clique e interação dos clientes, não apenas as vendas finais. Amaral (2016, p. 15) destaca que a velocidade: [...] a velocidade diz respeito não somente a da produção do dado em si, mas a velocidade do processamento e produção de informação e conhecimento, visto que o valor da informação é inversamente proporcional ao tempo em que ocorreu o evento que gerou o dado. Por exemplo, ocorreu uma falha em um equipamento. O operador recebe o alerta 5 segundos depois da falha: ele desliga o equipamento, identifica a falha, aperta o colar de suporte vibratório e a linha de produção volta a produzir em 10 minutos. Já, para Mata (2019, p. 24-25), a: Velocidade está relacionada a questões de desempenho. O processamento dos dados precisa ser eficiente a ponto de não causar altas taxas de latência no fluxo de dados. O sucesso de uma implementação do Big Data também está relacionado a entregar respostas em tempo hábil e, por isso, estratégias (por exemplo, cache dos dados) podem ser adotadas para otimizar o desempenho. 33 É importante considerar também qual o foco da análise, isto é, se o processamento será em lote (batch) ou em tempo real, ou ambos (arquitetura Lambda). Essa questão é um importante requisito de negócio, pois quando lidamos com processamento em lote são alocados maiores recursos de armazenamentos em detrimento ao processamento em tempo real. A alta velocidade dos dados resulta no volume de dados acumulados para se tornar muito grande, em curto espaço de tempo. Alguns aplicativos podem ter prazos rigorosos para análise de dados (como negociação ou detecção de fraudes on-line) e os dados precisam ser analisados em tempo real. Ferramentas especializadas são necessárias para ingerir esses dados de alta velocidade na infraestrutura de Big Data e analisar os dados em tempo real. GRÁFICO 3 – TENDÊNCIA DE CRESCIMENTO DO VOLUME DE DADOS DURANTE OS ANOS FONTE: <https://bit.ly/2TSVE3q>. Acesso em: 23 abr. 2021. O Gráfico 3 nos apresenta a quantidade de dados gerados desde 2010, e faz uma projeção até o ano de 2020. Se observarmos a quantidade gerada podemos fazer uma analogia com a velocidade com que estes dados estão sendo gerados, pois a crescente utilização de smartphones dentre outras formas de disseminação, faz com que mais dados sejam produzidos e colocados à disposição a cada minuto. Cabe destacar que estes dados são analisados no momento em que eles são gerados, não sendo armazenados em um banco de dados. 2.3 VERACIDADE Você confia em tudo o que é postado nas redes sociais? Não é possível ter o controle das informações falsas publicadas na internet, mas através de análises e com uma base estatística aplicada nos grandes volumes de dados é possível verificar se a informação é verdadeira ou falsa. 34 Para que tenhamos um bom resultado na análise, é necessário que os dados sejam verídicos e de acordo com a realidade. A questão da velocidade apresentada anteriormente está intrinsecamente alinhada com a veracidade dos dados, uma vez que os dados representam o momento em que foram gerados, desde que sejam verídicos realmente, não sejam fake, forjados. [...] precisamos confiar nos dados adquiridos e a veracidade está relacionada à inconsistência, à ambiguidade e à incompletude desses dados. Quando anexamos fontes de dados externas à nossa arquitetura, precisamos ter um cuidado especial, uma vez que não temos total controle desses dados, como teríamos se estivéssemos coletando dados de sistemas legados da empresa. Por isso, devemos sempre questionar os dados que adquirimos e garantir que a origem da nossa arquitetura não seja comprometida com dados que possam enviesar ou distorcer nossas análises. Assim, a veracidade desempenha um papel importante dentro do Big Data (MATA, 2019, p. 24, grifo do original). FIGURA 7 – VERACIDADE DOS DADOS FONTE: <https://shutr.bz/3w77g0O>. Acesso em: 23 abr. 2021. A veracidade refere-se à precisão dos dados. Para extrair valor dos dados, os dados precisam ser limpos para remover o ruído. Aplicativos baseados em dados só podem colher os benefícios do Big Data quando os dados são significativos e precisos. Portanto, a limpeza de dados é importante para que dados incorretos e defeituosos possam ser filtrados. Para Lokianova e Rubin (2014), a veracidade em Big Data está diretamente relacionada com o gerenciamento de incertezas. As autoras trazem uma proposta de reduzir a incerteza dos dados textuais, utilizando ferramentas de linguística compu- tacional, sendo avaliados em três elementos: veracidade, objetividade e credibilidade. 35 A veracidade dos dados, em geral, é o quão preciso ou verdadeiro um conjunto de dados pode ser. No contexto do Big Data, no entanto, ele assume um pouco mais de significado. Mais especificamente, quando se trata da precisão do Big Data, não é apenas a qualidade dos dados em si, mas o quão confiável é a fonte de dados,
Compartilhar