Baixe o app para aproveitar ainda mais
Prévia do material em texto
Indaial – 2021 AplicAção de Big dAtA em cloud Prof. Airan Arine Possamai Profª. Cláudia Neli de Souza Zambon Profª. Danice Betânia de Almeida Prof. Eliomar Russi Prof. Marcio Poffo Prof. Nader Ghoddosi Profª. Neli Miglioli Sabadin Prof. Pedro Sidnei Zanchett Profª. Simone Erbs da Costa 1a Edição Copyright © UNIASSELVI 2020 Elaboração: Prof. Airan Arine Possamai Profª. Cláudia Neli de Souza Zambon Profª. Danice Betânia de Almeida Prof. Eliomar Russi Prof. Marcio Poffo Prof. Nader Ghoddosi Profª. Neli Miglioli Sabadin Prof. Pedro Sidnei Zanchett Profª. Simone Erbs da Costa Revisão, Diagramação e Produção: Centro Universitário Leonardo da Vinci – UNIASSELVI Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri UNIASSELVI – Indaial. Impresso por: P856a Possamai, Airan Arine Aplicação de big data em cloud. / Airan Arine Possamai et al. – Indaial: UNIASSELVI, 2021. 274 p.; il. ISBN 978-65-5663-648-1 ISBN Digital 978-65-5663-647-4 1. Cloud Computing. – Brasil. I. Centro Universitário Leonardo Da Vinci. CDD 006.78 ApresentAção Caro acadêmico! Estamos iniciando o estudo da disciplina Aplicação de Big Data em Cloud. Esta disciplina objetiva proporcionar uma imersão de conceitos sobre Cloud Computing, tendo em vista sua aplicação nas mais diversas plataformas do mercado, sua compreensão irá lhe tornar um profissional dinâmico com conhecimento nas tecnologias de computação em nuvem mais utilizadas no mundo. Este livro conta com exemplos de diversas plataformas em nuvem, bem como seus recursos, para melhor aproveitamento e para obter mais conhecimento, recomendamos que sempre acesse as plataformas para conhecer mais sobre elas. Neste contexto, o livro didárico de Aplicação de Big Data em Cloud está dividido em três unidades de estudo. Na Unidade 1, você terá uma visão geral de aplicações de Big Data em Cloud Computing e seus recursos. Já nas Unidade 2 e Unidade 3, vamos aprofundar nossos estudos nas principais ferramentas de computação em nuvem do mercado. Aproveitamos a oportunidade para destacar a importância de desenvolver as autoatividades, lembrando que essas atividades não são opcionais. Elas objetivam a fixação dos conceitos apresentados. Em caso de dúvida na realização das atividades, sugerimos que você entre em contato com seu tutor externo ou com a tutoria da UNIASSELVI, não prosseguindo as atividades sem ter sanado todas as dúvidas que irão surgindo. Bom estudo! Sucesso na sua trajetória acadêmica e profissional! Prof. Airan Arine Possamai Profª. Cláudia Neli de Souza Zambon Profª. Danice Betânia de Almeida Prof. Eliomar Russi Prof. Marcio Poffo Prof. Nader Ghoddosi Profª. Neli Miglioli Sabadin Prof. Pedro Sidnei Zanchett Profª. Simone Erbs da Costa Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novi- dades em nosso material. Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um formato mais prático, que cabe na bolsa e facilita a leitura. O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagra- mação no texto, aproveitando ao máximo o espaço da página, o que também contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo. Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilida- de de estudá-lo com versatilidade nas telas do celular, tablet ou computador. Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assun- to em questão. Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa continuar seus estudos com um material de qualidade. Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de Desempenho de Estudantes – ENADE. Bons estudos! NOTA Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela um novo conhecimento. Com o objetivo de enriquecer seu conhecimento, construímos, além do livro que está em suas mãos, uma rica trilha de aprendizagem, por meio dela você terá contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complemen- tares, entre outros, todos pensados e construídos na intenção de auxiliar seu crescimento. Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo. Conte conosco, estaremos juntos nesta caminhada! LEMBRETE sumário UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING ............................... 1 TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING ................................... 3 1 INTRODUÇÃO .................................................................................................................................... 3 2 COMPONENTES ................................................................................................................................. 6 2.1 ARMAZENAMENTO .................................................................................................................... 7 2.2 TRANSMISSÃO .............................................................................................................................. 9 2.3 COLETA DE DADOS ................................................................................................................... 10 2.4 PROCESSAMENTO ..................................................................................................................... 11 2.5 ANÁLISE DE DADOS .................................................................................................................. 12 2.6. VISUALIZAÇÃO E SAÍDA DE DADOS .................................................................................. 14 2.7 INTEGRAÇÕES............................................................................................................................. 16 2.8. QUALIDADE DA APLICAÇÃO ............................................................................................... 18 RESUMO DO TÓPICO 1..................................................................................................................... 20 AUTOATIVIDADE .............................................................................................................................. 22 TÓPICO 2 — DESAFIOS PARA IMPLEMENTAÇÃO BIG DATA EM CLOUD ..................... 25 1 INTRODUÇÃO .................................................................................................................................. 25 2 FORNECER RECURSOS SOB DEMANDA ................................................................................. 25 3 ESCALABILIDADE E ELASTICIDADE ....................................................................................... 27 3.1 ESCALABILIDADE VERTICAL E HORIZONTAL ................................................................. 29 4 LOCALIDADE DOS DADOS ......................................................................................................... 30 4.1 NUVEM PÚBLICA ....................................................................................................................... 32 4.2 NUVEM PRIVADA ....................................................................................................................... 33 4.3 NUVEM HÍBRIDA........................................................................................................................ 34 4.4 MULTICLOUD ..............................................................................................................................36 4.5 DIFERENÇA ENTRE A MULTICLOUD E A NUVEM HÍBRIDA? ....................................... 36 5 DIVERSIDADE E INTEROPERABILIDADE .............................................................................. 37 6 MÍDIAS SOCIAIS ............................................................................................................................ 38 7 USABILIDADE................................................................................................................................... 40 RESUMO DO TÓPICO 2..................................................................................................................... 42 AUTOATIVIDADE .............................................................................................................................. 43 TÓPICO 3 — SEGURANÇA DA INFORMAÇÃO PARA CLOUD COMPUTING E BIG DATA ....................................................................................................................................................... 45 1 INTRODUÇÃO .................................................................................................................................. 45 2 CONCEITOS BÁSICOS DE SEGURANÇA DA INFORMAÇÃO .......................................... 46 3 REQUISITOS DE SEGURANÇA .................................................................................................. 49 4 AMEAÇAS CRESCENTES ............................................................................................................... 51 5 SISTEMAS DE DETECÇÃO DE INTRUSÃO ............................................................................ 54 LEITURA COMPLEMENTAR ............................................................................................................ 57 RESUMO DO TÓPICO 3..................................................................................................................... 62 AUTOATIVIDADE .............................................................................................................................. 64 REFERÊNCIAS ...................................................................................................................................... 67 UNIDADE 2 — APLICAÇÃO DE CLOUD COMPUTING E BIG DATA.................................. 73 TÓPICO 1 — AMAZON AWS ............................................................................................................ 75 1 INTRODUÇÃO .................................................................................................................................. 75 2 CONCEITO DE AMAZON WEB SERVICES (AWS) .................................................................. 76 2.1 PRINCIPAIS VANTAGENS DA AWS ........................................................................................ 78 2.2 ARQUITETURA E SUAS VANTAGENS .................................................................................. 80 3 PRINCIPAIS RECURSOS DA AWS .............................................................................................. 81 3.1 ELASTIC COMPUTE CLOUD – EC2 ........................................................................................ 81 3.2 SIMPLE STORAGE SERVICE – S3 ............................................................................................. 84 3.3 AWS ELASTIC BEANSTALK ...................................................................................................... 85 3.4 AWS AUTO SCALING ................................................................................................................. 87 3.5 AWS LAMBDA .............................................................................................................................. 88 3.5.1 Processamento de dados ..................................................................................................... 89 3.5.2 Processamento de arquivos em tempo real ..................................................................... 89 3.5.3 Processamento de stream em tempo real ......................................................................... 89 3.5.4 Machine learning ................................................................................................................. 90 3.5.5 Back-ends .............................................................................................................................. 90 4 SERVIÇOS DE BIG DATA E PROCESSAMENTO ..................................................................... 91 4.1 AMAZON EMR............................................................................................................................. 91 4.2 AMAZON REDSHIFT .................................................................................................................. 92 4.3 AMAZON KINESIS ...................................................................................................................... 93 5 RECURSOS DE MACHINE LEARNING ..................................................................................... 94 5.1 AMAZON EMR............................................................................................................................. 94 5.1.1 Apache Spark MLlib ............................................................................................................ 94 5.1.2 TensorFlow ........................................................................................................................... 95 5.1.3 Apache MXNet ..................................................................................................................... 96 5.2 AMAZON KINESIS VIDEO STREAMS .................................................................................... 96 5.3 AMAZON REKOGNITION VIDEO .......................................................................................... 97 6 DEPLOY DE APLICAÇÕES ............................................................................................................. 98 RESUMO DO TÓPICO 1................................................................................................................... 100 AUTOATIVIDADE ............................................................................................................................ 102 TÓPICO 2 — MICROSOFT AZURE ............................................................................................... 105 1 INTRODUÇÃO ................................................................................................................................ 105 2 PRINCIPAIS RECURSOS E SERVIÇOS ..................................................................................... 107 2.1 MODELOS DE SERVIÇO .......................................................................................................... 107 2.1.1 Azure IaaS (Infrastructure as a Service)............................................................................. 108 2.1.2 Azure PaaS (Platform as a Service) .................................................................................... 109 2.1.3 Azure SaaS (Software as a Service) ..................................................................................... 110 2.2 TIPOS DE SERVIÇO ................................................................................................................... 111 3 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO ......................................................... 113 4 RECURSOS DE MACHINE LEARNING .................................................................................. 119 5 RECURSOS DEPLOY DE APLICAÇÕES .................................................................................. 121 RESUMO DO TÓPICO 2................................................................................................................... 123 AUTOATIVIDADE ............................................................................................................................ 124 TÓPICO 3 — IBM WATSON ............................................................................................................127 1 INTRODUÇÃO ................................................................................................................................ 127 2 PRINCIPAIS RECURSOS .............................................................................................................. 132 2.1 WATSON DISCOVERY .............................................................................................................. 134 2.2 WATSON NATURAL LANGUAGE UNDERSTANDING ................................................... 138 2.3 WATSON KNOWLEDGE STUDIO .......................................................................................... 139 2.4 OUTROS RECURSOS ................................................................................................................ 143 3 RECURSOS DE MACHINE LEARNING ................................................................................... 144 3.1 WATSON ASSISTANT ............................................................................................................... 144 3.2 IBM SPEECH ............................................................................................................................... 146 4 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO .......................................................... 154 4.1. CASOS DE USO PARA IBM ANALYTICS ENGINE ............................................................. 161 4.1.1 Otimizando o processamento para diferentes tipos de cargas de trabalho .............. 161 4.1.2 Simplificando a governança de dados ............................................................................ 162 4.1.3 Reduzindo o custo da recuperação de desastres........................................................... 162 4.1.4 Simplificando os fluxos de trabalho de ciência de dados e aprendizado de máquina ... 163 4.2. PAINÉIS INTERATIVOS NO WATSON STUDIO ................................................................ 163 LEITURA COMPLEMENTAR .......................................................................................................... 182 RESUMO DO TÓPICO 3................................................................................................................... 184 AUTOATIVIDADE ............................................................................................................................ 188 REFERÊNCIAS .................................................................................................................................... 191 UNIDADE 3 — APLICAÇÃO DE CLOUD COMPUTING E BIG DATA................................ 197 TÓPICO 1 — GOOGLE CLOUD ..................................................................................................... 199 1 INTRODUÇÃO ................................................................................................................................ 199 2 O QUE É O GOOGLE CLOUD? .................................................................................................... 200 3 FALANDO SOBRE PROJETOS NO GOOGLE CLOUD ........................................................ 203 3.1 CARACTERÍSTICAS DE UM PROJETO DO GOOGLE CLOUD ........................................ 204 3.2 UTILIZAÇÃO DE RECURSOS NO GOOGLE CLOUD ........................................................ 205 3.3 DISPOSIÇÃO DOS RECURSOS ............................................................................................... 208 4 GOOGLE CLOUD PLATFORM (GCP) ....................................................................................... 209 5 GOOGLE CLOUD PLATFORM, VAMOS À PRÁTICA? ....................................................... 210 5.1 VEJA COMO FUNCIONA O PLANO GRATUITO PARA AVALIAÇÃO ......................... 210 5.2 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO ................................................... 211 6 RECURSOS DE MACHINE LEARNING ................................................................................... 215 7 DEPLOY DE APLICAÇÕES ........................................................................................................... 218 LEITURA COMPLEMENTAR .......................................................................................................... 220 RESUMO DO TÓPICO 1................................................................................................................... 226 AUTOATIVIDADE ............................................................................................................................ 227 TÓPICO 2 — HEROKU ..................................................................................................................... 229 1 INTRODUÇÃO ............................................................................................................................ 229 2 PRINCIPAIS RECURSOS .......................................................................................................... 231 3 HEROKU DYNOS ........................................................................................................................... 234 4 HEROKU ADD-ON TREASURE DATA ..................................................................................... 235 5 DEPLOY DE APLICAÇÕES ........................................................................................................... 238 RESUMO DO TÓPICO 2................................................................................................................... 240 AUTOATIVIDADE ............................................................................................................................ 241 TÓPICO 3 — DIGITAL OCEAN...................................................................................................... 243 1 INTRODUÇÃO ................................................................................................................................ 243 2 PRINCIPAIS RECURSOS .............................................................................................................. 245 2.1 DROPLETS ................................................................................................................................... 246 2.2 KUBERNETES ............................................................................................................................. 247 2.3 BASES DE DADOS ..................................................................................................................... 248 2.4 ARMAZENAMENTO DE OBJETOS ........................................................................................ 249 2.5 REDE (VPC, FIREWALLS, BALANCEADORES DE CARGA, IPS FLUTUANTES, DNS) .... 250 2.6 FERRAMENTAS DE DESENVOLVIMENTO ......................................................................... 251 3 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO .......................................................... 252 4 RECURSOS DE MACHINE LEARNING ................................................................................... 254 5 DEPLOY DE APLICAÇÕES ........................................................................................................... 256 RESUMO DO TÓPICO 3................................................................................................................... 258 AUTOATIVIDADE ............................................................................................................................ 259 REFERÊNCIAS .................................................................................................................................... 261 1 UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING OBJETIVOS DE APRENDIZAGEM PLANO DE ESTUDOS A partir do estudo desta unidade, você deverá ser capaz de: • compreender conceitos básicos de Segurança da Informação; • entender os requisitos de segurança; • identificar ameaças; • entender a importância da segurança para cloud e Big Data. Esta unidade está dividida em três tópicos. No decorrer da unidade, você encontrará autoatividades com o objetivode reforçar o conteúdo apresentado. TÓPICO 1 – APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING TÓPICO 2 – DESAFIOS PARA IMPLEMENTAÇÃO BIG DATA EM CLOUD TÓPICO 3 – SEGURANÇA DA INFORMAÇÃO PARA CLOUD COMPUTING E BIG DATA Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure um ambiente que facilite a concentração, assim absorverá melhor as informações. CHAMADA 2 3 TÓPICO 1 — UNIDADE 1 APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 1 INTRODUÇÃO O conceito de Big Data surgiu a partir do momento que as organizações se depararam com um volume e complexidade de dados muito grande e precisavam realizar uma análise bem feita sobre estes dados, a fim de obter resposta que permitam a geração de insights e tomadas de decisão sólidas tornando as organizações cada vez mais competitivas. Com Big Data, as organizações podem processar e armazenar grandes conjuntos de dados disponíveis, tanto local quanto na computação em nuvem. Big Data e Computação em Nuvem são dois conceitos que funcionam de maneira interdependente, bem como integrados e estão transformando a forma de negócios desempenharem suas funções. Utilizamos diariamente a Computação em Nuvem sem perceber através de serviços on-line para enviar e-mail, assistir vídeos e jogar entre outras variadas possibilidades também a de armazenar e editar arquivos on-line. A oferta da tecnologia e dos serviços de Computação em Nuvem são recentes pelos Cloud Providers. Somente na última década que começou a ser adotada e explorada com Big Data, pois, a Computação em Nuvem organiza toda a parte de armazenamento de dados deixando-os acessíveis e simplificando a rotina para trabalhar com um grande volume de dados. Vale destacar que essa quantidade de informações oriunda de fontes diversificadas conhecida como Big Data, representam um grande volume de dados – tanto estruturados quanto não estruturados que sobrecarrega as organizações diariamente. Faz parte da contextualização de Big Data abordar 3 Vs, que é a (1) “Velocidade” que trata da rapidez que novos dados chegam ao repositório de dados, o (2) “Volume” que aborda a quantidade de dados que são recebidos para armazenamento regularmente e a (3) “Variedade” que trata da diversidade de informações e fontes distintas. Dados oriundos de forma estruturada e/ou não estruturada. Além desses 3 Vs, não podemos esquecer de considerar em Big Data outros 2 Vs, a “Veracidade” para obter a confiabilidade dos dados e o “Valor” a fim de saber a utilidade dos dados. UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 4 Você sabe o que é Big Data? Sugerimos um vídeo bem explicativo do Olhar Digital sobre o Big Data. Vale a pena assistir. Acesse o link: https://youtu.be/BZ8HrHFjSU0. INTERESSA NTE A Computação em Nuvem (Cloud Computing) é a “entrega de serviços” de computação por servidores, armazenamento, bancos de dados, redes, software, análises – através da internet (a nuvem), entre outros. As organizações que oferecem esses serviços de computação são chamadas de Cloud Providers e, normalmente, cobram por serviços de Computação em Nuvem com base no uso, de maneira semelhante à forma como você é cobrado por água ou eletricidade na sua casa (DATA SCIENCE ACADEMY, 2020). FONTE: Ruschel, Zanotto e Mota (2010, p. 2) FIGURA 1 – VISÃO GERAL DE UMA NUVEM COMPUTACIONAL Quando falamos de Computação em Nuvem, automaticamente falamos também de Big Data, pois da mesma forma como houve um crescimento acelerado da Computação em Nuvem, houve uma explosão na geração de dados, ou seja, nos últimos anos o crescimento de volume de dados está sendo exponencial e constante. Portanto, Data Science Academy (2020) destaca que Computação em Nuvem e Big Data são uma combinação ideal, pois, juntos, eles fornecem uma solução que é escalável e adaptável para grandes conjuntos de dados e análise de negócios. A vantagem da análise seria um grande benefício. Imagine todos os recursos de dados tornando-se facilmente acessíveis e com custo reduzido para a organização. TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 5 Ainda, de acordo com o que enfatiza Data Science Academy (2020), o aumento da Computação em Nuvem tem sido um precursor e facilitador para o surgimento de Big Data. Embora Big Data traga muitas oportunidades atraentes, as organizações também enfrentam muitos desafios, entre eles a da coleta dos dados, armazenamento, pesquisa, compartilhamento, análise e visualização dos dados. Cada uma dessas tarefas requer diferentes abordagens, diferentes níveis de segurança, infraestrutura e profissionais capacitados. Nos últimos anos, um grande número de técnicas e tecnologias de Big Data se desenvolveram para superar todos esses obstáculos de coletar, armazenar, pesquisar, compartilhar, analisar e visualizar os dados. Enfim, a Computação em Nuvem tem sido o suporte necessário para o crescimento na adoção de uma cultura data driven que permita às organizações extraírem do Big Data os insights necessários para a tomada de decisão mais consciente. Portanto, para essa mesma fonte existem muitas oportunidades e benefícios na adoção de Computação em Nuvem para projetos de Big Data. Vejamos alguns deles, conforme Data Science Academy (2020, s.p.): • Redução de custo com infraestrutura de TI para armazenamento de grandes conjuntos de dados. • Redução no custo com licença e manutenção de software. • Dados acessíveis de qualquer localidade. • Acesso à infraestrutura de ponta usada pelos Cloud Providers. • Segurança dos dados normalmente maior do que na rede corporativa. • Não é necessário se preocupar com detalhes de engenharia de um data center, como luz, energia, resfriamento etc. (isso fica a cargo do Cloud Provider). • Escalabilidade com rápida expansão da infraestrutura para acomodar um novo projeto. • Capacidade de dimensionamento elástico. • Foco maior na análise de dados, ao invés de foco no armazenamento. • Redução nos custos de backup de dados. • Recuperação de desastre e continuidade dos negócios. Segundo CentralServer (2020, s.p.), a Computação em Nuvem “tem, pelo menos, cinco propriedades que são essenciais para uma aplicação efetiva do Big Data”: 1. Estrutura sob demanda: a contratação de uma infraestrutura em nuvem é feita na medida para as necessidades do negócio. Assim, o espaço em disco, a capacidade de processamento, a velocidade e a capacidade de transferência de dados podem ser selecionados tendo como referência os softwares utilizados, as quantidades de transações e as informações processadas. 2. Ubiquidade: ao armazenar os dados na nuvem, eles podem ser acessados e coletados de qualquer lugar com acesso à internet e por meio dos mais diversos dispositivos. 3. Escalabilidade: na medida em que a quantidade de informações armazenadas cresce, assim como a demanda por capacidade de UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 6 processamento – o que acontece continuamente e com rapidez para as análises relacionadas ao Big Data –, mais recursos físicos ou virtuais usados na nuvem podem ser facilmente alocados. Alguns fornecedores de nuvem disponibilizam um painel de autosserviço em que se pode contratar mais espaço, disco e memória, aumentando a capacidade de processamento de forma simples e rápida. 4. Elasticidade: Os recursos computacionais são alterados de forma transparente para os usuários dos serviços, sem interromper o uso ou o processamento de informações. Assim, caso seja necessário atender a demandas pontuais, pode-se fazê-lo apenas para aquela necessidade e retornar para as especificações necessárias anteriormente, sem stress para os usuários e sem interrupções na produção. 5. Monitoramento e medição: Por meio de uma plataforma web ou um aplicativo móvel, pode-se acompanhar a quantidade de recursos utilizados, a performance dos equipamentos e a quantidade utilizada em relação à capacidade contratada. Assim, evitam-se falhas a partir da facilidadepara gestão e da alocação de recursos, quando necessário (CENTRALSERVER, 2020, s.p). A implementação de Big Data e Computação em Nuvem é estratégico para as organizações. Possibilita-as a começarem a criar um ecossistema tecnológico, que vai não só apenas automatizar uma série de atividades, como evitar problemas de perda de dados e informações, além de trazer um cenário mais estabelecido de quais são as regras de negócio que estão funcionando ou não (ONLINE DATA CLOUD, 2020). Isso resultará numa operação dirigida a dados, na qual a partir desses dados se adquira a inteligência necessária para entender cada comportamento e planejar melhorias, adaptações e soluções preditivas e prescritivas que contribuirão para a sua empresa avançar na jornada da transformação digital, de maneira mais estratégica e assertiva. 2 COMPONENTES Big Data faz parte dos cenários da maioria das organizações, mas no começo era difícil iniciar projetos de Big Data sem grandes investimentos, por exemplo, em infraestrutura como data centers, software, equipe e infraestrutura predial, a partir da Computação em Nuvem esse cenário mudou, e agora as organizações podem aproveitar o Big Data sem ter que investir maciçamente com instalação, armazenamento, processamento, integração e transmissão de seus dados. Colaborando com este contexto, vale apresentar que, segundo Microsoft (2019), a maioria das arquiteturas de Big Data inclui alguns ou todos os seguintes componentes: fontes de dados, armazenamento de dados, processamento em lote, ingestão de mensagens em tempo real, processamento de fluxo, armazenamento de dados analíticos, análise e relatório, orquestração. Todos esses itens se conversam e definem os componentes de Big Data em Computação em Nuvem. Neste subtópico do Tópico 1, abordaremos os oito componentes que envolvem este cenário de Big Data em Computação em Nuvem: armazenamento, TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 7 transmissão, gestão de dados, processamento, análise, visualização, integrações e a qualidade da aplicação. Enfim, esses componentes são importantes e devem ser considerados em um projeto de Big Data. 2.1 ARMAZENAMENTO O componente de armazenamento é responsável por “manter” os dados coletados pela organização. Segundo Data Science Academy (2017), à medida que o volume dos dados gerados aumenta e necessita ser armazenado pelas organizações, sistemas e ferramentas sofisticadas e acessíveis vão sendo desenvolvidas para ajudá-lo nessa tarefa. As principais opções de armazenamento incluem: um Data Warehouse tradicional, um Data Lake, um sistema de armazenamento distribuído / baseado em nuvem, um servidor ou até mesmo um disco rígido de computador. Hoje em dia, os discos rígidos tradicionais são baratos e grandes em capacidade de armazenamento e isso pode ser muito útil e ainda serve para pequenas organizações. De acordo com Data Science Academy (2017), quando começa a processar grandes quantidades de dados para armazenamento e análise ou quando os dados começam a se tornar uma parte fundamental do negócio, um sistema distribuído mais complexo (geralmente baseado em computação em nuvem) como o Hadoop pode ser a escolha ideal. Não há dúvida de que o armazenamento baseado em nuvem é uma escolha excelente para a maioria das empresas. É muito flexível, não precisa usar um sistema físico, reduzindo, assim, a preocupação com a segurança dos dados. Além de ser bem mais barato do que investir em sistemas dedicados de armazenamento de dados. Segundo Poderoso (2014a), o momento tecnológico que vivemos permitiu estabelecer formas de armazenar dados não estruturados. Armazenar e recuperar dados não estruturados exige uma forma diferenciada em relação ao que tem sido feito até então. Um novo padrão de banco de dados foi criado para isto. Eles são chamados de NoSQL (Not Only SQL). E os bons e velhos arquivos texto, imagens, voz etc. que são armazenados diretamente no sistema operacional voltam a fazer parte do contexto da análise de dados. No entanto, Poderoso (2014a) continua a explicar que os bancos de dados padrão SQL são amplamente conhecidos no mundo corporativo. Bancos de dados padrão SQL facilitaram muito o acesso e disponibilização dos dados nas organizações. Foram criados para lidar com dados estruturados, e quando se fala em dados estruturados, o que se quer dizer é que o dado estará formatado para trabalhar com um padrão baseado em linhas e colunas, com uma sintaxe robusta e uma modelagem consistente. Como informado anteriormente, para manipulação de dados não estruturados, utiliza-se, muitas vezes, o próprio sistema de arquivos (Linux e MS Windows, por exemplo). UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 8 Para Poderoso (2014a, s.p.) os principais componentes desta arquitetura são (mas não se limitam a): • Hadoop: plataforma para armazenamento e processamento de um grande volume de dados utilizando hardware simples e que normalmente utilizam clusters para agilizar o acesso e manipulação dos dados. • MapReduce: modelo de programação paralela, escalável e que permite a utilização de hardware simples para realizar trabalhos complexos. • NoSQL: banco de dados que permite armazenar e recuperar dados com menos restrições do que os bancos de dados relacionais. Possui uma modelagem mais simples e permite aumentar a escalabilidade e disponibilidade do ambiente. • SQL: bancos de dados tradicionais que armazenam a maior parte dos dados estruturados nas organizações. Os dados normalmente têm origem em sistemas ERP, SCM (Supply Chain), CRM etc. • DW: o Data Warehouse é um banco de dados apartado do banco de dados dos sistemas transacionais que são modelados para facilitar a análise de dados para a tomada de decisão. Segundo Poderoso (2014b, s.p.), “o armazenamento envolve questões que nascem em uma plataforma distribuída, passa pelos bancos específi cos (NoSQL) e terminam em um ambiente de tomada de decisão” (representado pelo SQL e Data Warehouse no mapa da Figura 2). Poderoso (2014b) não considera um grande problema e enfatiza que, atualmente, há ferramentas que atendem com relativa facilidade esta questão. FONTE: Pedroso (2014b, s.p.) FIGURA 2 – PRINCIPAIS COMPONENTES DE UMA ARQUITETURA DE BIG DATA TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 9 Segundo Microsoft (2019), armazenamento de dados (que são os dados de operações de processamento em lote) normalmente são armazenados em um repositório de arquivos distribuído que pode conter amplos volumes de arquivos grandes em vários formatos. Esse tipo de repositório geralmente é chamado Data Lake. As opções para implementar esse armazenamento incluem contêineres de blobs ou Azure Data Lake Store no Armazenamento do Azure. Pode-se citar como exemplo de ferramenta de armazenamento de arquivos que faz uso de computação em nuvem o Dropbox. Ele mantém um conjunto de servidores ligados em rede com ambiente controlado. Com o Dropbox instalado em nossos computadores (máquina do cliente), toda vez que alteramos um documento o salvamento é feito automaticamente e de forma instantânea para o servidor na nuvem. 2.2 TRANSMISSÃO A computação em nuvem executa aplicativos ou fornece conteúdo e serviços por meio de transmissão on-line, em que, ao invés de acessar dados e arquivos de um computador local ou físico, podem ser acessados on-line de qualquer dispositivo que tenha acesso à internet e transmitido a qualquer hora, em qualquer lugar. A etapa de transmissão de dados permite que os dados possam chegar nos sistemas da organização a partir de uma rede de dispositivos conectados. Utilizando recursos tecnológicos como Internet of Things, Big Data e Cloud Computing, os organizadores terão a capacidade de transmitir e dar acesso a um incrível volume de informação. Segundo Informatica (2018), cada vez mais dados estão se movendo para a nuvem como uma plataforma econômica, escalonável e ágil para armazenar, processare gerenciar dados de transmissão em tempo real tornando fácil de coletar, entregar e processar grandes quantidades de dados em tempo real de modo eficaz. Segundo Baldissera (2018), a fase de transmissão de Computação em Nuvem inclui mecanismos para entregar os dados coletados para aplicações e para diferentes servidores externos. Por conseguinte, são necessários métodos para acessar a rede por meio de gateways e tecnologias heterogêneas (por exemplo, com fio, sem fio, satélite). Tais elementos são utilizados no processo de tratamento e envio dos dados coletados a serem transmitidos. Na Computação em Nuvem as redes de computadores são transmitidas e interligadas por milhares de computadores independentes através de redes mais pequenas utilizadas em nossas residências (local area network – LANs) e redes com vasta área geográfica (Wide Area Network – WANs) onde buscam constantemente que a transmissão de dados seja feita de forma segura, eficiente e com menor custos. UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 10 Na IaaS (Infrastructure as a Service – Infraestrutura como Serviço) e na PaaS (Platform as a Service – Plataforma como Serviço), os mecanismos de transmissão costumam ser controlados pelo cliente, enquanto a tecnologia subjacente é gerenciada pelo provedor; entretanto, isso dependerá das tecnologias em uso. Os controles para evitar a transmissão não intencional de dados fora do ambiente do cliente geralmente são mantidos pelo provedor, dependendo do serviço específico. O cliente deve estar ciente de como os dados são transmitidos entre os componentes para garantir que os dados sejam criptografados para todas as transmissões em canais não privados. Isso pode incluir transmissões dentro do próprio ambiente do cliente (por exemplo, entre VMs do cliente) (PCI SECURITY STANDARDS COUNCIL, 2018). Explica ainda o autor que no SaaS (Software as a service – Software como serviço), o provedor retém o controle total sobre os mecanismos de transmissão. O cliente tem pouco ou nenhum controle sobre como ou onde os dados são transmitidos dentro do ambiente de nuvem. O cliente é responsável por garantir que os dados “clear-text” não sejam passados ao provedor para transmissão para redes públicas ou ambientes não confiáveis (como outros clientes em nuvem), (PCI SECURITY STANDARDS COUNCIL, 2018). Segundo a 19ª edição da Pesquisa Global de Entretenimento e Mídia 2018-2022, feita pela PwC, até 2021 o mercado de mídia e entretenimento deve gerar US$ 2,23 trilhões, um crescimento de 4,2% ao ano. Esse incremento de faturamento é impulsionado por mudanças no modo de gestão, transmissão e, principalmente, consumo de mídia. O aumento do número de acessos à internet e o consequente refinamento da qualidade das redes de transmissão fará com que nossa relação com a web se torne ainda mais importante (SCHLEMPER, 2018, s.p). 2.3 COLETA DE DADOS Os dados das organizações estão em constante manipulação e, muitas vezes, ao se criar novos dados é necessário novos investimentos em infraestrutura. Data Science Academy (2017) reforça que os requisitos de infraestrutura para a captura ou coletar dados dependem do tipo de dado que será necessário, mas as principais opções podem incluir: sensores (que podem ser instalados em dispositivos, máquinas, edifícios ou em veículos, embalagens ou qualquer outro lugar de onde você gostaria de capturar dados), aplicativos que geram dados de usuários (por exemplo, uma app para celular que permite que os clientes façam pedidos mais facilmente), vídeo de circuito fechado de TV (CCTV), beacons (como iBeacons da Apple, que permitem capturar e transmitir dados para telefones celulares), mudanças em seu site que levam os clientes a obter mais informações e os perfis de redes sociais (DATA SCIENCE ACADEMY, 2017). A primeira etapa de Big Data ocorre uma coleta de dados para armazenamento, por exemplo, os dados podem ser coletados no e-commerce em cloud quando o usuário clicar em anúncios, login do usuário no site, ao obter TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 11 o endereço de IP, endereço de e-mail, localização, históricos de buscas ou de compras entre outros. Devemos considerar que a etapa de coleta de dados faz parte dos objetivos de negócio de uma organização e, conforme Leucotron (2019), se a intenção é ganhar conhecimento sobre o comportamento do consumidor a fim de alimentar a equipe de marketing, o projeto pode girar em torno da coleta de dados como: informações demográficas; histórico de buscas e compras; tipo de dispositivo e sistema operacional e endereço de e-mail. Vale lembrar que esse processo deve ser feito de modo transparente e que comprove o consentimento da pessoa cujos dados serão reunidos. Essa prática é importante para a reputação da marca e evita complicações legais, especialmente quando a LGPD entrar em vigor (LEUCOTRON, 2019). Microsoft (2019) pontua que todas as soluções de Big Data começam com uma ou mais fontes de dados, como exemplos podemos incluir: (1) Armazenamentos de dados de aplicativo, como bancos de dados relacionais; (2) Arquivos estáticos produzidos por aplicativos, como arquivos de log do servidor Web; e (3) Fontes de dados em tempo real, como dispositivos IoT. Para Penuela (2021), a coleta de dados essencial para as tecnologias de Big Data, embora extremamente valorosa, também é o grande desafio de todo o processo. Seja ao coletar dados de um único usuário ou ao processar dados acumulados de diversas fontes, o grande volume de informação bruta que deve ser armazenada e coletada chega à casa dos assustadores quintilhões de bytes. 2.4 PROCESSAMENTO A respeito do processamento de Big Data em Computação em Nuvem, Microsoft (2019) destaca que, como os conjuntos de dados são muito grandes, geralmente uma solução de Big Data deve processar arquivos de dados usando trabalhos de lote de execução longa para filtrar, agregar e preparar os dados para análise. Normalmente, esses trabalhos envolvem ler arquivos de origem, processá-los e gravar a saída para novos arquivos. Neste caso, opções incluem executar trabalhos de U-SQL no Azure Data Lake Analytics, usar trabalhos Hive, Pig ou de Mapear/Reduzir personalizados em um cluster HDInsight Hadoop ou usar programas de Java, Scala ou Python em um cluster HDInsight Spark. No que abrange ao tema de processamento dos dados a partir das soluções de Big Data em Computação em Nuvem, Microsoft (2019, s.p.) vem nos apresentar algumas importantes considerações a este respeito: • Ingestão de mensagens em tempo real: se a solução inclui fontes em tempo real, a arquitetura deve incluir uma maneira de capturar e armazenar mensagens em tempo real para processamento de fluxo. Isso pode ser um armazenamento de dados simples, em que as mensagens de entrada são removidas para uma pasta para processamento. No entanto, muitas soluções precisam de um UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 12 repositório de ingestão de mensagens para atuar como buffer de mensagens e dar suporte a processamento de expansão, entrega confiável e outras semânticas de enfileiramento de mensagens. Opções incluem Hubs de Eventos do Azure, Hubs de IoT do Azure e Kafka. • Processamento de fluxo: depois de capturar mensagens em tempo real, a solução deve processá-las filtrando, agregando e preparando os dados para análise. Os dados de fluxo processados são gravados em um coletor de saída. O Azure Stream Analytics oferece um serviço de processamento de fluxo gerenciado baseado em consultas SQL em execução perpétua que operam em fluxos não associados. Você também pode usar tecnologias de streaming Apache de software livre, como Storm e Spark Streaming em um cluster HDInsight. Para muitos aplicativos, o tempo máximo que leva para processar uma solicitação está relacionado ao tempo de execução do Sistema de Gerenciamento de Banco de Dados (SGBD) que deve prezarpela sua qualidade ou desempenho. Técnicas de provisionamento dinâmico foram projetadas para lidar com cargas de trabalho irregulares e evitar violações de nível de acordo de serviço. No que diz respeito ao processamento distribuído, Java disponibiliza diversos recursos de comunicação entre componentes, tais como: chamadas de funções remotas (Sockets e RMI) e integração com os protocolos conhecidos de internet (TCP/IP, HTTP, Telnet etc.) (OLIVEIRA; FRAGA; MONTEZ, 2002). Os SGBDs em nuvem integram ambientes de processamento de dados que executam concorrentemente cargas de trabalhos heterogêneas. Por isso, é importante que uma abordagem de modelagem do desempenho tenha a habilidade de estimar os impactos de execução concorrentes de requisições em uma carga de trabalho em evolução ao longo do tempo (DUGGAN et al., 2011 apud FARIAS, 2016, p. 15). O processamento em tempo real é um requisito necessário para muitas situações, por exemplo, infraestruturas críticas e sistemas de saúde. Além disso, em outros cenários, o verdadeiro conhecimento reside nos dados, já que pode ser usado para evitar que certas situações surjam e ajam antecipadamente (BALDISSERA, 2018). 2.5 ANÁLISE DE DADOS A partir do momento que precisar usar os dados armazenados para descobrir algo útil, a organização precisará processá-los e analisá-los. Então, esta área será primordial para transformar os dados em insights. É nesse momento que as linguagens de programação e plataformas entram em jogo. Portanto, para Data Science Academy (2017), existem três etapas básicas neste processo: • Preparar os dados (identificar, limpar e formatar os dados para que estejam prontos para análise). • Construir o modelo analítico. • Extrair a conclusão a partir dos conhecimentos adquiridos. TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 13 Por exemplo, existem diversos softwares de empresas como IBM, Oracle e Google que podem ajudá-lo a realizar análises de dados, ou seja, converter dados "brutos" em insights ou poderosas soluções de código aberto (como R e Python). O Google tem o BigQuery, que é projetado para permitir que alguém com um pouco de conhecimento em ciência de dados execute consultas em grandes datasets. Outras opções de ferramentas de análise incluem a Cloudera, Microsoft HDInsight e Amazon Web Services. Muitas startups estão surgindo no mercado, oferecendo soluções simples que permitem alimentar os dados enquanto elas geram os insights mais importantes e sugerem ações a serem tomadas (DATA SCIENCE ACADEMY, 2017). Por fim, e não menos importante, o uso de técnicas de análise avançadas, Machine Learning (aprendizagem de máquina) com algoritmos especialmente testados, desenvolvidos e aplicados para modelos de previsão permitem que o terceiro V (Velocidade) atenda às necessidades do negócio. Mostrar essas análises de maneira adequada ao tomador de decisão ou estabelecer visualização para modelos criados é o produto final de um projeto de Big Data (PODEROSO, 2014b). Microsoft (2019) discute a importância da análise de dados sobre todos os dados em armazenamento, ou seja, muitas soluções de Big Data preparam dados para análise e então veiculam os dados processados em um formato estruturado que pode ser consultado usando ferramentas analíticas. O armazenamento de dados analíticos usado para atender a essas consultas pode ser um Data Warehouse relacional estilo Kimball, como visto na maioria das soluções de BI (Business Intelligence) tradicionais. Como alternativa, os dados podem ser apresentados por meio de uma tecnologia NoSQL de baixa latência, como HBase ou um banco de dados Hive interativo que oferece uma abstração de metadados sobre arquivos de dados no armazenamento de dados distribuído. O Azure Synapse Analytics fornece um serviço gerenciado para armazenamento de dados em larga escala baseado em nuvem. O HDInsight dá suporte a Hive interativo, HBase e Spark SQL, que também pode ser usado para veicular dados para análise. Segundo Microsoft (2019), a meta da maioria das soluções de Big Data é gerar insights sobre os dados por meio de análise e relatórios. Para capacitar os usuários a analisar os dados, a arquitetura pode incluir uma camada de modelagem de dados, como um cubo OLAP multidimensional ou um modelo de dados tabular no Azure Analysis Services. Também pode dar suporte a Business Intelligence de autoatendimento, usando as tecnologias de modelagem e visualização do Microsoft Power BI ou do Microsoft Excel. Análise e relatórios também podem assumir a forma de exploração de dados interativos por cientistas de dados ou analistas de dados. Para esses cenários, muitos serviços do Azure dão suporte a blocos de anotações analíticos, como Jupyter, permitindo que esses usuários aproveitem suas habilidades existentes com Python ou R. Para exploração de dados em larga escala, você pode usar o Microsoft R Server, seja no modo autônomo ou com Spark. UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 14 Para Mysore, Khupat e Jain (2014, s.p.): A camada de análise lê os dados digeridos pela camada de tratamento e armazenamento de dados. Em alguns casos, a camada de análise acessa os dados diretamente na fonte. É necessário um planejamento cuidadoso para projetar a camada de análise. É necessário tomar decisões em relação a como gerenciar tarefas para: (1) produzir a analítica desejada; (2) obter insights a partir dos dados; (3) localizar as entidades necessárias; (4) localizar as fontes de dados que fornecem dados para essas entidades; e (5) entender quais algoritmos e ferramentas são necessários para realizar a analítica. Segundo IBM (2021, s.p.), “a análise de Big Data é o uso de técnicas analíticas avançadas aplicadas em conjuntos de dados muito grandes e diversos que incluem dados estruturados, semiestruturados e não estruturados, de diferentes fontes e de tamanhos diferentes de terabytes a zettabytes”. Ainda, segundo IBM (2021, s.p.): A análise de Big Data permite que analistas, pesquisadores e usuários de negócios tomem decisões melhores e mais rápidas usando dados que antes eram inacessíveis ou inutilizáveis. As empresas podem utilizar técnicas avançadas de análise, como análise de texto, machine learning, análise preditiva, mineração de dados, estatística e processamento de linguagem natural para obter novos insights a partir de fontes de dados previamente não exploradas de forma independente ou junto a dados corporativos existentes. 2.6. VISUALIZAÇÃO E SAÍDA DE DADOS O componente de visualização é responsável por gerar as informações extraídas da análise de dados, área responsável por transmiti-las às pessoas que necessitam para realizar a tomada de decisões da organização. É essencial que essa informação transmitida precise ser oferecida por meio de uma comunicação clara e concisa reportando resultados em forma de breves relatórios, gráficos, figuras, recomendações-chave ou dashboards interativos. Data Science Academy (2017) destaca que constantemente se observa que as organizações enterram os reais “tesouros” de informações que podem afetar a estratégia quando recebem um relatório de 50 páginas ou um gráfico complicado que ninguém entende. É evidente que não se pode esperar que pessoas muito ocupadas acessem uma montanha de dados com infinitos apêndices de planilha e extraia mensagens-chave. Essa mesma fonte enfatiza que se as ideias-chave não forem claramente apresentadas, não resultarão em ação. Enfim, as principais opções de saída de dados incluem dashboards de gerenciamento, plataformas de visualização de dados comerciais que tornam os dados atraentes e fáceis de entender, utilizando gráficos simples (como barras e linhas) que comunicam informações. Para a TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 15 maioria das pequenas empresas que procuram melhorar a sua tomada de decisão, usar gráficos simples ou ferramentas de visualização como nuvens de palavras são maisdo que suficientes para apresentar informações sobre os dados (DATA SCIENCE ACADEMY, 2017). Segundo Poderoso (2014b), a visualização dos dados envolve o uso e a prática de técnicas estatísticas adequadas para responder às questões de negócio que justificarão o desenvolvimento do projeto. Com esses importantes recursos da matemática, será possível estabelecer análises de correlação que utilizam técnicas de Data Mining (mineração de dados) aplicadas em um grande volume de dados. As organizações poderão compreender seus processos e negócios ao visualizar todos seus dados que estarão disponíveis (armazenados) nos mais variados tipos de banco de dados. Na etapa de visualização através de gráficos, infográficos, planilhas e tabelas, por exemplo, ferramentas visuais que favorecem uma interpretação mais otimizada das informações eliminando ruídos e fatores que desviem o foco durante a análise. Para Oliveira Junior (2019), a visualização e saída de dados: É a parte difícil do Big Data porque significa tornar essa vasta quantidade de dados compreensível de uma maneira fácil de ler e entender. Com as visualizações corretas, os dados brutos podem ser colocados em uso. As visualizações, claro, não são gráficos comuns ou gráficos de pizza. São gráficos complexos que podem incluir muitas variáveis de dados, permanecendo legíveis e compreensíveis. A visualização pode não ser a tarefa tecnologicamente mais difícil, mas certamente é a mais desafiadora. O uso de um gráfico para contar uma história complexa é muito difícil, mas também extremamente crucial. De acordo com Tutorialspoint (2017 apud OLIVEIRA JUNIOR, 2019, p. 5): O Power BI é uma ferramenta de visualização de dados e BI que converte dados de diferentes fontes em Dashboards e relatórios de BI. O Power Bi suíte fornece vários softwares, conectores e serviços, o Power BI Desktop, o Power BI servisse baseado em SaaS e o Power BI mobile estão disponíveis para diversas plataformas. Esse conjunto de serviços podem ser usados pelos usuários para consumir dados e criar relatórios. O Power BI inclui componentes como Power BI Desktop, usado para criar relatórios e visualizações de dados, enquanto os Serviços de BI (Software como Serviço – SaaS) são usados para publicar os relatórios, o Gateway do Power BI pode ser usado para manter seus dados atualizados e conectados às fontes de dados locais sem que haja a necessidade de mover os dados, o aplicativo mobile é possível conectar e visualizar os dados de qualquer lugar. Ainda, essa mesma fonte nos informa que: UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 16 O WEKA é um software open source que fornece ferramentas para pré-processamento de dados, implementação de vários algoritmos de Machine Learning e visualização para que você possa desenvolver técnicas de aprendizado de máquina e aplicá-las a problemas reais de mineração de dados. O WEKA oferece muitos estágios ao lidar com o Big Data, começando com os dados brutos coletados em campo que podem conter valores nulos e campos irrelevantes. Com a ferramenta de pré-processamento é possível limpar estes dados e salvá-los localmente para aplicar os algoritmos (TUTORIALSPOINT, 2019 apud OLIVEIRA JUNIOR, 2019, p. 6). Quer saber como ocorre a visualização de dados gerados por dispositivos da Internet das Coisas (Internet of Things – IoT)? Não deixe de ler o artigo que Jair de Castro Oliveira Junior nos apresenta. Ótima leitura! FONTE: <https://revistas.anchieta.br/index.php/RevistaUbiquidade/article/ download/1527/1404/>. Acesso em: 7 abr. 2021. DICAS 2.7 INTEGRAÇÕES Considerando que SaaS (Software as a service – Software como serviço) e PaaS (Platform as a Service – Plataforma como Serviço) estão na Web e que podem ser acessados pelos usuários de qualquer lugar e a qualquer momento, por exemplo, a PaaS oferece uma infraestrutura de alto nível de integração para implementar e testar aplicações na nuvem. Neste caso, o usuário não administra ou controla a infraestrutura subjacente, incluindo rede, servidores, sistemas operacionais ou armazenamento, mas tem controle sobre as aplicações implantadas e, possivelmente, as configurações das aplicações hospedadas nesta infraestrutura. A PaaS fornece um sistema operacional, linguagens de programação e ambientes de desenvolvimento para as aplicações, auxiliando na implementação de sistemas de software, já que contém ferramentas de desenvolvimento e colaboração entre desenvolvedores (GUERREIRO, 2018). Segundo Poderoso (2014b), Big Data vem sendo definido com 3 Vs: Volume, Velocidade e Variedade. A coleta e integração de dados também é um problema que envolve os dois primeiros Vs. Está relacionado à Computação em Nuvem, mas encontra seus principais desafios na ingestão e limpeza / tratamento de dados. Para Microsoft (2019), a maioria das soluções de Big Data consiste em operações de processamento de dados repetidos, encapsuladas em fluxos de trabalho, que transformam dados de origem, movem dados entre várias origens TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 17 e coletores, carregam os dados processados em um armazenamento de dados analíticos ou efetuam o push dos resultados diretamente para um relatório ou painel. Para automatizar esses fluxos de trabalho, você pode usar uma tecnologia de orquestração, como Azure Data Factory ou Apache Oozie e Sqoop. Soluções de Big Data aproveitam o paralelismo, possibilitando soluções de alto desempenho dimensionadas para grandes volumes de dados (MICROSOFT, 2019). Quanto ao aspecto de integração, vale destacar duas grandes atribuições a seu respeito que são a possibilidade de oferecer interoperabilidade com soluções existentes. Os componentes da arquitetura de Big Data também são usados para processamento IoT e soluções de BI empresariais, permitindo que você crie uma solução integrada entre cargas de trabalho de dados e, por fim, sobre a escala elástica onde todos os componentes da arquitetura de Big Data dão suporte a provisionamento de expansão para que você possa ajustar sua solução para cargas de trabalho grandes ou pequenas e pagar somente pelos recursos que usa (MICROSOFT, 2019). Para Mysore, Khupat e Jain (2014, s.p.): Aplicativos de Big Data adquirem dados de várias origens, fornecedores e fontes, que são armazenados em sistemas como HDFS, NoSQL e MongoDB. Essa camada vertical é usada por vários componentes (aquisição de dados, compilação de dados, gerenciamento de modelo e interceptor de transação, por exemplo) e é responsável por conectar várias fontes de dados. Para integrar informações de fontes de dados com características diferentes (protocolos e conectividade, por exemplo), é necessário conectores e adaptadores de qualidade. Estão disponíveis aceleradores para conectar às fontes mais conhecidas e usadas. Isso inclui adaptadores de mídias sociais e de dados climáticos. Essa camada também pode ser usada por componentes para armazenar informações em armazenamentos de big data e para recuperar informações desses armazenamentos para processamento. A maioria dos armazenamentos de Big Data possui serviços e APIs para armazenar e recuperar as informações. Segundo Sousa et al. (2012, s.p.): Com a evolução da Computação em Nuvem, as empresas necessitam integrar os diferentes ambientes de TI, pois essas empresas utilizam modelos híbridos, nos quais os sistemas instalados possam interagir com diversos provedores. Contudo, não existem padrões de integração de sistemas de computação em nuvem. O formato XML pode ser uma alternativa para mover dados entre ambientes em nuvem, mas os sistemas também precisam gerenciar dados localmente. A utilização de APIs pode auxiliar neste processo de integração. Por exemplo, as APIs da Amazon estão se tornando um padrão de fato para serviços sob demanda. Contudo, a quantidade de tecnologias envolvidas é muito grande, tornando-se um desafio padronizar as diversas interfacese serviços, bem como fornecer interoperabilidade entre recursos heterogêneos. Desempenho e a evolução dos serviços são aspectos importantes na integração de nuvem, pois as aplicações possuem requisitos de QoS e as evoluções são constantes. Dessa forma, o uso de tecnologias de integração de dados, serviços e linguagens devem ser utilizadas e adaptadas no contexto da computação em nuvem. UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 18 2.8. QUALIDADE DA APLICAÇÃO A qualidade das aplicações Big Data é fundamental, Aevo (2019) destaca que com dados sem qualidade, sem armazenamento na nuvem (Cloud Computing) e sem garantia de confiabilidade, relatórios e análises inconsistentes podem ser gerados. Para que isso não aconteça, é importante utilizar um sistema de qualidade que filtre os dados e organize-os de forma lógica, identificando possíveis problemas antes que os dados sejam armazenados. Para Mysore, Khupat e Jain (2014, s.p.), a camada de qualidade dos serviços das aplicações Big Data em Computação em Nuvem “é responsável por definir qualidade de dados, políticas relacionadas à privacidade e segurança, frequência de dados, tamanho de busca e filtros de dados”. A seguir será apresentado cada uma destas visões: • Qualidade de dados: (1) identificação integral de todos os elementos de dados necessários; (2) fornecimento dos dados dentro de um período de tempo aceitável; (3) verificação precisa para ver se os dados respeitam as regras de precisão; (4) aderência a uma linguagem comum (elementos de dados atendem aos requisitos expressos em linguagem de negócios simples); (5) verificação consistente de que os dados de vários sistemas respeitam as regras de consistência; e (6) conformidade técnica para cumprir a especificação de dados e as diretrizes de arquitetura de informações. • Políticas sobre privacidade e segurança: políticas são necessárias para proteger dados sensíveis. Dados adquiridos de agências e provedores externos podem incluir informações sensíveis (como o contato de um usuário do Facebook ou informações de precificação de produtos). Dados podem vir de diferentes regiões e países e devem ser tratados de acordo com sua origem. É necessário tomar decisões sobre mascaramento de dados e seu armazenamento. Considere as políticas de acesso de dados a seguir: ᵒ Disponibilidade de dados. ᵒ Grau de gravidade de dados. ᵒ Autenticidade de dados. ᵒ Compartilhamento e publicação de dados. ᵒ Armazenamento e retenção de dados, incluindo perguntas como: é possível armazenar os dados externos? Se sim, por quanto tempo? Que tipo de dados pode ser armazenado? ᵒ Restrições de fornecedores de dados (políticas, técnicas, regionais). ᵒ Termos de uso de mídias sociais (consulte Recursos). • Frequência de dados: com que frequência estão disponíveis os dados novos? É sob demanda, contínuo ou off-line? • Tamanho da busca: este atributo ajuda a definir o tamanho dos dados que é possível buscar e consumir por busca. • Filtros: filtros padrão removem dados indesejados e ruído e deixam apenas os dados necessários para análise (MYSORE; KHUPAT; JAIN, 2014). TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING 19 Segundo Sousa et al. (2012), em ambientes de Computação em Nuvem, a qualidade de serviço é uma característica definida entre o provedor e o usuário, em que o usuário do serviço tem algumas garantias, como desempenho e disponibilidade. Apesar das limitações de rede e segurança, as soluções em nuvem devem fornecer elevado desempenho, além de serem flexíveis para se adaptar diante de uma determinada quantidade de requisições. Uma questão relevante para garantir a qualidade em qualquer infraestrutura compartilhada é isolar o desempenho de aplicações diferentes. Aplicações podem adicionar uma carga variável sobre a nuvem e é necessário verificar como esta carga de trabalho irá afetar as outras aplicações que compartilham o mesmo hardware (SOUSA et al., 2012). 20 Neste tópico, você aprendeu que: • Big Data e Computação em Nuvem são dois conceitos que funcionam de maneira interdependente e estão transformando a forma de negócios desempenharem suas funções. Juntos, fornecem uma solução que é escalável e adaptável para grandes conjuntos de dados e análise de negócios on-line. • A Computação em Nuvem organiza toda a parte de armazenamento de dados deixando-os acessíveis e simplificando à rotina para trabalhar com um grande volume de dados. • Existem muitas oportunidades e benefícios na adoção de Computação em Nuvem para projetos de Big Data, como deixar os dados acessíveis de qualquer localidade, reduzir custos com infraestrutura de TI para armazenamento de grandes conjuntos de dados e custos com licença e manutenção de software (DATA SCIENCE ACADEMY, 2020). • As arquiteturas de Big Data em Computação em Nuvem incluem os seguintes componentes: (1) armazenamento; (2) transmissão; (3) coleta de dados; (4) processamento; (5) análise de dados; (6) visualizações; (7) integrações e aspectos; e (8) qualidade da aplicação. ᵒ Armazenamento: é responsável por “manter” os dados coletados pela organização, cujos dados normalmente são armazenados em um repositório de arquivos distribuído que pode conter amplos volumes de arquivos grandes em vários formatos. Os principais componentes desta arquitetura são: Hadoop, MapReduce, NoSQL, SQL e Data Warehouse. ᵒ Transmissão: a transmissão de dados permite que os dados possam chegar nos sistemas da organização a partir de uma rede de dispositivos conectados utilizando métodos para acessar a rede por meio de gateways e tecnologias heterogêneas (por exemplo, com fio, sem fio, satélite), para tratar e para o encaminhamento seus dados, ou seja, ter a capacidade de transmitir e dar acesso a um incrível volume de informação. Nesta fase inclui mecanismos para entregar os dados coletados para aplicações e para diferentes servidores externos. o Coleta de dados: os requisitos de infraestrutura para a captura ou coletar dados dependem do tipo de dado que será necessário, mas as principais opções podem incluir por exemplo os sensores e os aplicativos que geram dados de usuários. A coleta de dados é essencial para as tecnologias de Big Data embora extremamente valorosa, também é o grande desafio de todo o processo e objetivos de negócio de uma organização. ᵒ Processamento: geralmente uma solução de Big Data em Cloud deve processar arquivos de dados usando trabalhos de lote de execução longa para filtrar, agregar e preparar os dados para análise. O tempo máximo RESUMO DO TÓPICO 1 21 que as aplicações levam para processar uma solicitação está relacionado ao tempo de execução do Sistema de Gerenciamento de Banco de Dados (SGBD) que deve prezar pela sua qualidade e desempenho. ᵒ Análise de dados: a partir do momento que precisar usar os dados armazenados para descobrir algo útil, a organização precisará processá-los e analisá-los para transformar os dados em insights. Podem utilizar técnicas avançadas de análise, como análise de texto, machine learning, análise preditiva, mineração de dados, estatística e processamento de linguagem natural para obter novos insights a partir de fontes de dados previamente não exploradas de forma independente ou junto a dados corporativos existentes. ᵒ Visualização e saída de dados: é responsável por gerar as informações extraídas da análise de dados, área responsável por transmiti-las às pessoas que necessitam para realizar a tomada de decisões da organização. As principais opções de saída de dados incluem dashboards de gerenciamento, plataformas de visualização de dados comerciais que tornam os dados atraentes e fáceis de entender, utilizando por exemplo recursos do tipo gráficos que comunicam informações. ᵒ Integrações: com a evolução da Computação em Nuvem, as empresas necessitam integrar os diferentes ambientes de TI, pois estas empresas utilizam modelos híbridos,nos quais os sistemas instalados possam interagir com diversos provedores permitindo por exemplo que os três modelos de Serviços através de Software como um Serviço (SaaS), Plataforma como um Serviço (PaaS) e Infraestrutura como um Serviço (IaaS) integrem informações de fontes de dados com características diferentes (protocolos e conectividade, por exemplo). • Qualidade da aplicação: a camada de qualidade das aplicações Big Data em Computação em Nuvem é responsável por definir qualidade de dados, políticas relacionadas à privacidade e segurança, frequência de dados, tamanho de busca e filtros de dados. 22 1 Segundo Data Science Academy (2020), o aumento da Computação em Nuvem tem sido um precursor e facilitador para o surgimento do Big Data. Embora o Big Data traga muitas oportunidades atraentes, as empresas também enfrentam muitos desafios. Coleta dos dados, armazenamento, pesquisa, compartilhamento, análise e visualização. Cada uma destas tarefas requer diferentes abordagens, diferentes níveis de segurança, infraestrutura e profissionais capacitados. Com relação a esta abordagem de Big Data e Computação em Nuvem, analise as sentenças a seguir: FONTE: Adaptado de DATA SCIENCE ACADEMY. Big data e Cloud Computing: desafios e oportunidades. Disponível em: http://datascienceacademy.com.br/blog/big-data-e-cloud- -computing-desafios-e-oportunidades/. Acesso em: 24 fev. 2021. I- Computação em Nuvem e Big Data fornecem uma solução que é escalável e adaptável para grandes conjuntos de dados e análise de negócios onde todos os recursos de dados tornando-se facilmente acessíveis e com custo reduzido para a organização. II- A Computação em Nuvem não contém suportes necessários para extraírem do Big Data os insights necessários para a tomada de decisão mais consciente, pois, como funcionam de forma interdependentes, seus recursos tecnológicos de integração são insuficientes. III- Com Big Data as organizações podem processar e armazenar grandes conjuntos de dados de maneira interdependente, disponíveis tanto localmente quanto na Computação em Nuvem, em que, juntos, estão transformando a forma de negócios desempenharem suas funções. Assinale a alternativa CORRETA: a) ( ) Somente a sentença I está correta. b) ( ) Somente a sentença II está correta. c) ( ) Somente a sentença III está correta. d) ( ) As sentenças I e III estão corretas. 2 Buscar vantagens competitivas e alcançar resultados expressivos com seus investimentos, fez com que as organizações invistam em ferramentas e desenvolvimento de projetos em Big Data para superar todos esses obstáculos de coletar, armazenar, pesquisar, compartilhar, analisar e visualizar os dados. No que diz respeito às oportunidades e aos benefícios na adoção de Computação em Nuvem para projetos de Big Data, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Escalabilidade com rápida expansão da infraestrutura para acomodar um novo projeto. ( ) Segurança e integrações dos dados normalmente menor do que na rede corporativa. AUTOATIVIDADE 23 ( ) Redução nos custos de backup de dado. ( ) Redução de custo com infraestrutura de TI para armazenamento de grandes conjuntos de dados. Assinale a alternativa que apresenta a sequência CORRETA: a) ( ) V – F – V – F. b) ( ) V – F – V – V. c) ( ) F – F – V – F. d) ( ) V – V – F – V. 3 A informação e a transmissão estão cada vez mais descentralizados e distribuídos, aumentando o desempenho dos serviços de nuvem. Portanto, a arquitetura de computação em nuvem e soluções deve ser definida a partir de uma infraestrutura de computação para Big Data que permita obter fontes, armazenamento e processamento de dados. No que se refere aos componentes de armazenamento, transmissão e coleta de dados, analise as sentenças a seguir: I- O componente de armazenamento é responsável por “manter” os dados coletados pela organização e as principais opções de armazenamento incluem, por exemplo, o Data Warehouse e sistema de armazenamento distribuído / baseado em nuvem. II- A etapa de transmissão de dados permite que os dados possam chegar nos sistemas da organização a partir de uma rede de dispositivos conectados para entregar os dados coletados para aplicações e para diferentes servidores externos. III- A captura ou a coleta de dados dependem do tipo de dado que será necessário, em que todos os aplicativos de coleta são inteligentes para extrair e gerar dados de usuários. Assinale a alternativa CORRETA: a) ( ) Somente a sentença I está correta. b) ( ) Somente a sentença II está correta. c) ( ) Somente a sentença III está correta. d) ( ) As sentenças I e II estão corretas. 4 As soluções em nuvem e de Big Data podem ser usadas, entre outras coisas, para análise de dados em tempo real, redução de custo com infraestrutura de TI para armazenamento de grandes conjuntos de dados, obter também a redução no custo com licença e manutenção de software e possibilitar que os dados sejam acessíveis de qualquer localidade através de uma infraestrutura de excelência para o processamento, análise, visualização e integração dos dados. Com relação a esses quatro componentes, analise as sentenças a seguir: 24 I- Processamento: solução de Big Data deve processar arquivos de dados usando trabalhos de lote de execução longa para filtrar, agregar e preparar os dados para análise. II- Análise: serve para capturar os dados, construir o modelo analítico e armazená-los a partir dos conhecimentos adquiridos. III- Visualização: irá gerar as informações extraídas da análise de dados, área responsável por transmiti-las às pessoas que necessitam para realizar a tomada de decisões da organização. IV- Integrações: permitir que diversos provedores estejam conectados, porém com baixa interoperabilidade e acesso às soluções existentes para o compartilhamento de informações. Assinale a alternativa CORRETA: a) ( ) Somente a sentença I está correta. b) ( ) Somente a sentença II está correta. c) ( ) As sentenças II e IV estão corretas. d) ( ) As sentenças I e III estão corretas. 5 Segundo Taurion (2009, p. 2), Cloud Computing, ou Computação em Nuvem, pode ser definido como “um conjunto de recursos como capacidade de processamento, armazenamento, conectividade, plataformas, aplicações e serviços disponibilizados na internet por diferentes aplicações para as áreas de negócios, levando em consideração a qualidade de uso das aplicações”. No que se refere à qualidade de dados e privacidade e segurança, assinale a alternativa CORRETA: FONTE: Adaptado de TAURION, C. Computação em nuvem: transformando o mundo da tecnologia da informação. Rio de Janeiro: Brasport, 2009. a) ( ) Qualidade de dados compõe entre outros fatores a identificação integral de todos os elementos de dados necessários e o fornecimento dos dados dentro de um período de tempo aceitável. b) ( ) As políticas de acesso de dados não focam nos aspectos de disponibilidade de dados, do grau de gravidade de dados, da autenticidade de dados e do compartilhamento e publicação de dados. c) ( ) Aspectos de qualidade e política de acesso aos dados são considerados estratégicos em uma organização e devem sofrer auditorias por especialistas da área de segurança pelas organizações. d) ( ) Qualidade dos dados visa garantir permissões de acesso e instituir políticas de acesso a estes dados. 25 TÓPICO 2 — UNIDADE 1 DESAFIOS PARA IMPLEMENTAÇÃO BIG DATA EM CLOUD 1 INTRODUÇÃO Dando continuidade aos nossos estudos, neste tópico, serão apresentados alguns desafios para a implementação de Big Data em Cloud Computing. Como em tudo, sempre há o lado bom e ruim, por isso, analisaremos Cloud Computing por diversas perspectivas. Sendo assim, veremos, nesta unidade, como minimizar os impactos e obter vantagem na aplicação desses conceitos. Talvez poucas áreas de estudos tenham tanta evolução em tão pouco tempo quanto a área de tecnologia,
Compartilhar