Prévia do material em texto
1 PLATAFORMAS DA BIG DATA 2 NOSSA HISTÓRIA A nossa história inicia com a realização do sonho de um grupo de empre- sários, em atender à crescente demanda de alunos para cursos de Graduação e Pós-Graduação. Com isso foi criado a nossa instituição, como entidade ofere- cendo serviços educacionais em nível superior. A instituição tem por objetivo formar diplomados nas diferentes áreas de conhecimento, aptos para a inserção em setores profissionais e para a partici- pação no desenvolvimento da sociedade brasileira, e colaborar na sua formação contínua. Além de promover a divulgação de conhecimentos culturais, científicos e técnicos que constituem patrimônio da humanidade e comunicar o saber atra- vés do ensino, de publicação ou outras normas de comunicação. A nossa missão é oferecer qualidade em conhecimento e cultura de forma confiável e eficiente para que o aluno tenha oportunidade de construir uma base profissional e ética. Dessa forma, conquistando o espaço de uma das instituições modelo no país na oferta de cursos, primando sempre pela inovação tecnológica, excelência no atendimento e valor do serviço oferecido. 3 Sumário PLATAFORMAS DA BIG DATA .................................................................................. 1 NOSSA HISTÓRIA ......................................................................................................... 2 Introdução ......................................................................................................................... 4 Big Data – Conceitos E Um Breve Histórico ................................................................... 6 Da Explosão Informacional À Avalanche De Dados ....................................................... 9 Entendendo O Big Data .................................................................................................. 11 A Visão Do Big Data ...................................................................................................... 13 Sistemas Tradicionais X Sistemas De Big Data Analytics ............................................ 15 FERRAMENTAS ........................................................................................................... 17 Ambientes Em Nuvem ............................................................................................ 17 HDFS .......................................................................................................................... 17 YARN ......................................................................................................................... 18 Map Reduce ................................................................................................................ 18 HADOOP ................................................................................................................... 18 MPP ............................................................................................................................ 19 HBASE ....................................................................................................................... 19 SPARK ....................................................................................................................... 20 Machine Learning ....................................................................................................... 20 Plataformas de Big Data ................................................................................................. 21 Apache Spark .............................................................................................................. 21 Modelo de Programação ............................................................................................. 22 Apache Storm ............................................................................................................. 24 Componentes do Storm .............................................................................................. 24 Modelo de Execução .................................................................................................. 25 Apache Flink ............................................................................................................. 26 Flink Stack .................................................................................................................. 28 Componentes .............................................................................................................. 29 Modelo de Execução .................................................................................................. 30 O Profissional Do Analytics ....................................................................................... 32 O Impacto Do Big Data Na Análise De Dados .......................................................... 33 REFERÊNCIAS ............................................................................................................. 43 file:///Z:/MODELO%20APOSTILA-%20AVALIAÇÃO/MODELO%20NOVO%20-%20APOSTILA.docx%23_Toc60654013 4 Introdução A quantidade de dados gerados pela humanidade nos últimos anos au- mentou de forma exponencial. Segundo uma pesquisa recente (IBM , 2013), no ano 2000, 25%(vinte e cinco por cento) dos dados eram digitalizados, no ano de 2007, esse número saltou para 93% (noventa e três por cento), e no ano de 2013, foi para 98% (noventa e oito por cento). Esse crescimento, devido principalmente a fatores como aumento do acesso a dispositivos eletrônicos e a popularização da internet, está gerando uma revolução no tratamento de dados. A aplicabilidade do Big Data está no tratamento desse volume de dados, que vem de variadas fontes e que deman- dam alta velocidade de processamento, na busca por um valor (Taurion, 2013). Esse valor, obtido através de correlações entre dados, pode se dar através de descoberta de padrões, preferências de usuários, aumento no número de ven- das em determinada época do ano, descoberta de cura de doenças, entre diver- sos outros benefícios aplicáveis a diversas áreas de estudo. Por ser um assunto relativamente novo, muitos artigos que mencionam o tema, o fazem de maneira conceitual e sem abranger alguns detalhes, que vão além de conceitos pontuais. O tema Big Data desperta, na atualidade, o interesse, e até mesmo o fas- cínio, para todas as pessoas que tem algum envolvimento com atividades para Gestão da Informação (HUWE, 2012). A recente reportagem publicada no Rio de Janeiro pelo Jornal O Globo, sob título “Big Data: enxurrada de dados emerge como novo termômetro da economia” suscitou um debate interessante sobre no- vas formas para interação entre a sociedade, governos e serviços em geral, pois estas formas promovem uma nova dinâmica para fluxos informacionais (SETTI, 2014). A publicação desta reportagem por um veículo de grande circulação, de- monstra que este assunto já é de interesse para a sociedade, indo além das fronteiras acadêmicas e da realização de negócios. Verifica-se também um mo- vimento na área de Ciência da Informação neste tema, quando o Prof. Dr. Aldo Barreto, pesquisador na nossa área, faz em seu blog algumas reflexões sobre 5 os três tempos da ciência da informação. Ele traz uma consideração sobre os estoques disponíveis de forma online, onde afirma que: Hoje, com a condição online os estoques e os fluxos de informação, renomeados para “Big Data”, são multidirecionados e levam condições virtuais em seu desatamento, quando o tempo se aproxima de zero, a velocidade se acerca do infinito e os espaços são de vivência pela não presença (BARRETO, 2014, online). Outra contribuição para este debate foi levantada pelo Prof. Dr. Marcos Cavalcanti, pesquisador do CRIE/COPPE, que afirmou em recente publicação que “Ao contrário do que muita gente pensa,consagradas e desafia a compre- ensão mais básica de como tomar decisões e compreender a realidade (SCHÖNBERGER-MAYER E CUKIER, 2013). De acordo com Schönberger-Ma- yer e Cukier (2013), os frutos da sociedade da informação, como celulares e computadores, deram origem ao termo "exaustão de dados". O termo descreve a trilha digital que as pessoas deixam, que se refere a dados colhidos como subprodutos das ações e dos movimentos das pessoas. Estes elementos são facilmente identificados em todos os lugares, entretanto, a informação em si é discreta. Segundo os autores, esta mudança quantitativa ad- vinda de big data tem gerado uma mudança qualitativa em termos de resultados do processamento de dados. Betser e Belanger (2013) complementam que a mudança qualitativa refere-se a quantidade de detalhes que são apurados e mantidos por esses bancos de dados. Há também mudanças na tecnologia dis- ponível para analisar e extrair informações a partir desses dados, no custo de disponibilidade, processamento, armazenamento de dados e mecanismos de origem/entrega, como smartphones e sensores. Estes por sua vez, têm gerado mudanças e criado oportunidades na busca por excelência na utilização de dados e informações. Para exemplificar isto, podemos utilizar a analogia da nanotecnologia: quando se chega ao nível molecular, as propriedades físicas da matéria podem se alterar; assim, ao saber o que significam essas novas características, podem-se criar materiais e cons- truir o que não podia ser feito antes - obter metais e cerâmicas mais flexíveis. Ou seja, quando aumentamos a escala de dados com a qual trabalhamos, ganhamos margem para inovar, o que não ocorria antes com poucos dados (SCHÖNBERGER-MAYER E CUKIER, 2013). Assim, o objetivo proposto para 42 big data nos negócios e na TI será a aplicação de dados e analítica para incre- mentar a inteligência corporativa (MINELI, CHAMBERS E DHIRAJ, 2013). Esta é uma meta completamente diferente de enquadramento para a tecnologia e vai significar novas formas de organizar e conceituar como ela é financiada e entre- gue atualmente. Ou seja, os autores confirmam os pressupostos de Schönber- ger-Mayer e Cukier (2013) ao afirmarem que com big data, cientistas de dados podem utilizar mais ou todos os dados para criar um modelo. Ao fazerem isto, é possível que sejam introduzidas variáveis de previsão adicional, a fim de aumen- tar seu nível de exatidão. Quando o histórico de big data é utilizado, o modelo pode identificar tendências que estão fora dos ciclos que foram utilizados na téc- nica de extração de dados históricos. 43 REFERÊNCIAS Agrawal, D. (2014). Analytics based decision making. Journal of Indian Business Research, 6(4), 332–340. Bartels, K., Barbeito, A. & Mackensen, G. B. (2011). The anesthesia team of the future. Current Opinion in Anesthesiology, 24(6), 687–692. Berinato, S. (2014). With big data comes big responsibility. Harvard Busi- ness Review, Novembro. Bishop, N. (2014). Spotlighting big data and analytics heroes. IBM Data Management Magazine, (1). Björk, B. C., Welling, P., Laakso, M., Majlender, P., Hedlund, T. & Guona- son, G. (2010). Open access to the scientific journal literature: situation 2009. PloS one, 5(6), e11273. Blocker, A. W. & Meng, X.-L. (2013). The potential and perils of prepro- cessing: Building new foundations. Bernoulli, 19(4), 1176–1211. Brereton, P., Kitchenham, B., Budgen, D., Turner, M. & Khalil, M. (2007). Lessons from applying the systematic literature review process within the sof- tware engineering domain. Journal of systems and software, 80(4), 571–583. Chang, R. M., Kauffman, R. J. & Kwon, Y. (2014). Understanding the pa- radigm shift to computational social science in the presence of big data. Decision Support Systems, 63, 67–80. 44 Chen, H., Chiang, R. H. & Storey, V. C. (2012). Business Intelligence and Analytics: From Big Data to Big Impact. MIS quarterly, 36(4), 1165–1188. Chen, C. P. & Zhang, C.Y. (2014). Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. Information Sciences, 275, 314–347. Chen, M., Mao, S. & Liu, Y. (2014). Big data: A survey. Mobile Networks and Applications, 19(2), 171–209. Chow-White, P. A. & Green, S. (2013). Data Mining Difference in the Age of Big Data: Communication and the social shaping of genome technologies from 1998 to 2007. International Journal of Communication, 7, 28. Silva, I. M. & Campos, F. C. (2015). New perspectives using big data: a study of bibliometric 2000-2012. Anais da 11a Conferência Internacional sobre Sistemas de Informação e Gestão de Tecnologia, São Paulo, SP. Davenport, T. H. (2014). How strategists use “big data” to support internal business decisions, discovery and production. Strategy and Leadership, 42(4), 45–50. Davenport, T. H., Barth, P. & Bean, R. (2012). How “big data” is different. MIT Sloan Management Review, 54(1). Demchenko, Y., Grosso, P., De Laat, C. & Membrey, P. (2013). Addres- sing Big Data issues in scientific data infrastructure. Colaboration Technologies ans Systems (CTS). Demirkan, H. & Delen, D. (2013). Leveraging the capabilities of service- oriented decision support systems: Putting analytics and big data in cloud. Deci- sion Support Systems, 55(1), 412–421. 45 Freitas, H., Becker, J. L., Kladis, C. M. & Hoppen, N. (1997). Informação e decisão: Sistemas de apoio e seu impacto. Porto Alegre: Ortiz, 74. Garcia Martinez, M. & Walton, B. (2014). The wisdom of crowds: The po- tential of online communities as a tool for data analysis. Technovation, 34(4), 203–214. Goldman, A., Kon, F., Pereira Junior, F., Polato, I. & Pereira, R. (2012). Apache Hadoop: Conceitos teóricos e práticos, evoluçao e novas possibilidades. XXXI Jornadas de atualizaçoes em informatica. Hayashi, A. M. (2014). Thriving in a Big Data World. MIT Sloan Manage- ment Review, 55(2), 35–39. Huang, T. & Van Mieghem, J. A. (2014). Clickstream data and inventory management: Model and empirical analysis. Production and Operations Mana- gement, 23(3), 333–347. Huwe, T. K. (2012). Big Data, Big Future. Computers in libraries, v. 32 (5), p. 20-22. Jackson, S. (2014). Prediction, explanation and big(ger) data: a middle way to measuring and modelling the perceived success of a volunteer tourism sustainability campaign based on “nudging”. Current Issues in Tourism, p. 1-16. James, R. (2014). Out of the box: Big data needs the information profes- sion - the importance of validation. Business Information Review, 31(2), 118–121. Kemp, R. (2014). Legal aspects of managing Big Data. Computer Law and Security Review, 30(5), 482–491. Klingström, T., Soldatova, L., Stevens, R., Roos, T. et. al. (2013). Workshop on laboratory protocol standards for the molecular methods database. New biotechnology, 30(2), 109–113. 46 Leeflang, P. S. H., Verhoef, P., Dahlstrom, P. & Freundt, T. (2014). Chal- lenges and solutions for marketing in a digital era. European Management Jour- nal, 32(1), 1–12. Llorente, R. & Morant, M. (2014). Wearable computers and big data: Inte- raction paradigms for knowledge building in higher education. In Innovation and Teaching Technologies: New Directions in Research, Practice and Policy (p.127–137). Luvizan, S.; Meirelles, F.; Diniz, E. H. (2014) Big Data: publication evolu- tion and research opportunities. Anais da 11a Conferência Internacional sobre Sistemas de Informação e Gestão de Tecnologia. São Paulo, SP. Manyika, J., et al. (2011). Big data: The next frontier for innovation, com- petition, and productivity. Recuperado de http://www.citeu- like.org/group/18242/article/9341321. Acesso em Setembro 2015.Marchand, D. A., Peppard, J. (2013). Why IT fumbles analytics. Harvard Business Review, 91(1), 104–112. Mavandadi, S., Dimitrov, S., Feng, S., Yu, F., Yu, R.; et al. (2012). Crowd- sourced BioGames: managing the big data problem for next-generation lab-on- a-chip platforms. Lab on a chip, 12(20), 4102–4106. Mayer-Schonberger, V. & Cukier, K. (2013). Big data: como extrair vo- lume, variedade, velocidade e valor da avalanche de informação cotidiana (Vol. 1). Elsevier Brasi. Mcafee, A. & Brynjolfsson, E. (2012). Big data: The management revolu- tion. Harvard Business Review, 90(10), 4. 47 Millie, D. F., Weckman, G., Young, W., Ivey, J. et al.. (2013). Coastal “Big Data”and nature-inspired computation: Prediction potentials, uncertainties, and knowledge derivation of neural networks for an algal metric. Estuarine, Coastal and Shelf Science, 125, 57–67. Montejo-Ráez, A., Galiano, M., Martinnez-Santiago, F. & Urena-Lopez, L. (2014). Crowd explicit sentiment analysis. Knowledge-Based Systems, 69(1), 134–139. Nash, D. B. (2014). Harnessing the power of big data in healthcare. Ame- rican Health and Drug Benefits, 7(2), 69–70. Park, H. W. & Leydesdorff, L. (2013). Decomposing social and semantic networks in emerging “big data” research. Journal of Informetrics, 7(3), 756–765. Petroni, F., Querzoni, L., Beraldi, R. & Paolucci, M. (2014). LCBM: Statis- tics-based parallel collaborative filtering. Business Information Systems, v. 176, pp. 172-184. Pousttchi, K. & Hufenbach, Y. (2014). Engineering the value network of the customer interface and marketing in the data-rich retail environment. Interna- tional Journal of Electronic Commerce, 18(4), 17–41. Rust, R. T. & Huang, M.-H. (2014). The service revolution and the trans- formation of marketing science. Marketing Science, 33(2), 206–221. Sengupta, P. P. (2013). Intelligent platforms for disease assessment: no- vel approaches in functional echocardiography. JACC: Cardiovascular Imaging, 6(11), 1206–1211. Shaw, R. (2014). The marketing data space race. Journal of Direct, Data and Digital Marketing Practice, 15(4), 260–261. 48 Shum, S. B., Aberer, K., Schmidt, A., Bishop, S. et al. (2012). Towards a global participatory platform. The European Physical Journal Special Topics, 214(1), 109–152. Simpao, A. F., Ahumada, L., Galvez, J. & Rehman, M. (2014). A review of analytics and clinical informatics in health care. Journal of medical systems, 38(4), 1–7. Tao, S., Corcoran, J., Mateo-Babiano, I. & Rohde, D. (2014). Exploring Bus Rapid Transit passenger travel behaviour using big data. Applied Geogra- phy, 53, 90– 104. Tien, J. M. (2013). Big data: Unleashing information. Journal of Systems Science and Systems Engineering, 22(2), 127–15. Tranfield, D., Denyer, D. & Smart, P. (2003). Towards a methodology for developing evidence-informed management knowledge by means of systematic review. British journal of management, 14(3), 207–222. Webster, J. & Watson, R. T. (2002). Analyzing the past to prepare for the future: Writing a literature review. Management Information Systems Quarterly, 26(2), 3. Wigan, M. R. & Clarke, R. (2013). Big data’s big unintended consequen- ces. Computer, 46(6), 46–53. Zikopoulos, P., Lightstone, S., Huras, M., Sachedina, A. et al. (2013). New dynamic in-memory analytics for the era of big data. IBM Data Management Ma- gazine, (4), 1–47. 49Big Data não é uma ‘nova tecnolo- gia’” (CAVALCANTI, 2014, online). Fazendo uma análise preliminar destes movimentos, é licito supor que o profissional de informação deve refletir um pouco sobre como poderá se envolver nas discussões sobre o tema Big Data, pois afinal, o uso de dados e informação sempre foi objeto de estudo para a Ciência da Informação. Vale lembrar que não está se propondo algo totalmente novo com o tema Big Data, pois o uso de informação para a obtenção de resultados não é uma coisa nova. Ao fazer um breve retrospecto nas pesquisas desenvolvidas na área, é possível observar que o desenvolvimento de ações investigativas em Sistemas de Apoio à Decisão (EIS), uso de Armazéns de Dados (Data Warehouses e Data Marts), aplicações para melhorar o Desempenho dos Negócios (Business Intel- ligence), soluções para Mineração de Dados (Data Mining),além de informação para planejamento estratégico, gestão de recursos informacionais e ativos de informação na Web, foram abordagens exploradas nos últimos anos pela Ciência da Informação. Mas afinal, o que é Big Data? É uma tecnologia? Uma ferramenta? Uma metodologia nova? Como o profissional da informação pode se inserir na discus- são deste tema? Para esclarecer estas questões é preciso, antes de tudo, observar algu- mas considerações sobre os aspectos norteadores para o tema Big Data. A pri- meira consideração diz respeito ao tratamento de Big Data como uma tecnologia, 6 pois o tema de alto volume de dados e informação há muito se faz presente nas pesquisas sobre processos de Gestão da Informação. O impulso dado pela tec- nologia, principalmente pelo incremento do uso dos dispositivos móveis, trouxe um forte aumento no volume de dados. Mas, o debate sobre temas como o cres- cimento exponencial da informação e explosão informacional, originados pelas pesquisas pós segunda Guerra Mundial, já se fazia presente nas discussões e pesquisas na área de Ciência da Informação (SARACEVIC, 1996). Uma se- gunda consideração diz respeito à variedade de dados disponíveis. A profusão de informações na internet, originadas pelas diferentes fontes de dados, ocasionam uma sobrecarga de dados e informação disponíveis para a sociedade. Cabe registrar que apenas 1% destes dados é efetivamente anali- sado (BREITMAN, 2014) e, consequentemente, pode-se deduzir que existe um grande campo de atuação para os profissionais que atuam na disciplina de ges- tão da informação. Dentro deste contexto, este relato introduz a discussão dentro do projeto de pesquisa do autor, que tem por objetivo investigar métodos e abor- dagens para gerir recursos de informação residentes em ambientes digitais. Big Data – Conceitos E Um Breve Histórico Pesquisas sobre grandes volumes de dados não são uma novidade. Al- guns autores sugerem que elas iniciaram ainda na década de 70, investigando métodos de processamento de dados e chegaram aos anos 90 estudando, por exemplo, a modelagem e desenvolvimento de software para grandes volumes de dados (PARK e LEYDESDORFF, 2013). Os anos 2000, no entanto, são mar- cados por um salto não apenas nas possibilidades técnicas de processamento, armazenagem e transmissão de dados, mas também pela explosão de fenôme- nos de geração de dados que nos levaram a volumes sem precedentes na his- tória da humanidade. Neste contexto, o termo BD não indica um fenômeno com- posto por elementos totalmente novos, mas um conjunto de questões, novas e clássicas, que combinadas em novo cenário tecnológico, social e econômico, deram origem a um novo paradigma. 7 A definição de BD adotada neste trabalho foi a encontrada com mais fre- quência na literatura acadêmica e não acadêmica, sendo também a que nos pa- rece mais coerente. Ela propõe que BD é o fenômeno do processamento de grandes volumes de dados, com os quais as ferramentas tradicionais não são capazes de lidar na velocidade requerida (GOLDMAN et al, 2012). Não é, por- tanto, um volume específico que classifica o fenômeno, que também é marcado por outras características, como a complexidade e velocidade de processamento necessárias (DEMCHENKO et al, 2013; PARK e LEYDESDORFF, 2013). Logo, a definição de “big” deve ser analisada no contexto individualizado, já que o volume considerado grande em uma determinada situação pode não ser considerado grande em outra. Esta classificação também deve variar ao longo do tempo para a mesma demanda, devido aos rápidos avanços da capa- cidade das ferramentas envolvidas, de forma que o grande de hoje pode ser o médio de amanhã (PARK e LEYDESDORFF, 2013). Para facilitar a classificação alguns autores sugerem que estamos diante de um fenômeno de BD quando o tamanho dos dados faz parte do problema de pesquisa (PARK e LEYDES- DORFF, 2013). Os muitos desafios enfrentados pelo BD foram inicialmente su- marizados em 3 V’s: Volume (basicamente tamanho e quantidade de dados), Velocidade (dinâmica de crescimento e processamento dos dados) e Variedade (diversidade de origens, formas e formatos dos dados) (DEMCHENKO et al., 2013). Posteriormente, foram agregados os elementos Valor (significados que podem ser atribuídos aos dados, valor agregado oferecido por tais significados) e a Veracidade (autenticidade, reputação da origem, confiabilidade dos dados), constituindo-se nos 5 V`s do BD (DEMCHENKO et al. 2013), conforme figura 1. 8 Embora as aplicações e objetivos específicos das ferramentas de BD se- jam muito variadas, pode-se dizer que seus usuários compartilhem de uma tríade de expectativas, expressa pelo acrônimo MAD - Magnetism, Agility, Depth - (CO- HEN et al., 2009). O Magnetismo é a capacidade de atrair dados sobre um de- terminado tema de diferentes fontes, sejam eles de qualquer formato, estrutura ou origem. A Agilidade indica a grande capacidade de adaptação do sistema à evolução dos dados. A Profundidade se refere ao nível de detalhe possibilitado pelas análises produzidas a partir do grande conjunto de dados e à complexi- dade do processamento realizado, podendo envolver conceitos estatísticos so- fisticados e aprendizado de máquina (COHEN et al., 2009). A importância e am- plitude deste tema vêm atraindo interesses entre praticantes e acadêmicos em diversas áreas. Institutos de pesquisa renomados como Mackinsey e Gartner, além de organismos internacionais como a ONU, já incorporaram o tema em suas agendas de pesquisa e atuação há alguns anos (GARTNER, 2013; MANYIKA, 2011; PSFK,2011). Na iniciativa privada também é crescente o inte- resse pelo tema, seja entre as empresas que apostam no potencial de valor de projetos de BD para seus negócios, ou entre aquelas que atuam ou planejam atuar oferecendo produtos/serviços nesta área para abocanhar os investimentos esperados das primeiras. As expectativas também são grandes no setor público, onde as aplicações nas diversas esferas de atuação prometem elevar a gestão 9 pública a níveis sem precedentes de eficiência, controle e transparência (LE- TOUZÉ, 2012; PSFK, 2011; SMOLAN e ERWITT, 2012). Há também grandes expectativas sobre o impacto nas relações políticas, seja pelo uso de ferramen- tas de BD pelos políticos ou pelo novo modelo de organização e engajamento da sociedade através das redes sociais. Da Explosão Informacional À Avalanche De Dados O tratamento e uso da informação pela sociedade têm se modificado nas últimas décadas como consequência do surgimento de novos modelos sociais, econômicos ou tecnológicos. Estes modelos promoveram uma mudança de pa- radigma tão importante quanto à invenção da imprensa, ou ainda, quanto à pró- pria revolução industrial. A crescente utilização de meios de comunicação com alto grau de mobilidade e o uso cada vez maior da Internet, definem outros es- paços e demarcamnovas fronteiras para a sociedade contemporânea (RI- BEIRO, 2008). A quantidade de informação disponível cresce vertiginosamente e surgem novos comportamentos e sentimentos decorrentes deste crescimento. Termos como Ansiedade da Informação, cunhado por Wurman (2005), e Explo- são Informacional cunhado por Gopinath e Das (1997) corroboram este estado de insatisfação dos usuários. Além disto, apesar do frequente lançamento de novas tecnologias e ferramentas para resolver os problemas dos usuários, a cada dia que passa, eles (os usuários) têm mais dificuldades em solucioná-los. Para Wurman: Cada nova tecnologia não acaba com o resto, mas termina so- mando-se às outras. Disseram que o computador tornaria o papel obsoleto; aconteceu justamente o contrário: graças às impressoras e copiadoras. Acredi- tava-se que o vídeo fosse dar fim ao cinema, mas hoje há mais filmes do que nunca. Estamos cercados por versões alternativas, imitações e originais, tudo em números incontáveis de exemplares. (WURMAN, 2005, p.4-5) Heath e Bizer (2011) reforçam que na atualidade estamos cercados por uma grande quantidade de dados e informação. São registros sobre o cotidiano 10 – desempenho da educação, produção de bens e serviços, investimentos e im- postos governamentais, estatísticas sobre a economia e dados sobre o consumo - que nos ajudam a tomar decisões e gerar conhecimento. Verifica-se também que existe uma retomada de debates para organizar a informação, que estão sendo discutidos sob a disciplina de ERM (Electronic Resource Management), pois este tema tem surgido com frequência nos projetos sobre o gerenciamento de ativos e/ou recursos de informação digitais (SPREHE, 2005). Ribeiro (2008) convalida esta percepção e observa que: [..] o processo de estruturação de da- dos e informações carece de maior instrumentação, pois a ótica utilizada na atu- alidade está mais concentrada em aspectos tecnológicos do que nas questões de organização das informações, deixando em segundo plano as indagações ligadas à gestão da informação (RIBEIRO, 2008, p. 18). Mas afinal, o que está impulsionando esta avalanche? Conforme mencionado na introdução deste re- lato, uma diferença observada é que com a evolução da tecnologia o cotidiano ficou repleto de dados e informação, só que agora ao alcance dos nossos dedos. O avanço do uso de dispositivos móveis, o uso de sensores industriais e biomé- dicos, fotos, vídeos, emails, redes sociais, além do comércio eletrônico, intera- ções via call centers, dispositivos móveis, dados públicos imagens médicas e outros dados científicos, câmeras para monitoramento, medidores inteligentes, GPS, aplicativos para troca de mensagens, aplicações que nos ajudam a pegar táxis, outras que nos ajudam na locomoção urbana evitando engarrafamentos, ou ainda no monitoramento de ônibus e até de aviões, são exemplos concretos desta avalanche. Complementarmente, é possível perceber também uma mudança no fun- cionamento das aplicações de comércio eletrônico. A ampliação do uso de sis- temas de recomendação1 na Web, permite que sejam indicados dezenas de op- ções de compras aos clientes usuários destes serviços. Por outro lado, a previ- são da expansão das fontes de dados é de aproximadamente 50 vezes nos pró- ximos 10 anos. Segundo previsões apresentadas pela empresa EMC, instituição especializada em armazenamento de dados, o crescimento de dados e informa- ções digitais no mercado brasileiro crescerá de 212 Exabytes 2 em 2014, alcan- çando a marca de 1.6 Zettabytes (1.600 Exabytes) em 2020 (EMC, 2014). Fruto 11 deste cenário, rico em volume e variedade de fontes, tem surgido uma nova dis- ciplina que, apesar de não ser apenas um tema essencialmente tecnológico, vem sendo impulsionado pelos projetos de tecnologia: a vertente de Big Data. Entendendo O Big Data O aumento exponencial dos dados no decorrer dos anos através do ad- vento da internet e de diversos dispositivos como celulares e computadores oca- sionou uma revolução no que tange a gestão da informação. Segundo Santan- chè (2014), o Big Data, embora tratado por muitos como solução, em si é um problema, pela quantidade e diversidade de dados, que será resolvido através das ferramentas de Big Data Analytics. A origem dos dados vem basicamente de Web e redes sociais (dados de fluxo de cliques, blogs, posts, feeds de notí- cias), dados de transações (compras de cartão de crédito, registros de ligações e de reclamações nas empresas) dados de biometria (identificação automática, DNA, impressões digitais, reconhecimento facial) dados gerados por pessoas (privados e que devem ser protegidos por legislação, como documentos eletrô- nicos, exames e registros médicos, ligações telefônicas) e dados machine to ma- chine (gerados diretamente por maquinas, como sensores, dispositivos de GPS e medidores). (Intel, 2015). Os cinco VS, Volume (quantidade de dados acumu- lados), Variedade (meios de propagação e tipos de dados), Velocidade (taxa de transmissão de dos dados), Veracidade (se os dados são confiáveis) e Valor (resultado obtido no uso das ferramentas de Big Data) denotam o objetivo de manter as plataformas e sistemas em harmonia de tal forma que gerem o resul- tado esperado. (Veja, 2013). Os dados são qualificados em três categorias: da- dos estruturados, pertencentes a um SGBD relacional com esquema relacional associado, dados semiestruturados, que são irregulares ou incompletos não ne- cessariamente de acordo com um esquema, compreensíveis por maquinas mas não por seres humanos, como documentos HTML e logs de web sites , e dados não estruturados, sem estrutura prévia nem possibilidade de agrupamento em tabelas, como vídeos, imagens e emails.(Intel 2015) O desafio para as ferramen- tas de Big Data é entre outros a manipulação de dados semiestruturados e não 12 estruturados no intuito de extrair valor destes através de correlações e outros processamentos de análise e então compreendê-los para que tragam valor ao determinado meio aplicável. O tratamento dos dados é realizado com o apoio de algoritmos inteligentes, que são sequencias de instruções que permitem que se chegue a uma conclusão sobre que tipo de ação tomar. Esses algoritmos, são a “rede neural” do sistema e podem servir para fins diversos dependendo do pro- pósito buscado pela corporação. Uma empresa pode compreender melhor o comportamento de um cliente, um médico pode saber se o paciente de uma clí- nica necessitará ser internado em determinado período ou de que maneira, é possível reduzir despesas dentro de uma empresa. A Amazon usa a inteligência de algoritmos para indicar produtos aos seus clientes. A Netflix segue o mesmo caminho indicando séries conforme as séries já assistidas por seus clientes. Ce- zar Taurion(2013), em seu livro Big Data, faz uma analogia em que as ferramen- tas de Big Data, representarão para as corporações e para a sociedade a mesma importância que o microscópio representou para a medicina. Uma ferramenta de análise onde se pode extrair informações, prever incidentes e ter a capacidade de corrigi-los quando existentes, ou até mesmo evitá-los. Os algoritmos de sistemas preditivos, que com base em dados processa- dos “predizem” um fato com grandes probabilidades de ocorrer, são um grande desafio a ser superado nessa lacuna que existe entre aplicabilidade em tempo real, e análise de dados anteriores para se tomar decisões. Os sistemas relaci- onais de bancos de dados, há tempos aplicados em empresas e rendendo su- cesso nesse ponto, tornam-se incapazes tanto de trabalhar com o imenso nú- mero de informações quanto fazer análises preditivas e em tempo real. Nesse conceito a streaming computing, que trabalha com dados em tempo real e grande fluxo de dados, como, em sistemas de trânsito, que monitoram o tráfego de veículos em determinada cidade, e que transmitem ao usuário quala melhor rota a ser tomada para chegar ao seu destino, através de seus algoritmos, traz soluções práticas e rápidas aos seus usuários. (Taurion, 2013). No entanto, deve-se seguir o princípio de que não existe a melhor ferra- menta, mas sim a que melhor se adéqua as necessidades da corporação. Para 13 algumas corporações, o uso de ferramentas tradicionais SQL, com sistemas pre- ventivos, que comparam vendas em períodos do ano, para projetar promoções, por exemplo, já são suficientes para o negócio. Portanto, há que se considerar as necessidades de negócio para adotar a ferramenta apropriada e que traga o resultado esperado. A Visão Do Big Data Fox e Hendler (2011) também anteciparam que estamos vivendo com uma nova abordagem chamada de “Big Data”. Esta abordagem está surgindo em decorrência da geração, e, consequentemente, da necessidade da coleta de grande volume de dados com formatos variados. Ademais, estes dados ainda precisam ser geridos e, neste sentido, Hendler e Fox continuam e observam que a gestão destes recursos possibilitará a resolução de problemas que nem sabí- amos que existiam. No entanto, vale ressaltar que não podemos prescindir de ferramentas, pois a capacidade do ser humano de analisar dados e informações com múltiplas facetas é limitada. Logo, são necessários alguns instrumentos que nos auxiliem a executar estas tarefas. A necessidade de vencer o desafio, reu- nindo e analisando fontes de diversas naturezas, deu origem a pesquisas que nos levaram ao tema “Big Data”. Estas pesquisas foram desenhadas a partir de três aspectos iniciais (DAVENPORT, 2014):. A múltipla natureza dos dados – aspecto relacionado com as diferentes fontes disponíveis O uso de processamento em nuvem – aspecto relacionado ao uso ilimi- tado de recursos computacionais e com processamento em larga escala, com a possibilidade de redução de custos (economia de escala – é o aspecto econô- mico-financeiro). Uso de tecnologias específicas, tais como processamento de rotinas em paralelo e ferramentas para otimização como Hadoop e Map Reduce, HDFS , além de abordagens de Machine Learning e Analytics A abordagem de Big Data está apoiada em quatro outros fatores de sustentação, conhecidos como os 4 Vs do Big Data: Volume, Variedade, Velocidade e Veracidade (DUM- BILL, 2012). A seguir será apresentado um breve esclarecimento do papel de cada um desses componentes: O primeiro V é de Volume e está ligado ao grande 14 quantitativo de dados e informações que nos cercam no cotidiano. Já o segundo V está ligado à variedade destes recursos. Devido à forte relação entre Volume e Variedade, estes fatores serão comentados em conjunto. A multiplicidade de dispositivos e a capacidade destes dispositivos interagirem em rede está promo- vendo a verdadeira inundação de dados. Cada um de nós carrega junto de si um celular, que agindo como um sensor, pode enviar informação de localização das pessoas e permitir a realização de negócios direcionados. Ao levarmos em con- sideração que o mundo tem cerca de 7 bilhões de habitantes (WIKIPEDIA, 2014) e que aproximadamente 6 bilhões possuem celulares (ONUBR, 2013), pensem no volume e na variedade de dados que pode ser gerado, captado, processado, (re)utilizado e entregue. As cidades estão repletas de câmeras de monitoramento nos prédios, lo- jas, ruas e avenidas. Qualquer cidadão pode gravar e postar um vídeo em mídias sociais ou no Youtube. Estima-se que a quantidade de vídeos produzidos diari- amente ultrapassa a produção dos primeiros 50 anos de televisão (DAVEN- PORT, 2014). Saindo do cotidiano e observando o ambiente de ciência e tecno- logia, temos muitos outros exemplos. Os projetos de pesquisa de perfuração de petróleo em águas profundas, incluindo o pré-sal (CIARINI, 2013; SANTOS, 2014), além de projetos de pesquisa em astronomia, estão impulsionando o uso da abordagem de Big Data (PORTO, 2013). Adiciona-se a esse cenário, uma vasta coleção de outras fontes e formas para geração de unidades documentá- rias. O crescimento do uso de documentos digitais e páginas Web nas organi- zações, recursos estes estruturados por meio de ferramentas para Gestão de Conteúdo (RIBEIRO, 2012), bem como o desenvolvimento de propostas de uso da Web of Data e Linked Data (RIBEIRO, ALMEIDA, 2011; RIBEIRO, PEREIRA, 2014) também têm contribuído para um aumento em Volume e Variedade de dados e informação. Voltando aos 4 Vs do Big Data, chega-se agora ao terceiro V, de velocidade. A melhoria dos canais de transmissão, com redes em fibra ótica e emis- sores de sinais de alta capacidade, o uso de satélites, o uso de outras bandas 15 para a telefonia celular, as comunicações em tempo real para controle de pro- cessos na internet, os workflows científicos com processamento paralelo e clus- ter de processamentos vem possibilitando atingir uma maior velocidade para troca de dados e informação (MATTOSO, 2013). Ademais, é possível afirmar que a velocidade continuará crescendo, pois o desenvolvimento da tecnologia de processadores, dos canais e do hardware para armazenamento (discos rígi- dos e memória rápida – flash memory), duplica o seu poder a cada período de 2 anos (FLORISSI, 2012). O quarto V é de Veracidade. A qualidade dos dados e informação é característica essencial para que os usuários interessados (executivos, gestores públicos e a sociedade em geral) usem e (re)usem os dados de maneira apropriada e real, gerando informações críveis para eles mesmos. Para concluir a noção de Big Data ainda vale explorar um componente que faz parte do terceiro aspecto relacionado anteriormente por Davenport. A discussão sobre o trabalho de análise dos dados, entendidos pela noção de Big Data Analytics. Sistemas Tradicionais X Sistemas De Big Data Analytics O gerenciamento de informações há tempos é um conceito adotado em corporações que desejam aperfeiçoar seus processos através de métricas de recolhimento e tratamento de dados. A diferença no processamento de dados de modelos tradicionais (SQL) para modelos de Big Data Analytics, começa pela diferença entre escalabilidade vertical e horizontal. Na escalabilidade vertical, usada em sistemas SQL, para poder ter um melhor poder de processamento, investe-se em máquinas com tecnologias mais avançadas e consequentemente mais caras, assim aprimorando o processa- mento dos dados. Na escalabilidade horizontal, usa-se computação paralela em que maquinas de nível intermediário “commodities”, que são usadas em conjunto para processar uma quantidade de dados que apenas uma delas seria incapaz 16 de processar, assim, reduzindo custos e possibilitando o processamento de grandes volumes de dados. (Coelho, 2004). Nos modelos tradicionais, o conceito de Business Intelligence, que em síntese, é uma técnica de gerenciamento de negócios orientado à análise de informações, com o intuito de conhecer fatos que afetam positiva ou negativa- mente o negócio, sendo um forte auxiliar nas tomadas de decisões. A ferramenta ETL (Extração, Transformação e Carregamento), seguindo o princípio do Business Intelligence, é uma tecnologia usada em muitas corpo- rações, e que faz a coleta de dados de todos os tipos e formatos, transforma-os, através de algoritmos, aplicando princípios de correlações entre esses dados e carrega-os em um ambiente de visualização, em que administradores da alta gerência, podem visualizá-los, podendo extrair informações que os permitirão ações de melhoria nos processos organizacionais. No processo de análise de informações, a ferramenta OLAP (Processo analítico Online), auxilia na tomada de decisões através de cubos multidimensi- onais que oferecem diferentes perspectivas sobre informações da empresa como regiões e períodos em que determinados produtos são mais vendidos, pa- drões de consumo dos clientes,entre outras analises. (Intel, 2016); A quantidade de dispositivos somada aos diversos formatos de arquivos, e a necessidade da extrair de valor dos mesmos, mostrou a limitação dos modelos relacionais, que serviam bem para o tratamento de dados estruturados, mas não possibilitavam o tratamento de dados semiestruturados ou não estruturados. Esse motivo foi um dos principais motivadores da busca de ferramentas NOSQL, que trabalham com bancos de dados não relacionais. Além da maior quantidade de dados, sistemas NOSQL são preparados para trabalhar em siste- mas instáveis em relação aos modelos RMDBS (Sistema de gestão de Bancos de dados Relacionais), tendo um processamento mais complexo. Ainda no mo- delo NOSQL, os dados oriundos de diversos dispositivos desde aparelhos mó- biles até servidores, são replicados em clusters onde são processados através de ferramentas Analytics, e posteriormente visualizados através de gráficos, 17 dashboards, entre outras ferramentas de análise, tal qual no modelo ETL, tam- bém usado nos modelos relacionais. O processo conhecido como retroalimenta- ção, em que dados já processados são novamente usados em um segundo pro- cessamento contribui para manter informações atualizadas e confiáveis. (Intel, 2015). FERRAMENTAS Ambientes Em Nuvem A computação em nuvens (Cloud Computing) é uma grande aliada no uso de ferramentas de big data. A queda no preço de armazenamento ao longo dos anos, aliada à elasticidade que ambientes em nuvem oferecem facilitam o acesso a esses serviços até mesmo para corporações que não tem muito di- nheiro para investir. Diferentemente de mainframes que custam pra empresa um valor considerável, e muitas vezes não é utilizado completamente, os ambientes em nuvem permitem o pagamento por hora e somente cobram pela quantidade de informação necessitada pela empresa. A escalabilidade permite que as con- figurações de nuvem, quanto ao número de visitas ao sistema, desempenho, processamento dos dados entre outros, seja aumentada somente quando a em- presa realmente necessite disso, como em épocas em que as vendas aumen- tam, Natal e Black Friday, por exemplo, e posteriormente volte a operar com menos servidores, evitando gastos desnecessários com servidores que seriam usados apenas em um período do ano. (CPBR6, 2013). HDFS O Hadoop Distributed File System ou Sistema de arquivos distribuídos surge com a necessidade de se trabalhar com arquivos grandes. O HDFS faz a quebra em blocos desses arquivos e os distribui em diversos nós (máquinas), com replicação em grau três como segurança no caso de um nó falhar. O Name Node é a máquina responsável pelo gerenciamento dos outros nós, e envia in- formações (Heartbeats) para o código, em caso de um nó falhar, além fazer a 18 redistribuição dos blocos de dados quando houver falha, sempre mantendo grau três. (Paiva, 2016) YARN É um gerenciador de recursos distribuídos do cluster. Através do Resou- rce Manager, realiza a locação de recursos nos nós do cluster para a realização de tarefas das aplicações. Dessa maneira, cada aplicação sabe em que maquina os seus recursos estão alocados, e mantém o princípio da localidade, que é re- alizar o processamento do código onde estão os dados. (Yarn, 2016). Map Reduce É o sistema analítico do Hadoop desenvolvido para operar com grandes volumes de dados. Segue o princípio da localidade em que o código é enviado para o local onde os dados estão para ser processado. O processamento analí- tico é distribuído em vários servidores, dos quais se deseja tirar informação. Atra- vés de um processamento paralelo/distribuído, os dados são divididos em parti- ções ou ficheiros através da função Split. Nesse processo, o Map reduce monta a separação dos dados em partições, mapeia as atividades em cada local e du- plica em ambientes e depois faz as reduções. Durante o mapeamento através do processamento em cada nó da partição ou cluster, são formados pares valor chave enviados ao redutor, agrupando pares com as mesma características. Ba- sicamente são três fazes, a saber: Map, onde todos os dados são reunidos; Shuffle, onde os dados são reunidos e organizados e Reduce, onde os dados são associados e correlacionados. Nem todos os algoritmos se encaixam nesse modelo. (Paiva, 2016). HADOOP 19 É a ferramenta mais importante de Big Data. Através de nós de clusters usa computação distribuída com alta escalabilidade, tolerância a falhas e confi- abilidade. Sendo uma plataforma Java de computação, ela é voltada para clus- ters e processamento de grande volume de dados A ideia principal do Hadoop é tratar essa grande quantidades de dados sem ter a necessidade de copiar esses dados em outro servidor, o que ocasionaria mais tempo e investimento. No pro- cesso Hadoop, os dados são tratados dentro dos servidores e em tempo real, gerando mais praticidade no processamento e economicidade de tempo e di- nheiro. Busca manter a redundância e tolerância a falhas através da replicação dos dados, assim, se houver falha em um dos clusters (rodapé), haverá outro disponível para manter o processamento, além de poder executar um algoritmo, em qualquer uma das partições ou clusters, sendo esse algoritmo disseminado em outros nós de clusters, o que simplifica o processo e deixa o sistema mais rápido. É formado basicamente pelo framework Map Reduce, pelo gerenciador de recursos distribuídos (YARN) e pelo sistema de arquivos distribuídos (HDFS). (Intel, 2016) MPP Massively Parallel Processing ou processamento massivo paralelo, é um paradigma de Big Data, feito para processar grandes quantidades de informa- ções, é escalável em relação a quantidade de dados, e suporta linguagem SQL e tabelas relacionais, sua diferença quanto ao Hadoop reside no fato de que é um paradigma de estrutura rígida, e não permite trabalhar com imagens ou do- cumentos de texto. Pode trabalhar em conjunto com Data Warehouse, fazendo operações paralelas. (Big Data Now, 2013). HBASE É um banco de dados Nosql que processa grandes volumes de dados de maneira rápida e em tempo real. Trabalha com o conceito chave – valor, em que cada dado é associado a outro trazendo uma característica similar ao modelo relacional com sua organização se dando em linhas, colunas, tabelas e famílias de colunas. No entanto não há a obrigatoriedade de esquemas, como ocorre no 20 modelo SQL, portanto pode haver linhas sem determinadas colunas e vice- versa. Nesse modelo, diferentemente do SQL, os dados não são alterados, ape- nas somados, podendo haver várias versões sobre determinada chave ou valor. (Paiva, 2016)/(CPBR6, 2013) SPARK Ferramenta de processamento de dados que roda até 100 vezes mais rápido que o Map Reduce. Como o Map reduce não processa bem todos os algoritmos, o Spark atua sendo mais abrangente na questão de diferentes tipos de processamento. Também executa o código em paralelo. Sua principal dife- rença em relação ao Map Reduce é o fato deste persistir em disco. O Spark trabalha em memória, faz encadeamento de funções e só apresenta o resultado no fim do processamento. O driver, aplicação principal do Spark, faz alocação maquinas no cluster para processamento de funções. Pode trabalhar tanto com o paradigma SQL quanto o NOSQL. (Paiva, 2016) Machine Learning Machine Learning é o termo que designa o processo de ensinamento da máquina a “entender” dados que a princípio parecem não fazer sentido, pro- cessá-los e tirar algum valor disso. Pode-se usar machine learning, por exemplo, em redes sociais, posts ou tuites, com expressões diferentes das formais, por exemplo: “Pato passa em branco no jogo do tricolor”, usam-se algoritmos para que a máquina entenda que “Pato” não é um animal e sim um jogador de futebol, “passar em branco” significa não fazer gol e “tricolor”significa um time de futebol, nesse caso, pode-se medir o nível de satisfação dos torcedores em relação ao time, ou em casos parecidos, o nível de satisfação de clientes em relação a uma- empresa, através do que eles postam nas redes sociais. Algoritmos de machine learning auxiliam principalmente a transformar dados que a princípio seriam não estruturados, em dados estruturados. Outra forma de usar machine learning é através de computação cognitiva, e biometria. Com base no comportamento de um indivíduo em frente ao caixa eletrônico, usa-se uma tecnologia kinect, que mapeia regiões do corpo do suspeito, e através de algoritmos de inteligência 21 artificial, é possível reconhecer o perfil comportamental de um bandido ou frau- dador de cartões, passando à segurança do local essas informações, pode-se melhorar a segurança do local. (Nogare, 2014) fazer gol e “tricolor” significa um time de futebol, nesse caso, pode-se medir o nível de satisfação dos torcedores em relação ao time, ou em casos parecidos, o nível de satisfação de clientes em relação a uma empresa, através do que eles postam nas redes sociais. Algorit- mos de machine learning auxiliam principalmente a transformar dados que a princípio seriam não estruturados, em dados estruturados. Outra forma de usar machine learning é através de computação cognitiva, e biometria. Com base no comportamento de um indivíduo em frente ao caixa eletrônico, usa-se uma tec- nologia kinect, que mapeia regiões do corpo do suspeito, e através de algoritmos de inteligência artificial, é possível reconhecer o perfil comportamental de um bandido ou fraudador de cartões, passando à segurança do local essas informa- ções, pode-se melhorar a segurança do local. (Nogare, 2014) Plataformas de Big Data Apache Spark Apache Spark é um sistema rápido e de uso geral para computação em cluster. Ele fornece APIs de alto nível em Java, Scala, Python e R, além de su- portar gráficos de execução em geral. Conforme 1 demonstrado pela Figura 2, ele também suporta um rico conjunto de ferramentas de alto-nível, incluindo Spark SQL para SQL e processamento de dados estruturados, MLlib para apren- dizado de máquina, GraphX para processamento gráfico, e Spark Streaming para processamento de dados em tempo real. 22 Figura 2: Spark Diversas empresas e organizações utilizam Spark em suas aplicações. Entre elas, podemos destacar: Amazon, Baidu, eBay Inc. (agregação de logs de transações e análises), Yahoo!, Grupon, NASA JPL - Deep Space Network e Yahoo!. Componentes Aplicações Spark executam como conjuntos de processos independentes em um cluster, coordenados pelo objeto SparkContext presente no programa principal (também chamado de programa driver ). Para ser execu- tado em um cluster, o SparkContext pode se conectar a vários gerenciadores (gerenciador próprio ou Mesos/YARN), que alocam recursos entre os progra- mas. Uma vez conectado, o Spark adquire executors em nós do cluster, que são processos que realizam cálculos e armazenam dados da aplicação. Em seguida, ele envia o código da aplicação no formato JAR ou Python para estes. Final- mente, o SparkContext envia tarefas para os executors. Todo este processo está ilustrado na Figura 3. Figura 3: Processo completo Modelo de Programação 23 Para utilizar o Spark, os desenvolvedores devem escrever um programa driver que implementa o controle de fluxo da aplicação em alto nível e inicia as operações em paralelo. Duas abstrações principais são utilizadas para descre- ver um programa em paralelo: resilient distributed datasets (RDDs) e operações paralelas sobre estes RDDs. RDSs são coleções de objetos, com somente per- missão de leitura, particionados entre todas as máquinas. Estes sempre podem ser reconstruídos caso uma destas partições seja perdida. Na sua implementa- ção, RDDs são objetos Scala que podem ser construídos a partir de arquivos de um sistema compartilhado (HDFS), da paralelização de uma coleção Scala (ar- ray), da transformação de outro RDD ou da alteração da persistência de um RDD já existente. Dois tipos de operações podem ser aplicadas sobre RDDs: trans- formações e ações. A primeira cria novos conjuntos de dados a partir de um conjunto existente, enquanto que a segunda, após executar uma operação sobre o conjunto, retorna o valor ao programa driver. Conforme apresentado em as operações existentes são reproduzidas pela Figura 4. Figura 4: Processos de programação As principais operações paralelas que podem ser aplicadas em RDDs são: reduce, collect e foreach. A operação reduce combina elementos dos con- 24 juntos de dados utilizando uma função de associação. Já a operação collect en- via todos os elementos de um conjunto de dados (RDD) para o programa driver. Por fim, a operação foreach aplica uma determinada função, informada pelo pro- gramador, em cada elemento de um RDD. Diferentemente de outras platafor- mas, o Spark não suporta a operação de redução de forma paralela, isto é, os resultados desta operação são coletados apenas pelo programa driver. Apache Storm Storm é uma plataforma distribuída para o processamento de fluxo de da- dos em tempo real. Ele foi construído para ser escalável, resiliente, extensível, eficiente e fácil de administrar. Diversas empresas e organizações utilizam o Apache Storm. Entre elas, podemos destacar: Twitter, Baidu, Spotify, Verisign, Yahoo! e Mercado Livre. Componentes do Storm Conforme apresentado em, a arquitetura de processamento de dados do Storm consiste em streams de tuplas percorrendo uma topologia. Uma topologia é um grafo direcionado (que admite ciclos) onde os vértices representam com- putação e as arestas representam o fluxo dos dados entre os componentes. Por sua vez, os vértices podem ser divididos em duas categorias: spouts e bolts. A Figura 5(a) ilustra uma topologia no Storm e a Figura 5(b) exemplifica a topologia de um MapReduce. Spouts são a origem do fluxo de dados em uma topologia. Eles são responsáveis por ler tuplas de uma fonte externa e inseri-las na topolo- gia. No aspecto tolerância a falhas, estes vértices são divididos em confiáveis e não-confiáveis, onde os primeiros são capazes de reexecutar uma tupla caso o Storm tenha falhado ao processá-la. Todo o processamento nas topologias é feito ns bolts. Bolts podem tem múltiplas funções que vão desde aplicação de filtros, funções, agregações, associações até comunicação com bancos de da- dos. Eles podem aplicar apenas transformações simples em streams. São ne- cessários vários passos, e consequentemente vários bolts em transformações mais complexas. 25 Figura 5: Componentes do Storm Modelo de Execução O Storm executa em um cluster distribuído. Clientes submetem topologias para execução a um nodo mestre chamado de Nimbus. Este é responsável por distribuir e coordenar a execução de uma topologia. O processamento em si é realizado pelos workers. Cada um destes pode executar um ou mais worker pro- cesses. Por sua vez, cada worker process executa uma JVM com um ou mais executors, que são compostos por uma ou mais tarefas (tasks). O processa- mento de um bolt ou spout é realizado por estas tarefas. Estes conceitos são melhor ilustrados pela Figura 6. O conceito de tarefas permite um paralelismo intra-bolt/intra-spout e o executors permitem paralelismo entre as topologias. Os processos denominados worker processes se comportam como containers nas máquinas que estão executando uma determinada topologia. 26 Figura 6: Modelos de execução Apache Flink Apache Flink é uma plataforma para processamento de dados deforma eficiente, distribuída e de uso geral, que ainda está em fase de incubação pela Apache. Ele apresenta abstrações de programação em Java e Scala, um geren- ciador de execução de alto desempenho e otimização automática de código. Ele tem suporte nativo para iterações, iterações incrementais e programas compos- tos por grandes DAGs de operações. Programas de análise, em Flink, são pro- gramas normais que implementam transformações em conjuntos de dados (data sets). Estas transformações podem ser: • Map: A partir de um elemento, gera um novo elemento (Figura 7); Figura 7: Trecho do código-fonte em Java para operação map() no Apache Flink • FlatMap: A partir de um elemento produz zero ou mais elementos; 27 • MapPartition: Transforma uma partição paralela em uma única cha- mada de função. Esta função pega a partição como um objeto Iterable e pode produzir um número arbitrário de resultados. O número de elemento em cada partição depende do grau de paralelismo de operações anteriores; • Filter : Avalia uma função booleana para cada elemento e mantém aqueles para os quais a função retorna verdadeiro; • Reduce: Combina um grupo de elementos em um único elemento através da combinação de dois elementos repetidamente em um novo elemento (Figura 8); Figura 8: Trecho do código-fonte em Java para operação reduce() no Apa- che Flink • ReduceGroup: Combina um grupo de elementos em um ou mais elementos; • Aggregate: Agrega um conjunto de valores em um único valor. As funções de agregação podem ser vistas como uma função de redução incorpo- rada na plataforma; • Join: Junta dois conjuntos de dados através da criação de todos os pares de elementos cujas chaves são iguais; • CoGroup: Variante bidimensional da operação de redução; 28 • Cross: Constrói o produto cartesiano de duas entradas, criando to- dos os pares de elementos; • Union: Produz a união de dois conjuntos de dados. Esta operação acontece implicitamente se mais de um conjunto de dados é usado como entrada de e alguma função; • Rebalance: Faz o balanceamento das partições paralelas de um conjunto de dados de forma uniforme • Hash-Partition: Particiona um conjunto utilizando hash em uma determinada chave de dados; • Custom Partitioning: Permite definir manualmente um particiona- mento sobre os dados; • Sort Partition: Ordena localmente um campo em uma determinada ordem em todas as partições de um conjunto de dados; • First-n: Retorna os primeiros n elementos (arbitrários) de um con- junto de dados. Os conjuntos de dados são inicialmente criados a partir de al- guma fonte (leitura de arquivos ou coleções locais). Os resultados são retorna- dos via sinks que podem escrever diretamente em um arquivo distribuído ou na saída padrão. Flink Stack As diferentes camadas da pilha do Flink são construídas de forma a au- mentar o nível de abstração que as representações em programa aceitam (Fi- gura 9). Os tipos concretos e as interações com a biblioteca de execução são definidas nas camadas mais altas. A camada de API implementa múltiplas APIs que criam DAGs de operadores para os seus programas. Cada API necessita de serializadores, comparadores, etc, que descrevem a interação entre seus tipos de dados e a biblioteca de execução do Flink. As camadas de API comum 29 do Flink e do otimizador recebem o programa na forma de DAGs de operadores. Os operadores são específicos (Map, Join, Filter, Reduce, ...), mas os dados são variados. A camada de execução (runtime) recebe um programa no formato Job- Graph, que é uma representação paralela e genérica do fluxo de dados com tarefas arbitrárias que consomem e produzem streams de dados. Figura 9: Stack Componentes Logicamente o Flink segue o modelo mestre-escravo, através de dois componentes: o JobManager e os TaskManagers. O JobManager é o coordena- dor do sistema, enquanto que os TaskManagers são os trabalhadores que exe- cutam partes do programa paralelo (Figura 10). Ao ser submetido para execução no ambiente, é criado um cliente que realiza um pré-processamento e transforma o programa em um fluxo de dados paralelo, que é então executado pelo JobMa- nager e pelos TaskManagers. 30 Figura 10: Componentes Modelo de Execução No Flink, os recursos de execução são definidos através de Task Slots. Cada TaskManager possui um ou mais slots que podem executar tarefas em paralelo como em um pipeline. Como exemplo, pode-se utilizar as n instâncias paralelas de uma função de mapeamento juntamente com as n instâncias para- lelas de uma função de redução. Estas tarefas podem vir a ser executadas de forma concorrente, principalmente em programas envolvendo streaming de da- dos. Figura 11: Modelos de execução A Figura 11 demonstra o escalonamento de tarefas no Flink, conside- rando um cluster com 2 TaskManagers, cada um com 3 slots. As funções que 31 atuam como origem dos dados e as funções de mapeamento possuem um pa- ralelismo de 4, enquanto que as funções de redução são executadas com para- lelismo de 3. O esforço para análise: o trabalho com Big Data Analytics O objetivo da tarefa de Analytics é executar a análise preditiva dos dados por meio da execu- ção de mining (minerações). Segundo os autores Oliveira (2013) e Tavares (2014), inicialmente, serão tratados os dados com o uso de técnicas estatísticas, para separação e reunião de conjuntos (denominado de fase de discovery). Adi- cionalmente, para executar a tarefa também pode-se fazer uso de técnicas para categorização, limpeza e transformação dos dados, utilizando, inclusive, a visão da proveniência (fontes de origem) dos dados para auxiliar no processo de ca- tegorização. Ao final desta fase é possível chegar à definição e preparação de modelos (fase de data preparation e model planning) que serão úteis na cons- trução do grande conjunto de dados, chamado de lago de dados (data lake). A carga de dados (denominada fase de ingest) ocorrerá em seguida e será reali- zada para povoar o lago de dados. No lago estarão reunidos todos os dados que serão alvo de análise. Por fim, os resultados que serão obtidos a partir do trata- mento e análise do conteúdo do lago serão apresentados com uso de ferramen- tas de visualização e deverão estar associados ao contexto de negócios (OLI- VEIRA, 2013; TAVARES, 2014). A análise de dados que atendem aos requisitos descritos anteriormente, precisará ser desenvolvida segundo uma nova arquite- tura de análise, onde dados serão obtidos de múltiplas fontes e em tecnologias diversas. O ponto central desta análise está ligado à capacidade de correlacionar dados, pois, como já observado, o ser humano possui limitações para fazer aná- lises associadas a múltiplas dimensões. Em essência, quando temos uma pe- quena quantidade de dados (little data) não temos muita dificuldade de correla- cioná-los, pois existem poucas inter-relações. Mas, com uma grande quantidade (big data), temos muitos dados sendo gerados em paralelo, logo, surge a dificul- dade para correlacioná-los (SEYMOUR, 2014). Então, decorrente deste cenário, chegamos não apenas a um novo conjunto de passos para análise, mas também a um outro perfil profissional atuando neste mercado. Na visão de Sathi (2013), 32 a vertente de Analytics começa a se integrar aos processos de negócio das em- presas, tendo em vista a mudança do comportamento nos executivos e na nova ótica de produção de bens e serviços que está influenciando estas organizações. O Profissional Do Analytics Fruto do trabalho com Analytics cunhou-se um novo perfil profissional. Este perfil passou a ser denominado de Cientistade Dados (Data Scientist). A característica principal deste profissional é ter a capacidade de aplicar ferramen- tas analíticas e algoritmos para gerar previsões sobre produtos e serviços (DA- VENPORT; PATIL, 2012). Oliveira (2013) complementa e detalha que este perfil deve ter forte conhecimento em disciplinas como a matemática e a estatística, com treinamento avançado em estratégias para tratamento de grandes conjun- tos de dados, fazendo uso de modelos matemáticos, formulação de hipóteses e técnicas de regressão. Já Brietman (2013) observa que o Cientista de Dados deve ter capacidade de levantar requisitos dos usuários, buscando não apenas nas necessidades destes usuários, mas também nos outros envolvidos no am- biente sob análise (clientes, parceiros de negócio, informações de mercado, feeds de notícias, redes sociais, blogs, dentre outros). Para Oliveira (2013), o cientista de dados deve ser um técnico cético, curioso, criativo, comunicativo e deve saber trabalhar em colaboração. Ademais, o cientista de dados deve sem- pre (re)avaliar questões durante as primeiras fases do desenvolvimento do tra- balho. Oliveira continua e apresenta questões que podem auxiliar na revisão destas fases (OLIVEIRA, 2013): Na fase de Discovery: • Eu possuo o conhecimento suficiente do ambiente de dados e in- formação? • Eu tenho informação suficiente ara esboçar um plano analítico e compartilhar com meus pares? • Eu consigo desenvolver trabalhos para organização para tipos de problemas? 33 Categorizações e classificações de dados? Projeto de conjuntos (clusters) de dados? • Eu consigo esboçar e realizar entrevistas para conhecer o contexto e domínio que será trabalhado? • Eu posso identificar as diferentes fontes de dados? Na fase de Data Preparation e Model Planning: • Eu tenho um conjunto de dados que seja suficiente e de boa qua- lidade para iniciar a construção de um modelo? • Eu tenho uma boa ideia sobre o tipo de modelo que vou testar? • Eu posso refinar o modelo analítico? Em suma, os projetos de Big Data são desenvolvidos com os objetivos de criar novos produtos, compreender novas necessidades dos clientes e seus comportamentos, bem como perceber novos mercados. Para isto, é necessário desenvolver teorias para tratar com clientes e usuários, construindo hipóteses e identificando dados e informações relevantes. Este processo deve ser repetido e refinado, de acordo com os experimentos realizados e as respostas obtidas (MARCHAND; PEPPARD, 2013). O Impacto Do Big Data Na Análise De Dados 34 Ciências como a astronomia e a genômica, que vivenciaram uma explo- são informacional nos anos 2000, cunharam o termo big data (SCHÖNBERGER- MAYER E CUKIER, 2013). Este termo, relacionado aos grandes volumes de dados, foi primeiramente citado no relatório "Data, data, everywhere: a special report on managing infor- mation", do periódico britânico The Economist (CUKIER, 2010). Entretanto, du- rante estes anos o termo foi sendo utilizado e relacionado a datawarehouses ou soluções de business intelligence (BI), com data sets de terabytes de dados. O fato é que big data representa muito mais que isto (TAURION, 2013) e atual- mente, o conceito está migrando para todos os campos do conhecimento hu- mano (SCHÖNBERGER-MAYER V.; CUKIER K., 2013). No relatório "Data: the next frontier for innovation, competition, and pro- ductivity" é apresentada a definição de big data, como "o conjunto de dados cujo tamanho vai além da capacidade para capturar, armazenar, gerenciar e analisar de ferramentas de software de banco de dados típicos" (MANYIKA ET AL., 2011). Outras definições para o termo são apresentadas abaixo, porém sem ri- gidez conceitual: AKERKAR (2014) Big Data refere-se a conjuntos de dados, cujo tamanho está além das capacidades da tecnologia de banco de dados atual. É um campo emergente onde a tecnologia inovadora oferece alternativas para resolver os problemas ine- rentes que aparecem quando se trabalha com dados massivos, oferecendo no- vas maneiras de reutilizar e extrair valor a partir de informações. DUMBILL (2012) Big data são os dados que excedem a capacidade de processamento de dados de sistemas convencionais. 35 LOHR (2012) Big data é um termo de marketing, mas também um atalho para o avanço de tendências em tecnologia que abrem a porta a uma nova abordagem para a compreensão do mundo e da tomada de decisões. MINELI, CHAMBERS E DHIRAJ (2013) Big data é a próxima geração de data warehousing e análise de negócios e está pronta para entregar receitas economicamente eficientes para as empre- sas. Este fenômeno se deve, em maior parte, ao rápido ritmo de inovação e mu- dança que estamos vivenciando hoje. SATHI (2012) Existem duas fontes comuns de dados agrupados sob a bandeira do big data. A primeira são os dados internos (dados estruturados, não estruturados ou semiestruturados) da organização que, graças à automação e acesso estão sendo cada vez mais compartilhados. A segunda são os dados de fora da orga- nização, como as informações disponíveis em sites de mídia social, literatura do produto distribuído livremente pelos concorrentes, hierarquias organizacionais dos clientes corporativos, dicas úteis disponíveis a partir de terceiros e reclama- ções de clientes postados em sites de regulamentação. SCHÖNBERGER-MAYER E CUKIER (2013) Big data é a capacidade de uma sociedade de obter informações de ma- neiras novas a fim de gerar ideias úteis e bens e serviços de valor significativo. 36 Assim, a verdadeira revolução não está nas máquinas que calculam dados, e sim nos dados em si e na maneira como usamos. TAURION (2013) Resumindo o que é big data em uma simples fórmula para conceitualizálo: Big Data = volume + variedade + velocidade + veracidade, tudo agregado + valor. ZHAO (2013) Big data é um sonho tornado realidade para os cientistas de dados, pois se pode ter tudo para obter insights interessantes, que não seriam possíveis an- tes. Big data não transforma informação e conhecimento sem análises detalha- das. Requer soluções de armazenamento grandes e escaláveis, bem como ca- pacidades e aplicações de análise escaláveis. Análise não significa que se pode jogar dados em alguma machinelearning e algoritmos estatísticos, tais como re- des neurais, árvores de decisão, máquinas de apoio vetor, e assim por diante e esperar ter bons resultados automaticamente. De acordo com Mineli., Chambers e Dhiraj (2013), big data se refere a terceira época da era informação. A primeira foi em 1954, com a implementação de um sistema de folha de pagamento pela General Electric Corporation, por Joe Glickauf e Arthur Andersen em um computador eletrônico digital. Foi então intro- duzida a época computacional da era da informação nas corporações America- nas. Em meio a década de 1950 outras corporações rapidamente adotaram sis- temas para servir a um amplo espectro de processos corporativos. Nesta época também tiveram início as empresas de consultoria em TI. Há aproximadamente trinta anos atrás, Leonard Kleinrock, Lawrence Roberts, Robert Kahn e Vint Cerf inventaram a internet e a segunda época da era da informação, a era da rede (MINELI, CHAMBERS E DHIRAJ, 2013). Os primeiros 35 anos da digitalização tinham foco em processos internos, posteriormente o foco ficou concentrado 37 mais em interações externas. Como um tipo de evolução, as organizações pas- saram a ver mais, predizer mais profundamente o futuro, e dar respostas rápidas. A complexidade do ambiente das corporações foi incrementado com a globalização, tornou-se ágil e orientado a rede e as organizações puderam pas- sar a pesquisar com inteligência suas bases de clientes. Estas organizaçõesti- veram que organizar suas bases, analisar padrões de e-mail, gravações telefô- nicas, mensagens instantâneas e outras evidências para determinar o modelo organizacional emergente. Assim, a própria forma da empresa começou a se modificar, habilitada pela tecnologia e estimulada pela necessidade de comple- xidade. Esta combinação da internet e o WWW em meados dos anos 1990, no entanto, sinalizaram uma mudança radical não só na quantidade de dados - o volume, mas também na taxa com que os dados chegavam - a velocidade; na diversidade de fontes de onde eles chegavam e nos tipos de dados e sua dispo- nibilidade - a variedade (BETSER E BELANGER, 2013) - os três Vs de big data. Assim, teve início mais uma era da informação a época do big data. En- tretanto, big data não é business intelligence (BI), com "grandes" dados. Por 55 anos as corporações de tecnologia da informação dominaram uma estrutura transacional de mundo, com o foco da tecnologia da informação na automatiza- ção, eficiência e produtividade. Agora big data representa uma transição em ter- mos de armazenamento e análise (MINELI, CHAMBERS E DHIRAJ, 2013). De acordo com os autores, big data tem o potencial para ser diferente das outras épocas por dois motivos: primeiramente, os dados podem ser analisados em sua forma original, não estruturada; e, a possibilidade de analisar não apenas o que houve no passado, mas sim prever o que irá acontecer ao redor do mundo, com riqueza de detalhes. Agora pode-se pensar em logs na web, vídeo clips, gravações de voz, documentos de repositórios como share point, dados sociais, dados abertos do governo e outros que irão compor o corpo analítico. O termo "ciência de dados" refere-se a utilização dos dados aplicados ao método científico e aos negócios. Este fenômeno surge viabilizado pelo aumento do poder de processamento que 38 de acordo com a lei de Moore, dobra a cada dois anos - quantidade de transis- tores num chip. Esta contínua melhoria tornou os computadores mais rápidos, e a memória mais profusa. O desempenho dos algoritmos também aumentou, se- gundo conselho de Ciência e Tecnologia da Presidência dos Estados Unidos. Entretanto, muitos dos ganhos com big data, acontecem não por causa de chips mais rápidos ou melhores algoritmos, mas sim pela existência de mais dados (SCHÖNBERGER-MAYER E CUKIER, 2013). Mineli, Chambers e Dhiraj (2013) exploram melhor a questão e identificam as razões para esta nova era: 1. Tempestade perfeita da computação: big data é o resultado natural das quatro maiores tendências globais: a lei de Moore, computação móvel (com smartphones e tables), redes sociais (Facebook, Foour Square e outros), e a computação em nuvem (cloud computing - possibilidade de alugar ou arrendar hardware ou software para utilização); 2. Tempestade perfeita de dados: volumes de dados transacionais fo- ram por décadas utilizados pela maioria das grandes empresas, mas o que se apresenta atualmente é mais volume, velocidade e variedade - os três Vs - de dados que chegaram de forma inédita. Esta tempestade perfeita dos três Vs, torna extremamente complexo e pesado o gerenciamento de dados atual e aná- lise de tecnologias e práticas; 3. Tempestade perfeita de convergência: gerenciamento de dados tradicionais, análise de software, tecnologias de hardware, tecnologia de código aberto e commodities de hardware estão se fundindo para criar novas alternati- vas para TI e executivos de negócios para enfrentar big data. Assim, os dados que antes eram considerados estáticos e banais, com término de sua utilidade depois que o objetivo da coleta era alcançado, se tornaram matéria-prima dos negócios, um recurso econômico vital, usado para criar uma nova forma de valor econômico. A princípio, a ideia era a de que o volume de informação crescera tanto que a quantidade examinada já não cabia na memória de processamento dos computadores, por isso os engenheiros tiveram de aprimorar os instrumentos 39 que utilizaram para fazer a análise. Esta é a origem de novas tecnologias de processamento como a MapReduce da Google e sua equivalente de código aberto, Hadoop, lançada pela Yahoo. Elas permitem que se gerenciem muito mais dados que antes, e os dados não precisam ser alocados em fileiras ou nas clássicas tabelas (SCHÖNBERGER-MAYER E CUKIER, 2013). Meio século depois de os computadores entrarem no meio social os da- dos começaram a se acumular. Assim, o mundo não apenas está mais cheio de informação como também a informação está se acumulando com mais rapidez. Tecnólogos acreditam que a linhagem do big data remonta à época da revolução do silício. Certamente os sistemas modernos de TI possibilitaram o big data, mas em essência o avanço rumo ao big data é uma continuação da antiga busca da humanidade por medir, registrar e analisar o mundo (SCHÖNBERGERMAYER V.; CUKIER K., 2013). Abaixo mostra a evolução da utilização dos dados e infor- mação desde sua origem até os dias atuais: 8000 a.C.- Comerciantes sumérios usavam tábuas e fichas de barro para denotar os bens comercializados. 1086 Livro Domesday, um dos mais venerados tesouros britânicos, foi uma contagem abrangente - e sem precedentes - dos ingleses, suas terras e propriedades. 1439 - Primeira revolução da informação: Impressora de Gutenberg. 1453 e 1503 - De acordo com a historiadora Elizabeth Eisenstein, oito mi- lhões de livros foram impressos. Volume de informações dobra na Europa, em 50 anos. 1662 - O comerciante britânico chamado John Graunt queria saber a po- pulação de Londres na época da peste negra. Em vez de contar as pessoas, ele inventou uma abordagem - que hoje chamamos de "estatística"- que lhe permitiu estimar a população. 40 1880 - O Census Bureau dos Estados Unidos contratou o inventor Her- man Hollerith, que desenvolveu um sistema de cartões perfurados e máquinas de tabulação para o censo de 1890. Ele conseguiu diminuir o tempo de tabulação do censo de oito anos para um. 1920 - Descobertas da mecânica quântica abalaram para sempre o sonho das medições abrangentes e perfeitas. 1934 - Jerzy Neyman, estatístico polonês, demonstrou que a abordagem da amostragem levava a erros e que para isto deveria ser considerada a aleato- riedade na escolha da amostra. A amostragem tornou-se a solução para o pro- blema da profusão de dados. 1950-1960 - Implementação de um sistema de folha de pagamento para General Electric Corporation, por Joe Glickauf e Arthur Andersen em um compu- tador eletrônico digital. Início das ideias de "Revolução da informação" e " Era Digital" ou "Era da informação". 1980-1990 - Nesta época, Leonard Kleinrock, Lawrence Roberts, Robert Kahn, e Vint Cerf inventaram a internet. 40% de toda a potência computacional do mundo existia na forma de calculadoras de bolso. "Era da rede". 2000 Dados: 75% dados analógicos (papel, filme, vinil, fitas magnéticas, livros, fotografia); 25% dados digitais. 2007 Dados: 7% dados analógicos; 93% dados digitais. 2010 - Ciências como a astronomia e a genômica, vivenciaram uma ex- plosão informacional, e cunharam o termo big data, que representa uma transi- ção em termos de armazenamento e análise. "Era big data". 2013 - Dados: 2% dados analógicos; 98% dados digitais - 1200 exabytes. Assim, a maneira utilizada para pensar a questão, proposta por Schön- berger-Mayer e Cukier (2013) é que big data se refere a trabalhos em grande escala que não podem ser feitos em escala menor, para extrair novas ideias e 41 criar novas formas de valor de maneira que se alterem os mercados, as organi- zações, a relação entre cidadãos, governos, etc. Então, a sociedade precisará conter um pouco a obsessão pela causali- dade e trocá-la pela correlação simples: sem saber o porquê, apenas o quê. Essa mudança subverte séculos de práticas