Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

1 
 
PLATAFORMAS DA BIG DATA 
 
 
 
 
2 
 
 
 
NOSSA HISTÓRIA 
 
 
A nossa história inicia com a realização do sonho de um grupo de empre-
sários, em atender à crescente demanda de alunos para cursos de Graduação 
e Pós-Graduação. Com isso foi criado a nossa instituição, como entidade ofere-
cendo serviços educacionais em nível superior. 
A instituição tem por objetivo formar diplomados nas diferentes áreas de 
conhecimento, aptos para a inserção em setores profissionais e para a partici-
pação no desenvolvimento da sociedade brasileira, e colaborar na sua formação 
contínua. Além de promover a divulgação de conhecimentos culturais, científicos 
e técnicos que constituem patrimônio da humanidade e comunicar o saber atra-
vés do ensino, de publicação ou outras normas de comunicação. 
A nossa missão é oferecer qualidade em conhecimento e cultura de forma 
confiável e eficiente para que o aluno tenha oportunidade de construir uma base 
profissional e ética. Dessa forma, conquistando o espaço de uma das instituições 
modelo no país na oferta de cursos, primando sempre pela inovação tecnológica, 
excelência no atendimento e valor do serviço oferecido. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3 
 
 
Sumário 
PLATAFORMAS DA BIG DATA .................................................................................. 1 
NOSSA HISTÓRIA ......................................................................................................... 2 
Introdução ......................................................................................................................... 4 
Big Data – Conceitos E Um Breve Histórico ................................................................... 6 
Da Explosão Informacional À Avalanche De Dados ....................................................... 9 
Entendendo O Big Data .................................................................................................. 11 
A Visão Do Big Data ...................................................................................................... 13 
Sistemas Tradicionais X Sistemas De Big Data Analytics ............................................ 15 
FERRAMENTAS ........................................................................................................... 17 
Ambientes Em Nuvem ............................................................................................ 17 
HDFS .......................................................................................................................... 17 
YARN ......................................................................................................................... 18 
Map Reduce ................................................................................................................ 18 
HADOOP ................................................................................................................... 18 
MPP ............................................................................................................................ 19 
HBASE ....................................................................................................................... 19 
SPARK ....................................................................................................................... 20 
Machine Learning ....................................................................................................... 20 
Plataformas de Big Data ................................................................................................. 21 
Apache Spark .............................................................................................................. 21 
Modelo de Programação ............................................................................................. 22 
Apache Storm ............................................................................................................. 24 
Componentes do Storm .............................................................................................. 24 
Modelo de Execução .................................................................................................. 25 
Apache Flink ............................................................................................................. 26 
Flink Stack .................................................................................................................. 28 
Componentes .............................................................................................................. 29 
Modelo de Execução .................................................................................................. 30 
O Profissional Do Analytics ....................................................................................... 32 
O Impacto Do Big Data Na Análise De Dados .......................................................... 33 
REFERÊNCIAS ............................................................................................................. 43 
 
 
 
file:///Z:/MODELO%20APOSTILA-%20AVALIAÇÃO/MODELO%20NOVO%20-%20APOSTILA.docx%23_Toc60654013
 
 
 
4 
Introdução 
 
A quantidade de dados gerados pela humanidade nos últimos anos au-
mentou de forma exponencial. Segundo uma pesquisa recente (IBM , 2013), no 
ano 2000, 25%(vinte e cinco por cento) dos dados eram digitalizados, no ano de 
2007, esse número saltou para 93% (noventa e três por cento), e no ano de 
2013, foi para 98% (noventa e oito por cento). 
 
Esse crescimento, devido principalmente a fatores como aumento do 
acesso a dispositivos eletrônicos e a popularização da internet, está gerando 
uma revolução no tratamento de dados. A aplicabilidade do Big Data está no 
tratamento desse volume de dados, que vem de variadas fontes e que deman-
dam alta velocidade de processamento, na busca por um valor (Taurion, 2013). 
Esse valor, obtido através de correlações entre dados, pode se dar através de 
descoberta de padrões, preferências de usuários, aumento no número de ven-
das em determinada época do ano, descoberta de cura de doenças, entre diver-
sos outros benefícios aplicáveis a diversas áreas de estudo. Por ser um assunto 
relativamente novo, muitos artigos que mencionam o tema, o fazem de maneira 
conceitual e sem abranger alguns detalhes, que vão além de conceitos pontuais. 
 
O tema Big Data desperta, na atualidade, o interesse, e até mesmo o fas-
cínio, para todas as pessoas que tem algum envolvimento com atividades para 
Gestão da Informação (HUWE, 2012). A recente reportagem publicada no Rio 
de Janeiro pelo Jornal O Globo, sob título “Big Data: enxurrada de dados emerge 
como novo termômetro da economia” suscitou um debate interessante sobre no-
vas formas para interação entre a sociedade, governos e serviços em geral, pois 
estas formas promovem uma nova dinâmica para fluxos informacionais (SETTI, 
2014). A publicação desta reportagem por um veículo de grande circulação, de-
monstra que este assunto já é de interesse para a sociedade, indo além das 
fronteiras acadêmicas e da realização de negócios. Verifica-se também um mo-
vimento na área de Ciência da Informação neste tema, quando o Prof. Dr. Aldo 
Barreto, pesquisador na nossa área, faz em seu blog algumas reflexões sobre 
 
 
 
5 
os três tempos da ciência da informação. Ele traz uma consideração sobre os 
estoques disponíveis de forma online, onde afirma que: 
 
Hoje, com a condição online os estoques e os fluxos de informação, 
renomeados para “Big Data”, são multidirecionados e levam condições 
virtuais em seu desatamento, quando o tempo se aproxima de zero, a 
velocidade se acerca do infinito e os espaços são de vivência pela não 
presença (BARRETO, 2014, online). 
 
Outra contribuição para este debate foi levantada pelo Prof. Dr. Marcos 
Cavalcanti, pesquisador do CRIE/COPPE, que afirmou em recente publicação 
que “Ao contrário do que muita gente pensa,consagradas e desafia a compre-
ensão mais básica de como tomar decisões e compreender a realidade 
(SCHÖNBERGER-MAYER E CUKIER, 2013). De acordo com Schönberger-Ma-
yer e Cukier (2013), os frutos da sociedade da informação, como celulares e 
computadores, deram origem ao termo "exaustão de dados". 
 
O termo descreve a trilha digital que as pessoas deixam, que se refere a 
dados colhidos como subprodutos das ações e dos movimentos das pessoas. 
Estes elementos são facilmente identificados em todos os lugares, entretanto, a 
informação em si é discreta. Segundo os autores, esta mudança quantitativa ad-
vinda de big data tem gerado uma mudança qualitativa em termos de resultados 
do processamento de dados. Betser e Belanger (2013) complementam que a 
mudança qualitativa refere-se a quantidade de detalhes que são apurados e 
mantidos por esses bancos de dados. Há também mudanças na tecnologia dis-
ponível para analisar e extrair informações a partir desses dados, no custo de 
disponibilidade, processamento, armazenamento de dados e mecanismos de 
origem/entrega, como smartphones e sensores. 
 
Estes por sua vez, têm gerado mudanças e criado oportunidades na 
busca por excelência na utilização de dados e informações. Para exemplificar 
isto, podemos utilizar a analogia da nanotecnologia: quando se chega ao nível 
molecular, as propriedades físicas da matéria podem se alterar; assim, ao saber 
o que significam essas novas características, podem-se criar materiais e cons-
truir o que não podia ser feito antes - obter metais e cerâmicas mais flexíveis. 
 
Ou seja, quando aumentamos a escala de dados com a qual trabalhamos, 
ganhamos margem para inovar, o que não ocorria antes com poucos dados 
(SCHÖNBERGER-MAYER E CUKIER, 2013). Assim, o objetivo proposto para 
 
 
 
42 
big data nos negócios e na TI será a aplicação de dados e analítica para incre-
mentar a inteligência corporativa (MINELI, CHAMBERS E DHIRAJ, 2013). Esta 
é uma meta completamente diferente de enquadramento para a tecnologia e vai 
significar novas formas de organizar e conceituar como ela é financiada e entre-
gue atualmente. Ou seja, os autores confirmam os pressupostos de Schönber-
ger-Mayer e Cukier (2013) ao afirmarem que com big data, cientistas de dados 
podem utilizar mais ou todos os dados para criar um modelo. Ao fazerem isto, é 
possível que sejam introduzidas variáveis de previsão adicional, a fim de aumen-
tar seu nível de exatidão. Quando o histórico de big data é utilizado, o modelo 
pode identificar tendências que estão fora dos ciclos que foram utilizados na téc-
nica de extração de dados históricos. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
43 
 
REFERÊNCIAS 
 
 
Agrawal, D. (2014). Analytics based decision making. Journal of Indian 
Business Research, 6(4), 332–340. 
 
Bartels, K., Barbeito, A. & Mackensen, G. B. (2011). The anesthesia team 
of the future. Current Opinion in Anesthesiology, 24(6), 687–692. 
 
Berinato, S. (2014). With big data comes big responsibility. Harvard Busi-
ness Review, Novembro. 
 
Bishop, N. (2014). Spotlighting big data and analytics heroes. IBM Data 
Management Magazine, (1). 
 
Björk, B. C., Welling, P., Laakso, M., Majlender, P., Hedlund, T. & Guona-
son, G. (2010). Open access to the scientific journal literature: situation 2009. 
PloS one, 5(6), e11273. 
 
Blocker, A. W. & Meng, X.-L. (2013). The potential and perils of prepro-
cessing: 
Building new foundations. Bernoulli, 19(4), 1176–1211. 
 
Brereton, P., Kitchenham, B., Budgen, D., Turner, M. & Khalil, M. (2007). 
Lessons from applying the systematic literature review process within the sof-
tware engineering domain. Journal of systems and software, 80(4), 571–583. 
 
Chang, R. M., Kauffman, R. J. & Kwon, Y. (2014). Understanding the pa-
radigm shift to computational social science in the presence of big data. Decision 
Support Systems, 63, 67–80. 
 
 
 
 
44 
Chen, H., Chiang, R. H. & Storey, V. C. (2012). Business Intelligence and 
Analytics: From Big Data to Big Impact. MIS quarterly, 36(4), 1165–1188. 
 
Chen, C. P. & Zhang, C.Y. (2014). Data-intensive applications, challenges, 
techniques and technologies: A survey on Big Data. Information Sciences, 275, 
314–347. 
 
Chen, M., Mao, S. & Liu, Y. (2014). Big data: A survey. Mobile Networks 
and Applications, 19(2), 171–209. 
 
Chow-White, P. A. & Green, S. (2013). Data Mining Difference in the Age 
of Big Data: Communication and the social shaping of genome technologies from 
1998 to 2007. International Journal of Communication, 7, 28. 
 
Silva, I. M. & Campos, F. C. (2015). New perspectives using big data: a 
study of bibliometric 2000-2012. Anais da 11a Conferência Internacional sobre 
Sistemas de Informação e Gestão de Tecnologia, São Paulo, SP. 
 
Davenport, T. H. (2014). How strategists use “big data” to support internal 
business decisions, discovery and production. Strategy and Leadership, 42(4), 
45–50. 
 
Davenport, T. H., Barth, P. & Bean, R. (2012). How “big data” is different. 
MIT Sloan Management Review, 54(1). 
 
Demchenko, Y., Grosso, P., De Laat, C. & Membrey, P. (2013). Addres-
sing Big Data issues in scientific data infrastructure. Colaboration Technologies 
ans Systems (CTS). 
 
Demirkan, H. & Delen, D. (2013). Leveraging the capabilities of service-
oriented decision support systems: Putting analytics and big data in cloud. Deci-
sion Support Systems, 55(1), 412–421. 
 
 
 
 
45 
Freitas, H., Becker, J. L., Kladis, C. M. & Hoppen, N. (1997). Informação 
e decisão: Sistemas de apoio e seu impacto. Porto Alegre: Ortiz, 74. 
 
Garcia Martinez, M. & Walton, B. (2014). The wisdom of crowds: The po-
tential of online communities as a tool for data analysis. Technovation, 34(4), 
203–214. 
 
Goldman, A., Kon, F., Pereira Junior, F., Polato, I. & Pereira, R. (2012). 
Apache Hadoop: Conceitos teóricos e práticos, evoluçao e novas possibilidades. 
XXXI Jornadas de atualizaçoes em informatica. 
 
Hayashi, A. M. (2014). Thriving in a Big Data World. MIT Sloan Manage-
ment Review, 55(2), 35–39. 
 
Huang, T. & Van Mieghem, J. A. (2014). Clickstream data and inventory 
management: Model and empirical analysis. Production and Operations Mana-
gement, 23(3), 333–347. 
 
Huwe, T. K. (2012). Big Data, Big Future. Computers in libraries, v. 32 (5), 
p. 20-22. 
 
Jackson, S. (2014). Prediction, explanation and big(ger) data: a middle 
way to measuring and modelling the perceived success of a volunteer tourism 
sustainability campaign based on “nudging”. Current Issues in Tourism, p. 1-16. 
 
James, R. (2014). Out of the box: Big data needs the information profes-
sion - the importance of validation. Business Information Review, 31(2), 118–121. 
 
Kemp, R. (2014). Legal aspects of managing Big Data. Computer Law and 
Security Review, 30(5), 482–491. 
 
Klingström, T., Soldatova, L., Stevens, R., Roos, T. et. al. (2013). 
Workshop on laboratory protocol standards for the molecular methods database. 
New biotechnology, 30(2), 109–113. 
 
 
 
46 
 
Leeflang, P. S. H., Verhoef, P., Dahlstrom, P. & Freundt, T. (2014). Chal-
lenges and solutions for marketing in a digital era. European Management Jour-
nal, 32(1), 1–12. 
 
Llorente, R. & Morant, M. (2014). Wearable computers and big data: Inte-
raction paradigms for knowledge building in higher education. In Innovation and 
 
Teaching Technologies: New Directions in Research, Practice and Policy 
(p.127–137). 
 
Luvizan, S.; Meirelles, F.; Diniz, E. H. (2014) Big Data: publication evolu-
tion and research opportunities. Anais da 11a Conferência Internacional sobre 
Sistemas de Informação e Gestão de Tecnologia. São Paulo, SP. 
 
Manyika, J., et al. (2011). Big data: The next frontier for innovation, com-
petition, and productivity. Recuperado de http://www.citeu-
like.org/group/18242/article/9341321. Acesso em Setembro 2015.Marchand, D. A., Peppard, J. (2013). Why IT fumbles analytics. Harvard 
Business Review, 91(1), 104–112. 
 
Mavandadi, S., Dimitrov, S., Feng, S., Yu, F., Yu, R.; et al. (2012). Crowd-
sourced BioGames: managing the big data problem for next-generation lab-on-
a-chip platforms. Lab on a chip, 12(20), 4102–4106. 
 
Mayer-Schonberger, V. & Cukier, K. (2013). Big data: como extrair vo-
lume, variedade, velocidade e valor da avalanche de informação cotidiana (Vol. 
1). Elsevier Brasi. 
 
Mcafee, A. & Brynjolfsson, E. (2012). Big data: The management revolu-
tion. Harvard Business Review, 90(10), 4. 
 
 
 
 
47 
Millie, D. F., Weckman, G., Young, W., Ivey, J. et al.. (2013). Coastal “Big 
Data”and nature-inspired computation: Prediction potentials, uncertainties, and 
knowledge derivation of neural networks for an algal metric. Estuarine, Coastal 
and Shelf Science, 125, 57–67. 
 
Montejo-Ráez, A., Galiano, M., Martinnez-Santiago, F. & Urena-Lopez, L. 
(2014). 
 
Crowd explicit sentiment analysis. Knowledge-Based Systems, 69(1), 
134–139. 
 
Nash, D. B. (2014). Harnessing the power of big data in healthcare. Ame-
rican Health and Drug Benefits, 7(2), 69–70. 
 
Park, H. W. & Leydesdorff, L. (2013). Decomposing social and semantic 
networks in emerging “big data” research. Journal of Informetrics, 7(3), 756–765. 
 
Petroni, F., Querzoni, L., Beraldi, R. & Paolucci, M. (2014). LCBM: Statis-
tics-based parallel collaborative filtering. Business Information Systems, v. 176, 
pp. 172-184. 
 
Pousttchi, K. & Hufenbach, Y. (2014). Engineering the value network of 
the customer interface and marketing in the data-rich retail environment. Interna-
tional Journal of Electronic Commerce, 18(4), 17–41. 
 
Rust, R. T. & Huang, M.-H. (2014). The service revolution and the trans-
formation of marketing science. Marketing Science, 33(2), 206–221. 
Sengupta, P. P. (2013). Intelligent platforms for disease assessment: no-
vel approaches in functional echocardiography. JACC: Cardiovascular Imaging, 
6(11), 1206–1211. 
 
Shaw, R. (2014). The marketing data space race. Journal of Direct, Data 
and Digital Marketing Practice, 15(4), 260–261. 
 
 
 
 
48 
Shum, S. B., Aberer, K., Schmidt, A., Bishop, S. et al. (2012). Towards a 
global participatory platform. The European Physical Journal Special Topics, 
214(1), 109–152. 
 
Simpao, A. F., Ahumada, L., Galvez, J. & Rehman, M. (2014). A review of 
analytics and clinical informatics in health care. Journal of medical systems, 
38(4), 1–7. 
 
Tao, S., Corcoran, J., Mateo-Babiano, I. & Rohde, D. (2014). Exploring 
Bus Rapid Transit passenger travel behaviour using big data. Applied Geogra-
phy, 53, 90– 104. 
 
Tien, J. M. (2013). Big data: Unleashing information. Journal of Systems 
Science and Systems Engineering, 22(2), 127–15. 
 
Tranfield, D., Denyer, D. & Smart, P. (2003). Towards a methodology for 
developing evidence-informed management knowledge by means of systematic 
review. British journal of management, 14(3), 207–222. 
 
Webster, J. & Watson, R. T. (2002). Analyzing the past to prepare for the 
future: 
 
Writing a literature review. Management Information Systems Quarterly, 
26(2), 3. 
 
Wigan, M. R. & Clarke, R. (2013). Big data’s big unintended consequen-
ces. 
Computer, 46(6), 46–53. 
 
Zikopoulos, P., Lightstone, S., Huras, M., Sachedina, A. et al. (2013). New 
dynamic in-memory analytics for the era of big data. IBM Data Management Ma-
gazine, (4), 1–47. 
 
 
 
 
 
49Big Data não é uma ‘nova tecnolo-
gia’” (CAVALCANTI, 2014, online). 
 
Fazendo uma análise preliminar destes movimentos, é licito supor que o 
profissional de informação deve refletir um pouco sobre como poderá se envolver 
nas discussões sobre o tema Big Data, pois afinal, o uso de dados e informação 
sempre foi objeto de estudo para a Ciência da Informação. 
 
Vale lembrar que não está se propondo algo totalmente novo com o tema 
Big Data, pois o uso de informação para a obtenção de resultados não é uma 
coisa nova. Ao fazer um breve retrospecto nas pesquisas desenvolvidas na área, 
é possível observar que o desenvolvimento de ações investigativas em Sistemas 
de Apoio à Decisão (EIS), uso de Armazéns de Dados (Data Warehouses e Data 
Marts), aplicações para melhorar o Desempenho dos Negócios (Business Intel-
ligence), soluções para Mineração de Dados (Data Mining),além de informação 
para planejamento estratégico, gestão de recursos informacionais e ativos de 
informação na Web, foram abordagens exploradas nos últimos anos pela Ciência 
da Informação. 
 
Mas afinal, o que é Big Data? É uma tecnologia? Uma ferramenta? Uma 
metodologia nova? Como o profissional da informação pode se inserir na discus-
são deste tema? 
 
Para esclarecer estas questões é preciso, antes de tudo, observar algu-
mas considerações sobre os aspectos norteadores para o tema Big Data. A pri-
meira consideração diz respeito ao tratamento de Big Data como uma tecnologia, 
 
 
 
6 
pois o tema de alto volume de dados e informação há muito se faz presente nas 
pesquisas sobre processos de Gestão da Informação. O impulso dado pela tec-
nologia, principalmente pelo incremento do uso dos dispositivos móveis, trouxe 
um forte aumento no volume de dados. Mas, o debate sobre temas como o cres-
cimento exponencial da informação e explosão informacional, originados pelas 
pesquisas pós segunda Guerra Mundial, já se fazia presente nas discussões e 
pesquisas na área de Ciência da Informação (SARACEVIC, 1996). Uma se-
gunda consideração diz respeito à variedade de dados disponíveis. 
 
A profusão de informações na internet, originadas pelas diferentes fontes 
de dados, ocasionam uma sobrecarga de dados e informação disponíveis para 
a sociedade. Cabe registrar que apenas 1% destes dados é efetivamente anali-
sado (BREITMAN, 2014) e, consequentemente, pode-se deduzir que existe um 
grande campo de atuação para os profissionais que atuam na disciplina de ges-
tão da informação. Dentro deste contexto, este relato introduz a discussão dentro 
do projeto de pesquisa do autor, que tem por objetivo investigar métodos e abor-
dagens para gerir recursos de informação residentes em ambientes digitais. 
 
Big Data – Conceitos E Um Breve Histórico 
 
Pesquisas sobre grandes volumes de dados não são uma novidade. Al-
guns autores sugerem que elas iniciaram ainda na década de 70, investigando 
métodos de processamento de dados e chegaram aos anos 90 estudando, por 
exemplo, a modelagem e desenvolvimento de software para grandes volumes 
de dados (PARK e LEYDESDORFF, 2013). Os anos 2000, no entanto, são mar-
cados por um salto não apenas nas possibilidades técnicas de processamento, 
armazenagem e transmissão de dados, mas também pela explosão de fenôme-
nos de geração de dados que nos levaram a volumes sem precedentes na his-
tória da humanidade. Neste contexto, o termo BD não indica um fenômeno com-
posto por elementos totalmente novos, mas um conjunto de questões, novas e 
clássicas, que combinadas em novo cenário tecnológico, social e econômico, 
deram origem a um novo paradigma. 
 
 
 
 
7 
A definição de BD adotada neste trabalho foi a encontrada com mais fre-
quência na literatura acadêmica e não acadêmica, sendo também a que nos pa-
rece mais coerente. Ela propõe que BD é o fenômeno do processamento de 
grandes volumes de dados, com os quais as ferramentas tradicionais não são 
capazes de lidar na velocidade requerida (GOLDMAN et al, 2012). Não é, por-
tanto, um volume específico que classifica o fenômeno, que também é marcado 
por outras características, como a complexidade e velocidade de processamento 
necessárias (DEMCHENKO et al, 2013; PARK e LEYDESDORFF, 2013). 
 
Logo, a definição de “big” deve ser analisada no contexto individualizado, 
já que o volume considerado grande em uma determinada situação pode não 
ser considerado grande em outra. Esta classificação também deve variar ao 
longo do tempo para a mesma demanda, devido aos rápidos avanços da capa-
cidade das ferramentas envolvidas, de forma que o grande de hoje pode ser o 
médio de amanhã (PARK e LEYDESDORFF, 2013). Para facilitar a classificação 
alguns autores sugerem que estamos diante de um fenômeno de BD quando o 
tamanho dos dados faz parte do problema de pesquisa (PARK e LEYDES-
DORFF, 2013). Os muitos desafios enfrentados pelo BD foram inicialmente su-
marizados em 3 V’s: Volume (basicamente tamanho e quantidade de dados), 
Velocidade (dinâmica de crescimento e processamento dos dados) e Variedade 
(diversidade de origens, formas e formatos dos dados) (DEMCHENKO et al., 
2013). Posteriormente, foram agregados os elementos Valor (significados que 
podem ser atribuídos aos dados, valor agregado oferecido por tais significados) 
e a Veracidade (autenticidade, reputação da origem, confiabilidade dos dados), 
constituindo-se nos 5 V`s do BD (DEMCHENKO et al. 2013), conforme figura 1. 
 
 
 
 
 
 
 
 
 
 
 
 
8 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Embora as aplicações e objetivos específicos das ferramentas de BD se-
jam muito variadas, pode-se dizer que seus usuários compartilhem de uma tríade 
de expectativas, expressa pelo acrônimo MAD - Magnetism, Agility, Depth - (CO-
HEN et al., 2009). O Magnetismo é a capacidade de atrair dados sobre um de-
terminado tema de diferentes fontes, sejam eles de qualquer formato, estrutura 
ou origem. A Agilidade indica a grande capacidade de adaptação do sistema à 
evolução dos dados. A Profundidade se refere ao nível de detalhe possibilitado 
pelas análises produzidas a partir do grande conjunto de dados e à complexi-
dade do processamento realizado, podendo envolver conceitos estatísticos so-
fisticados e aprendizado de máquina (COHEN et al., 2009). A importância e am-
plitude deste tema vêm atraindo interesses entre praticantes e acadêmicos em 
diversas áreas. Institutos de pesquisa renomados como Mackinsey e Gartner, 
além de organismos internacionais como a ONU, já incorporaram o tema em 
suas agendas de pesquisa e atuação há alguns anos (GARTNER, 2013; 
MANYIKA, 2011; PSFK,2011). Na iniciativa privada também é crescente o inte-
resse pelo tema, seja entre as empresas que apostam no potencial de valor de 
projetos de BD para seus negócios, ou entre aquelas que atuam ou planejam 
atuar oferecendo produtos/serviços nesta área para abocanhar os investimentos 
esperados das primeiras. As expectativas também são grandes no setor público, 
onde as aplicações nas diversas esferas de atuação prometem elevar a gestão 
 
 
 
9 
pública a níveis sem precedentes de eficiência, controle e transparência (LE-
TOUZÉ, 2012; PSFK, 2011; SMOLAN e ERWITT, 2012). Há também grandes 
expectativas sobre o impacto nas relações políticas, seja pelo uso de ferramen-
tas de BD pelos políticos ou pelo novo modelo de organização e engajamento 
da sociedade através das redes sociais. 
 
Da Explosão Informacional À Avalanche De Dados 
 
 
O tratamento e uso da informação pela sociedade têm se modificado nas 
últimas décadas como consequência do surgimento de novos modelos sociais, 
econômicos ou tecnológicos. Estes modelos promoveram uma mudança de pa-
radigma tão importante quanto à invenção da imprensa, ou ainda, quanto à pró-
pria revolução industrial. A crescente utilização de meios de comunicação com 
alto grau de mobilidade e o uso cada vez maior da Internet, definem outros es-
paços e demarcamnovas fronteiras para a sociedade contemporânea (RI-
BEIRO, 2008). A quantidade de informação disponível cresce vertiginosamente 
e surgem novos comportamentos e sentimentos decorrentes deste crescimento. 
Termos como Ansiedade da Informação, cunhado por Wurman (2005), e Explo-
são Informacional cunhado por Gopinath e Das (1997) corroboram este estado 
de insatisfação dos usuários. Além disto, apesar do frequente lançamento de 
novas tecnologias e ferramentas para resolver os problemas dos usuários, a 
cada dia que passa, eles (os usuários) têm mais dificuldades em solucioná-los. 
Para Wurman: Cada nova tecnologia não acaba com o resto, mas termina so-
mando-se às outras. Disseram que o computador tornaria o papel obsoleto; 
aconteceu justamente o contrário: graças às impressoras e copiadoras. Acredi-
tava-se que o vídeo fosse dar fim ao cinema, mas hoje há mais filmes do que 
nunca. Estamos cercados por versões alternativas, imitações e originais, tudo 
em números incontáveis de exemplares. (WURMAN, 2005, p.4-5) 
 
Heath e Bizer (2011) reforçam que na atualidade estamos cercados por 
uma grande quantidade de dados e informação. São registros sobre o cotidiano 
 
 
 
10 
– desempenho da educação, produção de bens e serviços, investimentos e im-
postos governamentais, estatísticas sobre a economia e dados sobre o consumo 
- que nos ajudam a tomar decisões e gerar conhecimento. Verifica-se também 
que existe uma retomada de debates para organizar a informação, que estão 
sendo discutidos sob a disciplina de ERM (Electronic Resource Management), 
pois este tema tem surgido com frequência nos projetos sobre o gerenciamento 
de ativos e/ou recursos de informação digitais (SPREHE, 2005). Ribeiro (2008) 
convalida esta percepção e observa que: [..] o processo de estruturação de da-
dos e informações carece de maior instrumentação, pois a ótica utilizada na atu-
alidade está mais concentrada em aspectos tecnológicos do que nas questões 
de organização das informações, deixando em segundo plano as indagações 
ligadas à gestão da informação (RIBEIRO, 2008, p. 18). Mas afinal, o que está 
impulsionando esta avalanche? Conforme mencionado na introdução deste re-
lato, uma diferença observada é que com a evolução da tecnologia o cotidiano 
ficou repleto de dados e informação, só que agora ao alcance dos nossos dedos. 
O avanço do uso de dispositivos móveis, o uso de sensores industriais e biomé-
dicos, fotos, vídeos, emails, redes sociais, além do comércio eletrônico, intera-
ções via call centers, dispositivos móveis, dados públicos imagens médicas e 
outros dados científicos, câmeras para monitoramento, medidores inteligentes, 
GPS, aplicativos para troca de mensagens, aplicações que nos ajudam a pegar 
táxis, outras que nos ajudam na locomoção urbana evitando engarrafamentos, 
ou ainda no monitoramento de ônibus e até de aviões, são exemplos concretos 
desta avalanche. 
Complementarmente, é possível perceber também uma mudança no fun-
cionamento das aplicações de comércio eletrônico. A ampliação do uso de sis-
temas de recomendação1 na Web, permite que sejam indicados dezenas de op-
ções de compras aos clientes usuários destes serviços. Por outro lado, a previ-
são da expansão das fontes de dados é de aproximadamente 50 vezes nos pró-
ximos 10 anos. Segundo previsões apresentadas pela empresa EMC, instituição 
especializada em armazenamento de dados, o crescimento de dados e informa-
ções digitais no mercado brasileiro crescerá de 212 Exabytes 2 em 2014, alcan-
çando a marca de 1.6 Zettabytes (1.600 Exabytes) em 2020 (EMC, 2014). Fruto 
 
 
 
11 
deste cenário, rico em volume e variedade de fontes, tem surgido uma nova dis-
ciplina que, apesar de não ser apenas um tema essencialmente tecnológico, vem 
sendo impulsionado pelos projetos de tecnologia: a vertente de Big Data. 
 
Entendendo O Big Data 
 
O aumento exponencial dos dados no decorrer dos anos através do ad-
vento da internet e de diversos dispositivos como celulares e computadores oca-
sionou uma revolução no que tange a gestão da informação. Segundo Santan-
chè (2014), o Big Data, embora tratado por muitos como solução, em si é um 
problema, pela quantidade e diversidade de dados, que será resolvido através 
das ferramentas de Big Data Analytics. A origem dos dados vem basicamente 
de Web e redes sociais (dados de fluxo de cliques, blogs, posts, feeds de notí-
cias), dados de transações (compras de cartão de crédito, registros de ligações 
e de reclamações nas empresas) dados de biometria (identificação automática, 
DNA, impressões digitais, reconhecimento facial) dados gerados por pessoas 
(privados e que devem ser protegidos por legislação, como documentos eletrô-
nicos, exames e registros médicos, ligações telefônicas) e dados machine to ma-
chine (gerados diretamente por maquinas, como sensores, dispositivos de GPS 
e medidores). (Intel, 2015). Os cinco VS, Volume (quantidade de dados acumu-
lados), Variedade (meios de propagação e tipos de dados), Velocidade (taxa de 
transmissão de dos dados), Veracidade (se os dados são confiáveis) e Valor 
(resultado obtido no uso das ferramentas de Big Data) denotam o objetivo de 
manter as plataformas e sistemas em harmonia de tal forma que gerem o resul-
tado esperado. (Veja, 2013). Os dados são qualificados em três categorias: da-
dos estruturados, pertencentes a um SGBD relacional com esquema relacional 
associado, dados semiestruturados, que são irregulares ou incompletos não ne-
cessariamente de acordo com um esquema, compreensíveis por maquinas mas 
não por seres humanos, como documentos HTML e logs de web sites , e dados 
não estruturados, sem estrutura prévia nem possibilidade de agrupamento em 
tabelas, como vídeos, imagens e emails.(Intel 2015) O desafio para as ferramen-
tas de Big Data é entre outros a manipulação de dados semiestruturados e não 
 
 
 
12 
estruturados no intuito de extrair valor destes através de correlações e outros 
processamentos de análise e então compreendê-los para que tragam valor ao 
determinado meio aplicável. O tratamento dos dados é realizado com o apoio de 
algoritmos inteligentes, que são sequencias de instruções que permitem que se 
chegue a uma conclusão sobre que tipo de ação tomar. Esses algoritmos, são a 
“rede neural” do sistema e podem servir para fins diversos dependendo do pro-
pósito buscado pela corporação. Uma empresa pode compreender melhor o 
comportamento de um cliente, um médico pode saber se o paciente de uma clí-
nica necessitará ser internado em determinado período ou de que maneira, é 
possível reduzir despesas dentro de uma empresa. A Amazon usa a inteligência 
de algoritmos para indicar produtos aos seus clientes. A Netflix segue o mesmo 
caminho indicando séries conforme as séries já assistidas por seus clientes. Ce-
zar Taurion(2013), em seu livro Big Data, faz uma analogia em que as ferramen-
tas de Big Data, representarão para as corporações e para a sociedade a mesma 
importância que o microscópio representou para a medicina. Uma ferramenta de 
análise onde se pode extrair informações, prever incidentes e ter a capacidade 
de corrigi-los quando existentes, ou até mesmo evitá-los. 
Os algoritmos de sistemas preditivos, que com base em dados processa-
dos “predizem” um fato com grandes probabilidades de ocorrer, são um grande 
desafio a ser superado nessa lacuna que existe entre aplicabilidade em tempo 
real, e análise de dados anteriores para se tomar decisões. Os sistemas relaci-
onais de bancos de dados, há tempos aplicados em empresas e rendendo su-
cesso nesse ponto, tornam-se incapazes tanto de trabalhar com o imenso nú-
mero de informações quanto fazer análises preditivas e em tempo real. Nesse 
conceito a streaming computing, que trabalha com dados em tempo real e 
grande fluxo de dados, como, em sistemas de trânsito, que monitoram o tráfego 
de veículos em determinada cidade, e que transmitem ao usuário quala melhor 
rota a ser tomada para chegar ao seu destino, através de seus algoritmos, traz 
soluções práticas e rápidas aos seus usuários. (Taurion, 2013). 
 
No entanto, deve-se seguir o princípio de que não existe a melhor ferra-
menta, mas sim a que melhor se adéqua as necessidades da corporação. Para 
 
 
 
13 
algumas corporações, o uso de ferramentas tradicionais SQL, com sistemas pre-
ventivos, que comparam vendas em períodos do ano, para projetar promoções, 
por exemplo, já são suficientes para o negócio. Portanto, há que se considerar 
as necessidades de negócio para adotar a ferramenta apropriada e que traga o 
resultado esperado. 
 
A Visão Do Big Data 
 
Fox e Hendler (2011) também anteciparam que estamos vivendo com 
uma nova abordagem chamada de “Big Data”. Esta abordagem está surgindo 
em decorrência da geração, e, consequentemente, da necessidade da coleta de 
grande volume de dados com formatos variados. Ademais, estes dados ainda 
precisam ser geridos e, neste sentido, Hendler e Fox continuam e observam que 
a gestão destes recursos possibilitará a resolução de problemas que nem sabí-
amos que existiam. No entanto, vale ressaltar que não podemos prescindir de 
ferramentas, pois a capacidade do ser humano de analisar dados e informações 
com múltiplas facetas é limitada. Logo, são necessários alguns instrumentos que 
nos auxiliem a executar estas tarefas. A necessidade de vencer o desafio, reu-
nindo e analisando fontes de diversas naturezas, deu origem a pesquisas que 
nos levaram ao tema “Big Data”. Estas pesquisas foram desenhadas a partir de 
três aspectos iniciais (DAVENPORT, 2014):. A múltipla natureza dos dados – 
aspecto relacionado com as diferentes fontes disponíveis 
O uso de processamento em nuvem – aspecto relacionado ao uso ilimi-
tado de recursos computacionais e com processamento em larga escala, com a 
possibilidade de redução de custos (economia de escala – é o aspecto econô-
mico-financeiro). Uso de tecnologias específicas, tais como processamento de 
rotinas em paralelo e ferramentas para otimização como Hadoop e Map Reduce, 
HDFS , além de abordagens de Machine Learning e Analytics A abordagem de 
Big Data está apoiada em quatro outros fatores de sustentação, conhecidos 
como os 4 Vs do Big Data: Volume, Variedade, Velocidade e Veracidade (DUM-
BILL, 2012). A seguir será apresentado um breve esclarecimento do papel de 
cada um desses componentes: O primeiro V é de Volume e está ligado ao grande 
 
 
 
14 
quantitativo de dados e informações que nos cercam no cotidiano. Já o segundo 
V está ligado à variedade destes recursos. Devido à forte relação entre Volume 
e Variedade, estes fatores serão comentados em conjunto. A multiplicidade de 
dispositivos e a capacidade destes dispositivos interagirem em rede está promo-
vendo a verdadeira inundação de dados. Cada um de nós carrega junto de si um 
celular, que agindo como um sensor, pode enviar informação de localização das 
pessoas e permitir a realização de negócios direcionados. Ao levarmos em con-
sideração que o mundo tem cerca de 7 bilhões de habitantes (WIKIPEDIA, 2014) 
e que aproximadamente 6 bilhões possuem celulares (ONUBR, 2013), pensem 
no volume e na variedade de dados que pode ser gerado, captado, processado, 
(re)utilizado e entregue. 
As cidades estão repletas de câmeras de monitoramento nos prédios, lo-
jas, ruas e avenidas. Qualquer cidadão pode gravar e postar um vídeo em mídias 
sociais ou no Youtube. Estima-se que a quantidade de vídeos produzidos diari-
amente ultrapassa a produção dos primeiros 50 anos de televisão (DAVEN-
PORT, 2014). Saindo do cotidiano e observando o ambiente de ciência e tecno-
logia, temos muitos outros exemplos. Os projetos de pesquisa de perfuração de 
petróleo em águas profundas, incluindo o pré-sal (CIARINI, 2013; SANTOS, 
2014), além de projetos de pesquisa em astronomia, estão impulsionando o uso 
da abordagem de Big Data (PORTO, 2013). Adiciona-se a esse cenário, uma 
vasta coleção de outras fontes e formas para geração de unidades documentá-
rias. 
 
O crescimento do uso de documentos digitais e páginas Web nas organi-
zações, recursos estes estruturados por meio de ferramentas para Gestão de 
Conteúdo (RIBEIRO, 2012), bem como o desenvolvimento de propostas de uso 
da Web of Data e Linked Data (RIBEIRO, ALMEIDA, 2011; RIBEIRO, PEREIRA, 
2014) também têm contribuído para um aumento em Volume e Variedade de 
dados e informação. Voltando aos 4 Vs do Big Data, chega-se agora ao terceiro 
V, de velocidade. 
 
A melhoria dos canais de transmissão, com redes em fibra ótica e emis-
sores de sinais de alta capacidade, o uso de satélites, o uso de outras bandas 
 
 
 
15 
para a telefonia celular, as comunicações em tempo real para controle de pro-
cessos na internet, os workflows científicos com processamento paralelo e clus-
ter de processamentos vem possibilitando atingir uma maior velocidade para 
troca de dados e informação (MATTOSO, 2013). Ademais, é possível afirmar 
que a velocidade continuará crescendo, pois o desenvolvimento da tecnologia 
de processadores, dos canais e do hardware para armazenamento (discos rígi-
dos e memória rápida – flash memory), duplica o seu poder a cada período de 2 
anos (FLORISSI, 2012). O quarto V é de Veracidade. 
 
A qualidade dos dados e informação é característica essencial para que 
os usuários interessados (executivos, gestores públicos e a sociedade em geral) 
usem e (re)usem os dados de maneira apropriada e real, gerando informações 
críveis para eles mesmos. Para concluir a noção de Big Data ainda vale explorar 
um componente que faz parte do terceiro aspecto relacionado anteriormente por 
Davenport. A discussão sobre o trabalho de análise dos dados, entendidos pela 
noção de Big Data Analytics. 
 
 
Sistemas Tradicionais X Sistemas De Big Data 
Analytics 
 
O gerenciamento de informações há tempos é um conceito adotado em 
corporações que desejam aperfeiçoar seus processos através de métricas de 
recolhimento e tratamento de dados. A diferença no processamento de dados 
de modelos tradicionais (SQL) para modelos de Big Data Analytics, começa pela 
diferença entre escalabilidade vertical e horizontal. 
 
Na escalabilidade vertical, usada em sistemas SQL, para poder ter um 
melhor poder de processamento, investe-se em máquinas com tecnologias mais 
avançadas e consequentemente mais caras, assim aprimorando o processa-
mento dos dados. Na escalabilidade horizontal, usa-se computação paralela em 
que maquinas de nível intermediário “commodities”, que são usadas em conjunto 
para processar uma quantidade de dados que apenas uma delas seria incapaz 
 
 
 
16 
de processar, assim, reduzindo custos e possibilitando o processamento de 
grandes volumes de dados. (Coelho, 2004). 
 
Nos modelos tradicionais, o conceito de Business Intelligence, que em 
síntese, é uma técnica de gerenciamento de negócios orientado à análise de 
informações, com o intuito de conhecer fatos que afetam positiva ou negativa-
mente o negócio, sendo um forte auxiliar nas tomadas de decisões. 
 
A ferramenta ETL (Extração, Transformação e Carregamento), seguindo 
o princípio do Business Intelligence, é uma tecnologia usada em muitas corpo-
rações, e que faz a coleta de dados de todos os tipos e formatos, transforma-os, 
através de algoritmos, aplicando princípios de correlações entre esses dados e 
carrega-os em um ambiente de visualização, em que administradores da alta 
gerência, podem visualizá-los, podendo extrair informações que os permitirão 
ações de melhoria nos processos organizacionais. 
 
No processo de análise de informações, a ferramenta OLAP (Processo 
analítico Online), auxilia na tomada de decisões através de cubos multidimensi-
onais que oferecem diferentes perspectivas sobre informações da empresa 
como regiões e períodos em que determinados produtos são mais vendidos, pa-
drões de consumo dos clientes,entre outras analises. (Intel, 2016); A quantidade 
de dispositivos somada aos diversos formatos de arquivos, e a necessidade da 
extrair de valor dos mesmos, mostrou a limitação dos modelos relacionais, que 
serviam bem para o tratamento de dados estruturados, mas não possibilitavam 
o tratamento de dados semiestruturados ou não estruturados. 
 
Esse motivo foi um dos principais motivadores da busca de ferramentas 
NOSQL, que trabalham com bancos de dados não relacionais. Além da maior 
quantidade de dados, sistemas NOSQL são preparados para trabalhar em siste-
mas instáveis em relação aos modelos RMDBS (Sistema de gestão de Bancos 
de dados Relacionais), tendo um processamento mais complexo. Ainda no mo-
delo NOSQL, os dados oriundos de diversos dispositivos desde aparelhos mó-
biles até servidores, são replicados em clusters onde são processados através 
de ferramentas Analytics, e posteriormente visualizados através de gráficos, 
 
 
 
17 
dashboards, entre outras ferramentas de análise, tal qual no modelo ETL, tam-
bém usado nos modelos relacionais. O processo conhecido como retroalimenta-
ção, em que dados já processados são novamente usados em um segundo pro-
cessamento contribui para manter informações atualizadas e confiáveis. (Intel, 
2015). 
 
FERRAMENTAS 
 
Ambientes Em Nuvem 
 
A computação em nuvens (Cloud Computing) é uma grande aliada no uso 
de ferramentas de big data. A queda no preço de armazenamento ao longo dos 
anos, aliada à elasticidade que ambientes em nuvem oferecem facilitam o 
acesso a esses serviços até mesmo para corporações que não tem muito di-
nheiro para investir. Diferentemente de mainframes que custam pra empresa um 
valor considerável, e muitas vezes não é utilizado completamente, os ambientes 
em nuvem permitem o pagamento por hora e somente cobram pela quantidade 
de informação necessitada pela empresa. A escalabilidade permite que as con-
figurações de nuvem, quanto ao número de visitas ao sistema, desempenho, 
processamento dos dados entre outros, seja aumentada somente quando a em-
presa realmente necessite disso, como em épocas em que as vendas aumen-
tam, Natal e Black Friday, por exemplo, e posteriormente volte a operar com 
menos servidores, evitando gastos desnecessários com servidores que seriam 
usados apenas em um período do ano. (CPBR6, 2013). 
 
HDFS 
 
 
O Hadoop Distributed File System ou Sistema de arquivos distribuídos 
surge com a necessidade de se trabalhar com arquivos grandes. O HDFS faz a 
quebra em blocos desses arquivos e os distribui em diversos nós (máquinas), 
com replicação em grau três como segurança no caso de um nó falhar. O Name 
Node é a máquina responsável pelo gerenciamento dos outros nós, e envia in-
formações (Heartbeats) para o código, em caso de um nó falhar, além fazer a 
 
 
 
18 
redistribuição dos blocos de dados quando houver falha, sempre mantendo grau 
três. (Paiva, 2016) 
 
 
YARN 
 
É um gerenciador de recursos distribuídos do cluster. Através do Resou-
rce Manager, realiza a locação de recursos nos nós do cluster para a realização 
de tarefas das aplicações. Dessa maneira, cada aplicação sabe em que maquina 
os seus recursos estão alocados, e mantém o princípio da localidade, que é re-
alizar o processamento do código onde estão os dados. (Yarn, 2016). 
 
Map Reduce 
 
É o sistema analítico do Hadoop desenvolvido para operar com grandes 
volumes de dados. Segue o princípio da localidade em que o código é enviado 
para o local onde os dados estão para ser processado. O processamento analí-
tico é distribuído em vários servidores, dos quais se deseja tirar informação. Atra-
vés de um processamento paralelo/distribuído, os dados são divididos em parti-
ções ou ficheiros através da função Split. Nesse processo, o Map reduce monta 
a separação dos dados em partições, mapeia as atividades em cada local e du-
plica em ambientes e depois faz as reduções. Durante o mapeamento através 
do processamento em cada nó da partição ou cluster, são formados pares valor 
chave enviados ao redutor, agrupando pares com as mesma características. Ba-
sicamente são três fazes, a saber: Map, onde todos os dados são reunidos; 
Shuffle, onde os dados são reunidos e organizados e Reduce, onde os dados 
são associados e correlacionados. Nem todos os algoritmos se encaixam nesse 
modelo. (Paiva, 2016). 
 
 
 
HADOOP 
 
 
 
 
19 
É a ferramenta mais importante de Big Data. Através de nós de clusters 
usa computação distribuída com alta escalabilidade, tolerância a falhas e confi-
abilidade. Sendo uma plataforma Java de computação, ela é voltada para clus-
ters e processamento de grande volume de dados A ideia principal do Hadoop é 
tratar essa grande quantidades de dados sem ter a necessidade de copiar esses 
dados em outro servidor, o que ocasionaria mais tempo e investimento. No pro-
cesso Hadoop, os dados são tratados dentro dos servidores e em tempo real, 
gerando mais praticidade no processamento e economicidade de tempo e di-
nheiro. Busca manter a redundância e tolerância a falhas através da replicação 
dos dados, assim, se houver falha em um dos clusters (rodapé), haverá outro 
disponível para manter o processamento, além de poder executar um algoritmo, 
em qualquer uma das partições ou clusters, sendo esse algoritmo disseminado 
em outros nós de clusters, o que simplifica o processo e deixa o sistema mais 
rápido. É formado basicamente pelo framework Map Reduce, pelo gerenciador 
de recursos distribuídos (YARN) e pelo sistema de arquivos distribuídos (HDFS). 
(Intel, 2016) 
 
MPP 
 
Massively Parallel Processing ou processamento massivo paralelo, é um 
paradigma de Big Data, feito para processar grandes quantidades de informa-
ções, é escalável em relação a quantidade de dados, e suporta linguagem SQL 
e tabelas relacionais, sua diferença quanto ao Hadoop reside no fato de que é 
um paradigma de estrutura rígida, e não permite trabalhar com imagens ou do-
cumentos de texto. Pode trabalhar em conjunto com Data Warehouse, fazendo 
operações paralelas. (Big Data Now, 2013). 
 
HBASE 
 
É um banco de dados Nosql que processa grandes volumes de dados de 
maneira rápida e em tempo real. Trabalha com o conceito chave – valor, em que 
cada dado é associado a outro trazendo uma característica similar ao modelo 
relacional com sua organização se dando em linhas, colunas, tabelas e famílias 
de colunas. No entanto não há a obrigatoriedade de esquemas, como ocorre no 
 
 
 
20 
modelo SQL, portanto pode haver linhas sem determinadas colunas e vice-
versa. Nesse modelo, diferentemente do SQL, os dados não são alterados, ape-
nas somados, podendo haver várias versões sobre determinada chave ou valor. 
(Paiva, 2016)/(CPBR6, 2013) 
 
SPARK 
 
Ferramenta de processamento de dados que roda até 100 vezes mais 
rápido que o Map Reduce. Como o Map reduce não processa bem todos os 
algoritmos, o Spark atua sendo mais abrangente na questão de diferentes tipos 
de processamento. Também executa o código em paralelo. Sua principal dife-
rença em relação ao Map Reduce é o fato deste persistir em disco. O Spark 
trabalha em memória, faz encadeamento de funções e só apresenta o resultado 
no fim do processamento. O driver, aplicação principal do Spark, faz alocação 
maquinas no cluster para processamento de funções. Pode trabalhar tanto com 
o paradigma SQL quanto o NOSQL. (Paiva, 2016) 
 
Machine Learning 
 
Machine Learning é o termo que designa o processo de ensinamento da 
máquina a “entender” dados que a princípio parecem não fazer sentido, pro-
cessá-los e tirar algum valor disso. Pode-se usar machine learning, por exemplo, 
em redes sociais, posts ou tuites, com expressões diferentes das formais, por 
exemplo: “Pato passa em branco no jogo do tricolor”, usam-se algoritmos para 
que a máquina entenda que “Pato” não é um animal e sim um jogador de futebol, 
“passar em branco” significa não fazer gol e “tricolor”significa um time de futebol, 
nesse caso, pode-se medir o nível de satisfação dos torcedores em relação ao 
time, ou em casos parecidos, o nível de satisfação de clientes em relação a uma-
empresa, através do que eles postam nas redes sociais. Algoritmos de machine 
learning auxiliam principalmente a transformar dados que a princípio seriam não 
estruturados, em dados estruturados. Outra forma de usar machine learning é 
através de computação cognitiva, e biometria. Com base no comportamento de 
um indivíduo em frente ao caixa eletrônico, usa-se uma tecnologia kinect, que 
mapeia regiões do corpo do suspeito, e através de algoritmos de inteligência 
 
 
 
21 
artificial, é possível reconhecer o perfil comportamental de um bandido ou frau-
dador de cartões, passando à segurança do local essas informações, pode-se 
melhorar a segurança do local. (Nogare, 2014) fazer gol e “tricolor” significa um 
time de futebol, nesse caso, pode-se medir o nível de satisfação dos torcedores 
em relação ao time, ou em casos parecidos, o nível de satisfação de clientes em 
relação a uma empresa, através do que eles postam nas redes sociais. Algorit-
mos de machine learning auxiliam principalmente a transformar dados que a 
princípio seriam não estruturados, em dados estruturados. Outra forma de usar 
machine learning é através de computação cognitiva, e biometria. Com base no 
comportamento de um indivíduo em frente ao caixa eletrônico, usa-se uma tec-
nologia kinect, que mapeia regiões do corpo do suspeito, e através de algoritmos 
de inteligência artificial, é possível reconhecer o perfil comportamental de um 
bandido ou fraudador de cartões, passando à segurança do local essas informa-
ções, pode-se melhorar a segurança do local. (Nogare, 2014) 
 
Plataformas de Big Data 
 
Apache Spark 
 
Apache Spark é um sistema rápido e de uso geral para computação em 
cluster. Ele fornece APIs de alto nível em Java, Scala, Python e R, além de su-
portar gráficos de execução em geral. Conforme 1 demonstrado pela Figura 2, 
ele também suporta um rico conjunto de ferramentas de alto-nível, incluindo 
Spark SQL para SQL e processamento de dados estruturados, MLlib para apren-
dizado de máquina, GraphX para processamento gráfico, e Spark Streaming 
para processamento de dados em tempo real. 
 
 
 
 
 
 
 
 
 
 
22 
 
 
 
 
Figura 2: Spark 
 
Diversas empresas e organizações utilizam Spark em suas aplicações. 
Entre elas, podemos destacar: Amazon, Baidu, eBay Inc. (agregação de logs de 
transações e análises), Yahoo!, Grupon, NASA JPL - Deep Space Network e 
Yahoo!. 
 
Componentes Aplicações Spark executam como conjuntos de processos 
independentes em um cluster, coordenados pelo objeto SparkContext presente 
no programa principal (também chamado de programa driver ). Para ser execu-
tado em um cluster, o SparkContext pode se conectar a vários gerenciadores 
(gerenciador próprio ou Mesos/YARN), que alocam recursos entre os progra-
mas. Uma vez conectado, o Spark adquire executors em nós do cluster, que são 
processos que realizam cálculos e armazenam dados da aplicação. Em seguida, 
ele envia o código da aplicação no formato JAR ou Python para estes. Final-
mente, o SparkContext envia tarefas para os executors. Todo este processo está 
ilustrado na Figura 3. 
 
 
 
 
 
 
 
 
 
Figura 3: Processo completo 
 
Modelo de Programação 
 
 
 
 
23 
Para utilizar o Spark, os desenvolvedores devem escrever um programa 
driver que implementa o controle de fluxo da aplicação em alto nível e inicia as 
operações em paralelo. Duas abstrações principais são utilizadas para descre-
ver um programa em paralelo: resilient distributed datasets (RDDs) e operações 
paralelas sobre estes RDDs. RDSs são coleções de objetos, com somente per-
missão de leitura, particionados entre todas as máquinas. Estes sempre podem 
ser reconstruídos caso uma destas partições seja perdida. Na sua implementa-
ção, RDDs são objetos Scala que podem ser construídos a partir de arquivos de 
um sistema compartilhado (HDFS), da paralelização de uma coleção Scala (ar-
ray), da transformação de outro RDD ou da alteração da persistência de um RDD 
já existente. Dois tipos de operações podem ser aplicadas sobre RDDs: trans-
formações e ações. A primeira cria novos conjuntos de dados a partir de um 
conjunto existente, enquanto que a segunda, após executar uma operação sobre 
o conjunto, retorna o valor ao programa driver. Conforme apresentado em as 
operações existentes são reproduzidas pela Figura 4. 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 4: Processos de programação 
 
 
 
 
 
 
As principais operações paralelas que podem ser aplicadas em RDDs 
são: reduce, collect e foreach. A operação reduce combina elementos dos con-
 
 
 
24 
juntos de dados utilizando uma função de associação. Já a operação collect en-
via todos os elementos de um conjunto de dados (RDD) para o programa driver. 
Por fim, a operação foreach aplica uma determinada função, informada pelo pro-
gramador, em cada elemento de um RDD. Diferentemente de outras platafor-
mas, o Spark não suporta a operação de redução de forma paralela, isto é, os 
resultados desta operação são coletados apenas pelo programa driver. 
 
Apache Storm 
 
Storm é uma plataforma distribuída para o processamento de fluxo de da-
dos em tempo real. Ele foi construído para ser escalável, resiliente, extensível, 
eficiente e fácil de administrar. Diversas empresas e organizações utilizam o 
Apache Storm. Entre elas, podemos destacar: Twitter, Baidu, Spotify, Verisign, 
Yahoo! e Mercado Livre. 
 
Componentes do Storm 
 
Conforme apresentado em, a arquitetura de processamento de dados do 
Storm consiste em streams de tuplas percorrendo uma topologia. Uma topologia 
é um grafo direcionado (que admite ciclos) onde os vértices representam com-
putação e as arestas representam o fluxo dos dados entre os componentes. Por 
sua vez, os vértices podem ser divididos em duas categorias: spouts e bolts. A 
Figura 5(a) ilustra uma topologia no Storm e a Figura 5(b) exemplifica a topologia 
de um MapReduce. Spouts são a origem do fluxo de dados em uma topologia. 
Eles são responsáveis por ler tuplas de uma fonte externa e inseri-las na topolo-
gia. No aspecto tolerância a falhas, estes vértices são divididos em confiáveis e 
não-confiáveis, onde os primeiros são capazes de reexecutar uma tupla caso o 
Storm tenha falhado ao processá-la. Todo o processamento nas topologias é 
feito ns bolts. Bolts podem tem múltiplas funções que vão desde aplicação de 
filtros, funções, agregações, associações até comunicação com bancos de da-
dos. Eles podem aplicar apenas transformações simples em streams. São ne-
cessários vários passos, e consequentemente vários bolts em transformações 
mais complexas. 
 
 
 
 
25 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 5: Componentes do Storm 
 
 
Modelo de Execução 
 
O Storm executa em um cluster distribuído. Clientes submetem topologias 
para execução a um nodo mestre chamado de Nimbus. Este é responsável por 
distribuir e coordenar a execução de uma topologia. O processamento em si é 
realizado pelos workers. Cada um destes pode executar um ou mais worker pro-
cesses. Por sua vez, cada worker process executa uma JVM com um ou mais 
executors, que são compostos por uma ou mais tarefas (tasks). O processa-
mento de um bolt ou spout é realizado por estas tarefas. Estes conceitos são 
melhor ilustrados pela Figura 6. O conceito de tarefas permite um paralelismo 
intra-bolt/intra-spout e o executors permitem paralelismo entre as topologias. Os 
processos denominados worker processes se comportam como containers nas 
máquinas que estão executando uma determinada topologia. 
 
 
 
 
 
 
 
 
 
 
 
 
 
26 
 
 
 
 
 
 
 
 
 
 
 
Figura 6: Modelos de execução 
 
 
Apache Flink 
 
Apache Flink é uma plataforma para processamento de dados deforma 
eficiente, distribuída e de uso geral, que ainda está em fase de incubação pela 
Apache. Ele apresenta abstrações de programação em Java e Scala, um geren-
ciador de execução de alto desempenho e otimização automática de código. Ele 
tem suporte nativo para iterações, iterações incrementais e programas compos-
tos por grandes DAGs de operações. Programas de análise, em Flink, são pro-
gramas normais que implementam transformações em conjuntos de dados (data 
sets). Estas transformações podem ser: 
 
• Map: A partir de um elemento, gera um novo elemento (Figura 7); 
 
 
 
 
Figura 7: Trecho do código-fonte em Java para operação map() no Apache 
Flink 
 
 
 
 
 
 
 
 
 
• FlatMap: A partir de um elemento produz zero ou mais elementos; 
 
 
 
 
27 
 
• MapPartition: Transforma uma partição paralela em uma única cha-
mada de função. Esta função pega a partição como um objeto Iterable e pode 
produzir um número arbitrário de resultados. O número de elemento em cada 
partição depende do grau de paralelismo de operações anteriores; 
 
• Filter : Avalia uma função booleana para cada elemento e mantém 
aqueles para os quais a função retorna verdadeiro; 
 
• Reduce: Combina um grupo de elementos em um único elemento 
através da combinação de dois elementos repetidamente em um novo elemento 
(Figura 8); 
 
 
 
 
Figura 8: Trecho do código-fonte em Java para operação reduce() no Apa-
che Flink 
 
• ReduceGroup: Combina um grupo de elementos em um ou mais 
elementos; 
 
 
• Aggregate: Agrega um conjunto de valores em um único valor. As 
funções de agregação podem ser vistas como uma função de redução incorpo-
rada na plataforma; 
 
• Join: Junta dois conjuntos de dados através da criação de todos os 
pares de elementos cujas chaves são iguais; 
 
• CoGroup: Variante bidimensional da operação de redução; 
 
 
 
 
 
28 
• Cross: Constrói o produto cartesiano de duas entradas, criando to-
dos os pares de elementos; 
 
• Union: Produz a união de dois conjuntos de dados. Esta operação 
acontece implicitamente se mais de um conjunto de dados é usado como entrada 
de e alguma função; 
 
• Rebalance: Faz o balanceamento das partições paralelas de um 
conjunto de dados de forma uniforme 
 
• Hash-Partition: Particiona um conjunto utilizando hash em uma 
determinada chave de dados; 
 
• Custom Partitioning: Permite definir manualmente um particiona-
mento sobre os dados; 
 
• Sort Partition: Ordena localmente um campo em uma determinada 
ordem em todas as partições de um conjunto de dados; 
 
• First-n: Retorna os primeiros n elementos (arbitrários) de um con-
junto de dados. Os conjuntos de dados são inicialmente criados a partir de al-
guma fonte (leitura de arquivos ou coleções locais). Os resultados são retorna-
dos via sinks que podem escrever diretamente em um arquivo distribuído ou na 
saída padrão. 
 
Flink Stack 
 
As diferentes camadas da pilha do Flink são construídas de forma a au-
mentar o nível de abstração que as representações em programa aceitam (Fi-
gura 9). Os tipos concretos e as interações com a biblioteca de execução são 
definidas nas camadas mais altas. A camada de API implementa múltiplas APIs 
que criam DAGs de operadores para os seus programas. Cada API necessita 
de serializadores, comparadores, etc, que descrevem a interação entre seus 
tipos de dados e a biblioteca de execução do Flink. As camadas de API comum 
 
 
 
29 
do Flink e do otimizador recebem o programa na forma de DAGs de operadores. 
Os operadores são específicos (Map, Join, Filter, Reduce, ...), mas os dados 
são variados. 
 
A camada de execução (runtime) recebe um programa no formato Job-
Graph, que é uma representação paralela e genérica do fluxo de dados com 
tarefas arbitrárias que consomem e produzem streams de dados. 
 
 
 
 
 
 
 
 
 
 
 
Figura 9: Stack 
 
 
Componentes 
 
Logicamente o Flink segue o modelo mestre-escravo, através de dois 
componentes: o JobManager e os TaskManagers. O JobManager é o coordena-
dor do sistema, enquanto que os TaskManagers são os trabalhadores que exe-
cutam partes do programa paralelo (Figura 10). Ao ser submetido para execução 
no ambiente, é criado um cliente que realiza um pré-processamento e transforma 
o programa em um fluxo de dados paralelo, que é então executado pelo JobMa-
nager e pelos TaskManagers. 
 
 
 
 
 
 
 
 
 
 
 
 
30 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 10: Componentes 
 
 
Modelo de Execução 
 
No Flink, os recursos de execução são definidos através de Task Slots. 
Cada TaskManager possui um ou mais slots que podem executar tarefas em 
paralelo como em um pipeline. Como exemplo, pode-se utilizar as n instâncias 
paralelas de uma função de mapeamento juntamente com as n instâncias para-
lelas de uma função de redução. Estas tarefas podem vir a ser executadas de 
forma concorrente, principalmente em programas envolvendo streaming de da-
dos. 
 
 
 
 
 
 
 
 
 
 
Figura 11: Modelos de execução 
 
 
A Figura 11 demonstra o escalonamento de tarefas no Flink, conside-
rando um cluster com 2 TaskManagers, cada um com 3 slots. As funções que 
 
 
 
31 
atuam como origem dos dados e as funções de mapeamento possuem um pa-
ralelismo de 4, enquanto que as funções de redução são executadas com para-
lelismo de 3. 
 
O esforço para análise: o trabalho com Big Data Analytics O objetivo da 
tarefa de Analytics é executar a análise preditiva dos dados por meio da execu-
ção de mining (minerações). Segundo os autores Oliveira (2013) e Tavares 
(2014), inicialmente, serão tratados os dados com o uso de técnicas estatísticas, 
para separação e reunião de conjuntos (denominado de fase de discovery). Adi-
cionalmente, para executar a tarefa também pode-se fazer uso de técnicas para 
categorização, limpeza e transformação dos dados, utilizando, inclusive, a visão 
da proveniência (fontes de origem) dos dados para auxiliar no processo de ca-
tegorização. Ao final desta fase é possível chegar à definição e preparação de 
modelos (fase de data preparation e model planning) que serão úteis na cons-
trução do grande conjunto de dados, chamado de lago de dados (data lake). A 
carga de dados (denominada fase de ingest) ocorrerá em seguida e será reali-
zada para povoar o lago de dados. No lago estarão reunidos todos os dados que 
serão alvo de análise. Por fim, os resultados que serão obtidos a partir do trata-
mento e análise do conteúdo do lago serão apresentados com uso de ferramen-
tas de visualização e deverão estar associados ao contexto de negócios (OLI-
VEIRA, 2013; TAVARES, 2014). A análise de dados que atendem aos requisitos 
descritos anteriormente, precisará ser desenvolvida segundo uma nova arquite-
tura de análise, onde dados serão obtidos de múltiplas fontes e em tecnologias 
diversas. O ponto central desta análise está ligado à capacidade de correlacionar 
dados, pois, como já observado, o ser humano possui limitações para fazer aná-
lises associadas a múltiplas dimensões. Em essência, quando temos uma pe-
quena quantidade de dados (little data) não temos muita dificuldade de correla-
cioná-los, pois existem poucas inter-relações. Mas, com uma grande quantidade 
(big data), temos muitos dados sendo gerados em paralelo, logo, surge a dificul-
dade para correlacioná-los (SEYMOUR, 2014). Então, decorrente deste cenário, 
chegamos não apenas a um novo conjunto de passos para análise, mas também 
a um outro perfil profissional atuando neste mercado. Na visão de Sathi (2013), 
 
 
 
32 
a vertente de Analytics começa a se integrar aos processos de negócio das em-
presas, tendo em vista a mudança do comportamento nos executivos e na nova 
ótica de produção de bens e serviços que está influenciando estas organizações. 
 
O Profissional Do Analytics 
 
Fruto do trabalho com Analytics cunhou-se um novo perfil profissional. 
Este perfil passou a ser denominado de Cientistade Dados (Data Scientist). A 
característica principal deste profissional é ter a capacidade de aplicar ferramen-
tas analíticas e algoritmos para gerar previsões sobre produtos e serviços (DA-
VENPORT; PATIL, 2012). Oliveira (2013) complementa e detalha que este perfil 
deve ter forte conhecimento em disciplinas como a matemática e a estatística, 
com treinamento avançado em estratégias para tratamento de grandes conjun-
tos de dados, fazendo uso de modelos matemáticos, formulação de hipóteses e 
técnicas de regressão. Já Brietman (2013) observa que o Cientista de Dados 
deve ter capacidade de levantar requisitos dos usuários, buscando não apenas 
nas necessidades destes usuários, mas também nos outros envolvidos no am-
biente sob análise (clientes, parceiros de negócio, informações de mercado, 
feeds de notícias, redes sociais, blogs, dentre outros). Para Oliveira (2013), o 
cientista de dados deve ser um técnico cético, curioso, criativo, comunicativo e 
deve saber trabalhar em colaboração. Ademais, o cientista de dados deve sem-
pre (re)avaliar questões durante as primeiras fases do desenvolvimento do tra-
balho. Oliveira continua e apresenta questões que podem auxiliar na revisão 
destas fases (OLIVEIRA, 2013): Na fase de Discovery: 
 
• Eu possuo o conhecimento suficiente do ambiente de dados e in-
formação? 
 
 
• Eu tenho informação suficiente ara esboçar um plano analítico e 
compartilhar com meus pares? 
 
• Eu consigo desenvolver trabalhos para organização para tipos de 
problemas? 
 
 
 
33 
 
Categorizações e classificações de dados? Projeto de conjuntos (clusters) 
de dados? 
 
• Eu consigo esboçar e realizar entrevistas para conhecer o contexto 
e domínio que será trabalhado? 
 
• Eu posso identificar as diferentes fontes de dados? Na fase de 
Data Preparation e Model Planning: 
 
• Eu tenho um conjunto de dados que seja suficiente e de boa qua-
lidade para iniciar a construção de um modelo? 
 
• Eu tenho uma boa ideia sobre o tipo de modelo que vou testar? 
 
 
• Eu posso refinar o modelo analítico? 
 
 
Em suma, os projetos de Big Data são desenvolvidos com os objetivos de 
criar novos produtos, compreender novas necessidades dos clientes e seus 
comportamentos, bem como perceber novos mercados. Para isto, é necessário 
desenvolver teorias para tratar com clientes e usuários, construindo hipóteses e 
identificando dados e informações relevantes. Este processo deve ser repetido 
e refinado, de acordo com os experimentos realizados e as respostas obtidas 
(MARCHAND; PEPPARD, 2013). 
 
 
 
 
 
 
O Impacto Do Big Data Na Análise De Dados 
 
 
 
 
34 
Ciências como a astronomia e a genômica, que vivenciaram uma explo-
são informacional nos anos 2000, cunharam o termo big data (SCHÖNBERGER-
MAYER E CUKIER, 2013). 
 
Este termo, relacionado aos grandes volumes de dados, foi primeiramente 
citado no relatório "Data, data, everywhere: a special report on managing infor-
mation", do periódico britânico The Economist (CUKIER, 2010). Entretanto, du-
rante estes anos o termo foi sendo utilizado e relacionado a datawarehouses ou 
soluções de business intelligence (BI), com data sets de terabytes de dados. O 
fato é que big data representa muito mais que isto (TAURION, 2013) e atual-
mente, o conceito está migrando para todos os campos do conhecimento hu-
mano (SCHÖNBERGER-MAYER V.; CUKIER K., 2013). 
 
No relatório "Data: the next frontier for innovation, competition, and pro-
ductivity" é apresentada a definição de big data, como "o conjunto de dados cujo 
tamanho vai além da capacidade para capturar, armazenar, gerenciar e analisar 
de ferramentas de software de banco de dados típicos" (MANYIKA ET AL., 
2011). Outras definições para o termo são apresentadas abaixo, porém sem ri-
gidez conceitual: 
 
AKERKAR (2014) 
 
 
Big Data refere-se a conjuntos de dados, cujo tamanho está além das 
capacidades da tecnologia de banco de dados atual. É um campo emergente 
onde a tecnologia inovadora oferece alternativas para resolver os problemas ine-
rentes que aparecem quando se trabalha com dados massivos, oferecendo no-
vas maneiras de reutilizar e extrair valor a partir de informações. 
 
DUMBILL (2012) 
 
 
Big data são os dados que excedem a capacidade de processamento de 
dados de sistemas convencionais. 
 
 
 
35 
 
LOHR (2012) 
 
 
Big data é um termo de marketing, mas também um atalho para o avanço 
de tendências em tecnologia que abrem a porta a uma nova abordagem para a 
compreensão do mundo e da tomada de decisões. 
 
MINELI, CHAMBERS E DHIRAJ (2013) 
 
 
Big data é a próxima geração de data warehousing e análise de negócios 
e está pronta para entregar receitas economicamente eficientes para as empre-
sas. Este fenômeno se deve, em maior parte, ao rápido ritmo de inovação e mu-
dança que estamos vivenciando hoje. 
 
SATHI (2012) 
 
 
Existem duas fontes comuns de dados agrupados sob a bandeira do big 
data. A primeira são os dados internos (dados estruturados, não estruturados ou 
semiestruturados) da organização que, graças à automação e acesso estão 
sendo cada vez mais compartilhados. A segunda são os dados de fora da orga-
nização, como as informações disponíveis em sites de mídia social, literatura do 
produto distribuído livremente pelos concorrentes, hierarquias organizacionais 
dos clientes corporativos, dicas úteis disponíveis a partir de terceiros e reclama-
ções de clientes postados em sites de regulamentação. 
 
SCHÖNBERGER-MAYER E CUKIER (2013) 
 
 
Big data é a capacidade de uma sociedade de obter informações de ma-
neiras novas a fim de gerar ideias úteis e bens e serviços de valor significativo. 
 
 
 
36 
Assim, a verdadeira revolução não está nas máquinas que calculam dados, e 
sim nos dados em si e na maneira como usamos. 
 
TAURION (2013) 
 
 
Resumindo o que é big data em uma simples fórmula para conceitualizálo: 
Big Data = volume + variedade + velocidade + veracidade, tudo agregado + valor. 
 
ZHAO (2013) 
 
 
Big data é um sonho tornado realidade para os cientistas de dados, pois 
se pode ter tudo para obter insights interessantes, que não seriam possíveis an-
tes. Big data não transforma informação e conhecimento sem análises detalha-
das. Requer soluções de armazenamento grandes e escaláveis, bem como ca-
pacidades e aplicações de análise escaláveis. Análise não significa que se pode 
jogar dados em alguma machinelearning e algoritmos estatísticos, tais como re-
des neurais, árvores de decisão, máquinas de apoio vetor, e assim por diante e 
esperar ter bons resultados automaticamente. 
 
De acordo com Mineli., Chambers e Dhiraj (2013), big data se refere a 
terceira época da era informação. A primeira foi em 1954, com a implementação 
de um sistema de folha de pagamento pela General Electric Corporation, por Joe 
Glickauf e Arthur Andersen em um computador eletrônico digital. Foi então intro-
duzida a época computacional da era da informação nas corporações America-
nas. Em meio a década de 1950 outras corporações rapidamente adotaram sis-
temas para servir a um amplo espectro de processos corporativos. Nesta época 
também tiveram início as empresas de consultoria em TI. Há aproximadamente 
trinta anos atrás, Leonard Kleinrock, Lawrence Roberts, Robert Kahn e Vint Cerf 
inventaram a internet e a segunda época da era da informação, a era da rede 
(MINELI, CHAMBERS E DHIRAJ, 2013). Os primeiros 35 anos da digitalização 
tinham foco em processos internos, posteriormente o foco ficou concentrado 
 
 
 
37 
mais em interações externas. Como um tipo de evolução, as organizações pas-
saram a ver mais, predizer mais profundamente o futuro, e dar respostas rápidas. 
 
 
A complexidade do ambiente das corporações foi incrementado com a 
globalização, tornou-se ágil e orientado a rede e as organizações puderam pas-
sar a pesquisar com inteligência suas bases de clientes. Estas organizaçõesti-
veram que organizar suas bases, analisar padrões de e-mail, gravações telefô-
nicas, mensagens instantâneas e outras evidências para determinar o modelo 
organizacional emergente. Assim, a própria forma da empresa começou a se 
modificar, habilitada pela tecnologia e estimulada pela necessidade de comple-
xidade. Esta combinação da internet e o WWW em meados dos anos 1990, no 
entanto, sinalizaram uma mudança radical não só na quantidade de dados - o 
volume, mas também na taxa com que os dados chegavam - a velocidade; na 
diversidade de fontes de onde eles chegavam e nos tipos de dados e sua dispo-
nibilidade - a variedade (BETSER E BELANGER, 2013) - os três Vs de big data. 
 
Assim, teve início mais uma era da informação a época do big data. En-
tretanto, big data não é business intelligence (BI), com "grandes" dados. Por 55 
anos as corporações de tecnologia da informação dominaram uma estrutura 
transacional de mundo, com o foco da tecnologia da informação na automatiza-
ção, eficiência e produtividade. Agora big data representa uma transição em ter-
mos de armazenamento e análise (MINELI, CHAMBERS E DHIRAJ, 2013). De 
acordo com os autores, big data tem o potencial para ser diferente das outras 
épocas por dois motivos: primeiramente, os dados podem ser analisados em sua 
forma original, não estruturada; e, a possibilidade de analisar não apenas o que 
houve no passado, mas sim prever o que irá acontecer ao redor do mundo, com 
riqueza de detalhes. 
 
Agora pode-se pensar em logs na web, vídeo clips, gravações de voz, 
documentos de repositórios como share point, dados sociais, dados abertos do 
governo e outros que irão compor o corpo analítico. O termo "ciência de dados" 
refere-se a utilização dos dados aplicados ao método científico e aos negócios. 
Este fenômeno surge viabilizado pelo aumento do poder de processamento que 
 
 
 
38 
de acordo com a lei de Moore, dobra a cada dois anos - quantidade de transis-
tores num chip. Esta contínua melhoria tornou os computadores mais rápidos, e 
a memória mais profusa. O desempenho dos algoritmos também aumentou, se-
gundo conselho de Ciência e Tecnologia da Presidência dos Estados Unidos. 
Entretanto, muitos dos ganhos com big data, acontecem não por causa de chips 
mais rápidos ou melhores algoritmos, mas sim pela existência de mais dados 
(SCHÖNBERGER-MAYER E CUKIER, 2013). Mineli, Chambers e Dhiraj (2013) 
exploram melhor a questão e identificam as razões para esta nova era: 
 
1. Tempestade perfeita da computação: big data é o resultado natural 
das quatro maiores tendências globais: a lei de Moore, computação móvel (com 
smartphones e tables), redes sociais (Facebook, Foour Square e outros), e a 
computação em nuvem (cloud computing - possibilidade de alugar ou arrendar 
hardware ou software para utilização); 
 
2. Tempestade perfeita de dados: volumes de dados transacionais fo-
ram por décadas utilizados pela maioria das grandes empresas, mas o que se 
apresenta atualmente é mais volume, velocidade e variedade - os três Vs - de 
dados que chegaram de forma inédita. Esta tempestade perfeita dos três Vs, 
torna extremamente complexo e pesado o gerenciamento de dados atual e aná-
lise de tecnologias e práticas; 
 
3. Tempestade perfeita de convergência: gerenciamento de dados 
tradicionais, análise de software, tecnologias de hardware, tecnologia de código 
aberto e commodities de hardware estão se fundindo para criar novas alternati-
vas para TI e executivos de negócios para enfrentar big data. Assim, os dados 
que antes eram considerados estáticos e banais, com término de sua utilidade 
depois que o objetivo da coleta era alcançado, se tornaram matéria-prima dos 
negócios, um recurso econômico vital, usado para criar uma nova forma de valor 
econômico. 
 
A princípio, a ideia era a de que o volume de informação crescera tanto 
que a quantidade examinada já não cabia na memória de processamento dos 
computadores, por isso os engenheiros tiveram de aprimorar os instrumentos 
 
 
 
39 
que utilizaram para fazer a análise. Esta é a origem de novas tecnologias de 
processamento como a MapReduce da Google e sua equivalente de código 
aberto, Hadoop, lançada pela Yahoo. Elas permitem que se gerenciem muito 
mais dados que antes, e os dados não precisam ser alocados em fileiras ou nas 
clássicas tabelas (SCHÖNBERGER-MAYER E CUKIER, 2013). 
 
Meio século depois de os computadores entrarem no meio social os da-
dos começaram a se acumular. Assim, o mundo não apenas está mais cheio de 
informação como também a informação está se acumulando com mais rapidez. 
Tecnólogos acreditam que a linhagem do big data remonta à época da revolução 
do silício. Certamente os sistemas modernos de TI possibilitaram o big data, mas 
em essência o avanço rumo ao big data é uma continuação da antiga busca da 
humanidade por medir, registrar e analisar o mundo (SCHÖNBERGERMAYER 
V.; CUKIER K., 2013). Abaixo mostra a evolução da utilização dos dados e infor-
mação desde sua origem até os dias atuais: 
 
8000 a.C.- Comerciantes sumérios usavam tábuas e fichas de barro para 
denotar os bens comercializados. 1086 Livro Domesday, um dos mais venerados 
tesouros britânicos, foi uma contagem abrangente - e sem precedentes - dos 
ingleses, suas terras e propriedades. 
 
1439 - Primeira revolução da informação: Impressora de Gutenberg. 
 
 
1453 e 1503 - De acordo com a historiadora Elizabeth Eisenstein, oito mi-
lhões de livros foram impressos. Volume de informações dobra na Europa, em 50 
anos. 
 
1662 - O comerciante britânico chamado John Graunt queria saber a po-
pulação de Londres na época da peste negra. Em vez de contar as pessoas, ele 
inventou uma abordagem - que hoje chamamos de "estatística"- que lhe permitiu 
estimar a população. 
 
 
 
 
40 
1880 - O Census Bureau dos Estados Unidos contratou o inventor Her-
man Hollerith, que desenvolveu um sistema de cartões perfurados e máquinas 
de tabulação para o censo de 1890. Ele conseguiu diminuir o tempo de tabulação 
do censo de oito anos para um. 
 
1920 - Descobertas da mecânica quântica abalaram para sempre o sonho 
das medições abrangentes e perfeitas. 
 
1934 - Jerzy Neyman, estatístico polonês, demonstrou que a abordagem 
da amostragem levava a erros e que para isto deveria ser considerada a aleato-
riedade na escolha da amostra. A amostragem tornou-se a solução para o pro-
blema da profusão de dados. 
 
1950-1960 - Implementação de um sistema de folha de pagamento para 
General Electric Corporation, por Joe Glickauf e Arthur Andersen em um compu-
tador eletrônico digital. Início das ideias de "Revolução da informação" e " Era 
Digital" ou "Era da informação". 
 
1980-1990 - Nesta época, Leonard Kleinrock, Lawrence Roberts, Robert 
Kahn, e Vint Cerf inventaram a internet. 40% de toda a potência computacional 
do mundo existia na forma de calculadoras de bolso. "Era da rede". 2000 Dados: 
75% dados analógicos (papel, filme, vinil, fitas magnéticas, livros, fotografia); 
25% dados digitais. 2007 Dados: 7% dados analógicos; 93% dados digitais. 
 
2010 - Ciências como a astronomia e a genômica, vivenciaram uma ex-
plosão informacional, e cunharam o termo big data, que representa uma transi-
ção em termos de armazenamento e análise. "Era big data". 
 
2013 - Dados: 2% dados analógicos; 98% dados digitais - 1200 exabytes. 
 
 
Assim, a maneira utilizada para pensar a questão, proposta por Schön-
berger-Mayer e Cukier (2013) é que big data se refere a trabalhos em grande 
escala que não podem ser feitos em escala menor, para extrair novas ideias e 
 
 
 
41 
criar novas formas de valor de maneira que se alterem os mercados, as organi-
zações, a relação entre cidadãos, governos, etc. 
 
Então, a sociedade precisará conter um pouco a obsessão pela causali-
dade e trocá-la pela correlação simples: sem saber o porquê, apenas o quê. 
Essa mudança subverte séculos de práticas

Mais conteúdos dessa disciplina