Buscar

Apostila Hadoop

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ECOSSISTEMA HADOOP 1 
 
 
Ecossistema Hadoop 
 
 
ECOSSISTEMA HADOOP 2 
Ecossistema Hadoop 
 
O Ecossistema de soluções oferecidas para o Big Data 
As tecnologias que sustentam Big Data podem ser analisadas sob duas óticas: as 
envolvidas com analytics, tendo Hadoop e MapReduce como nomes principais, e as 
tecnologias de infraestrutura, que armazenam e processam os petabytes de dados. 
Nesse aspecto, destacam-se os bancos de dados NoSQL (No significa not only SQL). 
 
O Hadoop surgiu como uma solução adequada para Big Data por vários motivos: 
 
– É um projeto open source, fato que permite a sua modificação para fins de 
customização e o torna suscetível a melhorias constantes graças à sua rede de 
colaboração. 
– Proporciona economia, já que não exige o pagamento de licenças e suporta hardware 
convencional, permitindo a criação de projetos com máquinas consideravelmente mais 
baratas. 
– O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação 
de dados. 
– O Hadoop é escalável: havendo necessidade de processamento para suportar maior 
quantidade de dados, é possível acrescentar computadores sem necessidade de 
realizar reconfigurações complexas no sistema. 
 
Mas, o que é o Hadoop? É, na pratica, uma combinação de dois projetos separados, 
que são o Hadoop MapReduce (HMR), que é um framework para processamento 
paralelo e o Hadoop Distributed File System (HDFS). O HMR é um spinoff do 
MapReduce, software que Google usa para acelerar as pesquisas endereçadas ao seu 
buscador. O HDFS é um sistema de arquivos distribuídos otimizados para atuar em 
dados não estruturados e é também baseado na tecnologia do Google, neste caso o 
Google File System. 
 
Nem todo usuário de Hadoop demanda uma escala massiva de dados ao nível do 
Facebook ou Yahoo. No entanto, empresas com razoável volume de informações não 
 
 
ECOSSISTEMA HADOOP 3 
estruturadas, como bancos, varejo, empresas aéreas e outras vão encontrar no 
Hadoop uma boa alternativa para o tratamento analítico dos seus dados. 
 
O Big Data precisa trabalhar com distribuição de processamento e elasticidade, isto é, 
suportar aplicações com volumes de dados que crescem substancialmente em pouco 
tempo. 
 
O problema é que os bancos de dados “tradicionais”, especialmente aqueles que 
exploram o modelo relacional, como o MySQL, PostgreSQL e o Oracle, não se mostram 
adequados a estes requisitos, por serem menos flexíveis. 
 
Isso acontece porque bancos de dados relacionais normalmente se baseiam em quatro 
propriedades que tornam a sua adoção segura e eficiente, razão pela quais soluções 
deste tipo são tão populares: Atomicidade, Consistência, Isolamento e Durabilidade. 
O problema é que a elasticidade, por exemplo, pode ser inviabilizada pela atomicidade 
e pela consistência. É nesse ponto que entra em cena o conceito de NoSQL, 
denominação atribuída à expressão em inglês “Not only SQL“. 
 
Via de regra, escalar (torná-lo maior) um bancos de dados NoSQL é mais fácil e menos 
custoso. Isso é possível porque, além de contar com propriedades mais flexíveis, 
bancos deste tipo já são otimizados para trabalhar com processamento paralelo, 
distribuição global (vários data centers), aumento imediato de sua capacidade e 
outros. 
 
Comunicação estratégia em Big Data 
Hoje a Comunicação não é mais tão intangível assim, sendo cada vez mais uma 
disciplina de alto valor dentro do marketing e da inteligência de negócios. Para dar 
suporte a essa nova comunicação, buscamos respostas a questões cruciais, que 
indicam como usar a comunicação, para melhorar a percepção da marca, gerar 
impacto no comportamento de consumo e agregar valor à inteligência de mercado. 
 
 
ECOSSISTEMA HADOOP 4 
Daí a importância de se trazer o Big Data para o dia a dia da comunicação, deixar os 
dados nos dizerem a que vieram. 
 
O curioso é que poucos conseguem realmente imaginar como podemos trazer a ciência 
dos dados para um universo no qual trabalhamos com o intangível, com percepções, 
reações e julgamentos, tal como é (ou parece ser) o mundo da comunicação e das 
relações públicas. Esse desafio ainda é enorme, mas é cada vez mais possível 
desvendarmos padrões e tendências, estatisticamente mensuráveis, que se escondem 
em publicações, artigos, posts, perfis e menções, ou ainda em cliques, buscas e 
interações ocultas nas redes. Matila Ghyka, filósofo e diplomata romeno, matemático 
dado para a poesia, costumava dizer que “quem quer estudar ou exercer a Magia deve 
cultivar a Matemática”. 
 
Desta forma podemos trabalhar com a Comunicação Estratégia dentro da organização, 
pois hoje podemos dizer que não se faz mais magia na comunicação, aquela que 
encanta e atrai, no meio dessa barafunda de informação que nos cerca, sem conhecer 
melhor com quem, por que, como, onde e para que estamos falando. E isso, somente 
os dados podem nos dizer, ajudando a nortear estratégia, planejamento, criação, 
performance e, por fim, os resultados que realmente interessam aos negócios. 
 
Os especialistas em comunicação trabalham integrados a cientistas de dados e 
analistas de aquisição de clientes, imprimindo ciência onde antigamente eram 
necessários inspiração e talento. Esse novo e multidisciplinar time analisa e desenha 
perfis com base nos dados históricos do cliente e seus públicos. A partir daí, realiza 
um criterioso trabalho de enriquecimento de dados, detalhando ainda mais esses perfis 
e buscando, aqueles prospects que apresentam características semelhantes aos perfis 
criados. 
 
As empresas que reconhecem a necessidade de atingir um público cada vez mais 
segmentado, incorporando novas soluções de análise de dados, estão um passo à 
frente do seu concorrente. Outro ponto importante é a possibilidade de medir o 
 
 
ECOSSISTEMA HADOOP 5 
desempenho dessa ação, já que plataformas são criadas especificamente para o 
processo, podendo assim visualizar a performance da estratégia e medir seus 
resultados. 
 
A competitividade do mercado exige maior competência e resultados 
concretos em todas as ações. A comunicação aliada à inteligência digital 
estabelece novos padrões de raciocínio e trabalho para os gestores das 
marcas. Marketing e tecnologia andam de mãos dadas. 
 
Visualização dos Dados em Big Data 
 
 
 
A visualização dos dados em Big Data é uma das ferramentas que mais crescem no 
Big Data e existe uma razão bem simples para isso: as máquinas precisam dos 
humanos e quanto mais bem representados os dados estão visualmente, maior será a 
compreensão humana. Em suma, dados dispostos de maneira visual permitem que os 
indivíduos enxerguem padrões e tenham insights mais rapidamente. 
 
A visualização de dados é mais que uma simples linha do tempo que conta uma 
história. É preciso “cavar” mais para obter resultados significativos, não se trata apenas 
imprimir um gráfico e deixar à vista até que alguém perceba algo. Entretanto, a 
 
 
ECOSSISTEMA HADOOP 6 
visualização de dados pode revelar mais facilmente insights que passariam 
despercebidos pelos analistas. 
 
Muitos analistas erram ao considerar a visualização de dados para obter “insights 
acidentais” como algo separado da exploração de dados. A exploração de dados é o 
que leva aos insights e os “insights inesperados” fazem parte do mesmo processo. 
 
As soluções de visualização de dados foram desenvolvidas, inicialmente, como uma 
ferramenta de negócios para as empresas, em escala corporativa, que poderiam ter 
recursos para contratar estatísticos e cientistas de dados capazes de analisar os dados 
capturados. 
 
A imagem é capaz de traduzir para o cérebro, deforma didática, os inputs que ele 
precisa extrair e processar as informações, agilizando o processo de tomada de 
decisão. Além do tempo economizado, a visualização de Big Data por imagens atribui 
mais assertividade às decisões dos gestores. 
 
Quando os dados são transformados em imagens gráficas, a identificação de padrões 
e tendências torna-se mais eficaz, já que o cérebro pode interpretá-los com mais 
facilidade. Uma vez juntos e em ordem, é como se os dados contassem uma história 
sobre o fenômeno estudado e, assim, as soluções parecem saltar diante dos olhos dos 
analistas. 
 
Se a tomada de decisões, por meio de dados, tornar-se regra em sua organização, 
você deve fazer com que as informações estejam disponíveis sem intermediários e de 
forma útil. Soluções de visualização de dados existem para ser colocada em uso por 
pessoas que não são especializadas. Essas soluções orientam os gestores por meio de 
um processo analítico self-service. 
 
As técnicas de visualização vêm evoluindo muito e existe uma relação circular e intensa 
dessas técnicas com o crescimento das demandas de análises de dados. Com maiores 
 
 
ECOSSISTEMA HADOOP 7 
volumes, precisamos de novas formas de visualização de dados, que nos mostrem 
padrões antes irreconhecíveis, e, por sua vez, essas novas técnicas de visualização 
incentivam o uso de mais análises, É um círculo virtuoso. 
 
Em empresas cada vez mais movidas por dados, usar os dados para guiar decisões é 
algo obrigatório e a visualização de dados pode ser usada para revelar a “verdade” de 
alguns pontos para então criar uma história. 
 
Descoberta dos Dados (Análise dos Dados) 
Estudos recentes comprovam que 85% de toda a informação do mundo está em 
formato textual (GDS PUBLISHING, 2008) (IBM, 2008). 
 
Entretanto, analisar base de dados não estruturadas como textos sempre representou 
um óbice pela grande dificuldade de sistematizar o significado do que está escrito. 
Signos gramaticais como acentos e abreviações promovem significados adversos e 
inserem uma contextualização diferente ao que foi dito (PINHEIRO, 2009). O segredo 
para que uma empresa ultrapasse a concorrência e conquiste mais consumidores, 
muitas vezes, se esconde em sua própria base de dados. 
 
Informações cadastrais, transações com clientes, preferências dos consumidores – 
referentes ou não à sua marca, e ainda outros tipos de interação nas redes sociais são 
exemplos de alguns dados que, quando organizados e analisados, apontam caminhos 
para o sucesso de um negócio. 
 
Muitos empreendimentos já coletam uma enorme quantidade de informações de 
diversas fontes, no entanto, para extrair conhecimento desse volume de dados é 
preciso fazer correlações, identificar padrões e descobrir tendências entre eles. 
 
A partir deste cenário, o desafio atual é fazer com que estes dados de várias 
procedências se integrem, dialoguem e formem uma única unidade informativa. As 
empresas que se prepararem adequadamente para este movimento sairão na frente, 
 
 
ECOSSISTEMA HADOOP 8 
pois terão a possibilidade de mapear comportamentos, entender mais o seu público e 
o mercado e enxergarem novas oportunidades. 
 
O volume é apenas o começo dos desafios dessa nova tecnologia, se temos um volume 
enorme de dados, também obtemos a variedade dos mesmos. Já pensou na 
quantidade de informações dispersas em redes sociais? Facebook, Twitter entre outros 
possuem um vasto e distinto campo de informações sendo ofertadas em público a todo 
segundo. Podemos observar a variedade de dados em e-mails, redes sociais, 
fotografias, áudios, telefones e cartões de crédito (McAFFE et al., 2012). Seja qual for 
a discussão, podemos obter infinitos pontos de vista sobre a mesma. Empresas que 
conseguem captar a variedade, seja de fontes ou de critérios, agregam mais valor ao 
negócio (Gartner). O Big Data escalona a variedade de informações das seguintes 
formas (JEWELL, DAVE et al): 
 
 Dados estruturados: são armazenados em bancos de dados, sequenciados em 
tabelas; 
 Dados semiestruturados: acompanham padrões heterogêneos, são mais difíceis 
de serem identificados, pois podem seguir diversos padrões; 
 Dados não estruturados: são misturas de dados com fontes diversificadas como 
imagens, áudios e documentos online. 
 
Um em cada três líderes não confiam nos dados que recebem (IBM). Para colher bons 
frutos do processo do Big Data é necessário obter dados verídicos, de acordo com a 
realidade. O conceito de velocidade é bem alinhado ao conceito de veracidade pela 
necessidade constante de análise em tempo real, isso significa dados que condizem 
com a realidade daquele momento, pois dados passados não podem ser considerados 
dados verídicos para o momento em que é analisado. A relevância dos dados coletados 
é tão importante quanto conceito de velocidade. A verificação dos dados coletados 
para adequação e relevância ao propósito da análise é um ponto chave para se obter 
dados que agreguem valor ao processo (HURWITZ, NUGENT, HALPER & KAUFMAN, 
2016). 
 
 
ECOSSISTEMA HADOOP 9 
Quanto maior a riqueza de dados, mais importante é saber realizar as perguntas certas 
no início de todo processo de análise (BROWN, ERIC, 2014). É necessário estar focado 
para a orientação do negócio, o valor que a coleta e análise dos dados trarão para o 
negócio. Não é viável realizar todo o processo de Big Data se não se tem 
questionamentos que ajudem o negócio de modo realístico. Da mesma forma é 
importante estar atento aos custos envolvidos nessa operação, o valor agregado de 
todo esse trabalho desenvolvido, coleta, armazenamento e análise de todos esses 
da/dos tem de compensar os custos financeiros envolvidos (TAURION, 2013). 
 
Tratamento de Grande Volume de Dados: Quando Processar se Torna Difícil? 
Como vimos anteriormente, uma série de desafios vem à tona quando o volume de 
dados excede os tamanhos convencionais, quando esses dados são variados 
(diferentes fontes, formatos e estruturas) e são recebidos em uma velocidade maior 
do que a capacidade de processamento. 
 
Os elementos da plataforma de Big Data administram dados de novas maneiras em 
comparação às bases relacionais tradicionais. Isso por causa das necessidades de ter 
escalabilidade e alto desempenho requeridos para administrar tanto dados 
estruturados quanto não estruturados. 
 
Os objetivos dos negócios precisam ser focados em entregar dados de confiança e 
com qualidade para a organização no tempo certo e no contexto certo. Para garantir 
essa confiança, é preciso estabelecer regras comuns para qualidade dos dados com 
ênfase em precisão e plenitude. 
 
Precisa de abordagem compreensiva para desenvolver metadados corporativos, 
mantendo o controle da linhagem e a governança das informações para dar suporte à 
integração destes dados. 
 
 
 
ECOSSISTEMA HADOOP 10 
Uma das técnicas que nos ajudam a identificar insigths, aumentar a fidelidade do 
público, reduzir a rotatividade de clientes, gerar mais rentabilidade e, 
consequentemente, ficar à frente da concorrência é a Mineração de Dados. 
 
O que é mineração de dados? 
A mineração de dados consiste no uso de um conjunto de tecnologias e técnicas que 
permitem automatizar a busca em grandes volumes de dados por padrões e tendências 
não detectáveis por análises mais simples. 
 
O Data Mining, como é conhecido em inglês, utiliza algoritmos sofisticados para 
segmentar os dados e avaliar a probabilidade de ocorrência de determinados eventos 
no futuro. 
 
Este tipo de análise dá aos gestores embasamento de altíssimo valor para tomada de 
decisões estratégicas, permitindo detectar de forma precocea ocorrência de 
tendências do mercado e desta forma antecipando suas ações para responder a novos 
cenários. 
 
As principais propriedades da mineração de dados são: 
 
 Detecção automática de padrões; 
 Predição de eventos; 
 Geração de informação para ações práticas; 
 Foco em grandes conjuntos e bancos de dados. 
 
A mineração de dados responde a questões que não se poderia responder com 
técnicas similares mais simples. A seguir você vai conhecer algumas de suas 
aplicações. 
 
A mineração de dados envolve explorar e analisar grandes quantidades de informações 
para encontrar padrões. As técnicas vieram dos campos da estatística e da Inteligência 
 
 
ECOSSISTEMA HADOOP 11 
Artificial, com um pouco de gestão de base de dados na mistura. Geralmente, o 
objetivo da mineração de dados é dividir ou prever. 
 
Os projetos de mineração de dados no contexto de Big Data precisam de três 
componentes principais. 
 
1. O primeiro é um cenário de aplicação que permita que a demanda por 
descoberta de conhecimento seja identificada; 
2. O segundo é um modelo que realize a análise desejada; 
3. O terceiro é uma implementação adequada capaz de gerenciar um grande 
volume de dados. 
 
Quanto mais conhecimento dos dados os gestores tiverem, mais aspectos dos negócios 
poderão otimizar — se você agir a tempo. Assim como o tempo pode desatualizar os 
dados, os tomadores de decisão precisam de informações a tempo de usá-las para 
ganhar vantagens competitivas. A empresa que identificar e agir primeiro com 
conhecimento será a empresa que sairá vencedora. Isso pode melhorar o 
relacionamento com o cliente, aprofundar análises competitivas e de mercado e 
aumentar a rentabilidade. Informações podem apoiar o planejamento e a execução 
dos negócios. Empresas que aproveitam ao máximo as informações podem usá-las 
não apenas como um fator de melhoria, mas como seu modelo de negócios. Suas 
análises e projeções de comportamento do cliente são a base de seus modelos de 
negócios e as têm impulsionado ao sucesso. 
 
Em meio a esse novo cenário, no qual as pessoas passaram de meras telespectadoras 
e assumiram também a condição de produtores de informação, temos uma sociedade 
centrada na era do Big Data, em que a quantidade de bytes produzidos na web, e de 
maneira mais pontual nas redes sociais, necessitam de filtros cada vez mais dinâmicos 
para transformar este manancial de dados em informação útil e relevante. 
Diante desse contexto, o Data Mining apresenta-se como uma ferramenta que pode 
alicerçar estes filtros, uma vez que ele configura-se como um instrumento eficiente na 
 
 
ECOSSISTEMA HADOOP 12 
busca de padrões de grandes volumes de dados até então desconhecidos. Assim, é 
necessário compreender também que, como boa parte desses dados estão dispostos 
de uma forma não estruturada, uma leitura a “olho nu” torna o processo de análise 
oneroso e muitas vezes inviável face a premência na análise dessas informações. 
 
Ademais, em uma conjuntura na qual a quantidade de dados passou a ser um óbice 
tanto para as organizações quanto para as empresas, o emprego de técnicas de 
mineração de dados passa a ser condição fulcral na busca de insights e na produção 
de conhecimento. 
 
Ao analisar a jornada do consumidor de determinada empresa, por exemplo, a 
mineração de dados é capaz de dizer, mediante a identificação de padrões, quando 
um cliente está insatisfeito. Essa análise pode antecipar informações essenciais para 
gestores e decision makers que, por sua vez, terão dados suficientes para adotar novas 
estratégias e, assim, evitar a perda do cliente. 
 
Análises avançadas não exigem Big Data, entretanto, ser capaz de aplicá-las com Big 
Data fornece resultados importantes. 
 
Recomendações para Desenvolvimento de Projetos de Big Data 
O que você precisa saber? 
 
Antes de falarmos sobre as especificidades do seu próprio projeto, veja algumas 
questões que a maioria dos profissionais que estão trabalhando com Big Data gostaria 
de ter ficado sabendo antes de começarem seus projetos. 
 
Como a maioria dos projetos de Big Data falha por falta de clareza e pela incapacidade 
de demonstrar a funcionalidade da iniciativa, você mesmo deve se responsabilizar por 
isso para trazer foco e comprovação ao seu projeto. Seguem três dicas úteis para 
garantir que o seu projeto já comece dando certo e continue em operação. 
 
 
 
ECOSSISTEMA HADOOP 13 
 Defina objetivos claros e administre as expectativas 
Se a sua organização já precisa de dados para determinados processos de negócios 
(como detecção de fraudes ou análise de mercado), pense em como Big Data pode 
melhorar ou valorizar esses processos. Sem um foco claro e um valor perceptível aos 
usuários de negócios, o projeto estará condenado ao fracasso. 
 
 Defina as métricas que comprovam o valor do projeto 
Métricas claramente definidas e que se ajustem aos objetivos podem evitar uma 
grande quantidade de problemas. 
Pergunte a si mesmo como pode medir o impacto do seu projeto no contexto das suas 
metas. 
 
 Seja estratégico sobre ferramentas e codificação manual 
Adote ferramentas que possam aumentar a produtividade da equipe de 
desenvolvimento por meio do aproveitamento das habilidades e do conhecimento da 
qualidade dos seus dados. 
 
Como seria o projeto certo? 
Se você está pensando em um projeto tático e específico, que pode ser adaptado 
posteriormente para a empresa como um todo, está correto, e esses quatro 
componentes são importantes: 
 
 Valor demonstrável 
O projeto certo é aquele em que o valor é compartilhado de maneira igual entre a TI 
e a unidade de negócio que você está tentando ajudar, isso significa proporcionar um 
valor claro para um departamento, uma unidade de negócio ou um grupo, de forma 
que eles possam ver. 
 
 Patrocínio 
Os projetos de Big Data precisam de defensores e patrocinadores em altos cargos, 
que estejam dispostos a defender o trabalho que você está fazendo. 
 
 
 
ECOSSISTEMA HADOOP 14 
 Um efeito de jogo de boliche 
A importância estratégica do seu projeto tático é vital. Além de provar, sem sombra 
de dúvida, que Big Data pode ajudar a unidade de negócio que você está apoiando, é 
bom se certificar de que o valor possa ser comunicado facilmente para a empresa em 
geral. 
 
 Habilidades transferíveis 
É preciso se certificar de que você pode aprender as habilidades, as capacidades e as 
lições certas do seu primeiro projeto. Mais enfaticamente, é preciso garantir que tudo 
isso seja documentado para que você possa transferir conhecimento para o próximo 
projeto. Lembre-se: se a sua meta é o sucesso, então você já está se preparando para 
futuros projetos. 
 
Desafios para implantarmos um projeto de Big Data. 
 
Primeiro, temos os desafios Estruturais, que é composto de: 
 
 Codificação e dataficação. Será necessário o desenvolvimento ou 
aprimoramento de metodologia para codificação de informações e de tecnologia 
para captação de novos dados. Big Data fundamenta-se em grande quantidade 
e variedade de dados e tudo que puder ser dataficado ajudará no 
aprimoramento dos modelos analíticos. 
 Rede wi-fi. A disponibilidade e qualidade da rede de transmissão de dados 
digitais ainda não consegue acompanhar a velocidade da oferta de serviços 
móveis fundamentais na captação de dados. 
 Armazenagem. Embora poucos apontem a armazenagem como gargalo da 
cadeia produtiva do Big Data, destacamos o desafio da constante ampliação do 
serviço já que não existe nenhuma expectativa de desaceleração na geração de 
dados. 
 
 
ECOSSISTEMA HADOOP 15 
Compartilhamento. Plataformas para compartilhamento de dados serão cada 
vez mais comum. Vemos como desafio o desenvolvimento de linguagens e 
interface mais acessíveis. 
 Analítica. Nesse ponto da cadeia está o maior gargalo pela escassez dos 
chamados cientistas de dados. Tecnicamente, desenvolver modelos analíticos é 
um desafio porque cada modelo é adequado a um problema em um 
determinado contexto e porque precisa ser dinâmico para manter-se atualizado. 
Cada modelo analítico pode ser considerado uma peça única e sua efetividade 
tem que ser colocada à prova continuamente. 
 
Em segundo, temos os desafios Culturais, que é composto de: 
 
 Apropriação do conceito. Em primeiro lugar, não apenas em importância, 
mas também como pré-requisito para todos os demais desafios que seguirão, 
está a compreensão de Big Data. O desafio é percebê-lo não como uma solução 
em tecnologia da informação, mas como um ativo que deve ser acionado para 
encontrar as melhores soluções dentro do planejamento estratégico de uma 
instituição. 
 Compartilhamento de dados. Sabemos que esses dados diversificados são 
captados e controlados por diferentes agentes do ecossistema e que seria de 
extrema ineficiência captar os mesmos dados todas as vezes que eles fossem 
necessários. Diante dessas constatações, podemos afirmar que o 
compartilhamento de dados é fundamental para a utilização efetiva de dados 
digitais. O grande desafio do compartilhamento é mais que um problema de 
tecnologia. 
 Propriedade de dados. Importância do reconhecimento de que o valor do Big 
Data não está em possuir ou controlar os dados, mais no valor que extrai da 
correlação entre diferentes dados. 
 Colocar o ser humano no comando. Em concordância com a curva de 
Gartner de adoção de tecnologia, destacamos como grande desafio a formação 
de massa crítica para participar do debate sobre a utilização de dados digitais 
 
 
ECOSSISTEMA HADOOP 16 
como novo paradigma de conhecimento. O desconhecimento faz com que Big 
Data seja, na maioria das vezes, exageradamente enaltecido ou injustamente 
desqualificado. Acreditamos que as duas posturas extremistas cometem o 
mesmo erro na origem: não colocam o ser humano no comando. A primeira 
será a responsável pela escalada vertiginosa ao pico das expectativas porque 
cria a expectativa de que a tecnologia sozinha trará todas as soluções para 
nossos problemas. A segunda postura comandará a queda livre em direção ao 
poço da desilusão atribuindo à tecnologia todos os impactos negativos de sua 
adoção. Colocar o ser humano no comando de qualquer projeto em Big Data é 
reconhecer que nenhuma tecnologia pode prescindir da inteligência que deve 
agir não apenas para alcançar os desejados fins, mas também para escolher 
com responsabilidade os adequados meios. 
 Design de redes. A falta de cientistas de dados e de profissionais para tomar 
decisões a partir de modelos preditivos tem sido destacada como gargalo por 
todas as empresas de consultoria no assunto. No entanto, identificamos outro 
desafio na formação profissional para trabalhar com Big Data: a habilidade de 
ver e desenhar redes complexas. Big Data é um código digital de relações que 
são os links de uma rede. Decifrar e utilizar as informações contidas nesses 
códigos passa necessariamente por entender as redes complexas em que estão 
os problemas que desejamos resolver. Acreditamos que design de redes 
complexas será uma competência necessária e valorizada para se trabalhar com 
Big Data. 
 Privacidade. A polêmica questão da privacidade na utilização de dados digitais 
precisará evoluir para o campo da ética para ser resolvida. Antes, porém será 
preciso ficar clara a diferença entre dados e informação. Dado é a representação 
física de um evento no tempo e espaço que não agrega fundamento para quem 
o recebe, não podendo ser possível entender o que ele representa ou para que 
ele exista, porém, no momento que existir uma agregação com outro dado ele 
passa a ser uma informação. O pressuposto do Big Data é que dados em grande 
quantidade de um determinado domínio quando transportado para outro, gera 
 
 
ECOSSISTEMA HADOOP 17 
informações (dados agregados) e insights relevantes para a compreensão de 
fenômenos que não podem ser explicados em uma relação causa-efeito linear. 
 
Afirmar que Big Data é sinônimo de perda de privacidade é desconhecer o 
assunto ou tratá-lo de maneira antiética. Impedir que a utilização inadequada 
dos dados digitais seja considerada a prática corrente de projetos Big Data é o 
maior desafio quando se trata de privacidade. 
 Metodologias. Gerar conhecimento sobre ambientes complexos a partir de 
dados digitais exigirá novos processos. Acreditamos que, independente da 
prontidão que setores e áreas corporativas tenham para Big Data, as 
instituições aumentarão seus investimentos em tecnologia da informação nos 
próximos anos para avançar do estágio de onde se encontram em relação ao 
Big Data. O primeiro desafio metodológico será o de medir esse grau de 
prontidão. Ao contrário do que se pensa estar pronto para análise de dados é 
muito mais que ter dados, hardware, software e cientistas de dados. Outro 
desafio metodológico será o de definir o problema em um sistema complexo. 
Em qualquer contexto definir adequadamente o problema é essencial para 
encontrar a melhor solução que responda às condições humanas (desejo), 
técnicas (possibilidade) e econômicas (viabilidade). 
 
Em terceiro e último, temos os desafios Estratégicos, que é composto de: 
 
 Fraquezas-ameaças. O principal obstáculo tanto no ambiente externo 
quanto no interno é a baixa compreensão do assunto, essa deficiência tem 
como consequências o desconhecimento da importância de compartilhar 
dados e o baixo investimento em ferramentas e metodologias específicas 
para análise de dados. No ambiente externo isso se manifesta na falta de 
pressa da sociedade em exigir uma política pública de normatização e 
investimento em infraestrutura e educação para Big Data. 
 Forças-ameaças. Outras ameaças ao Big Data no Brasil sãoa baixa 
qualidade e o alto custo da rede móvel de comunicação. Sendo a mobilidade 
 
 
ECOSSISTEMA HADOOP 18 
a principal força motora do Big Data pela diversidade de dados de dinâmica 
humana que ela propicia, essa ameaça terá forte impacto na expansão da 
base de dados. Por outro lado, a base de dados existente e qualidade do 
setor de TI são forças que podem ser usadas para reverter esse quadro. O 
desafio é o desenvolvimento de projetos em análise de dados de grande 
visibilidade e relevância para justificar o investimento na melhoria da rede e 
a queda no custo, melhorando, assim, a penetração da rede em regiões e 
segmentos da população em que o acesso ainda é restrito. 
 Fraquezas-oportunidades. Apesar de apresentar muitas ameaças, o Big 
Data, o Brasil oferece também condições para o desenvolvimento de boas 
vantagens competitivas. A principal delas diz respeito à rápida adesão da 
população a novas tecnologias e processos fortemente dependentes dela. 
Esse fator, somado à forte adesão às redes sociais e à participação online e 
ao conceito de que inclusão digital é importante para a inclusão social, geram 
as condições ideais para a geração espontânea de dados de alta qualidade 
para análise preditiva de comportamento humano e dinâmica social. O 
desafio aqui é o desenvolvimento de plataformas para compartilhamento 
desses dados. 
 Forças-oportunidade. O quadrante onde forças e oportunidades se 
encontram só são desafios até o momento do seu reconhecimento. A partir 
daí torna-se natural o caminho de associar esses fatores positivos para 
ganhar vantagem competitivaem algumas áreas específicas do Big Data. 
 
As condições de geração espontânea de dados digitais citadas no item anterior, 
associadas à alta capacidade de armazenagem e segurança dos dados e ao bom 
desenvolvimento do setor de TI colocam o Brasil em posição privilegiada na parte 
inicial da cadeia de valor de Big Data: desenvolvimento de métodos de codificação, de 
dispositivos, sensores e serviços para dataficação de informações importantes. 
O desafio na parte alta da cadeia de valor é transformar o interesse dos tomadores de 
decisão e capacidade de articulação para o desenvolvimento de novos modelos de 
negócio, metodologias e indicadores de sucesso para ambiente Big Data. 
 
 
ECOSSISTEMA HADOOP 19 
 
Alguns pontos importantes na gestão de projetos de Big Data precisam ser definidos. 
 
E isso vai além da simples escolha da abordagem. 
 
É necessário entendermos a gestão de riscos, pessoas (especialmente do cientista de 
dados), patrocínio para o projeto, adequação de valor ao negócio, retorno sobre o 
investimento (ROI) e, de uma forma muito especial, a gestão do entusiasmo. 
 
Operacionalização dos Projetos de Big Data 
À medida que o Big Data torna-se mais e mais importante para as empresas, seu uso 
de forma inteligente e inovadora será uma ferramenta de vantagem competitiva 
inestimável. Portanto, adotar Big Data está deixando de ser uma opção para ser 
compulsório nas empresas. A questão não é mais se vou ou não adotar Big Data, mas 
quando e qual estratégia adotarei. Antes de qualquer coisa é importante reconhecer 
que iniciativas de Big Data são diferentes de muitas outras iniciativas de TI. 
 
Big Data impacta processos de negócio, fontes de dados (começa-se a utilizar cada 
vez mais fontes externas à organização), arquitetura de dados e sistemas, 
infraestrutura e suporte tecnológico (utilização de bancos de dados NoSQL), estrutura 
organizacional e capacitação. Pode afetar de forma drástica a corporação, inclusive 
mudando o mindset da tomada de decisões baseada em intuição para fatos. 
 
Indiscutivelmente, a complexidade do mundo de negócios atual não permite apenas 
decisões baseadas em intuição e experiência profissional. Elas continuam valendo, sem 
dúvida, mas devem ser emparelhadas às análises de fatos muitas vezes desconhecidos 
pelos executivos. 
 
Os dados utilizados em projeto de Big Data são geralmente dados não estruturados, 
esses são de difícil acesso e recuperação e muitas vezes não dispõem de componentes 
necessários para identificação de tipo de processamento e interpretação, tornando o 
 
 
ECOSSISTEMA HADOOP 20 
seu uso um desafio principalmente em aplicativos empresariais. Esse tipo de dados 
requer dispositivos de armazenamento e processamento (a operacionalização) que 
suportem seu formato e garantam melhor eficiência em suas análises. 
 
As organizações que mais têm feito progresso na operacionalização de seus esforços 
de Big Data são aquelas que possuem governança bem estruturada, abordagem de 
implementação disciplinada e executivos engajados. 
No entanto, muitas empresas ainda estão no meio do caminho para verdadeiramente 
tirarem proveito das análises geradas, citando as restrições orçamentárias e a 
integração como grandes desafios para a operacionalização, analisa John Brahim, líder 
da divisão global de Insights & Data da Capgemini. 
 
Quatro pontos para tornar projetos de Big Data operacionais 
A Capgemini aplica um conjunto de princípios essenciais para tonar os projetos de Big 
Data operacionais. 
 
1. Garantir o apoio e a liderança dos executivos em iniciativas de Big Data. Nada abaixo 
do alto escalão será suficiente para promover uma mudança duradoura. 
2. Ampliar a arquitetura de informações com a modernização dos sistemas de 
armazenamento de dados e a integração de novas tecnologias de Big Data. 
3. Criar uma estrutura colaborativa de governança de dados que traga agilidade 
organizacional, incorporando, ao mesmo tempo, segurança e qualidade dos dados. 
4. Trabalhar com foco em uma cultura dinâmica, voltada a dados, que envolva tanto 
os executivos como os funcionários nos estágios iniciais do desenvolvimento, usando 
e aprimorando as soluções de Big Data. 
A plataforma de Big Data é o conjunto de funções que levam à alta performance do 
processamento de Big Data. Uma plataforma inclui a capacidade de integrar dados, 
administrá-los e aplicar-lhes um sofisticado processamento computacional. 
 
 
 
ECOSSISTEMA HADOOP 21 
O que é o APACHE SPARK 
 
 
 
O Spark permite que aplicações em clusters Hadoop executem até 100 vezes mais 
rápido em memória e até 10 vezes mais rápido em disco, desenvolver rapidamente 
aplicações em Java, Scala ou Python. Além disso, vem com um conjunto integrado de 
mais de 80 operadores de alto nível e pode ser usado de forma interativa para 
consultar dados diretamente do console. 
 
 O framework SPARK para processamento de Big Data construído com foco em 
velocidade, facilidade de uso e análises sofisticadas. Está sendo desenvolvido desde 
2009 pelo AMP Lab da Universidade de Califórnia em Berkeley e em 2010 seu código 
foi aberto como projeto da fundação Apache. 
 
O Spark tem muitas vantagens se comparado com as outras tecnologias de Big Data 
e do paradigma MapReduce, como o Hadoop. 
 
Inicialmente, o Spark oferece um framework unificado e de fácil compreensão para 
gerenciar e processar Big Data com uma variedade de conjuntos de dados de diversas 
naturezas (por exemplo, texto, grafos, etc.), bem como de diferentes origens (batch 
ou streaming de dados em tempo real). 
Ele fornece APIs de alto nível em Java, Scala, Python e R, além de suportar gráficos 
de execução em geral. Ele também suporta um rico conjunto de ferramentas de alto-
nível, incluindo Spark SQL para SQL e processamento de dados estruturados, MLlib 
para aprendizado de máquina, GraphX para processamento gráfico e Spark Streaming 
para processamento de dados em tempo real. 
 
 
 
ECOSSISTEMA HADOOP 22 
Diversas empresas e organizações utilizam Spark em suas aplicações. Entre elas, 
podemos destacar: Amazon, Baidu, eBay Inc. (agregação de logs de transações e 
análises), Yahoo!, Grupon, NASA JPL ‒ Deep Space Network e Yahoo! 
 
O Spark tem como base ”Resilient Distributed Datasets (RDD)”, que é uma estrutura 
abstrata para gerenciamento de dados em memória que fornece uma forma restringida 
de memória compartilhada em cluster de computadores. O Spark também fornece uma 
interface iterativa de programação e, além de permitir a implementação de jobs 
MapReduce em memória, ele foca na possibilidade de implementação de algoritmos 
que inerentemente fazem inúmeras iterações sobre dados, tais como: algoritmos 
iterativos de aprendizagem de máquina e grafos, incluindo 
PageRank, K-means clustering, e regressão logística. 
 
As principais operações paralelas que podem ser aplicadas em RDDs são: reduce, 
collect e foreach. A operação reduce combina elementos dos conjuntos de dados 
utilizando uma função de associação. Já a operação collect envia todos os elementos 
de um conjunto de dados (RDD) para o programa driver. Por fim, a operação foreach 
aplica uma determinada função, informada pelo programador, em cada elemento de 
um RDD. Diferentemente de outras plataformas, o Spark não suporta a operação de 
redução de forma paralela, isto é, os resultados dessa operação são coletados apenas 
pelo programa driver. 
 
Aplicações Spark executam como conjuntos de processos independentes em um 
cluster, coordenados pelo objeto SparkContext presente no programa principal 
(também chamado de programa driver). Para ser executado em um cluster, o 
SparkContextpode se conectar a vários gerenciadores (gerenciador próprio ou 
Mesos/YARN), que alocam recursos entre os programas. Uma vez conectado, o Spark 
adquire executores em nós do cluster, que são processos que realizam cálculos e 
armazenam dados da aplicação. 
 
 
 
ECOSSISTEMA HADOOP 23 
Aplicações Spark executam como conjuntos de processos independentes em um 
cluster, coordenados pelo objeto SparkContext presente no programa principal 
(também chamado de programa driver). Para ser executado em um cluster, o 
SparkContext pode se conectar a vários gerenciadores (gerenciador próprio ou 
Mesos/YARN), que alocam recursos entre os programas. Uma vez conectado, o Spark 
adquire executores em nós do cluster, que são processos que realizam cálculos e 
armazenam dados da aplicação. Em seguida, ele envia o código da aplicação no 
formato JAR ou Python para estes. Finalmente, o SparkContext envia tarefas para os 
executores. 
 
Como trabalhar com a tecnologia in-memory 
 
 
 
Uma série de desafios vem à tona quando o volume de dados excede os tamanhos 
convencionais, quando esses dados são variados (diferentes fontes, formatos e 
estruturas) e são recebidos em uma velocidade maior do que a capacidade de 
processamento. 
 
Quando se deseja realizar processamento de linguagem natural de um texto muito 
grande a fim de realizar análises estatísticas do texto, o processamento e memória 
necessários excede a capacidade de computadores pessoais convencionais. Ou seja, 
os recursos de hardware (como a memória RAM, por exemplo) não comportam o 
volume dos dados. 
 
 
 
ECOSSISTEMA HADOOP 24 
A velocidade do processamento, armazenamento, leitura e transferência de dados nos 
barramentos, frequentemente fazem com que apenas extratos (amostras) dos dados 
sejam analisados o que não permite que todos os detalhes daquele conjunto de dados 
sejam observados. O que se deseja é estudar as bases de dados por completo, não 
apenas uma amostra, ou ao menos aumentar as amostras o máximo possível. A 
necessidade de novas técnicas e ferramentas é reforçada pelo atual interesse em se 
empregar técnicas de análises que excedam as técnicas tradicionais. Extrair 
conhecimento a partir de grandes massas de dados é de fato desafiador, pois os dados 
são heterogêneos em sua representação e formato, além de apresentarem conteúdo 
multidisciplinar. 
 
As soluções de Big Data também têm como objetivo tratar dados brutos, heterogêneos 
com e sem estrutura e sem padrão de formatação. Apesar dos bancos de dados 
convencionais apresentarem bons desempenhos no tratamento de dados estruturados 
e semiestruturados, as análises no contexto de Big Data requerem um modelo iterativo 
(de consultas recursivas) para análise de redes sociais e emprego de técnicas de 
clusterização. 
 
O desafio do processamento dos grandes volumes de dados está relacionado com três 
aspectos: armazenamento dos dados na memória principal, a grande quantidade de 
iterações sobre os dados e as frequentes falhas (diferente dos bancos de dados 
convencionais em que as falhas são tratadas como exceções, no contexto de Big Data, 
as falhas são regras). 
 
Nos últimos anos têm surgido alternativas para processamento de Big Data. Entre 
essas se destacam sistemas chamados “in memory/main memory database systems”. 
Tais sistemas priorizam o armazenamento em memória aumentando a performance 
em várias ordens de magnitude, garantindo também escalabilidade, flexibilidade e 
segurança a falhas. 
 
 
 
ECOSSISTEMA HADOOP 25 
O processamento intensivo e iterativo dos dados excede a capacidade individual de 
uma máquina convencional. Nesse contexto, clusters (arquiteturas de aglomeração) 
computacionais possibilitam a distribuição das tarefas e processamento paralelo dos 
dados. Em alguns cenários, não será possível processar e armazenar todos os dados. 
Nesse caso, é possível utilizar técnicas de mineração de dados para manipular os 
dados, sumarizando-os, extraindo conhecimento e fazendo predições sem intervenção 
humana visto que o volume dos dados, seus tipos e estruturas não permitem tal 
intervenção. 
 
 A tecnologia “in memory”, ou os bancos de dados “in memory”, “main memory” ou 
“memory resident” tem apresentado uma solução bastante promissora a esse grande 
desafio. Sua proposta é a de carregar as informações em disco rígido para a memória 
do servidor. Assim, como o próprio nome sugere, o acesso às informações é feito 
diretamente na memória do computador, e não mais no disco, o que diminui 
drasticamente o tempo de processamento, possibilitando “varrer” terabytes de dados 
em segundos. 
 
Os bancos de dados “in memory” possuem vantagens dos bancos de dados 
tradicionais, mas com o grande diferencial de oferecerem alto desempenho para 
aplicações que necessitam de acesso frequente aos dados. A tecnologia “in memory” 
também reduz os custos com TI, uma vez que sua utilização não depende de 
investimentos em hardware e não demanda os já conhecidos altos valores atribuídos 
à manutenção de banco de dados. 
 
As grandes vantagens do in-memory computing para o seu negócio: 
Dados geram informações, e com elas, é possível tomar decisões mais assertivas para 
o seu negócio. O mercado é competitivo e quem consegue avaliar um maior volume 
de dados ‒ bem como realizar análises certeiras mais rapidamente ‒ sai na frente. Isso 
porque a tomada de decisões estratégicas não deve ser baseada no sentimento do 
empreendedor, mas em dados reais e precisos. Desta forma é possível otimizar 
 
 
ECOSSISTEMA HADOOP 26 
processos, produtos e serviços em prol da conquista de novos clientes ou retenção dos 
atuais. 
 
A agilidade trazida por essa tecnologia torna-se, então, fundamental para realizar a 
análise de informações em tempo real, o que assegura uma resposta mais rápida ao 
mercado, garantindo inovação ao seu negócio para o aproveitamento das 
oportunidades e, assim, um melhor posicionamento da sua empresa para a conquista 
de novos clientes. 
 
Conclusão 
Com base no estudo realizado, torna-se evidente que não há como fugir do fenômeno 
das tecnologias Ecossistemas, pois já é uma realidade muito mais próxima de nós do 
que possamos imaginar. A sociedade atual se organiza em torno dos meios de 
comunicação, com a popularização da internet, dos dispositivos móveis com acesso a 
ela, a evolução da tecnologia como um todo, tudo isso alavancou uma nova era, em 
que a tecnologia e a informação ditam as regras. 
 
Atualmente, a maioria das pessoas possui algum contato com algo que pode contribuir 
para gerar essa grande quantidade de dados, de forma direta ou indireta. 
As tecnologias para trabalhar com o oceano de dados que cresce em volume de forma 
monstruosa e flui continuamente nos deixa otimista, porque se mostram 
comprometidas como o objetivo de resolver essa questão e viabilizar o trabalho com 
grandes quantidades de dados. 
 
O poder de quem detém a expertise de trabalhar com grandes quantidades de dados 
é imensurável, a aplicação se estende por diversas áreas, não ficando restrito apenas 
ao um setor. Podemos concluir que as tecnologias de Ecossistema revelam um divisor 
de águas e seu impacto na sociedade poderá ser comparado com o advento da 
internet, que hoje se tornou algo indispensável em nossas vidas. 
 
 
 
ECOSSISTEMA HADOOP 27 
Em face desse enorme manancial de dados, faz-se necessária a utilização de 
mecanismos que visem descobrir padrões e informações até então desconhecidas. 
Nesse ímpeto, o Data Mining apresenta-se como um agente capital na descoberta 
desses conhecimentos. 
 
A busca de informação valiosa em grandes volumes de dados. Data Miningé o esforço 
desenvolvido por homens e máquinas. Os homens desenham os bancos de dados, 
descrevem os problemas e setam os objetivos. As máquinas mineram os dados, em 
busca de padrões que atendam a esses objetivos. 
 
O que é importante nas tecnologias de ecossistemas, é que, a análise digital não 
neutraliza a importância humana na tomada de decisão e na inovação, ao contrário, a 
profusão de modelos preditivos e correlações de dados demandarão como nunca a 
capacidade humana de gerar insights, discernir e decidir. Dados digitais iluminam as 
pessoas e a rede vital que elas estabelecem entre si, com a natureza e com os objetos 
que estão à sua volta. 
 
Acreditamos que lidar com esses dados é uma missão que todo ser humano deverá 
abraçar com cuidado porque eles são o código que nos mostrará como dar equilíbrio 
ao nosso planeta. 
 
 
 
 
 
 
 
 
 
 
 
 
 
ECOSSISTEMA HADOOP 28 
BIBLIOGRAFIA 
BAZERMAN, M. H.; MOORE, D. Processo decisório. 7. ed. Rio de Janeiro: Elsevier, 
2010. 
 
BRAHIM, J. Relatório da Capgemini e Informática revela os hábitos de sucesso das 
equipes responsáveis por Big Data. Disponível em: 
<https://www.br.capgemini.com/noticia/relatorio-da-capgemini-e-informatica-revela-
os-habitos-de-sucesso-das-equipes-responsaveis>. Acesso em 05 maio 2017. 
 
BROWN, E. Haddop e Big Data. Disponível em: <http://ericbrown.com/hadoop-big-
data.htm>. Acesso em 05 maio 2017. 
 
CANARY, V. A tomada de decisão no contexto do Big Data. UFRGS, 2013. 
 
COMPUTERWORLD. Hadoop cimenta importância para Big Data. Disponível em: 
http://www.computerworld.com.pt/2012/06/19/hadoop-cimenta-importancia-para-
bigdata/. Acesso em: 24 maio 2013. 
 
DAVENPORT, T. H. Big Data no trabalho. Rio de Janeiro: Campus/Elsevier, 2014. 
 
DUMBILL, E. et al. Big Data Now. 1. ed. Sebastopol: O'Reilly Media,Inc, 2012. 
 
FRANÇA, T.; FARIA, F.; RANGEL, F.; FARIAS, C.; Oliveira, J. Big Social Data: Princípios 
sobre coleta, tratamento e análise de dados sociais. Disponível em: 
<http://www.inf.ufpr.br/sbbd-sbsc2014/sbbd/proceedings/artigos/pdfs/127.pdf>. 
Acesso em 05 maio 2017. 
COLUMBUS, Louis. Roundup of Big Data Forecasts and Market Estimates, 2012. 
Disponível em: <http://www.forbes.com/sites/louiscolumbus/2012/08/16/roundup-
of-big-data-forecasts-and-market-estimates-2012>. Acesso em: 05 maio 2017. 
 
GDS PUBLISHING. Managing the data explosion. Business management, 2008. 
 
 
ECOSSISTEMA HADOOP 29 
 
GHYKA, M. The geometry of art and life. New York: Dover Publications, 2014. 
 
GOUVEIA, W. MapReduce é o que há. Disponível em: 
http://amsterdaintelligence.blogspot.com.br/2010/03/mapreduce-e-o-que-ha.html. 
Acesso em: 21 maio 2013. 
 
HURWITZ, J.; NUGENT, A.; HALPER, F.; KAUFMAN, M. Big Data para leigos. Rio de 
Janeiro: Alta Books, 2016. 
 
JEWELL, D.; BARROS, R. D.; DIEDERICHS, S. et al. Performance and capacity 
implications for Big Data. IBM/Redbooks, 2014. 
 
LEMOS, A. Cibercultura e mobilidade: a era da conexão. Disponível em: 
<http://www.razonypalabra.org.mx/anteriores/n41/alemos.html>. Acesso em 05 
maio 2017. 
 
LIMA JUNIOR, W. T. Big Data, jornalismo computacional e data journalism: estrutura, 
pensamento e prática profissional na web de dados. In: Estudos em Comunicação, v. 
12, p. 207-222, [s.l], 2012. 
 
NONOHAY, R. G. Tomada de decisão e os sistemas cerebrais. UFRGS, 2012. 
 
OHLHORST, Frank. Diversos artigos. Disponíveis em: <www.the-tech-
prophet.com/category/big-data/>. Acesso em 05 maio 2017. 
 
PETRY, A. Vida digital: o berço do Big Data. Revista Veja, São Paulo, p. 71-81, maio. 
2013. 
 
 
 
ECOSSISTEMA HADOOP 30 
SCHMARZO, B. Estudo do Analítico do Big Data. Disponível em: 
<https://brazil.emc.com/collateral/emc-perspective/h8668-ep-cloud-big-data-
analytics.pdf>. Acesso em 05 maio 2017 
 
SCHNEIDER, R. D. Hadoop for dummies. Special edition. Mississauga: John Wiley & 
Sons, 2012. 
 
SCHÖNBERGER, V. M.; CUKIER, K. Big Data: a revolution that Will transform how we 
live, work and think. Kindle edition. New York: Houghton Mifflin Harcourt Publ. Co., 
2013. 
 
TAURION, Cezar. Artigo disponível em: 
<www.revistas.usp.br/signosdoconsumo/article/download/.../100022>. Acesso em 
2014. 
 
TAURION, Cezar. Cezar Taurion ensina o que é Big Data. Disponível em: 
<blog.corujadeti.com.br/cezar-taurion-ensina-o-que-e-big-data>. Acesso em 05 maio 
2017. 
 
UK.CAPGEMINI.COM. The Deciding Factor: Big data and decision-making. London, 
Economist Intelligence Unit. 2012. Disponível em: 
<https://www.uk.capgemini.com/resource-file-
access/resource/pdf/The_Deciding_Factor__Big_Data___Decision_Making.pdf>. 
Acesso em 05 maio 2017. 
 
WEISS, S. M.; INDURKHYA, N.; ZHANG, T. et al. Text mining. Predictive methods for 
analyzing unstructured information. New York: Springer, 2005. 
 
ZUPPO, D.; COSTA, L.; FERNANDES, S. Big Data: desafios e análise estratégica. Rio 
de Janeiro: COPPE UFRJ, 2013.

Outros materiais