Buscar

APOSTILA - FUNDAMENTOS E PROJETOS DE BIG DATA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Texto da disciplina: ............................................................................... 3 
Fundamentos e Projetos de Big Data .................................................... 3 
Como surgiu e o que é Big Data .................................................................... 3 
Processo de Tomada de Decisão ................................................................... 6 
Os cinco V’s do Big Data (5 V’s) .................................................................... 7 
Gestão do Conhecimento em Big Data ......................................................... 10 
Gestão do Conhecimento em ambiente Big Data .......................................... 12 
Projetos de Big Data ................................................................................... 13 
Armazenamento de Dados em projetos de Big Data ..................................... 20 
Vamos falar um pouco de MapReduce e Hadoop .......................................... 22 
Variedade e Veracidade .............................................................................. 23 
Variedade .................................................................................................. 23 
Veracidade ................................................................................................. 24 
Atomicidade, Consistência, Isolamento e Durabilidade .................................. 24 
Conectividade e Internet das Coisas ............................................................ 27 
E o que é IoT (Internet das coisas) ............................................................. 28 
Conclusão .................................................................................................. 31 
Bibliografia ................................................................................................. 33 
 
 
 
 
Texto da disciplina 
Fundamentos e Projetos de Big Data 
Como surgiu e o que é Big Data 
 
Este texto tem como finalidade introduzir os conceitos da tecnologia de Big 
Data e sua utilização em projetos, bem como seu armazenamento e tratamento 
de grande volume de dados que as organizações possuem hoje para tomadas 
de decisão. 
É certo que, com o desenvolvimento das redes digitais, o fluxo de informações 
tende a aumentar, mas é preciso saber aplicá-lo de forma criativa na resolução 
dos problemas sociais. 
O salto qualitativo ocorre quando a informação torna-se significativa. 
Existe uma quantidade gigantesca de informações que circula pela internet (e 
pelas redes sociais virtuais por extensão) todos os dias. 
Até o início da década de 1990 as páginas da web ainda eram bastante 
estáticas e existia, uma concepção de busca que já não é mais válida hoje. 
 Em pouco tempo, a necessidade de busca transformou-se em necessidade de 
gerenciamento de informação. A rede oferece um enorme contingente 
informacional que nem sempre alcança o auge de sua utilização. A concepção 
de mineração de dados nasce justamente com a ideia de conseguir garimpar, 
na rede, dados importantes com alto valor informacional. 
Nesse sentido, o conceito de Big Data surge como um novo horizonte para 
entender o mundo da informação e auxiliar, de forma incisiva, a tomada de 
decisões. 
A tecnologia de Big Data não diz respeito à quantidade de dados e sim ao 
gerenciamento estratégico destes, visando oferecer informações detalhadas 
para cada situação específica. 
 
 
 
Trata-se de uma nova forma de olhar para a informação proporcionada pela 
tecnologia. Dados que, a “olho nu” não expressam muita relevância, podem se 
tornar significativos se examinados em contextos específicos. 
Big Data tem, no entanto, seus riscos tanto éticos quanto políticos. 
Recentemente, descobriu-se que o Brasil tinha grande fluxos informacionais 
monitorados pelos Estados Unidos. 
O objetivo de tal monitoramento era justamente conhecer as práticas atuais 
(tanto do ponto de vista político quanto econômico, social entre outros) para 
prever as futuras. 
Os dados oriundos de Big Data são, ainda assim, modelos matemáticos que 
visam simplificar uma situação complexa e dar organização ao que 
aparentemente está disperso. 
Eles são úteis para a compreensão contextual e aprofundada, mas têm seus 
limites. Os modelos matemáticos são baseados em estudo e cruzamento de 
dados referentes a gostos, opções políticas, etc. 
O termo Big Data em si não prioriza aspectos qualitativos e sim quantitativos, 
traduzidos por “Big”. 
Ademais, a utilização do Big Data também deve ser realizada pensando nas 
questões éticas envolvidas, pois o fato de um determinado dado estar 
disponível para uso não faz com que seu uso seja ético. 
Utilizar a tecnologia do Big Data para conhecer as pessoas, quer sejam 
colaboradores, clientes, etc. e melhor relacionar-se com elas é um dos maiores 
desafios dos gestores. 
Quando as organizações, “analisa os cenários, identifica os públicos estratégicos 
e dá tratamento diferenciado a cada um deles, age em sintonia com o modelo 
de gestão organizacional e estabelece simetria no processo comunicacional”. 
 
 
 
As informações de caráter quantitativo, obtidas com o Big Data, podem ser 
analisadas qualitativamente pelas organizações, seja para enriquecer o 
aprendizado coletivo do público interno das organizações, seja para contribuir 
com o alcance dos objetivos e metas. 
O grande diferencial do uso dessa tecnologia é transformar dados 
quantitativos em qualitativos. 
As empresas deverão, então, criar estratégias para definir como lidar com 
grande volume de dados e analisar as informações úteis, visto que o 
desempenho das organizações no mercado será definido a partir da forma com 
que as mesmas irão trabalhar com esse volume e essa variedade de 
informações e com a velocidade que elas surgem e se disseminam. 
A competição por uma fatia de mercado é bem acirrada, portanto a velocidade 
na tomada de decisão e a segurança ao fazer a devida opção são critérios 
fundamentais para o sucesso da organização no mercado. 
Logo, torna-se relevante que os administradores e os tomadores de decisão 
saibam gerenciar esse volume e essa variedade de dados para que possam 
filtrar e tirar proveito das informações que são úteis e importantes aos seus 
negócios (valor e veracidade), fazendo as opções de forma rápida (velocidade) 
e precisa. 
Tomadas de decisão baseadas em evidências (também conhecido como Big 
Data) não é apenas a última moda, é o futuro de como vamos orientar e fazer 
crescer o negócio. 
É fundamental conhecer o que é Big Data e suas dimensões para atingir os 
benefícios, pois excesso de confiança pode levar a pontos cegos na tomada de 
decisão ou a enxergar uma mudança fundamental nas tendências de mercado. 
As empresas de hoje devem ter consciência do aumento do volume, velocidade 
e variedade de dados, mantendo a eficiência operacional e de custos. 
Como consequência, o processo de decisão desses gestores poderá sofrer 
alterações, ajustando-se a realidade do mercado e aproveitando as 
oportunidades disponíveis. 
 
 
 
Processo de Tomada de Decisão 
 
É natural que estudar a concorrência e o mercado façam parte de nossas 
rotinas e de nossa tática de jogo: nossas empresas já possuem uma série de 
dados que são gerados diariamente através dos sistemas de ERP, Gestão de 
Pessoas, CRM – que controlam a operação – e que são armazenados 
normalmente em banco de dados estruturados. 
Estes dados possuem um grande Valor que normalmente são pouco ou nada 
explorados. 
Grande parte das empresas que conheço ainda toma decisões baseadas na 
extração dos dados operacionais. 
Dados estes que são transferidos para relatórios e planilhas e que levam horase até dias para serem gerados, tornando a informação pouco confiável e, 
muitas vezes, chegando tarde para a tomada de decisão, não gerando nenhum 
painel de informações com os principais indicadores da empresa. 
Bazerman e Moore (2010) estruturam e simplificam o processo “racional” de 
tomada de decisão em seis etapas: 
- Definir o problema; 
- Identificar os critérios; 
- Ponderar os critérios; 
- Gerar alternativas; 
- Classificar cada alternativa segundo cada critério; 
- Identificar a solução ideal. 
 
O processo de tomada de decisão não é puramente racional, ele sofre 
influências diretas e indiretas, conscientes e inconscientes de fatores subjetivos, 
que alteram a forma de ver, de pensar, de analisar e de decidir do responsável 
pela decisão (Nonohay 2012). 
 
 
 
 
Os cinco V’s do Big Data (5 V’s) 
 
A proposta de uma solução de Big Data é oferecer uma abordagem consistente 
no tratamento do constante crescimento e da complexidade dos dados. Para 
tanto, o conceito considera os 5 V’s do Big Data: o Volume, a Velocidade, a 
Variedade, a Veracidade e o Valor. 
 Volume: O conceito de volume no Big Data é melhor evidenciado pelos 
fatos do quotidiano: diariamente, o volume de troca de e-mails, 
transações bancárias, interações em redes sociais, registro de chamadas 
e tráfego de dados em linhas telefônicas. Todos esses servem de ponto 
de partida para a compreensão do volume de dados presentes no mundo 
atualmente. 
Estima-se que atualmente o volume total de dados que circulam na internet é 
de 250 Exabytes (1018 bytes) por ano. (Inmoment, 2014). 
Todos os dias são criados 2,5 quintilhões de bytes em forma de dados, 
atualmente 90% de todos os dados que estão presentes no mundo foram 
criados nos últimos 2 anos (IBM). 
É importante também compreender que o conceito de volume é relativo à 
variável tempo, ou seja, o que é grande hoje, pode não ser nada amanhã. 
(Ohlhorst, 2012); 
 Velocidade: Você cruzaria uma rua vendada se a última informação que 
tivesse fosse uma fotografia tirada do tráfego circulante de 5 minutos 
atrás? Provavelmente não, pois a fotografia de 5 minutos atrás é 
irrelevante, você precisa saber das condições atuais para poder cruzar a 
rua em segurança. (Forbes, 2012). A mesma lógica se aplica a empresas, 
pois necessitam de dados em atuais sobre seu negócio, ou seja, 
velocidade. 
 
 
 
 Segundo Taurion (2014) a importância da velocidade é tamanha que em 
algum momento deverá existir uma ferramenta capaz de analisar os 
dados em tempo real. Atualmente, os dados são analisados somente 
após serem armazenados, mas o tempo gasto para o armazenamento 
em si já desclassifica esse tipo de análise como uma análise 100% em 
tempo real. Informação é poder (The Guardian, 2010), e assim sendo a 
velocidade com a qual você obtém essa informação é uma vantagem 
competitiva das empresas. Velocidade pode limitar a operação de muitos 
negócios, quando utilizamos o cartão de crédito, por exemplo, se não 
obtivermos uma aprovação da compra em alguns segundos 
normalmente pensamos em utilizar outro método de pagamento. É a 
operadora perdendo uma oportunidade de negócios pela falha na 
velocidade de transmissão e análise dos dados do comprador; 
 Variedade: O volume é apenas o começo dos desafios dessa nova 
tecnologia, se temos um volume enorme de dados, também obtemos a 
variedade dos mesmos. Já pensou na quantidade de informações 
dispersas em redes sociais? Facebook, Twitter entre outros possuem um 
vasto e distinto campo de informações sendo ofertadas em público a 
todo segundo. Podemos observar a variedade de dados em e-mails, 
redes sociais, fotografias, áudios, telefones e cartões de crédito. (McAffe 
et al, 2012). Seja qual for a discussão, podemos obter infinitos pontos de 
vista sobre a mesma. Empresas que conseguem captar a variedade, seja 
de fontes ou de critérios, agregam mais valor ao negócio (Gartner). O 
Big Data escalona a variedade de informações das seguintes formas 
(Jewell, Dave et al): 
o Dados estruturados: são armazenados em bancos de dados, 
sequenciados em tabelas; 
o Dados semiestruturados: acompanham padrões heterogêneos, são mais 
difíceis de serem identificados, pois podem seguir diversos padrões; 
o Dados não estruturados: são misturas de dados com fontes 
diversificadas como imagens, áudios e documentos online. 
 
 
 
Dentre essas três categorias, estima-se que até 90% de todos os dados no 
mundo estão a forma de dados não estruturados. (ICD, 2011); 
 Veracidade: Um em cada três líderes não confiam nos dados que 
recebem (IBM). Para colher bons frutos do processo do Big Data são 
necessários obter dados verídicos, de acordo com a realidade. O conceito 
de velocidade, já descrito, é bem alinhado ao conceito de veracidade 
pela necessidade constante de análise em tempo real, isso significa 
dados que condizem com a realidade daquele momento, pois dados 
passados não podem ser considerados dados verídicos para o momento 
em que é analisado. A relevância dos dados coletados é tão importante 
quanto o primeiro conceito. A verificação dos dados coletados para 
adequação e relevância ao propósito da análise é um ponto chave para 
se obter dados que agreguem valor ao processo. (Hurwitz, Nugent, 
Halper & Marcia Kaufman); 
 Valor: Quanto maior a riqueza de dados, mais importante é saber 
realizar as perguntas certas no início de todo processo de análise 
(Brown, Eric, 2014). É necessário estar focado para a orientação do 
negócio, o valor que a coleta e análise dos dados trarão para o negócio. 
Não é viável realizar todo o processo de Big Data se não se tem 
questionamentos que ajudem o negócio de modo realístico. Da mesma 
forma é importante estar atento aos custos envolvidos nessa operação, o 
valor agregado de todo esse trabalho desenvolvido, coleta, 
armazenamento e análise de todos esses da/dos tem que compensar os 
custos financeiros envolvidos (Taurion, 2013). 
 
 
 
 
 
Gestão do Conhecimento em Big Data 
 
O conhecimento é a única forma de garantir a sobrevivência. Isso quer dizer 
que aprendemos para sobreviver às ameaças do ambiente. 
Isso é igualmente verdadeiro quer estejamos falando do aprendizado das 
espécies para sobreviver às ameaças do seu ambiente natural ou do 
aprendizado de membros de uma organização para perpetuar no seu ambiente 
de atuação. 
Todas as espécies fazem isso, através da adaptação que é a forma básica do 
aprendizado, mas a espécie humana é a única que além de se adaptar, faz 
previsões e tenta controlar seu ambiente. 
Nesse contexto, controlar será sempre a ação de resolver problemas que 
ameaçam a sobrevivência. 
Na tentativa de melhorar a eficiência dessa habilidade natural da espécie 
humana, muitas organizações praticam a chamada Gestão do Conhecimento 
(GC). 
Resumidamente a Gestão do Conhecimento é um conjunto de processos 
organizacionais que consistem em obter, acumular e interpretar informações 
para construir, disseminar e integrar conhecimentos que possam ser aplicados 
na solução de problemas. 
Vista como um processo produtivo, a Gestão do Conhecimento transforma 
informações em soluções. 
Informação Conhecimento Solução 
- obter - construir - prescrever 
- acumular - disseminar 
- interpretar - integrar 
 
A informação é um conteúdo que foi organizado a partir do discernimento de 
padrões do que é observado. 
 
 
 
O primeiro esforço da GC para agregar valor a esse conteúdo é garantir o 
acesso a ele (obter a informação)e incrementar sua quantidade e diversidade 
(acumular). Em seguida a informação ganha significado e relevância a partir da 
interpretação que se dá a ela. 
Nesse ponto teremos uma informação qualificada. 
Para transformar informações em conhecimento, o esforço exercido é o de 
relacioná-las com a experiência das pessoas. 
Nas organizações o conhecimento é algo que pode ser aplicado em algum tipo 
de sistema produtivo. 
Portanto ele só existe quando gera prescrições que possam transformar uma 
situação existente em uma situação desejada. 
Essas prescrições visam dar apoio a outro processo muito relevante nas 
organizações: a tomada e decisão. 
Podemos então dizer que a informação é a base do conhecimento, e que este é 
a base da ação. 
Portanto, o maior indicador de sucesso de um projeto de GC está nos objetivos 
alcançados pela organização. 
Qual a importância de se pensar a Gestão do Conhecimento em ambiente Big 
Data? Inicialmente é forçoso reconhecer que a identificação de padrões no que 
é observado ao nosso redor (informação) está cada vez mais sendo feita de 
modo digital, gerando uma grande quantidade de dados. 
Ou seja, estamos vivenciando um processo progressivo de dataficação da 
sociedade. 
O impacto desse fenômeno começou a ser percebido na última década e a 
relevância desse impacto pode ser explicada resumidamente da seguinte 
maneira: Dados digitais só podem integrar uma única cadeia produtiva: a de 
conhecimento. Isso significa que é esperada uma explosão na quantidade e 
efetividade do principal produto do conhecimento: solução. 
 
 
 
Por tudo o que foi dito acima, acreditamos que a GC continuará sendo a 
principal força atuante em um projeto bem sucedido em Big Data. 
A importância de pensar a gestão do conhecimento especificamente em 
ambiente Big Data é que esse processo apresenta algumas especificidades 
nesse ambiente que não devem ser desprezadas. 
A primeira, e mais evidente, é que GC em Big Data terá suas ferramentas 
fortemente apoiadas em Tecnologia da Informação (TI). 
 
Gestão do Conhecimento em ambiente Big Data 
 
Dados Informação Conhecimento Solução 
- captar - obter - construir - 
prescrever 
- indexar - acumular - disseminar 
- integrar - interpretar - integrar 
- segurar 
- compartilhar 
 
Em TI a gestão de dados é chamada de governança de dados e inclui todas as 
atividades necessárias para gerar e disponibilizar os dados para utilização: 
captação, armazenagem, indexação, integração, segurança e 
compartilhamento. 
O profissional de GC não terá que se apropriar dos conhecimentos de TI que 
asseguram a governança de dados, mas terá que compreender que, no 
ambiente Big Data, a qualidade da informação que ele terá dependerá 
diretamente do modelo de governança utilizado. 
A GC em ambiente Big Data é semelhante à já praticada em outros ambientes. 
O último valor gerado é a solução de um problema e isso só é feito a partir de 
uma tomada de decisão que é uma competência humana indelegável. 
 
 
 
O desafio da gestão do conhecimento de transformar as melhores informações 
nas melhores decisões receberá um reforço incontestável da tecnologia da 
informação, mas em última instância continua sendo um desafio humano. 
Projetos de Big Data 
 
O que você precisa saber. Antes de falarmos sobre as especificidades do seu 
próprio projeto, veja algumas questões que a maioria dos profissionais que 
estão trabalhando com Big Data gostaria de ter ficado sabendo antes de 
começarem seus projetos. 
Como a maioria dos projetos de Big Data falha por falta de clareza e devido à 
incapacidade de demonstrar a funcionalidade da iniciativa, você mesmo deve se 
responsabilizar por isso para trazer foco e comprovação ao seu projeto. 
Seguem três dicas úteis para garantir que o seu projeto já comece dando certo 
e continue em operação. 
 Defina objetivos claros e administre as expectativas 
Se a sua organização já precisa de dados para determinados 
processos de negócios (como detecção de fraudes ou análise de 
mercado), pense em como Big Data pode melhorar ou valorizar 
esses processos. Sem um foco claro e um valor perceptível aos 
usuários de negócios, o projeto estará condenado ao fracasso. 
 Defina as métricas que comprovam o valor do projeto 
Métricas claramente definidas e que se ajustem aos objetivos 
podem evitar uma grande quantidade de problemas. 
Pergunte a si mesmo como você pode medir o impacto do seu projeto no 
contexto das suas metas. 
 
 
 
 Seja estratégico sobre ferramentas e codificação manual 
Adote ferramentas que possam aumentar a produtividade da equipe de 
desenvolvimento por meio do aproveitamento das habilidades e do 
conhecimento da qualidade dos seus dados. 
Como seria o projeto certo. 
Se você está pensando em um projeto tático e específico, que pode ser 
adaptado posteriormente para a empresa como um todo, está correto, e 
estes quatro componentes são importantes: 
 Valor demonstrável 
O projeto certo é aquele em que o valor é compartilhado de maneira 
igual entre a TI e a unidade de negócio que você está tentando ajudar, 
isso significa proporcionar um valor claro para um departamento, uma 
unidade de negócio ou um grupo, de forma que eles possam ver. 
 
 Patrocínio 
 
Os projetos de Big Data precisam de defensores e patrocinadores 
em altos cargos, que estejam dispostos a defender o trabalho que 
você está fazendo. 
 Um efeito de jogo de boliche 
A importância estratégica do seu projeto tático é vital. Além de 
provar, sem sombra de dúvida, que Big Data pode ajudar a 
unidade de negócio que você está apoiando, é bom se certificar 
de que o valor possa ser comunicado facilmente para a empresa 
em geral. 
 
 
 
 Habilidades transferíveis 
É preciso se certificar de que você pode aprender as habilidades, 
as capacidades e as lições certas do seu primeiro projeto. Mais 
enfaticamente, é preciso garantir que tudo isso seja documentado 
para que você possa transferir conhecimento para o próximo 
projeto. Lembre-se, se a sua meta é o sucesso, então você já está 
se preparando para futuros projetos. 
Desafios para implantarmos um projeto de Big Data 
Primeiro temos os desafios Estruturais, que é composto de: 
 Codificação e dataficação: Será necessário o desenvolvimento 
ou aprimoramento de metodologia para codificação de 
informações e de tecnologia para captação de novos dados. Big 
Data fundamenta-se em grande quantidade e variedade de dados 
e tudo que puder ser dataficado ajudará no aprimoramento dos 
modelos analíticos. 
 Rede wi-fi: A disponibilidade e qualidade da rede de transmissão 
de dados digitais ainda não consegue acompanhar a velocidade 
da oferta de serviços móveis fundamentais na captação de dados. 
 Armazenagem: Embora poucos apontem a armazenagem como 
gargalo da cadeia produtiva do Big Data, destacamos o desafio da 
constante ampliação do serviço já que não existe nenhuma 
expectativa de desaceleração na geração de dados. 
 Compartilhamento: Plataformas para compartilhamento de 
dados serão cada vez mais comum. Vemos como desafio o 
desenvolvimento de linguagens e interface mais acessíveis. 
 Analítica: Nesse ponto da cadeia está o maior gargalo pela 
escassez dos chamados cientistas de dados. Tecnicamente 
falando, desenvolver modelos analíticos é um desafio porque cada 
modelo é adequado a um problema em um determinado contexto 
e porque precisa ser dinâmico para manter-se atualizado. Cada 
 
 
 
modelo analíticopode ser considerado uma peça única e sua 
efetividade tem que ser colocada à prova continuamente. 
 Visualização de dados: Se o objetivo da analítica de dados é 
empoderar o tomador de decisão, será fundamental o 
desenvolvimento de soluções que deem aos dados uma forma de 
apreensão fácil e adequada ao problema que se quer resolver. A 
visualização eficaz das informações geradas pela analítica será 
fator determinante para melhores decisões em menos tempo. 
 
Em segundo temos os desafios Culturais, que é composto de: 
 Apropriação do conceito: Em primeiro lugar, não apenas em 
importância, mas também como pré-requisito para todos os demais 
desafios que seguirão, está a compreensão de Big Data. O desafio é 
percebê-lo não como uma solução em tecnologia da informação, mas 
como um ativo que deve ser acionado para encontrar as melhores 
soluções dentro do planejamento estratégico de uma instituição. 
 Compartilhamento de dados: Sabemos que esses dados 
diversificados são captados e controlados por diferentes agentes do 
ecossistema e que seria de extrema ineficiência captar os mesmos 
dados todas as vezes que eles fossem necessários. Diante dessas 
constatações podemos afirmar que o compartilhamento de dados é 
fundamental para a utilização efetiva de dados digitais. O grande 
desafio do compartilhamento é mais que um problema de tecnologia. 
 Propriedade de dados: Importância do reconhecimento de que o 
valor do Big Data não está em possuir ou controlar os dados, mais no 
valor que extrai da correlação entre diferentes dados. 
 Colocar o ser humano no comando: Em concordância com a 
curva de Gartner de adoção de tecnologia, destacamos como grande 
desafio a formação de massa crítica para participar do debate sobre a 
utilização de dados digitais como novo paradigma de conhecimento. 
O desconhecimento faz com que Big Data seja, na maioria das vezes, 
exageradamente enaltecido ou injustamente desqualificado. 
 
 
 
Acreditamos que as duas posturas extremistas cometem o mesmo 
erro na origem: não colocam o ser humano no comando. A primeira 
será a responsável pela escalada vertiginosa ao pico das expectativas 
porque cria a expectativa de que a tecnologia sozinha trará todas 
soluções para nossos problemas. A segunda postura comandará a 
queda livre em direção ao poço da desilusão atribuindo à tecnologia 
todos os impactos negativos de sua adoção. Colocar o ser humano no 
comando de qualquer projeto em Big Data é reconhecer que 
nenhuma tecnologia pode prescindir da inteligência que deve agir não 
apenas para alcançar os desejados fins, mas também para escolher 
com responsabilidade os adequados meios. 
 Design de redes: A falta de cientistas de dados e de profissionais 
para tomar decisões a partir de modelos preditivos tem sido 
destacada como gargalo por todas as empresas de consultoria no 
assunto. No entanto identificamos outro desafio na formação 
profissional para trabalhar com big data: a habilidade de ver e 
desenhar redes complexas. Big data é um código digital de relações 
que são os links de uma rede. Decifrar e utilizar as informações 
contidas nesses códigos passa necessariamente por entender as 
redes complexas onde estão os problemas que desejamos resolver. 
Acreditamos que design de redes complexas será uma competência 
necessária e valorizada para se trabalhar com Big Data. 
 
 Privacidade: A polêmica questão da privacidade na utilização de 
dados digitais precisará evoluir para o campo da ética para ser 
resolvida. Antes, porém será preciso ficar clara a diferença entre 
dados e informação. Dado é a representação física de um evento no 
tempo e espaço que não agrega fundamento para quem o recebe, 
não podendo ser possível entender o que ele representa ou para que 
ele exista, porém, no momento que existir uma agregação com outro 
dado ele passa a ser uma informação”. O pressuposto do Big Data é 
que dados em grande quantidade de um determinado domínio 
 
 
 
quando transportado para outro, gera informações (dados 
agregados) e insights relevantes para a compreensão de fenômenos 
que não podem ser explicados numa relação causa-efeito linear. 
Afirmar que Big Data é sinônimo de perda de privacidade e 
desconhecer o assunto ou tratá-lo de maneira antiética. Impedir que a 
utilização inadequada dos dados digitais sejam considerada a prática 
corrente de projetos Big Data é o maior desafio quando se fala em 
privacidade. 
 
 Metodologias: Gerar conhecimento sobre ambientes 
complexos a partir de dados digitais exigirá novos processos. 
Acreditamos que, independente da prontidão que setores e 
áreas corporativas tenham para Big Data, as instituições 
aumentarão seus investimentos em tecnologia da informação 
nos próximos anos para avançar do estágio de onde se 
encontram em relação ao Big Data. O primeiro desafio 
metodológico será o de medir esse grau de prontidão. Ao 
contrário do que se pensa estar pronto para análise de dados é 
muito mais que ter dados, hardware, software e cientistas de 
dados. Outro desafio metodológico será o de definir o problema 
em um sistema complexo. Em qualquer contexto definir 
adequadamente o problema é essencial para encontrar a 
melhor solução que responda às condições humanas (desejo), 
técnicas (possibilidade) e econômicas (viabilidade). 
 
Em terceiro e último temos os desafios Estratégicos, que é composto de: 
 Fraquezas-ameaças: O principal obstáculo tanto no ambiente 
externo quanto no interno é a baixa compreensão do assunto, 
essa deficiência tem como consequências o desconhecimento 
da importância de compartilhar dados e o baixo investimento 
em ferramentas e metodologias específicas para análise de 
dados. No ambiente externo isso se manifesta na falta de 
 
 
 
pressa da sociedade em exigir uma política pública de 
normatização e investimento em infraestrutura e educação para 
big data. 
 
 Forças-ameaças: Outra ameaça à Big Data no Brasil é a baixa 
qualidade e o alto custo da rede móvel de comunicação. Sendo 
a mobilidade a principal força motora do Big Data pela 
diversidade de dados de dinâmica humana que ela propicia, 
essa ameaça terá forte impacto na expansão da base de dados. 
Por outro lado, a base de dados existente e qualidade do setor 
de TI são forças que podem ser usadas para reverter esse 
quadro. O desafio é o desenvolvimento de projetos em análise 
de dados de grande visibilidade e relevância para justificar o 
investimento na melhoria da rede e a queda no custo 
melhorando assim a penetração da rede em regiões e 
segmentos da população onde o acesso ainda é restrito. 
 Fraquezas-oportunidades: Apesar de apresentar muitas 
ameaças,o Big Data, o Brasil oferece também condições para o 
desenvolvimento de boas vantagens competitivas. A principal 
delas diz respeito à rápida adesão da população a novas 
tecnologias e processos fortemente dependentes dela. Esse 
fator, somado à forte adesão às redes sociais e à participação 
online e ao conceito de que inclusão digital é importante para a 
inclusão social, geram as condições ideais para a geração 
espontânea de dados de alta qualidade para análise preditiva 
de comportamento humano e dinâmica social. O desafio aqui é 
o desenvolvimento de plataformas para compartilhamento 
desses dados. 
 Forças-oportunidade: O quadrante onde forças e 
oportunidades se encontram só são desafios até o momento do 
seu reconhecimento. A partir daí torna-se natural o caminho de 
 
 
 
associar esses fatores positivos para ganhar vantagem 
competitiva em algumas áreas específicas do Big Data. 
As condições de geração espontânea de dados digitais citadas 
no itemanterior, associadas à alta capacidade de 
armazenagem e segurança dos dados e ao bom 
desenvolvimento do setor de TI colocam o Brasil em posição 
privilegiada na parte inicial da cadeia de valor de Big Data: 
desenvolvimento de métodos de codificação, de dispositivos, 
sensores e serviços para dataficação de informações 
importantes. 
O desafio na parte alta da cadeia de valor é transformar o 
interesse dos tomadores de decisão e capacidade de articulação 
para o desenvolvimento de novos modelos de negócio, 
metodologias e indicadores de sucesso para ambiente Big Data. 
Armazenamento de Dados em projetos de Big Data 
 
Uma série de desafios vem à tona quando o volume de dados excede os 
tamanhos convencionais, quando esses dados são variados (diferentes fontes, 
formatos e estruturas) e são recebidos em uma velocidade maior do que a 
capacidade de processamento. 
Quando se deseja realizar processamento de linguagem natural de um texto 
muito grande a fim de realizar análises estatísticas do texto, o processamento e 
memória necessários excede a capacidade de computadores pessoais 
convencionais. 
Ou seja, os recursos de hardware (como a memória RAM, por exemplo) não 
comportam o volume dos dados. 
A velocidade do processamento, armazenamento, leitura e transferência de 
dados nos barramentos, frequentemente fazem com que apenas extratos 
(amostras) dos dados sejam analisados o que não permite que todos os 
detalhes daquele conjunto de dados sejam observados. 
 
 
 
O que se deseja é estudar as bases de dados por completo, não apenas uma 
amostra, ou ao menos aumentar as amostras o máximo possível. 
A necessidade de novas técnicas e ferramentas é reforçada pelo atual interesse 
em se empregar técnicas de análises que excedam as técnicas tradicionais. 
Extrair conhecimento a partir de grandes massas de dados é de fato desafiador, 
pois os dados são heterogêneos em sua representação e formato, além de 
apresentarem conteúdo multidisciplinar. 
As soluções de Big Data também têm como objetivo tratar dados brutos, 
heterogêneos com e sem estrutura e sem padrão de formatação. 
Apesar dos bancos de dados convencionais apresentarem bons desempenhos 
no tratamento de dados estruturados e semiestruturados, as análises no 
contexto de Big Data requerem um modelo iterativo (de consultas recursivas) 
para análise de redes sociais e emprego de técnicas de clusterização. 
O desafio do processamento dos grandes volumes de dados está relacionado a 
três aspectos: armazenamento dos dados na memória principal, a grande 
quantidade de iterações sobre os dados e as frequentes falhas (diferente dos 
bancos de dados convencionais onde as falhas são tratadas como exceções, no 
contexto de Big Data, as falhas são regras). 
O processamento intensivo e iterativo dos dados excede a capacidade individual 
de uma máquina convencional. 
Nesse contexto, clusters (arquiteturas de aglomeração) computacionais 
possibilitam a distribuição das tarefas e processamento paralelo dos dados. 
Em alguns cenários, não será possível processar e armazenar todos os dados. 
Nesse caso, é possível utilizar técnicas de mineração de dados para manipular 
os dados, sumarizando-os, extraindo conhecimento e fazendo predições sem 
intervenção humana visto que o volume dos dados, seus tipos e estruturas não 
permitem tal intervenção. 
Muitas empresas têm apresentado requisitos de gerenciar e analisar grande 
quantidade de dados com alto desempenho. 
 
 
 
Esses requisitos estão se tornando cada vez mais comuns aos trabalhos de 
análise de redes sociais [DiFranzo et al. 2013]. 
Diferentes soluções têm surgido como proposta para esses problemas. 
Dentre as propostas, destaca-se o paradigma MapReduce implementado pelo 
Hadoop, o qual permite o processamento distribuído de grandes conjuntos de 
dados em clusters de computadores. 
Vamos falar um pouco de MapReduce e Hadoop 
 
O Hadoop é uma plataforma open source desenvolvida especialmente para 
processamento e análise de grandes volumes de dados, sejam eles 
estruturados ou não estruturados. 
O projeto é mantido pela Apache Foundation, mas conta com a colaboração de 
várias empresas, como Yahoo!, Facebook, Google e IBM. 
Pode-se dizer que o projeto teve início em meados de 2003, quando o Google 
criou um modelo de programação que distribui o processamento a ser realizado 
entre vários computadores para ajudar o seu mecanismo de busca a ficar mais 
rápido e livre da necessidade de servidores poderosos (e caros). 
Esta tecnologia recebeu o nome de MapReduce. 
O Hadoop é tido como uma solução adequada para Big Data por vários 
motivos: 
– É um projeto open source, como já informado, fato que permite a sua 
modificação para fins de customização e o torna suscetível a melhorias 
constantes graças à sua rede de colaboração. 
– Proporciona economia, já que não exige o pagamento de licenças e suporta 
hardware convencional, permitindo a criação de projetos com máquinas 
consideravelmente mais baratas; 
– O Hadoop conta, por padrão, com recursos de tolerância a falhas, como 
replicação de dados; 
 
 
 
– O Hadoop é escalável: havendo necessidade de processamento para suportar 
maior quantidade de dados, é possível acrescentar computadores sem 
necessidade de realizar reconfigurações complexas no sistema. 
 MapReduce é um modelo de programação proposto pelo Google 
para facilitar o processamento de grandes volumes de dados (Big Data). 
A partir de um paradigma inspirado em primitivas de programação funcional, foi 
criado um framework que permitisse a manipulação de grande volume de 
dados de forma paralela e distribuída, além de prover tolerância à falha, 
escalonamento de I/O e monitoramento. 
Um grande número de aplicações reais podem ser expressas nesse modelo de 
programação. 
Variedade e Veracidade 
Estes dois V’s que já citamos anteriormente são importantíssimos para o 
projeto de Big Data, pois temos um volume enorme de dados, de variadas 
fontes, porém temos que ter certeza se quais dados realmente necessitamos e 
se estes são verídicos, pois trabalhar com dados incorretos para tomadas de 
decisões, deixa a organização totalmente vulnerável e sem credibilidade. 
Variedade 
 
O aspecto mais desafiador do Big Data é a grande variedade de formatos e 
estruturas que você terá que conciliar em suas análises. 
Será preciso integrar várias fontes se quiser incluir novos tipos e estruturas de 
dados (sociais, sensores, vídeo) às fontes com as quais você já está 
acostumado (relacionais, mainframes legados). 
Tentar codificar manualmente cada integração é tão complicado que poderia 
consumir todo o tempo e os recursos disponíveis. 
Aproveite ao máximo as ferramentas de integração e qualidade de dados 
disponíveis para acelerar o processo para tarefas mais importantes. 
 
 
 
Veracidade 
Não importa o grau de importância de suas análises, elas não valerão nada se 
as pessoas não puderem confiar razoavelmente nos dados que conseguirem. 
Quanto mais dados você analisar, mais importante será manter um alto nível de 
qualidade dos dados. 
Para que os dados sejam adequados à finalidade, você precisa conhecer essa 
finalidade. 
Se um especialista de dados estiver procurando padrões em dados agregados 
do cliente, a preparação necessária será mínima. 
Por outro lado, os dados de relatórios financeiros e da cadeia de suprimentos 
deverão ser altamente editados, limpos e certificados para obter precisão e 
conformidade. 
Crie categorias baseadas na quantidade de preparação necessária, o que 
abrange desde dados brutos até um repositório de dados mestres altamente 
editado, contendo dadoslimpos, confiáveis e fidedignos. 
Como já vimos anteriormente com grande volume de dados, então é 
fundamental que você seja capaz de verificar os dados baseados tanto em 
precisão quanto em contexto. 
Atomicidade, Consistência, Isolamento e Durabilidade 
 
O Big Data também precisa trabalhar com distribuição de processamento 
e elasticidade, isto é, suportar aplicações com volumes de dados que crescem 
substancialmente em pouco tempo. 
O problema é que os bancos de dados “tradicionais”, especialmente aqueles 
que exploram o modelo relacional, como o MySQL, PostgreSQL e o Oracle, não 
se mostram adequados a estes requisitos, por serem menos flexíveis. 
 
 
 
Isso acontece porque bancos de dados relacionais normalmente se baseiam em 
quatro propriedades que tornam a sua adoção segura e eficiente, razão pela 
qual soluções do tipo são tão populares: Atomicidade, Consistência, Isolamento 
e Durabilidade. Esta combinação é conhecida como ACID, sigla para o uso 
destes termos em inglês: Atomicity, Consistency, Isolation e Durability. Vejamos 
uma breve descrição de cada uma: 
 Atomicidade: toda transação deve ser atômica, isto é, só pode ser 
considerada efetivada se executada completamente; 
 Consistência: todas as regras aplicadas ao banco de dados devem ser 
seguidas; 
 Isolamento: nenhuma transação pode interferir em outra que esteja 
em andamento ao mesmo tempo; 
 Durabilidade: uma vez que a transação esteja concluída, os dados 
consequentes não podem ser perdidos. 
O problema é que a elasticidade, por exemplo, pode ser inviabilizada pela 
atomicidade e pela consistência. 
É neste ponto que entra em cena o conceito de NoSQL, denominação atribuída 
à expressão em inglês “Not only SQL“. 
O NoSQL faz referência às soluções de bancos de dados que possibilitam 
armazenamento de diversas formas, não se limitando ao modelo relacional 
tradicional. 
Bancos deste tipo são mais flexíveis, sendo inclusive compatíveis com um grupo 
de premissas que “compete” com as propriedades ACID: aBASE (Basically 
Available, Soft state, Eventually consistency – Basicamente disponível, Estado 
Leve, Eventualmente consistente). 
 
 
 
 
 
A escolha do banco NoSQL adequado para uma determinada aplicação não é 
trivial, alguns fatores importantes devem ser levados em consideração nesta 
escolha: 
1. Escalabilidade; 
2. Desempenho; 
3. Disponibilidade; 
4. Facilidade de uso. 
Os bancos de dados relacionais não ficaram ultrapassados, eles são e 
continuarão por muito tempo sendo úteis a uma série de aplicações. 
O que acontece é que, geralmente, quanto maior um banco de dados se torna, 
mais custoso e trabalhoso ele fica: é preciso otimizar, acrescentar novos 
servidores, empregar mais especialistas em sua manutenção, etc. 
Todos que trabalhamos com desenvolvimento ou alguns que somos mais 
especializados em banco, sabemos o quão custoso uma base de dados pode se 
tornar. 
 
 
 
Via de regra, escalar (torná-lo maior) um banco de dados NoSQL é mais fácil e 
menos custoso. Isso é possível porque, além de contar com propriedades mais 
flexíveis, bancos do tipo já são otimizados para trabalhar com processamento 
paralelo, distribuição global (vários data centers), aumento imediato de sua 
capacidade e outros. Mas a distribuição global é algo que chama muito a 
atenção para não centralizarmos dados em um único data center, ou termos 
que ficar virando chaves para contenções. 
Há mais de uma categoria de banco de dados NoSQL, fazendo com que 
soluções do tipo possam atender à grande variedade de dados que existe, tanto 
estruturados, quanto não estruturados: bancos de dados orientados a 
documentos, bancos de dados chave/valor, bancos de dados de grafos, etc. É 
necessário também contar com ferramentas que permitam o tratamento dos 
volumes. Neste ponto, o Hadoop é, de longe, a principal referência. 
Conectividade e Internet das Coisas 
 
O Big Data ajuda empresas de diversos segmentos a superar problemas 
específicos para fornecer melhores serviços para o seu público e clientes. 
Em pouco tempo a conectividade permitirá que as empresas deem passos 
maiores usando inteligência, internet e a ampla disponibilidade de dados. 
Afinal, a ampla conectividade não apenas mudará a forma como vivemos, mas 
gerará uma quantidade imensa de informações que se analisadas de forma 
precisa e inteligente poderão gerar grandes potenciais competitivos. 
O auge da cloud se relaciona com outras duas tendências predominantes de TI: 
o Big Data e a Internet das Coisas (IoT) que, em conjunto, são conhecidos 
como a “Terceira Plataforma”. 
O elemento comum destas tendências é que nos falam de um volume 
gigantesco de dados digitais que necessariamente transitará na nuvem. 
 
 
 
Para isso, as empresas terão que adaptar a arquitetura das redes e data 
centers para fornecer a capacidade necessária e flexibilidade exigidas para o 
novo cenário. 
Por outro lado, esse conjunto de fatores irá demandar, cada vez mais, dos 
provedores de serviços em nuvem. 
No caso da IoT, a IDC estima que mais de 90% destes dados serão alojados 
em plataformas deste tipo nos próximos cinco anos. Isso porque a nuvem reduz 
a complexidade associada à fusão de dados provenientes de fontes diversas e 
dispersas. 
O volume de dados gerados pela IoT será tamanho que obrigará, em curto 
prazo, as empresas a repensar até suas estratégias de conectividade. 
E o que é IoT (Internet das coisas) 
 
É uma revolução tecnológica a fim de conectar aparelhos eletrônicos do dia-a-
dia, como aparelhos eletrodomésticos à máquinas industriais e meios de 
transporte à Internet, cujo desenvolvimento depende da inovação técnica 
dinâmica em campos tão importantes como os sensores wireless e 
a nanotecnologia,ou seja, a "Internet das Coisas" conecta os aparelhos e 
veículos usando sensores eletrônicos e a Internet. 
 
 
 
 
 
Quando uma organização decide levar seus dados e aplicações para a nuvem, 
deve definir uma arquitetura em nuvem apta para suas necessidades – privada, 
pública ou híbrida – e, em seguida, selecionar o provedor de serviços que 
garanta a maior flexibilidade possível. 
A partir daí, é preciso preocupar-se para que a conectividade tenha o melhor 
desempenho, onde os níveis de uptime e segurança sejam garantidos por 
contrato, considerando uma largura de banda dinâmica, que dê a rede 
escalabilidade máxima. 
Podemos afirmar que estas modificações nos trarão grandes transformações, 
tais como: 
Gadgets: cada vez mais modulares e convergentes: Estamos vendo, mesmo 
que neste momento um pouco vagarosamente, o crescimento dos dispositvos 
wearables. 
Relógios, óculos, roupas tecnológicas estão cada vez mais nos trazendo 
informações para nossa rede de conhecimento. 
 
 
 
Big Data: Com a maior absorção das informações que coletamos durante 
nosso dia a dia, através de nosso comportamento digital, vamos gerar um 
volume cada vez maior de informações a nosso respeito. 
Segurança: Naturalmente que este volume de informações deverá gerar uma 
nova onda de segurança e privacidade entre os usuários. 
Cloud Computing: Este processo parece sem volta. A cada dia que passa, 
estamos observando o crescimento desta área que já suporta o nascimento e 
os primeiros passos do Big Data. 
A verdadeira Globalização: Que o mundo está a cada dia mais integrado, isso é 
fato. Mas a tendência é que tenhamos apenas uma única língua, e que as 
fronteiras entre os países, sejam meramente físicas, mas inexistentes 
comercialmente. 
Com todos estes conceitos acima mencionados, poderemos “estar” em qualquer 
lugar em qualquer “tempo”. Claro que vamosprecisar que a holografia tenha 
um bom salto tecnológico em um futuro próximo. 
Enfim, é através da Conectividade Permanente que estamos evoluindo nossas 
ideias e comportamentos. 
Como todos sabem de acordo com pesquisas realizadas e apresentadas em 
vários Foruns de TIC , os assuntos cloud computing e big data, ainda patinam 
nas organizações, pois o grande volume de dados existentes fazem com que os 
gestores das organizações ficarem perdidos nas tomadas de decisões, com o 
movimento de internet das coisas (IoT) não é diferente, mas precisamente é 
algo mais recente, totalmente novo, e já vinha acontecendo ainda que de 
maneira insipiente em diversas partes do mundo. 
O fato é que o modelo ganhou formato comercial e bem estruturado e agora 
parece estar pronto para um grande salto em termos de escala. 
 
 
 
Estados Unidos e Europa, com boa parte da população conectada e maturidade 
avançada em automação industrial, parecem ser grandes celeiros para a 
tendência, mas nesse amplo debate, a América Latina, que ainda patina em 
conectividade, é vista como terreno fértil para oportunidades por diversos 
players. 
Sendo assim, para obter o processamento de Big Data provenientes da Internet 
Of Things será necessário adotar uma arquitetura baseada em clusters que 
ofereça suporte para o framework do Apache Hadoop, uma arquitetura 
comumente utilizada para isto e com capacidade de elasticidade de recursos, é 
a utilização de Cloud Computing (Computação em Nuvem). 
Conclusão 
 
Com base no estudo realizado, torna-se evidente que não há como fugir do 
fenômeno Big Data, pois já é uma realidade muito mais próxima de nós do que 
possamos imaginar. 
A sociedade atual se organiza em torno dos meios de comunicação, com a 
popularização da internet, dos dispositivos moveis com acesso à mesma, a 
evolução da tecnologia como um todo, tudo isso alavancou uma nova era, em 
que a tecnologia e a informação ditam as regras. 
Atualmente a maioria das pessoas possui algum contato com algo que pode 
contribuir para gerar essa grande quantidade de dados, de forma direta ou 
indireta. 
As tecnologias para trabalhar com o oceano de dados que cresce em volume de 
forma monstruosa e flui continuamente nos deixa otimista, porque se mostram 
comprometidas como o objetivo de resolver essa questão e viabilizar o trabalho 
com grandes quantidades de dados. 
Outro ponto importante que deve ser enfatizado é a questão do potencial 
analítico que o Big Data pode nos oferecer. 
 
 
 
O poder de quem detém a expertise de trabalhar com grandes quantidades de 
dados é imensurável, a aplicação se estende por diversas áreas, não ficando 
restrito apenas ao um setor. 
Podemos concluir que o Big Data se revela um divisor de águas e seu impacto 
na sociedade poderá ser comparado com o advento da internet, que hoje se 
tornou algo indispensável em nossas vidas. 
É um mundo a ser explorado, que já no início se mostra de grande potencial e 
será a questão tecnológica mais discutida nos próximos anos certamente. 
Como já foi dito, o surgimento do Big Data é o que temos hoje para trabalhar 
com essa quantidade enorme de dados que vem surgindo no cenário atual. 
O grande desafio é manusear essa infinidade de dados e extrair informação 
relevante a partir dos mesmos. 
O que é importante em big data, apesar de tanta tecnologia envolvida, a 
análise digital não neutraliza a importância humana na tomada de decisão e na 
inovação, ao contrário, a profusão de modelos preditivos e correlações de 
dados demandarão como nunca a capacidade humana de gerar insights, 
discernir e decidir. 
Se precisarmos definir Big Data, diremos que é a representação digital da vida. 
Dados digitais iluminam as pessoas e a rede vital que elas estabelecem entre si, 
com a natureza e com os objetos que estão à sua volta. 
Acreditamos que lidar com esses dados é uma missão que todo ser humano 
deverá abraçar com cuidado porque eles são o código que nos mostrará como 
dar equilíbrio ao nosso planeta. 
Como diz Thomas Davenport, “Big Data pode ser descrito como um rio de 
informações em correnteza que nunca para”. 
 
 
 
 
 
BIBLIOGRAFIA 
 
BAZERMAN, M. H.; MOORE, D. Processo decisório. 7. ed. Tradução de Daniel 
Vieira. Rio de Janeiro: Elsevier, 2010. 
CANARY, Vivian. A tomada de decisão no contexto do Big Data: estudo de 
caso único. 2013. 74 p. Monografia (Conclusão do curso) – UFRGS, 
Departamento de Ciências Administrativas, Porto Alegre. 
COLUMBUS, Louis. Roundup of Big Data Forecasts and Market 
Estimates, 2012. 16 ago. 2012. Disponível em: 
<http://www.forbes.com/sites/louiscolumbus/2012/08/16/roundup-of-big-data-
forecasts-and-market-estimates-2012>. 
COMPUTERWORLD. Hadoop cimenta importância para Big Data. 
Disponível em: <http://www.computerworld.com.pt/2012/06/19/hadoop-
cimenta-importancia-para-bigdata/>. Acesso em: 24 maio 2013. 
DAVENPORT, Thomas H. Big Data no Trabalho: derrubando mitos e 
descobrindo oportunidades. Rio de Janeiro: Campus, 2014. 
DIFRANZO, Dominic - stko.geog.ucsb.edu/s4bd2013/ 
FRANÇA, Tiago; FARIA, Fermino; RANGEL, Fabio; FARIAS, Claudio; OLIVEIRA, 
Jonice. Big Social Data: princípios sobre coleta, tratamento e análise de dados 
sociais. In: LÓSCIO, Bernadette Farias; HARA, Carmem S.; MARTINS, Vidal 
(Org.). Tópicos em gerenciamento de dados e informações. Curitiba: 
UFPR; PUC-PR, 2014. 
GOUVEIA, W. MapReduce é o que há. Disponível em: 
<http://amsterdaintelligence.blogspot.com.br/2010/03/mapreduce-e-o-que-
ha.html>. Acesso em: 21 maio 2013. 
HURWITZ, Judith; NUGENT, Alan; HALPER, Fern; KAUFMAN, Marcia. Big Data 
para Leigos. Rio de Janeiro: Ed. Starlin, 2016. 
 
 
 
 
INMOMENT – 2014. 
Jewwll, Dave et al - www.redbooks.ibm.com/redpapers/.../redp5070.pdf 
LIMA, Gustavo. Cezar Taurion ensina o que é Big Data. 9 jan. 2013. 
Disponível em: <blog.corujadeti.com.br/cezar-taurion-ensina-o-que-e-big-
data>. 
NONOHAY, Roberto Guedes. Tomada de decisão e os sistemas cerebrais: 
primeiros diálogos entre administração, psicologia e neurofisiologia. 2012. 162 
p. Dissertação (Mestrado) – UFRGS, Escola de Administração, Programa de Pós-
graduação em Administração, Porto Alegre. 
O GRANDE livro de Big Data. Disponível em: <now.informatica.com/br_the-big-
data-workbook_book_2730.html>. 
O’REILLY. Big Data Now. 1. ed. Sebastopol, CA: O’Reilly Media Inc. 2012. 
OHLHORST – 2012 - www.the-tech-prophet.com/category/big-data/ 
PETRY, A. Vida digital: o berço do Big Data. Revista Veja, São Paulo, maio 
2013, p. 71-81. 
SCHMARZO, Bill. Líder em competência global da EMC Consulting: estudo 
do analítico do Big Data. 
SCHNEIDER, R. D. Hadoop for dummies. Special Edition. Mississauga, CAN: 
John Wiley & Sons Canada, 2012. 41 p. 
SCHÖNBERGER, Viktor M.; CUKIER, Kenneth. Big Data: a revolution that will 
transform how we live, work and think. Kindle Edition. New York: Houghton 
Mifflin Harcourt Publishing Company, 2013. 
Taurion – 2014 - 
www.revistas.usp.br/signosdoconsumo/article/download/.../100022 
THE DECIDING FACTOR: Big data and decision-making. Economist 
Intelligence Unit, London, 2012. 
The Guardian - http://www.guardian.co.uk/technology/2010. 
 
 
 
 
Wikipedia http://en.wikipedia.org/wiki/Main_Page. Diversos acessos. 
WorldAtlas e CNN – 2014. 
ZUPPO, Daniella; COSTA, Luciana; FERNANDES, Soraya. Big Data: desafios e 
análise estratégica. Rio de Janeiro: COPPE/UFRJ, 2013.

Continue navegando