Logo Passei Direto
Buscar
Material
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Indaial – 2021
Análise e 
VisuAlizAção 
dos dAdos
Prof. Arquelau Pasta
1a Edição
Big dAtA 
AnAlytics:
Elaboração:
Prof. Arquelau Pasta
Copyright © UNIASSELVI 2021
 Revisão, Diagramação e Produção:
Equipe Desenvolvimento de Conteúdos EdTech
Centro Universitário Leonardo da Vinci – UNIASSELVI
 Ficha catalográfica elaborada pela equipe Conteúdos EdTech UNIASSELVI
Impresso por:
P291b
 Pasta, Arquelau
 
 Big data analytics: análise e visualização dos dados. / 
Arquelau Pasta – Indaial: UNIASSELVI, 2021.
 
 228 p.; il.
 ISBN 978-65-5663-747-1
 ISBN Digital 978-65-5663-748-8 
 
 1. Big data analytics. - Brasil. II. Centro Universitário Leonardo 
da Vinci.
 CDD 004
Prezado acadêmico! Seja bem-vindo à disciplina de Big Data Analytics: Análise 
e Visualização dos Dados.
Este livro didático foi elaborado com o intuito de contribuir e aprimorar o seu 
conhecimento acerca destas três unidades principais: Unidade 1: Big Data Analytics; 
Unidade 2: Trabalhando com Dados e Unidade 3: Big Data para Negócios.
Em muitas empresas, a análise de dados já faz parte da rotina de negócios. Esta 
é uma das estratégias utilizadas no auxílio da otimização dos processos administrativos 
e ajuda no entendimento do padrão de comportamento dos clientes e do mercado, 
buscando tornar os produtos e/ou serviços mais competitivos, e por que não mais 
lucrativos. O que observamos é que a quantidade de dados gerados cresce a cada dia 
e nem pensar em fazer uma análise nesses dados de forma manual. É neste momento 
que entra em ação o Big Data Analytics.
Com o avanço das tecnologias digitais, as plataformas estão possibilitando cada 
vez mais a geração de dados, mas ainda há pouca análise desses dados. Este cenário 
permite que haja uma forte tendência na criação de novas técnicas e ferramentas 
capazes de realizar análises em tempo real, visando a um melhor desempenho para 
aqueles que souberem interpretar as informações geradas. Com investimentos na 
utilização de ferramentas de Big Data Analytics, as empresas podem desenvolver seus 
produtos e/ou serviços de forma mais eficiente e eficaz, tendo significativa melhora em 
seus processos. A correta utilização do Big Data Analytics possibilita que as empresas 
atraiam mais clientes, mantenham os já existentes, explorem novos mercados e, de 
quebra, se tornem mais competitivas e lucrativas.
Aproveitamos este momento para destacar que os exercícios NÃO SÃO 
OPCIONAIS. O objetivo de cada exercício deste livro didático é a fixação de determinado 
conceito, bem como o aprimoramento dos seus saberes. É aí que reside a importância 
de você realizar todas as atividades propostas. Sugerimos fortemente que, em caso 
de dúvida em algum exercício, você entre em contato com seu tutor externo e que 
não passe para o exercício seguinte enquanto o atual não estiver completamente 
compreendido.
Por fim, ressaltamos que, mesmo sendo uma área muito ampla, o livro didático 
lhe oferece um início sólido e consistente do tema. Desejamos a você uma excelente 
experiência nos estudos dos conteúdos desta disciplina! 
Prof. Arquelau Pasta
APRESENTAÇÃO
Olá, acadêmico! Para melhorar a qualidade dos materiais ofertados a você – e 
dinamizar, ainda mais, os seus estudos –, nós disponibilizamos uma diversidade de QR Codes 
completamente gratuitos e que nunca expiram. O QR Code é um código que permite que você 
acesse um conteúdo interativo relacionado ao tema que você está estudando. Para utilizar 
essa ferramenta, acesse as lojas de aplicativos e baixe um leitor de QR Code. Depois, é só 
aproveitar essa facilidade para aprimorar os seus estudos.
GIO
QR CODE
Olá, eu sou a Gio!
No livro didático, você encontrará blocos com informações 
adicionais – muitas vezes essenciais para o seu entendimento 
acadêmico como um todo. Eu ajudarei você a entender 
melhor o que são essas informações adicionais e por que você 
poderá se beneficiar ao fazer a leitura dessas informações 
durante o estudo do livro. Ela trará informações adicionais 
e outras fontes de conhecimento que complementam o 
assunto estudado em questão.
Na Educação a Distância, o livro impresso, entregue a todos 
os acadêmicos desde 2005, é o material-base da disciplina. 
A partir de 2021, além de nossos livros estarem com um 
novo visual – com um formato mais prático, que cabe na 
bolsa e facilita a leitura –, prepare-se para uma jornada 
também digital, em que você pode acompanhar os recursos 
adicionais disponibilizados através dos QR Codes ao longo 
deste livro. O conteúdo continua na íntegra, mas a estrutura 
interna foi aperfeiçoada com uma nova diagramação no 
texto, aproveitando ao máximo o espaço da página – o que 
também contribui para diminuir a extração de árvores para 
produção de folhas de papel, por exemplo.
Preocupados com o impacto de ações sobre o meio ambiente, 
apresentamos também este livro no formato digital. Portanto, 
acadêmico, agora você tem a possibilidade de estudar com 
versatilidade nas telas do celular, tablet ou computador.
Preparamos também um novo layout. Diante disso, você 
verá frequentemente o novo visual adquirido. Todos esses 
ajustes foram pensados a partir de relatos que recebemos 
nas pesquisas institucionais sobre os materiais impressos, 
para que você, nossa maior prioridade, possa continuar os 
seus estudos com um material atualizado e de qualidade.
Acadêmico, você sabe o que é o ENADE? O Enade é um 
dos meios avaliativos dos cursos superiores no sistema federal de 
educação superior. Todos os estudantes estão habilitados a participar 
do ENADE (ingressantes e concluintes das áreas e cursos a serem 
avaliados). Diante disso, preparamos um conteúdo simples e objetivo 
para complementar a sua compreensão acerca do ENADE. Confira, 
acessando o QR Code a seguir. Boa leitura!
ENADE
LEMBRETE
Olá, acadêmico! Iniciamos agora mais uma 
disciplina e com ela um novo conhecimento. 
Com o objetivo de enriquecer seu conheci-
mento, construímos, além do livro que está em 
suas mãos, uma rica trilha de aprendizagem, 
por meio dela você terá contato com o vídeo 
da disciplina, o objeto de aprendizagem, materiais complementa-
res, entre outros, todos pensados e construídos na intenção de 
auxiliar seu crescimento.
Acesse o QR Code, que levará ao AVA, e veja as novidades que 
preparamos para seu estudo.
Conte conosco, estaremos juntos nesta caminhada!
SUMÁRIO
UNIDADE 1 - INTRODUÇÃO AO BIG DATA ANALYTICS ......................................................... 1
TÓPICO 1 - A ERA DOS DADOS ..............................................................................................3
1 INTRODUÇÃO .......................................................................................................................3
2 É TEMPO DE DADOS ............................................................................................................3
RESUMO DO TÓPICO 1 .........................................................................................................10
AUTOATIVIDADE ...................................................................................................................11
TÓPICO 2 - DO SMART AO BIG DATA ................................................................................... 13
1 INTRODUÇÃO ..................................................................................................................... 13
2 DO MICRO AO MACRO ...................................................................................................... 13
3 DATA DEVICES .................................................................................................................. 21
4 DATA COLLECTORS ........................................................................................................ 22
5 DATA AGGREGATORS ......................................................................................................22
6 DATA USERS E BUYERS................................................................................................... 22
RESUMO DO TÓPICO 2 ........................................................................................................ 25
AUTOATIVIDADE ................................................................................................................. 26
TÓPICO 3 - OS Vs DO BIG DATA .......................................................................................... 29
1 INTRODUÇÃO .................................................................................................................... 29
2 BIG DATA E SEUS V’s ....................................................................................................... 29
2.1 VOLUME .................................................................................................................................................30
2.2 VELOCIDADE ........................................................................................................................................32
2.3 VERACIDADE .......................................................................................................................................33
2.4 VARIEDADE ..........................................................................................................................................35
2.5 VALOR .................................................................................................................................................... 37
2.6 VISUALIZAÇÃO ....................................................................................................................................38
2.7 VOLATILIDADE .....................................................................................................................................39
RESUMO DO TÓPICO 3 ........................................................................................................ 42
AUTOATIVIDADE ................................................................................................................. 43
TÓPICO 4 - O CICLO DE VIDA DO BIG DATA ....................................................................... 45
1 INTRODUÇÃO .................................................................................................................... 45
2 AS FASES DO BIG DATA ................................................................................................... 45
2.1 DESCOBERTA....................................................................................................................................... 48
2.2 PREPARAÇÃO DOS DADOS ...............................................................................................................51
2.3 PLANEJAMENTO DE MODELOS ......................................................................................................52
2.4 CONSTRUINDO O MODELO ...............................................................................................................53
2.5 COMUNICAR OS RESULTADOS ........................................................................................................53
2.6 OPERACIONALIZAÇÃO ......................................................................................................................54
RESUMO DO TÓPICO 4 ........................................................................................................ 55
AUTOATIVIDADE ................................................................................................................. 56
TÓPICO 5 - OS MITOS E VERDADES DO BIG DATA .............................................................59
1 INTRODUÇÃO .....................................................................................................................59
2 VERDADES E MENTIRAS SOBRE BIG DATA ....................................................................59
2.1 MITO 1 – BIG DATA É PARA GRANDES EMPRESAS ......................................................................60
2.2 MITO 2 – BIG DATA REQUER GRANDES ORÇAMENTOS E GRANDES EQUIPES ...................60
2.3 MITO 3 – QUANTO MAIS DADOS, MELHOR! ...................................................................................61
2.4 MITO 4 – O BIG DATA SUBSTITUIRÁ O DATA WAREHOUSE ......................................................62
2.5 MITO 5 – BIG DATA TORNA QUALQUER EMPRESA LUCRATIVA ..............................................62
RESUMO DO TÓPICO 5 ........................................................................................................ 63
AUTOATIVIDADE ................................................................................................................. 64
TÓPICO 6 - APLICAÇÕES MAIS USUAIS DE BIG DATA ......................................................67
1 INTRODUÇÃO .....................................................................................................................67
2 QUEM USA BIG DATA? ......................................................................................................67
LEITURA COMPLEMENTAR ................................................................................................. 71
RESUMO DO TÓPICO 6 .........................................................................................................76
AUTOATIVIDADE .................................................................................................................. 77
REFERÊNCIAS ......................................................................................................................79
UNIDADE 2 — TRABALHANDO COM DADOS ...................................................................... 83
TÓPICO 1 — PROCESSANDO DADOS PARA BIG DATA ....................................................... 85
1 INTRODUÇÃO .................................................................................................................... 85
2 PROCESSAMENTO DE DADOS ........................................................................................ 86
2.1 EXPLOSÃO DE DADOS ........................................................................................................................87
2.1.1 Como lidar com a escalabilidade em Big Data? ..................................................................90
2.1.2 Escalabilidade horizontal .........................................................................................................94
2.1.3 Escalabilidade vertical ..............................................................................................................96
RESUMO DO TÓPICO 1 .........................................................................................................99
AUTOATIVIDADE ................................................................................................................100
TÓPICO 2 - BIG DATA E A COMPUTAÇÃO EM NUVEM ......................................................103
1 INTRODUÇÃO ...................................................................................................................103
2 BIG DATA E CLOUD COMPUTING ....................................................................................103
2.1 IAAS: INFRAESTRUTURA COMO SERVIÇO ..................................................................................106
2.2 PAAS: PLATAFORMA COMO SERVIÇO ......................................................................................... 107
2.3 SAAS: SOFTWARE COMO SERVIÇO ..............................................................................................108
2.4 FAAS: FUNÇÕES COMO SERVIÇO .................................................................................................109
3 OS TIPOS DE IMPLANTAÇÃO DE NUVENS ..................................................................... 112
3.1 NUVEM PÚBLICA ................................................................................................................................112
3.2 NUVEM PRIVADA...............................................................................................................................113
3.3 COMMUNITY CLOUD .........................................................................................................................113
3.4 NUVEM HÍBRIDA ................................................................................................................................114
RESUMO DO TÓPICO 2 ....................................................................................................... 116
AUTOATIVIDADE .................................................................................................................117
TÓPICO 3 - BANCOS DE DADOS PARA BIG DATA............................................................. 119
1 INTRODUÇÃO ................................................................................................................... 119
2 TIPOS DE BANCOS DE DADOS PARA BIG DATA ............................................................120
2.1 BANCO DE DADOS NOSQL .............................................................................................................. 122
3 CLASSIFICAÇÕES DE BANCOS DE DADOS NÃO RELACIONAIS .................................. 131
3.1 BANCOS DE DADOS ORIENTADO A CHAVE/VALOR...................................................................131
3.2 BANCOS DE DADOS ORIENTADOS A DOCUMENTOS ............................................................... 133
3.3 BANCOS DE DADOS ORIENTADOS A COLUNAS ....................................................................... 137
3.4 BANCOS DE DADOS ORIENTADOS A GRAFOS .......................................................................... 139
4 MONGODB .......................................................................................................................142
5 A ABORDAGEM NÃO RELACIONAL ............................................................................... 144
5.1 CRIAÇÃO OU GERAÇÃO DE CHAVE ............................................................................................... 147
6 PREPARAÇÃO DOS DADOS ............................................................................................148
LEITURA COMPLEMENTAR ............................................................................................... 151
RESUMO DO TÓPICO 3 .......................................................................................................155
AUTOATIVIDADE ................................................................................................................156
REFERÊNCIAS ....................................................................................................................158
UNIDADE 3 — BIG DATA PARA NEGÓCIOS ........................................................................163
TÓPICO 1 — BIG DATA NAS ORGANIZAÇÕES ....................................................................165
1 INTRODUÇÃO ...................................................................................................................165
2 BIG DATA NAS ORGANIZAÇÕES .....................................................................................166
2.1 FASES DO BIG DATA ..........................................................................................................................168
2.1.1 Fase 1 – descoberta ................................................................................................................. 169
2.1.2 Fase 2 – preparação e processamento dos dados ......................................................... 169
2.1.3 Fase 3 – planejamento do modelo ...................................................................................... 170
2.1.4 Fase 4 – construção do modelo ........................................................................................... 171
2.1.5 Fase 5 – comunicação dos resultados ............................................................................... 171
2.1.6 Fase 6 – medição da eficácia ................................................................................................ 171
2.2 COMO AS EMPRESAS USAM BIG DATA PARA CAPTAR E RETER SEUS CLIENTES? ........ 173
2.2.1 Transformando dados em decisões .................................................................................... 175
2.3 O BIG DATA NO MARKETING............................................................................................................176
2.4 BIG DATA E GERENCIAMENTO DE RISCOS ..................................................................................177
2.5 BIG DATA E A CADEIA DE SUPRIMENTOS ................................................................................... 179
RESUMO DO TÓPICO 1 ....................................................................................................... 181
AUTOATIVIDADE ................................................................................................................182
TÓPICO 2 - INOVAÇÃO E TOMADA DE DECISÃO COM BIG DATA .....................................185
1 INTRODUÇÃO ...................................................................................................................185
2.1 BIG DATA E OS SISTEMAS DE INFORMAÇÃO .............................................................................. 187
2.1.1 Implementação de Sistemas de Big Data em Organizações ........................................190
2.2 BIG DATA E SEUS TIPOS DE ANÁLISES ....................................................................................... 192
2.2.1 Análise descritiva ..................................................................................................................... 193
2.2.2 Análise diagnóstica ................................................................................................................ 195
2.2.3 Análise preditiva ..................................................................................................................... 196
2.2.4 Análise prescritiva ..................................................................................................................198
RESUMO DO TÓPICO 2 ...................................................................................................... 200
AUTOATIVIDADE ................................................................................................................201
TÓPICO 3 - BIG DATA NA PRÁTICA .................................................................................. 203
1 INTRODUÇÃO .................................................................................................................. 203
2 IMPLANTANDO BIG DATA NAS EMPRESAS .................................................................. 203
2.1 EM BUSCA DOS DADOS PERFEITOS ............................................................................................ 204
2.2 DESENHANDO UMA METODOLOGIA PARA BIG DATA ............................................................. 206
2.3 ESCOLHAM SUAS ARMAS ..............................................................................................................207
 2.3.1 Hadoop ......................................................................................................................................208
 2.3.2 Bancos de dados NoSQL ...................................................................................................... 209
 2.3.3 MapReduce ..............................................................................................................................211
 2.3.4 Yarn ............................................................................................................................................ 213
 2.3.5 Spark .......................................................................................................................................... 215
 2.3.6 Tableau .....................................................................................................................................216
2.4 PREPARE SEUS GUERREIROS ...................................................................................................... 217
LEITURA COMPLEMENTAR .............................................................................................. 220
RESUMO DO TÓPICO 3 ...................................................................................................... 223
AUTOATIVIDADE ............................................................................................................... 224
REFERÊNCIAS ................................................................................................................... 226
1
UNIDADE 1 - 
INTRODUÇÃO AO BIG DATA 
ANALYTICS
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• definir e esclarecer os principais conceitos relacionados ao Big Data Analytics;
• analisar e discutir, a partir dos conceitos e da compreensão dos componentes que 
fazem parte da arquitetura de Big Data;
• identificar as principais problemáticas associadas à elaboração de um projeto de Big 
Data Analytics;
• analisar as fontes de origem e tipos de dados a serem trabalhados no Big Data 
Analytics;
• categorizar as principais vertentes do Big Data Analytics.
Esta unidade está dividida em seis tópicos. No decorrer dela, você encontrará 
autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – A ERA DOS DADOS
TÓPICO 2 – DO SMART AO BIG DATA
TÓPICO 3 – OS Vs DO BIG DATA 
TÓPICO 4 – O CICLO DE VIDA DO BIG DATA 
TÓPICO 5 – OS MITOS E VERDADES DO BIG DATA 
TÓPICO 6 – APLICAÇÕES MAIS USUAIS DE BIG DATA
Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure 
um ambiente que facilite a concentração, assim absorverá melhor as informações.
CHAMADA
2
CONFIRA 
A TRILHA DA 
UNIDADE 1!
Acesse o 
QR Code abaixo:
3
A ERA DOS DADOS
1 INTRODUÇÃO
Devido ao rápido crescimento das tecnologias de rede sem fio (por exemplo, 5G) 
e à crescente demanda por serviços com alta qualidade de serviço solicitação (QoS), 
o gerenciamento de recursos de rede torna-se uma etapa permanentemente mais 
desafiadora que requer ser corretamente projetada para avançar o desempenho da rede. 
Os dados digitais produzidos são, em parte, resultado do uso de dispositivos 
conectados à internet. Assim, smartphones, tablets e computadores transmitem dados 
de seus usuários. Objetos inteligentes conectados transmitem informações do uso de 
objetos cotidianos pelo consumidor. 
Além dos dispositivos conectados, os dados vêm de uma ampla gama de 
fontes: dados demográficos, dados climáticos, dados científicos e médicos, dados de 
consumo de energia etc. Todos esses dados fornecem informações da localização dos 
usuários dos dispositivos, suas viagens, seus interesses, seus hábitos de consumo, 
suas atividades de lazer, e seus projetos e assim por diante. 
Neste tópico, você compreenderá a origem dos dados, quais são as principais 
fontes que estão gerando esta quantidade gigantesca. Além disso, conhecerá as novas 
tendências na geração de dados.
TÓPICO 1 - UNIDADE 1
2 É TEMPO DE DADOS
A quantidade de dados gerados cresceu vertiginosamente, nos últimos anos, 
atingindo uma posição sem precedentes vistos, levando a qualquer dado para atrair 
mais atenção do que com dados em tabelas de qualquer banco de dados.
Em 2020, o surto do COVID-19 intensificou ainda mais a geração de dados 
digitais, pode se dizer que 2020 introduziu uma nova era, na qual a tecnologia e os 
dados assumiram papéis mais significativos em nosso cotidiano.
A cada clique do mouse, a cada reação nas mídias sociais, compartilhamento, 
foto enviada, áudio ou vídeo do Youtube ou qualquer outra plataforma de streaming, os 
dados são gerados, sem levar em consideração os dados gerados pelos ERP, softwares 
ou até mesmo a escrita deste livro. Esses dados, quando devidamente analisados, nos 
auxiliam a entender melhor este mundo que se atualiza a cada milissegundo numa 
velocidade mais do que incrível. 
4
Em 2015, estimava-se que 2,5 quintilhões de bytes eram gerados todos os 
dias. O Instituto Gartner (2018 apud GASTOS GLOBAIS [...], 2018), estimou que até 2020 
teríamos um total de 40 trilhões de gigabytes de dados sendo gerados por dia, isto 
significa 2,2 milhões de terabytes sendo gerados diariamente.
A plataforma Domo (2020), especializada em dados, apresenta um infográfico 
com informações de onde vem esta quantidade de dados gerados.
FIGURA 1 – FONTE DA ORIGEM DOS DADOS
FONTE: <https://bit.ly/3ingqlW>. Acesso em: 23 abr. 2021.
De acordo com uma estimativa da IBM, 2,5 quintilhões de bytes de dados são 
criados todos os dias. Um relatório recente da Domo (2020) estima a quantidade de 
dados gerados a cada minuto em plataformas on-line populares. A seguir, estão alguns 
dos principais dados do relatório:
• usuários do Facebook compartilham quase 4,16 milhões posts de conteúdo;
• usuários do Twitter enviam quase 300.000 tweets;
• usuários do Instagram curtem quase 1,73 milhão de fotos;
5
• usuários do YouTube carregam 500 horas de novo conteúdo de vídeo;
• usuários da Apple baixam quase 51.000 aplicativos;
• usuários de Skype fazem quase 110.000 novas chamadas;
• a Amazon recebe 4.300 novos visitantes;
• assinantes da Netflix transmitem quase 405.000 horas de vídeo.
Todos esses dados sendo gerados diariamente e de modo não sigiloso estão 
à disposição, porém, simplesmente ter acesso a eles não os fazem valer. Você precisa 
saber qual a finalidade, para o que você os quer, quais são seus interesses sobres eles, 
o que você quer extrair? Amaral (2016, p. 11) destaca que:
Na era da informação e conhecimento, analisar dados não é uma 
atividade qualquer para empresas e governos, é uma questão 
de sobrevivência. Em um mundo globalizado, e cada vez mais 
competitivo, em que dados eletrônicos são produzidos de forma 
exponencial, quem for capaz de extrair informação e conhecimento 
de dados de forma eficiente, venderá mais, produzirá mais, gastará 
menos, terá clientes mais satisfeitos, fornecedores mais eficientes e 
estará em conformidade com agências reguladoras e fiscalizadoras. 
Não somos capazes ainda de avaliar com precisão como essa nova 
era que está surgindo será, mas sabemos que a produção e análise 
de dados terão um papel fundamental.
A globalização e o e-commerce estão mudando radicalmente as preferências 
dos consumidores e uma enxurrada de jovens empreendedores da internet que está 
impulsionando mudanças descontínuas no ambiente de negócios surgiu. 
Essa mudança está se tornando mais ambígua e difícil de prever e planejar. Por 
exemplo, o Facebook transformou o mercado de varejo on-line à medida que várias plata-
formas transformaram as telecomunicações, e o Google transformou o universo de pes-
quisas. Com certeza uma mudança fundamental nas teorias recentes da estratégia é que 
a vantagem competitiva não é algo que uma empresa possui nem algo que possa proteger.
Desde o início das aplicações de computadores para problemas de negócios, 
na década de 1950, e certamente desde meados da década de 1960, quando os 
primeiros sistemas de gerenciamento de banco de dados bem-sucedidos começaram 
a aparecer, houve um aumento constante na quantidade de dados armazenados e no 
reconhecimento do valor desses dados, além da simples informatização das tarefas 
rotineiras. Na linguagem do Big Data, o volume de dados tem aumentado de forma 
constante e substancial, da década de 1960 até os dias atuais. 
Podemos dizer que os avanços tecnológicos e as mudanças geradas por estes 
avanços, produziram um tipo de “universo paralelo”, que está em franca expansão de 
novos conteúdos, novos dados, novas fontes de informações. Dados são criados cons-
tante e diariamente a uma taxa cada vez maior. Smartphones, mídias sociais, sensores 
acoplados nos mais diversos equipamentos, exemplo para diagnóstico médico, terminais 
bancários, geram dados que precisam ser processados e armazenados em tempo real.
6
Mesmo conseguindoacompanhar este gigantesco fluxo de dados é 
extremamente difícil ter uma noção do que estes dados tratam, especialmente quando 
não são tratados com as noções tradicionais de estrutura de dados, para identificar 
padrões significativos e extrair informações úteis. Esses desafios do dilúvio de dados 
apresentam a oportunidade de transformar negócios, governo, ciência e vida cotidiana.
Várias empresas estão na liderança do desenvolvimento de sua capacidade de 
coletar e explorar dados:
• As operadoras de cartão de crédito monitoram cada compra que seus clientes fazem 
e podem identificar compras fraudulentas ou até mesmo o uso indevido do cartão, 
por roubo, como exemplo, com alto grau de precisão usando regras derivadas do 
processamento de bilhões de transações;
• As operadoras de telefonia móvel analisam os padrões de chamada dos assinantes 
para determinar, por exemplo, se os contatos frequentes de um chamador estão em 
uma rede concorrente. Se essa rede concorrente está oferecendo uma promoção 
atraente que pode causar o cancelamento do contrato do assinante, a empresa 
de telefonia móvel pode oferecer proativamente ao assinante um incentivo para 
permanecer em seu contrato.
• Para empresas como LinkedIn e Facebook, o dado em si é seu principal produto. 
As avaliações dessas empresas são fortemente derivadas dos dados que coletam 
e hospedam, que contém cada vez mais valor intrínseco à medida que os dados 
crescem.
Após todo esse cenário, você já deve ter se perguntado: qual é a quantidade 
que eu gero por dia? Vamos começar com as suas redes sociais, quantas curtidas, 
quantos comentários você faz por dia? E seus e-mails, particular e de trabalho, quantos 
você recebe por dia, sejam “oficiais” ou spans. Quantas vezes você fez uma pesquisa no 
Google? Quantos anúncios são enviados para você enquanto você assiste a um vídeo no 
Youtube? Então, o que essas empresas fazem com estes dados? Onde essas empresas 
armazenam estes dados e para quê?
Devemos dar uma parada e perguntarmos: onde fica nossa privacidade 
neste cenário? Como garantir que nossos dados pessoais, bancários, por 
exemplo, não sejam utilizados por pessoas que querem tirar proveito de 
forma incorreta? Será que a Lei Geral de Proteção de Dados nos garantirá 
esta privacidade?
INTERESSANTE
7
A ciência de dados surgiu com a necessidade de lidarmos com 
a enorme quantidade de dados e informações geradas por 
nossas ações em conjunto com algum artefato – neste caso, 
tecnológico. Ela atende a uma demanda interdisciplinar, na qual 
estão inseridas outras tecnologias voltadas aos dados, como 
Big Data. O termo foi mencionado inicialmente em meados 
de 2010, mas, antes, seus conceitos eram compreendidos 
por outros termos, como OLAP (Online Analytical Processing) 
e BI (Business Intelligence). Podemos notar que, apesar de 
conseguirmos visualizar claramente a quantidade de dados 
que temos ao nosso redor, variantes do termo já vêm sendo 
utilizadas há algum tempo (GONÇALVES; ROGÉRIO; MORAES, 
2019, p. 4, grifo do original).
Devido à grande quantidade ou estrutura destes dados, eles não podem 
simplesmente ser analisados apenas usando bancos de dados ou métodos tradicionais. 
Essas análises exigem novas ferramentas e tecnologias para armazenar, gerenciar e 
realizar o benefício do negócio. Essas novas ferramentas e tecnologias permitem a 
criação, manipulação e gerenciamento de grandes conjuntos de dados e os ambientes 
de armazenamento que os abrigam. O que nos faz perceber que existe uma grande 
quantidade de dados gerados nas mais diversas fontes, e nos mais variados formatos, 
sejam estruturados ou não.
A taxa de criação de dados está acelerando, impulsionada por muitos dos itens. 
As mídias sociais e o sequenciamento genético, as pesquisas na área da saúde, estão 
entre as fontes de Big Data que mais crescem e exemplos de fontes não tradicionais de 
dados sendo usadas para análise.
Por exemplo, em 2012, os usuários do Facebook postaram 700 atualizações 
de status por segundo em todo o mundo, que podem ser aproveitadas para deduzir 
interesses latentes ou visões políticas dos usuários e mostrar anúncios relevantes. Por 
exemplo, na atualização em que uma mulher muda seu status de relacionamento de 
“solteira” para “noiva”, desencadearia anúncios de vestidos de noiva, planejamento de 
casamento ou serviços de mudança de nome.
O Facebook também pode construir gráficos sociais para analisar quais usuários 
estão conectados uns aos outros como uma rede interconectada. Em março de 2013, o 
Facebook lançou um novo recurso chamado “pesquisa gráfica”, permitindo que usuários 
e desenvolvedores pesquisassem gráficos sociais para pessoas com interesses 
semelhantes, hobbies e locais compartilhados.
8
FIGURA 2 – ORIGEM DOS DADOS
FONTE: <https://shutr.bz/3504qio>. Acesso em: 23 abr. 2021.
A popularização da internet, a partir dos anos 1995, sinalizou uma mudança 
de rota, não apenas na quantidade de dados, mas também mais significativamente na 
taxa em que os dados chegaram, isto é velocidade de geração de dados; a diversidade 
de fontes de onde chegaram e os tipos de dados disponíveis para quase todos, o que 
significa a variedade dos dados gerados. 
Mais importante do que as mudanças quantitativas, houve uma enorme 
mudança qualitativa na quantidade de detalhes, realizada e mantida por essas bases 
de dados. Essas mudanças, combinadas com mudanças drásticas na tecnologia 
disponível para analisar e extrair informações desses dados, o custo e a disponibilidade 
de processamento e armazenamento para os dados, e mecanismos de origem/
entrega, como smartphones e sensores, por sua vez, impulsionaram mudanças nas 
oportunidades que podem ser criadas pela excelência no uso de dados e informações.
Mais do que isso, eles têm impulsionado mudanças no que consideramos ser 
dados disponíveis para análise, em que vemos os possíveis resultados como sendo, 
como vemos a informação em si e, o mais importante, a capacidade que temos de usar 
os resultados para impactar eventos reais.
Mas a internet e o acesso resultante do consumidor a grandes quantidades de 
dados, em grande parte não estruturados, foi apenas a primeira onda de mudanças 
no volume de dados. Apesar de ter o efeito de disponibilizar esses dados a qualquer 
momento e a quase qualquer pessoa, e, pelo menos, tão importante, tornando quase 
todos uma fonte potencial (e muitas vezes real) de dados, eles acessaram apenas uma 
pequena fração da geração potencial e uso de dados.
9
Duas tendências existentes, e uma tendência emergente, preencheram esse 
vazio e estão aumentando drasticamente o volume, a velocidade, a variedade e, 
especialmente, os detalhes oportunos dos dados gerados e consumidos. São mobilidade, 
comunicação sem fio e tendência para dados “abertos”.
A primeira tendência, mobilidade, cria cada vez mais dados e ao mesmo tempo a 
demanda por dados. Ela reduz drasticamente o tempo no qual a informação é percebida 
como valor, as vezes para segundos. 
Fizemos uma pergunta simples: quanto tempo você está disposto a esperar 
para receber uma atualização de uma notícia? Lembre-se, você tem um smartphone e 
acesso à Internet a sua disposição.
A segunda tendência, comunicação sem fio, tem possibilitado a utilização de 
sensores em quase todos os lugares. A quantidade de dados gerados por sensores de 
temperatura, vento, condições climáticas, ou até mesmo situações envolvendo a saúde 
humana, como, por exemplo, medição de glicose, também está crescendo e tornando 
uma fonte para análise destes dados.
A última tendência “dados abertos”, se deve à utilização crescente de todos 
estes dispositivos por parte de um número cada vez maior de pessoas, deixando de 
estar presente somente nos ambientes corporativos, fazendo parte do nosso cotidiano.
Para uma empresa, é essencial ter acesso a cada vez mais dados do ambiente 
em que opera. Isso permitirá examinar não as classes de comportamento, mas casos 
individuais. Isso explica por que essa revolução trouxe o surgimentodas chamadas 
“startups”, cujo objetivo é processar automaticamente os dados conhecidos como Big 
Data. Certamente nos encontramos na frente de um dos elementos do que algumas 
pessoas chamam de “nova revolução industrial”. 
Está claro que a onipresença dos dados e devido à grande quantidade em 
que estão sendo gerados, irá criar uma demanda por profissionais que saibam coletar, 
armazenar, processar e, o mais importante, extrair informações desse grande conjunto 
de dados, para que cada vez mais sejamos capazes de entender as implicações que 
este novo universo nos traz.
10
Neste tópico, você adquiriu certos aprendizados, como:
RESUMO DO TÓPICO 1
• A quantidade de dados gerados no mundo está crescente vertiginosamente.
• Empresas, como as operadoras de cartão de crédito, telefonia, LinkedIn, Facebook, 
dentre tantas outras, têm os dados como seus ativos principais. 
 
• Existem três grandes tendências para a geração de novos dados, sendo elas a 
mobilidade, a comunicação sem fio e a de dados abertos.
 
• Devido à quantidade de dados gerados, eles não podem ser analisados com um 
simples banco de dados. 
11
1 O Big Data refere-se ao volume, variedade e velocidade de dados – estruturados ou 
não –transmitidos através de redes em processos de transformação e em dispositivos 
de armazenamento até que se torne um conhecimento útil para as empresas. Diante 
deste contexto, podemos afirmar que o Big Data começou: 
a) ( ) Com o surgimento de grande volume de dados gerados em função dos 
avanços tecnológicos.
b) ( ) Com o avanço nas metodologias de tomada de decisões estratégicas das empresas.
c) ( ) Com o avanço no poder de processamento dos computadores disponíveis para 
a população.
d) ( ) Com a necessidade de estarmos sempre conectados as redes sociais divulgando 
no cotidiano.
e) ( ) Com a criação de novas ferramentas de gerenciamento de banco de dados relacionais.
2 Usando de habilidades de programação, conhecimento de domínio e conhecimento 
matemático e estatístico, podemos analisar dados brutos e encontrar padrões 
ocultos. Uma empresa interessada em encontrar insights para gerenciar melhor a 
tomada de decisões a respeito de seus cliente e produtos, terá melhores chances se 
investir em:
a) ( ) Banco de dados Relacionais.
b) ( ) ERP.
c) ( ) Data Science.
d) ( ) Big Data.
e) ( ) Governança de Dados.
3 O Big Data Analytics é considerado um desdobramento do Big Data, softwares 
capazes de trabalhar com dados para transformá-los em informações úteis às 
empresas. O Big Data Analytics se difere do BI (Business Intelligence) por apresentar:
a) ( ) A priorização do ambiente de negócios, não levando em consideração as demais 
áreas da empresa.
b) ( ) A análise das dúvidas já conhecidas pela empresa, com o objetivo de obter 
respostas.
c) ( ) Melhorar a qualidade na coleta dos dados para diminuir o espaço no bando de dados.
d) ( ) A análise dos dados existente e dos futuros para indicar novos caminhos para 
a empresa.
e) ( ) A melhora na comunicação com seus clientes, ofertando novas promoções.
AUTOATIVIDADE
12
4 O Ministério Público Federal possui um conjunto de dados, em que o volume, a velo-
cidade e a variedade de dados são muito grandes, tornando-se difícil de gerenciá-los, 
manipulá-los e analisá-los. A este conjunto de dados, damos o nome de:
a) ( ) Data Warehouse.
b) ( ) Data Mart.
c) ( ) Big Data.
d) ( ) Cloud Computing.
e) ( ) Business Analytics.
5 No universo Big Data, as empresas buscam desbloquear o potencial de dados para gerar 
valor. Elas também estão impacientes para encontrar novas maneiras de processar esses 
dados e tomar decisões mais inteligentes, o que resultará em melhor atendimento ao 
cliente, melhor eficiência de processos e melhores resultados estratégicos. Sabendo 
disso, responda, na sua visão, como o Big Data pode auxiliar as empresas na construção 
desse valor?
13
DO SMART AO BIG DATA
1 INTRODUÇÃO
O surgimento de novas tecnologias, aplicações e fenômenos sociais cria novos 
modelos de negócios, comunidades e complexidades do sistema. Algumas dessas 
mudanças não são lineares e criam mudanças de tipo, como novas forças empresariais 
motrizes e novas estruturas organizacionais, que, por sua vez, impulsionam novas formas 
de interagir e conduzir negócios. Facebook, LinkedIn, Google e Twitter, combinados com 
dispositivos móveis, introduzem tais tecnologias emergentes, que geram ferramentas 
para fácil construção comunitária, colaboração e criação de conhecimento, baseadas 
em redes sociais.
Um requisito fundamental para uma análise de dados bem-sucedida é ter 
acesso a dados semanticamente ricos que vinculem elementos de informação 
pertinentes para análise objetiva. 
No entanto, a situação mudou com o Big Data, porque os dados agora vêm 
de várias fontes de tipos muito diferentes e de diferentes formas (estruturadas, não 
estruturadas). Isso nos leva a dizer que novas ferramentas de processamento de 
dados são agora necessárias, assim como métodos capazes de combinar milhares de 
conjuntos de dados.
Neste tópico, você irá compreender e distinguir a classificação dos dados em 
relação a sua organização, verá exemplos práticos desta organização dos dados e 
compreenderá também como os novos elementos participantes do ecossistema do Big 
Data estão interagindo.
UNIDADE 1 TÓPICO 2 - 
2 DO MICRO AO MACRO 
É incrível como a quantidade de dados para analisar cresceu tão dramaticamente 
durante os últimos 20 anos. Lembramos os dias antes da Web, antes do Big Data, antes 
das mídias sociais e antes do mobile, é incrível como a quantidade de dados para 
analisar cresceu, um banco de dados de clientes com informações básicas, dados de 
compras de varejo de terceiros ou informações de relatórios de crédito eram tão ricos ou 
tão detalhados quanto os dados que uma empresa esperava analisar. 
14
Naquela época era possível construir um bom negócio baseado em informações 
a partir de algo tão simples quanto realizar pesquisas regulares de benchmark e vender 
os resultados para as empresas. Naquela época, as empresas estavam trabalhando com 
menos informações do que precisavam, e, simplesmente, não havia fluxo de informações 
profundas de clientes, concorrentes e do setor em comparação com o que existe hoje. 
O feeling e a experiência eram características de negócio levadas em consideração nas 
reuniões de planejamento. 
Os dados gerados podem vir de várias formas, incluindo dados estruturados 
e não estruturados, como dados financeiros, arquivos de texto, arquivos multimídia e 
mapeamentos genéticos. Diferente da maioria de análise de dados, o Big Data trabalha, 
em sua maioria, com dados não estruturados ou quando semiestruturados, fato que faz 
com que tenhamos diferentes técnicas e ferramentas para extração e processamento 
destes dados.
Mata (2019, p. 15) retrata um pouco da origem dos dados, remontando as 
planilhas eletrônicas:
Os dados que antes eram apenas armazenados em planilhas ele-
trônicas ou em Banco de Dados Relacionais para fins de consulta e/
ou conformidade, hoje estão prontos para uso com as mais diversas 
finalidades. Essa realidade permitiu que áreas da ciência começas-
sem a ganhar destaque, tais como a Computação, a Estatística, a 
Matemática, o Processamento de Linguagem Natural e muitas ou-
tras que abrangem o conhecimento. Além disso, novas tecnologias 
emergiram a partir dessa nova realidade, em que muitas empresas 
investem recursos em soluções de Análise de Dados (Data Analy-
tics) cada vez mais robustas, sejam proprietárias ou open-sources.
É necessário desenvolver esses dados, explorando o conteúdo de e-mails 
e chamadas de voz, e combinar essas informações com atividades de navegação 
no site da empresa. Além disso, também é possível estudar mensagens trocadas em 
redes sociais (Facebook, Twitter, LinkedIn etc.) a fim de identificar novas tendências ou 
identificar os produtos que estão sendo mais comentados.
O acesso aos dados possibilita o enriquecimentode análises quantitativas e 
qualitativas. Os contatos dos clientes podem ser analisados através de dados coletados 
por um call center. Esse tipo de produto também pode ser oferecido em quantidade 
limitada, assim como os prospectos eletrônicos. 
O processo de coleta, processamento e interpretação de informações, não se 
limita à definição de ideias, mas também consiste em materializá-las, a fim de garantir 
uma melhor produção de conhecimento que leve à inovação. 
A inteligência competitiva permite que cada empresa otimize suas ofertas de 
serviços em termos qualitativos e quantitativos, bem como otimize sua tecnologia 
de produção.
15
GRÁFICO 1 – ORGANIZAÇÃO DOS DADOS
FONTE: O autor
O Gráfico 1 mostra quatro tipos de estruturas de dados, com 80 a 90% do 
crescimento futuro de dados provenientes de tipos de dados não estruturados. Embora 
diferente, os quatro são comumente misturados. 
Um Sistema Gerenciador de Banco de Dados Relacionais (SGBDR), por exemplo, 
armazena registro de uma chamada de call center de várias empresas, seja para atendi-
mento ao cliente ou suporte técnico. O SGBDR pode armazenar as características dessas 
chamadas como a data, hora da chamada, ou o tipo da máquina e o problema apresentado.
Além disso, o sistema provavelmente terá dados não estruturados, quase 
ou semiestruturados, como informações de registro de chamadas de um campo de 
observação contidas no formulário, livre retiradas de um corpo de e-mail relativo ao 
problema, histórico de bate-papo do cliente ou transcrição de uma chamada telefônica 
descrevendo o problema técnico e o arquivo de solução ou áudio da conversa de 
chamada telefônica. Muitos insights poderiam ser extraídos dos dados não estruturados, 
quase ou semiestruturados nos dados do call center.
Não obstante, a análise de dados estruturados tende a ser a técnica mais 
utilizada, se faz necessária uma técnica diferente para responder aos desafios da análise 
de dados semiestruturados (mostrados como XML), quase estruturados (mostrados 
como um clickstream) e dados não estruturados.
Vamos apresentar os quatro modelos de dados e como cada um deles pode 
aparecer, para que você consiga diferenciá-los.
• Dados estruturados: possuem estrutura bem definida e rígida. Este tipo não é 
diferente do tipo definido para eles. Contém dados, formato e estrutura definidos (ou 
seja, dados de transação, bancos de dados tradicionais, arquivos CSV e até planilhas 
simples). Veja exemplo no Quadro 1.
16
O melhor exemplo de dados estruturados é o de um banco de dados, no qual 
os dados são definidos conforme o esquema, que, por sua vez, define as tabelas, seus 
campos e tipos.
Os dados estruturados compreendem apenas uma pequena 
parcela dos dados que estão sendo analisados no mundo. Esse 
formato é representado por linhas e colunas e estão armazenados 
em Bancos de Dados Relacionais ou planilhas eletrônicas, tais como: 
Oracle, Excel, MySQL, entre outros. Algumas características dessas 
estruturas são a facilidade de acesso e manipulação, além de um 
esquema de armazenamento e organização bem definidos. Isso quer 
dizer que podemos obter respostas rápidas para alguns tipos de 
perguntas ao realizar uma simples consulta em um banco de dados. 
Para exemplificar, podemos extrair a média de idade dos alunos com 
sexo masculino do Ensino Médio considerando uma determinada 
escola com um simples SQL e utilizando campos estruturados, como 
idade, sexo, escolaridade e escola (MATA, 2019, p. 26).
Lembrem-se, não estamos falando dos tipos de dados de um Banco de 
Dados, mas da estrutura dos dados coletados para análise.
ATENÇÃO
QUADRO 1 – EXEMPLO DE DADOS ESTRUTURADOS
FONTE: Adaptado de IBGE (2020) 
17
• Dados semiestruturados: arquivos de dados textuais com um padrão perceptível 
que permite a análise – como arquivos de dados Extensible Markup Language (XML) 
autodescritos e definidos por um esquema XML. Veja um exemplo no Quadro 2.
Schreiner (2020, p. 71) destaca que: “A Web é composta por uma grande 
quantidade de dados semiestruturados e crus, como as páginas Web (cuja estrutura 
descrita no documento HTML expressa muito pouco do significado do conteúdo do 
documento) e conteúdo multimídia (imagens, sons e vídeos).
Os dados semiestruturados são dados que ainda não foram categorizados, 
organizados num repositório específico, como um banco de dados, mas que, todavia, 
tem informações associadas a eles, como metadados, que o tornam mais acessível ao 
processamento do que os dados brutos.
Mata (2019, p. 26-27) nos apresenta desta forma os dados semiestruturados:
No que se refere a dados semiestruturados, estes normalmente 
estão espalhados pela Web em arquivos HTML, XML ou em Banco de 
Dados não Relacionais, como o MongoDB, que possui uma estrutura 
semelhante a um arquivo JSON. Se pensarmos em um arquivo XML 
ou HTML, perceberemos que existe uma diferença nesses tipos de 
estruturas: a hierarquia ou a estrutura em árvore. As tags ou elementos 
possuem uma certa organização e qualificam os documentos. Os nós 
apresentam uma certa flexibilidade e não contêm uma representação 
fixa ou rígida como em um modelo estruturado, ao contrário, alguns 
campos (tags) podem conter descrições ou informações textuais, 
por exemplo, páginas web (como HTML e CSS), campos de e-mail, 
informações de redes sociais etc.
QUADRO 2 – EXEMPLO DADOS SEMIESTRUTURADOS
FONTE: O autor
18
• Dados quase estruturados: dados textuais com formatos de dados erráticos que 
podem ser formatados com esforço, ferramentas e tempo (por exemplo, dados de 
fluxo de cliques da Web que podem conter inconsistências nos valores e formatos de 
dados). Acompanhe o exemplo na Figura 3.
FIGURA 3 – EXEMPLO DE DADOS QUASE ESTRUTURADOS
FONTE: <https://shutr.bz/3g30JP7>. Acesso em: 23 abr. 2021.
• Dados não estruturados: dados que não têm estrutura inerente, que podem incluir 
documentos de texto, PDFs, imagens, sons e vídeo. Veja na Figura 4.
FIGURA 4 – EXEMPLO DE DADOS NÃO ESTRUTURADOS
FONTE: <https://www.youtube.com/user/wwwuniasselvi>. Acesso em: 23 abr. 2021.
19
A principal diferença entre os dados estruturados e os não estruturados 
consiste principalmente na sua classificação, na qual os dados 
estruturados possuem características detalhadas de sua composição, 
tipo, tamanho, restrições, enquanto os não estruturados não as contém, 
exemplo dos arquivos textuais, arquivos de mídia (som e imagem).
IMPORTANTE
Mata (2019, p. 47) destaca que: “Dados não estruturados representam uma fonte 
rica para extração de insights e são alvo de interesse das empresas especialmente nos 
dias de hoje. Por isso, é necessário construir uma arquitetura que suporte o alto volume 
de dados e que seja flexível a variados tipos de estruturas”.
Francisco (2015) nos apresenta um gráfico detalhando a evolução da quantidade 
de dados gerados, suas respectivas fontes e a estrutura na qual estão classificados.
GRÁFICO 2 – EVOLUÇÃO DOS DADOS GERADOS E SUA CATEGORIZAÇÃO
FONTE: Francisco (2015, p. 9)
20
Devemos concordar que, após a popularização da microcomputação, as três 
principais tendências de tecnologia da informação na última década foram a computação 
em nuvem, os dispositivos mobile e as mídias sociais. Essas três megatendências 
transformaram nossa economia, nossa sociedade e nossas vidas cotidianas.
O Big Data é definido como coleções de conjuntos de dados cujo volume, 
velocidade ou variedade é tão grande que é difícil armazenar, gerenciar, processar e 
analisar os dados usando bancos de dados tradicionais e ferramentas de processamento 
de dados. Nos últimos anos, houve um crescimento exponencial dos dados estruturados 
e não estruturados gerados pela tecnologia da informação, industrial, saúde, internet 
das Coisas (IoT) e outros sistemas.
Ressaltamos que para garantir a coleta relevante, e antes de passar a analisar 
os dados, é essencial definir para quais necessidades analíticas esses dados serão 
pesquisados e coletados, e com quais técnicas e ferramentas.
Os quatro tipos de dadosdescritos anteriormente, às vezes, são generalizados 
em apenas dois grupos: dados estruturados e não estruturados. O Big Data descreve 
novos tipos de dados com os quais a maioria das organizações pode não estar 
acostumada a trabalhar.
O Big Data vem de duas formas: os dados estruturados destinados ao 
processamento de computadores e a linguagem não estruturada que as pessoas leem, 
escrevem e falam. Infelizmente, nenhum sistema de computador hoje pode traduzir de 
forma confiável linguagem não estruturada para os formatos estruturados de bancos de 
dados, planilhas e a web semântica. Mas eles podem fazer um monte de processamento 
útil, e eles estão se tornando mais versáteis. 
As aplicações de Big Data abrangem uma ampla gama de domínios, incluindo 
(mas não se limitando apenas) casas, cidades, meio ambiente, sistemas de energia, 
varejo, logística, indústria em geral, agricultura, Internet das Coisas (IoT) e saúde.
O Big Data tem o potencial de alimentar a próxima geração de aplicativos 
inteligentes que aproveitarão o poder dos dados para tornar os aplicativos mais 
inteligentes. Os aplicativos de Big Data abrangem uma ampla gama de domínios como 
web, varejo e marketing, sistema bancário e financeiro, industrial, saúde, ambiental, 
Internet das Coisas (IoT) e sistemas cibernéticos.
O verdadeiro desafio no Big Data é a descoberta dos dados certos em massas 
de dados não estruturados, mais do que nossos recursos de análise Big Data desafiam 
nossos recursos de detecção de dados.
A tendência do Big Data está gerando uma enorme quantidade de informações 
de muitas novas fontes. Esse dilúvio de dados requer análises avançadas e novos players 
do mercado para aproveitar essas oportunidades e novas dinâmicas de mercado. 
21
Ao mesmo tempo, muitas empresas estão agora inundadas com um grande 
volume e velocidade de dados de vários locais e fontes: dados B2B, dados B2C, 
dados de tráfego, dados transacionais, dados de fornecedores de terceiros, dados 
macroeconômicos e assim por diante. 
Além das fontes de dados mais tradicionais, dados da Web, dados de mídia 
social, dados móveis e novas fontes de terceiros adicionaram outra camada de 
complexidade ao quebra-cabeça de big data que as empresas estão ansiosas para 
resolver. Embora alguns nem saibam por onde começar a lidar com a avalanche de 
dados, outros ainda estão lutando para sair do relatório básico.
Organizações e empresas de análises de dados estão percebendo que os dados 
que podem coletar de indivíduos contêm valor intrínseco e, como resultado, uma nova 
economia está surgindo. À medida que este novo ecossistema se define, existe quatro 
principais elementos nesta interconexão.
3 DATA DEVICES
Dispositivos de dados coletam dados de vários locais e geram continuamente 
novos dados sobre esses dados. Para cada gigabyte de novos dados criados, um 
petabyte adicional de dados é criado sobre esses dados:
• Por exemplo, considere alguém jogando um videogame on-line através de um PC, 
console de jogo ou smartphone. Neste caso, o provedor de videogame captura dados 
de habilidade e dos níveis alcançados pelo jogador. Sistemas inteligentes monitoram 
e registram como e quando o usuário joga o jogo. Como consequência, o provedor 
de jogos pode ajustar a dificuldade do jogo, sugerir outros jogos relacionados que 
provavelmente interessariam ao usuário, e oferecer equipamentos adicionais e 
melhorias para o personagem com base na idade, sexo e interesses do usuário. 
Essas informações podem ser armazenadas localmente ou enviadas para a nuvem 
do provedor de jogos para analisar os hábitos e oportunidades de jogo para upsell e 
cross-sell, e identificar perfis arquetípicos de tipos específicos de usuários.
• Os smartphones fornecem outra rica fonte de dados. Além de mensagens e uso bá-
sico do telefone, eles armazenam e transmitem dados de uso da Internet, uso de 
SMS e localização em tempo real. Esses metadados podem ser usados para analisar 
padrões de tráfego, escaneando a densidade de smartphones em locais para rastrear 
a velocidade dos carros ou o congestionamento relativo de tráfego em estradas mo-
vimentadas. Desta forma, dispositivos GPS em carros podem dar aos motoristas atu-
alizações em tempo real e oferecer rotas alternativas para evitar atrasos no trânsito.
• Os cartões de fidelidade de compras no varejo registram não apenas a quantidade 
que o indivíduo gasta, mas as localizações das lojas que a pessoa visita, os tipos 
de produtos comprados, as lojas onde as mercadorias são compradas com mais 
frequência, e as combinações de produtos comprados juntos. A coleta desses dados 
fornece insights dos hábitos de compra e viagem e a probabilidade de anúncios bem-
sucedidos direcionados a certos tipos de promoções de varejo.
22
4 DATA COLLECTORS 
Os coletores de dados incluem entidades amostrais que coletam dados do 
dispositivo e usuários.
• Dados de uma operadora de TV a cabo que rastreia os programas que uma pessoa 
assiste, quais canais de TV alguém vai ou não vai pagar para assistir sob demanda, e 
os preços que alguém está disposto a pagar pelo conteúdo de TV Premium;
• Lojas de varejo que rastreiam o caminho que um cliente percorre em sua loja enquanto 
empurra um carrinho de compras com um chip RFID para que eles possam medir 
quais produtos obtêm mais tráfego de pé usando dados geoespaciais coletados dos 
chips RFID.
5 DATA AGGREGATORS
Agregadores de dados, essas organizações compilam dados dos dispositivos 
e padrões de uso coletados por agências governamentais, lojas de varejo e sites. Por 
sua vez, eles podem optar por transformar e embalar os dados como produtos para 
vender para listar corretores, que podem querer gerar listas de marketing de pessoas 
que podem ser boas metas para campanhas de anúncios específicas.
6 DATA USERS E BUYERS
Os usuários e compradores de dados, esses grupos se beneficiam diretamente 
dos dados coletados e agregados por outros dentro da cadeia de valor de dados.
• Os bancos de varejo, atuando como compradores de dados, podem querer saber quais 
clientes têm maior probabilidade de solicitar um segundo empréstimo ou uma outra 
linha de crédito. Para fornecer informações para essa análise, os bancos de varejo 
podem comprar dados de um agregador de dados. Esse tipo de dados pode incluir 
informações demográficas de pessoas que vivem em locais específicos; pessoas que 
parecem ter um nível específico de dívida, mas ainda possuem pontuações de crédito 
sólidas (ou outras características, como pagar contas em dia e ter contas de poupança) 
que podem ser usadas para inferir créditos; e aqueles que estão pesquisando na web 
para obter informações de como pagar dívidas ou fazer projetos de reforma de casas. 
A obtenção de dados dessas várias fontes e agregadores permitirá uma campanha 
de marketing mais direcionada, o que teria sido mais desafiador antes do Big Data 
devido à falta de informações ou tecnologias de alto desempenho.
• Usando tecnologias como o Hadoop para realizar o processamento de linguagem 
natural em dados textuais não estruturados de sites de mídia social, os usuários 
podem medir a reação a eventos como campanhas presidenciais. 
23
As pessoas podem, por exemplo, querer determinar sentimentos públicos em relação a 
um candidato analisando blogs relacionados e comentários on-line. Da mesma forma, 
os usuários de dados podem querer rastrear e se preparar para desastres naturais 
identificando quais áreas uma enchente afeta primeiro, com base em quais áreas 
geográficas estão tuitando sobre isso ou discutindo-o através das mídias sociais.
FIGURA 5 – ELEMENTOS DE INTERAÇÃO NO ECOSSISTEMA DO BIG DATA
FONTE: <https://bit.ly/3dHKkyq>. Acesso em: 23 abr. 2021.
De acordo com a figura apresentada para este ecossistema de Big Data 
emergente, os tipos de dados e a dinâmica de mercado relacionada variam muito. 
Esses conjuntos de dados podem incluir dados de sensores, texto, conjuntos de dados 
estruturados e mídias sociais. Com isso em mente, vale lembrar que esses conjuntosde dados não funcionarão bem dentro dos bancos de dados tradicionais, arquitetados 
para agilizar relatórios e dashboards e serem gerenciados centralmente. Em vez disso, 
problemas e projetos de Big Data requerem diferentes abordagens para ter sucesso.
Os analistas precisam fazer parcerias com TI e DBAs para obter os dados 
necessários dentro de um repositório que contenha dados brutos, dados agregados e 
dados com vários tipos de estrutura. 
Ao observarmos o contexto do ecossistema emergente de Big Data, nos 
deparamos com novos atores surgindo. Atores que trabalham com a curadoria, o 
armazenamento, a produção, o tratamento e o processamento destes dados. Além 
disso, a necessidade de aplicar técnicas analíticas mais avançadas a problemas de 
negócios cada vez mais complexos tem impulsionado o surgimento de novas funções, 
novas plataformas tecnológicas e novos métodos analíticos.
24
Apache Hadoop é uma estrutura de código aberto que permite que as 
empresas processem grandes quantidades de informações de forma 
altamente paralela. Hadoop representa uma implementação específica 
do paradigma MapReduce e foi projetado por Doug Cutting e Mike 
Cafarella, em 2005, para usar dados com estruturas variadas. Disponível 
em: https://hadoop.apache.org/.
NOTA
25
RESUMO DO TÓPICO 2
 Neste tópico, você adquiriu certos aprendizados, como:
• Dados estruturados possuem estrutura bem definida e rígida.
• Dados semiestruturados são arquivos de dados textuais com um padrão perceptível 
que permite a análise.
• Dados quase estruturados: dados textuais com formatos de dados erráticos que 
podem ser formatados com esforço, ferramentas e tempo.
• Dados não estruturados: dados que não têm estrutura inerente, que podem incluir 
documentos de texto, PDFs, imagens, sons e vídeo.
• Houve uma evolução gigantesca na geração de dados desestruturados com o 
advento da Internet e das redes sociais. 
• O Big Data trabalha com dados não estruturados.
• Existem quatro principais elementos no ecossistema de Big Data, sendo eles: 
dispositivos de dados, coletores de dados, agregadores de dados e usuários e 
compradores de dados. 
26
1 O Big Data trabalha com dados oriundos das mais diversas fontes, em sua maioria, 
gerados pelas mídias sociais. Quando estamos trabalhando com esse tipo de dados, 
nos referimos a qual tipo:
a) ( ) Quase estruturado.
b) ( ) Não estruturado.
c) ( ) Estruturado.
d) ( ) Semiestruturado.
e) ( ) Pré estruturados.
2 A Nota Fiscal Eletrônica gera também um arquivo no formato XML. Em relação ao tipo 
de estrutura de dados para Big Data, este formato consiste em qual tipo de dados:
a) ( ) Dados estruturados.
b) ( ) Não estruturados.
c) ( ) Semi estruturados.
d) ( ) Quase estruturados.
e) ( ) Desestruturados.
3 Os bancos de dados relacionais trabalham com tabelas contendo os atributos a 
serem armazenados. Este tipo de dado no Big Data é considerado como:
a) ( ) Quase estruturado.
b) ( ) Não estruturado.
c) ( ) Estruturado.
d) ( ) Semiestruturado.
e) ( ) Pré estruturados.
4 O mouse se tornou um periférico muito importante, os praticantes de jogos 
eletrônicos possuem mouses muito sensíveis que respondem aos comandos quase 
que em tempo real. Esses comandos, muitas vezes acionados por clique nos botões 
do mouse, também geram dados que podem ser analisados pelo Big Data. Ao analisar 
essa afirmação, estamos falando de qual tipo de estrutura de dados?
a) ( ) Não estruturado.
b) ( ) Quase estruturado.
c) ( ) Estruturado.
d) ( ) Pré estruturados. 
e) ( ) Semiestruturado.
AUTOATIVIDADE
27
5 Quando usamos nosso cartão, seja ele de crédito ou débito, em nossa compras, 
os dados gerados por essa ação informam não somente o valor da compra, mas 
uma série de outras informações podem ser geradas, como a loja onde compramos, 
o tipo de produto comprado, a periodicidade de nossas compras, ou seja, nosso 
hábito de compras. A coleta desses dados se dá por intermédio de qual elemento da 
interconexão do ecossistema de Big Data?
a) ( ) Data Devices.
b) ( ) Data Center.
c) ( ) Data Collectors.
d) ( ) Data Users.
e) ( ) Data Buyers.
28
29
TÓPICO 3 - 
OS Vs DO BIG DATA
1 INTRODUÇÃO
No universo Big Data, as empresas buscam desbloquear o potencial de dados 
para gerar valor. Eles também estão impacientes para encontrar novas maneiras 
de processar esses dados e tomar decisões mais inteligentes, o que resultará em 
melhor atendimento ao cliente, melhor eficiência de processos e melhores resultados 
estratégicos.
Na literatura, o conceito de Big Data é definido em termos da teoria dos “três 
Vs”, dos “cinco Vs”, ou dos “sete Vs”. A velocidade exponencial com que os dados são 
gerados, bem como a multiplicidade de fontes que os geram em diferentes formatos 
(digital, texto, imagens etc.), são características desse fenômeno.
Neste tópico, você compreenderá estas características e como elas auxiliar a 
explicar os desafios postos para quem deseja desenvolver um projeto de Big Data.
UNIDADE 1
2 BIG DATA E SEUS V’s
O mundo dos dados está se tornando mais competitivo a cada dia, como 
refletido em termos de volume, variedade e valor. É por isso que agora falamos sobre 
Big Data. Os dados são um ativo fundamental para a criação de valor, bem como um 
elemento que favorece e promove a inovação, o crescimento e o desenvolvimento. Com 
a revolução digital, os dados assumiram um papel central na economia. No entanto, 
alcançar todo o potencial dos dados depende da forma como são apresentados. Deve 
ser usado e reutilizado de diferentes maneiras sem diminuir seu valor.
Vimos que a velocidade em que os dados são gerados é incrível, o volume de 
dados gerados está crescendo cada vez mais e a variedade dos dados é outro fator 
importantíssimo quando falamos de dados. Isso vem de encontro ao conceito que 
define o Big Data como: “[...] um grande volume de informações, com alta velocidade e/
ou ativos de informações de alta variedade que exige formas inovadoras e econômicas 
de processamento de informações que permitem uma melhor percepção na tomada de 
decisão e automação de processos” (BIG DATA, 2018, s. p.).
30
Gonçalves, Rogério e Morais (2019, p. 19) destacam que o “O termo Big Data 
é, muitas vezes, caracterizado por três vertentes que, inclusive, são conhecidas como 
os três Vs: volume, variedade e veracidade”, acrescentando em seguida mais dois Vs: 
“É comum nos depararmos com outros dois Vs que também contemplam de forma 
coerente os conceitos sobre essa tecnologia: o valor e a velocidade”. 
2.1 VOLUME
O Big Data é uma forma de dados cujo volume é tão grande que não caberia 
em uma única máquina, portanto, ferramentas e frameworks especializados são 
necessários para armazenar processos e analisar tais dados. Quando comparados com 
dados pequenos, o Big Data aumentou em volume e velocidade e expandiu-se para 
incluir uma variedade de outros tipos de dados.
Por exemplo, aplicativos de mídia social processam bilhões de mensagens todos 
os dias, sistemas industriais e de energia podem gerar terabytes de dados de sensores 
todos os dias, aplicativos de agregação de táxi podem processar milhões de transações 
em um dia etc. 
Os volumes de dados gerados pela moderna TI, industrial, saúde, Internet 
das Coisas e outros sistemas estão crescendo exponencialmente impulsionados pela 
redução dos custos de armazenamento e processamento de dados e pela necessidade 
de extrair insights valiosos dos dados para melhorar os processos de negócios, eficiência 
e servidão aos consumidores. 
Embora não exista um limite fixo para que o volume de dados seja considerado 
como big data, no entanto, normalmente, o termo big data é usado para dados em 
grande escala difíceis de armazenar, gerenciar e processar usando bancos de dados 
tradicionais e arquiteturas de processamento de dados.
O volume de dados gerados é tão grande que é impossível ser armazenado, 
processado e analisado por apenas uma máquina. Você se lembra da época em que se 
levava disquete?Para recordar as medidas em byte, veja este comparativo, disponível 
em: https://bit.ly/3oSZENQ.
DICAS
31
FIGURA 6 – VOLUME DE DADOS GERADOS
FONTE: <https://bit.ly/350c4t5>. Acesso em: Acesso em: 23 abr. 2021.
Também Mata (2019, p. 23), ao analisar a questão de volume dos dados, 
menciona que o volume: 
[...] diz respeito à quantidade de dados – com tamanhos na ordem 
de peta, hepta ou exabytes sendo gerados e que, uma vez extraídos, 
deverão ser suportados na arquitetura de Big Data. Isso quer dizer 
que o quesito escalabilidade precisa ser pensado no início de uma 
implementação do Big Data.
O volume de dados é muito bem evidenciado quando falamos da quantidade 
de e-mails enviados, da quantidade de mensagens trocadas em nossas redes sociais, 
na quantidade de transações bancárias realizadas, em praticamente todas as ações 
efetuadas nessa nova era. 
Todos esses elementos servem de ponto de partida para entendermos o volume, 
a quantidade, de dados gerados no mundo atualmente.
Esta enorme quantidade de dados gerada diariamente nos permite fazer as 
mais variadas análises nos mais variados tipos de dados. Esse também é um fator 
muito relevante no tocante à armazenagem desses dados, como vemos a expansão 
dos servidores, dos serviços de nuvem disponibilizados que vêm aumentando 
constantemente.
32
2.2 VELOCIDADE
A segunda característica diz respeito à dinâmica do volume de dados, ou seja, 
a natureza sensível ao tempo do Big Data, já que a velocidade de sua criação e uso é 
muitas vezes (quase) em tempo real.
A velocidade dos dados é muito alta e os dados precisam ser analisados em 
tempo real. O crescimento dos dados e a explosão das mídias sociais mudaram a forma 
como olhamos para eles. Houve um tempo em que costumávamos acreditar que os 
dados de ontem eram recentes. No entanto, canais de notícias e rádios mudaram a 
rapidez com que recebemos a notícia. Hoje, as pessoas respondem nas redes sociais 
para atualizá-los com o mais recente acontecimento, o imediatismo nas respostas. Nas 
mídias sociais, às vezes, algumas mensagens antigas (um tweet, atualizações de status 
etc.) não é algo que interessa aos usuários. Muitas vezes descartam mensagens antigas 
e prestam atenção às atualizações recentes. O movimento dos dados agora é quase em 
tempo real e a janela de atualização foi reduzida a frações dos segundos.
Velocidade simplesmente significa que os dados têm um fluxo contínuo e 
uma velocidade rápida entrando em sua organização, que, às vezes, é referida como 
“streaming”. Infelizmente, como o volume de dados aumentou dramaticamente em toda 
a empresa, a velocidade também aumentou. Isso se deve principalmente ao crescimento 
da Internet e do uso móvel, de tal forma que os dados estão fluindo 24 horas por dia, 
sete dias por semana, todos os dias do ano. Portanto, se você é uma empresa de 
internet, sua arquitetura de dados e ferramentas devem acomodar o processamento de 
alta velocidade de dados e volume o tempo todo, sem parar. Como resultado, empresas 
como varejistas on-line são capazes de compilar grandes histórias de cada clique e 
interação dos clientes, não apenas as vendas finais. Amaral (2016, p. 15) destaca que a 
velocidade:
 
[...] a velocidade diz respeito não somente a da produção do dado em 
si, mas a velocidade do processamento e produção de informação 
e conhecimento, visto que o valor da informação é inversamente 
proporcional ao tempo em que ocorreu o evento que gerou o dado. 
Por exemplo, ocorreu uma falha em um equipamento. O operador 
recebe o alerta 5 segundos depois da falha: ele desliga o equipamento, 
identifica a falha, aperta o colar de suporte vibratório e a linha de 
produção volta a produzir em 10 minutos.
Já, para Mata (2019, p. 24-25), a:
 
Velocidade está relacionada a questões de desempenho. O 
processamento dos dados precisa ser eficiente a ponto de não 
causar altas taxas de latência no fluxo de dados. O sucesso de uma 
implementação do Big Data também está relacionado a entregar 
respostas em tempo hábil e, por isso, estratégias (por exemplo, 
cache dos dados) podem ser adotadas para otimizar o desempenho. 
33
É importante considerar também qual o foco da análise, isto é, se 
o processamento será em lote (batch) ou em tempo real, ou ambos 
(arquitetura Lambda). Essa questão é um importante requisito de 
negócio, pois quando lidamos com processamento em lote são 
alocados maiores recursos de armazenamentos em detrimento ao 
processamento em tempo real.
A alta velocidade dos dados resulta no volume de dados acumulados para se 
tornar muito grande, em curto espaço de tempo. Alguns aplicativos podem ter prazos 
rigorosos para análise de dados (como negociação ou detecção de fraudes on-line) 
e os dados precisam ser analisados em tempo real. Ferramentas especializadas são 
necessárias para ingerir esses dados de alta velocidade na infraestrutura de Big Data 
e analisar os dados em tempo real.
GRÁFICO 3 – TENDÊNCIA DE CRESCIMENTO DO VOLUME DE DADOS DURANTE OS ANOS
FONTE: <https://bit.ly/2TSVE3q>. Acesso em: 23 abr. 2021.
O Gráfico 3 nos apresenta a quantidade de dados gerados desde 2010, e faz 
uma projeção até o ano de 2020. Se observarmos a quantidade gerada podemos fazer 
uma analogia com a velocidade com que estes dados estão sendo gerados, pois a 
crescente utilização de smartphones dentre outras formas de disseminação, faz com 
que mais dados sejam produzidos e colocados à disposição a cada minuto. Cabe 
destacar que estes dados são analisados no momento em que eles são gerados, não 
sendo armazenados em um banco de dados.
2.3 VERACIDADE
Você confia em tudo o que é postado nas redes sociais? Não é possível ter o 
controle das informações falsas publicadas na internet, mas através de análises e com 
uma base estatística aplicada nos grandes volumes de dados é possível verificar se a 
informação é verdadeira ou falsa.
34
Para que tenhamos um bom resultado na análise, é necessário que os dados 
sejam verídicos e de acordo com a realidade. A questão da velocidade apresentada 
anteriormente está intrinsecamente alinhada com a veracidade dos dados, uma vez que 
os dados representam o momento em que foram gerados, desde que sejam verídicos 
realmente, não sejam fake, forjados. 
[...] precisamos confiar nos dados adquiridos e a veracidade está 
relacionada à inconsistência, à ambiguidade e à incompletude 
desses dados. Quando anexamos fontes de dados externas à 
nossa arquitetura, precisamos ter um cuidado especial, uma 
vez que não temos total controle desses dados, como teríamos 
se estivéssemos coletando dados de sistemas legados da 
empresa. Por isso, devemos sempre questionar os dados que 
adquirimos e garantir que a origem da nossa arquitetura não seja 
comprometida com dados que possam enviesar ou distorcer 
nossas análises. Assim, a veracidade desempenha um papel 
importante dentro do Big Data (MATA, 2019, p. 24, grifo do original).
FIGURA 7 – VERACIDADE DOS DADOS
FONTE: <https://shutr.bz/3w77g0O>. Acesso em: 23 abr. 2021.
A veracidade refere-se à precisão dos dados. Para extrair valor dos dados, os 
dados precisam ser limpos para remover o ruído. Aplicativos baseados em dados só 
podem colher os benefícios do Big Data quando os dados são significativos e precisos. 
Portanto, a limpeza de dados é importante para que dados incorretos e defeituosos 
possam ser filtrados.
Para Lokianova e Rubin (2014), a veracidade em Big Data está diretamente 
relacionada com o gerenciamento de incertezas. As autoras trazem uma proposta de 
reduzir a incerteza dos dados textuais, utilizando ferramentas de linguística compu-
tacional, sendo avaliados em três elementos: veracidade, objetividade e credibilidade.
35
A veracidade dos dados, em geral, é o quão preciso ou verdadeiro um conjunto 
de dados pode ser. No contexto do Big Data, no entanto, ele assume um pouco mais 
de significado. Mais especificamente, quando se trata da precisão do Big Data, não é 
apenas a qualidade dos dados em si, mas o quão confiável é a fonte de dados,o tipo e 
o processamento dele. Remover coisas como viés, anormalidades ou inconsistências, 
duplicação e volatilidade são apenas alguns aspectos que contribuem para melhorar a 
precisão do Big Data.
O segundo lado da veracidade dos dados implica garantir que o método de 
processamento dos dados reais faça sentido com base nas necessidades dos negócios 
e a saída seja pertinente aos objetivos. Obviamente, isso é especialmente importante ao 
incorporar pesquisas de mercado primário com big data. 
Interpretar Big Data da maneira correta garante que os resultados sejam 
relevantes e acionáveis. Além disso, o acesso ao Big Data significa que você pode 
passar meses classificando através de informações sem foco e sem um método de 
identificação de quais pontos de dados são relevantes. Como resultado, os dados devem 
ser analisados em tempo hábil, como é difícil com o Big Data, caso contrário, os insights 
não seriam úteis.
Uma nova característica está sendo inserida neste universo, a validade, que se 
refere à precisão e ao tempo utilizado para se preparar o dado e por quanto tempo este 
dado é válido como relevante para a análise pretendida, exemplificando que a notícia de 
ontem pode ser irrelevante para o dia de hoje.
2.4 VARIEDADE
De onde vem tantos dados? A variedade não está restrita somente à origem, 
mas principalmente aos tipos, formatos, de dados gerados. Os dados podem ser 
armazenados em vários formatos. Por exemplo, banco de dados, Excel, csv, acesso ou, 
na verdade, eles podem ser armazenados em um simples arquivo de texto.
Antes do advento da internet, a maior parte dos dados gerados podia ser 
armazenada em tabelas nos bancos dedados relacionais. Com a popularização da 
internet e smartphones, objetos conectados (IoT) e redes sociais, cada vez mais dados 
de diversos formados são produzidos. Esses dados vêm de diferentes fontes e variam de 
natureza (SMS, tweets, redes sociais, plataformas de mensagens, sensores, dispositivos 
móveis etc.).
Às vezes, os dados nem estão no formato tradicional como assumimos, pode 
ser na forma de vídeo, SMS, pdf ou algo que talvez não tenhamos pensado sobre isso. 
É a necessidade de a organização organizá-lo e torná-lo significativo. Será fácil fazê-
lo se tivermos dados no mesmo formato, porém, não é o caso na maioria das vezes. O 
mundo real tem dados em muitos formatos diferentes e esse é o desafio que precisamos 
superar com o Big Data.
36
FIGURA 8 – ORIGEM DA VARIEDADE DE DADOS
FONTE: Barach (2019, p. 14)
Variedade é basicamente a chegada de dados de novas fontes que estão dentro 
e fora de uma empresa. Pode ser estruturado, semiestruturado e não estruturado. 
• Dados estruturados: basicamente um dado organizado. Geralmente, se refere a 
dados que definiram o comprimento e o formato dos dados;
• Dados semiestruturados: são basicamente dados semiorganizados. É, geralmente, 
uma forma de dado que não está em conformidade com a estrutura formal dos 
dados. Arquivos de registro são os exemplos desse tipo de dado;
• Dados não estruturados: se referem a dados desorganizados. Dados que não se 
encaixam perfeitamente na estrutura tradicional da coluna de linha do banco de dados 
relacional. Textos, fotos, vídeos etc. são os exemplos de dados não estruturados que 
não podem ser armazenados na forma de linhas e colunas.
Mata (2019, p. 23) aborda a questão da variedade dos dados da seguinte maneira:
Eventualmente, desejamos incrementar em nossas análises infor-
mações obtidas de websites (neste caso, certifique-se de ser autori-
zado para fazer isso). A ferramenta de coleta precisa “raspar” os da-
dos (ou realizar Web Scrapping) que serão obtidos em um formato de 
tags e texto. Talvez estejamos interessados em informações de um 
Banco de Dados não transacional que armazena as informações em 
formato JSON, ou dados de redes sociais, como Twitter ou Facebook. 
Enfim, a arquitetura de Big Data precisa ser robusta o sufi ciente para 
lidar com essa diversidade de formatos e estruturas, tendo como 
desafio tornar a tarefa de integração e extração de dados o mais 
transparente possível.
37
A variedade dos dados se refere as suas formas: estruturados, não estruturados 
ou semiestruturados – incluindo dados de texto, imagem, vídeo e sensor. Os sistemas 
de Big Data precisam ser flexíveis o suficiente para lidar com essa variedade. Estima-se 
que mais de 95% dos dados gerados são não estruturados.
O mundo real é confuso devido a diferentes tipos de dados, por isso faz sentido 
que qualquer pessoa que lida com desafios emocionantes também deve lidar com 
dados confusos. A heterogeneidade dos dados é, muitas vezes, uma fonte de estresse 
na construção de um Data Warehouse. 
Não apenas vídeos, fotos, postagens e tweets interconectados em plataformas 
sociais, mas também informações básicas do usuário podem vir em tipos de dados 
extremamente diferentes. Esses conjuntos de dados heterogêneos possuem um grande 
desafio para a análise de big data. 
2.5 VALOR
A maior parte dos dados sem valor não é boa para a empresa, a menos que 
você o transforme em algo útil. Os dados em si são de nenhum uso ou importância, mas 
precisam ser convertidos em algo valioso para extrair informações. 
O valor dos dados refere-se à utilidade dos dados para a finalidade pretendida. 
O objetivo final de qualquer sistema de análise de Big Data é extrair valor dos dados. O 
valor dos dados também está relacionado à veracidade ou exatidão dos dados. Para 
alguns aplicativos, o valor também depende da rapidez com que somos capazes de 
processar os dados.
FIGURA 9 – REPRESENTAÇÃO DO VALOR OCULTO DOS DADOS
FONTE: <https://shutr.bz/2SaVyUp>. Acesso em: 23 abr. 2021.
38
Mata (2019, p. 24) destaca que a importância do valor para o Big Data está:
[...] na geração de valor para a organização. De nada adianta 
elevados investimentos em qualificações dos profissionais, aquisição 
de soluções proprietárias, entre outros recursos, se os resultados 
obtidos não agregam valor e a organização apenas extrai informações 
desconexas que não agregam novos conhecimentos. Essa frustação 
certamente poderia colocar em risco o andamento de todo o 
processo de Big Data. Na verdade, a obtenção do real valor pode 
trazer para a empresa uma consequência de todo o processo de Big 
Data. Contudo, quando pensamos em termos-chave para compor o 
conceito de Big Data, faz todo sentido acrescentar o valor resultante 
que queremos obter em um processo de Big Data.
Podemos afirmar que o Valor é que torna o Big Data relevante, não nos referimos 
ao valor imediato, gerado pela análise, mas ao valor que a informação obtida pela análise 
pode trazer para as empresas.
Colhendo os benefícios da Lei de Moore, o armazenamento em massa é 
geralmente creditado pela queda no custo por megabyte de US$ 6.000, em 1955, para 
menos de 1 centavo em 2010, e a grande mudança na capacidade de armazenamento 
torna o armazenamento de Big Data viável. Além disso, hoje, os dados estão sendo 
gerados a uma velocidade de crescimento acentuado. Até mesmo dados que foram 
escritos à mão há várias décadas são coletados e armazenados por novas ferramentas.
Quando se tem acesso a uma grande quantidade de dados, precisamos saber o 
que fazer com eles. Como podemos “tirar proveito” das informações que estes dados nos 
trazem? Não basta simplesmente termos esta quantidade de dados senão soubermos 
como utilizá-los e para qual finalidade. O valor agregado a esses dados é o que o torna 
tão valioso para as empresas.
O valor do uso de Big Data é desafiado pelo quão valiosas as informações obtidas 
de seu processo são comparadas com o tempo e recursos necessários para processar 
essas informações.
2.6 VISUALIZAÇÃO
Está óbvio o que significa esta característica, a visualização remete à visibilidade 
dos dados. Como eles são apresentados após a coleta, preparação e o processamento.
A visualização de dados é a prática de traduzir informações em um contexto 
visual, como um mapa ou gráfico, para facilitar a compreensão e a visualizaçãode 
dados para o cérebro humano. O principal objetivo da visualização de dados é facilitar 
a identificação de padrões, tendências e outliers em grandes conjuntos de dados. O 
termo é frequentemente usado de forma intercambiável com outros, incluindo gráficos 
de informações, visualização de informações e gráficos estatísticos.
39
FIGURA 10 – FORMAS DE VISUALIZAÇÃO DOS DADOS
FONTE: <https://shutr.bz/3x392jN>. Acesso em: 23 abr. 2021.
A visualização de dados é uma das etapas do processo de ciência de dados, que 
afirma que após a coleta, processamento e modelagem dos dados, deve ser visualizada 
para que sejam feitas conclusões. A visualização de dados também é um elemento da 
disciplina mais ampla de arquitetura de apresentação de dados, que visa identificar, 
localizar, manipular, formatar e fornecer dados da maneira mais eficiente possível.
2.7 VOLATILIDADE
Assim como a moda, os dados também têm seu período de pico, que tendem 
a variar de acordo com as tendências. Exemplificando, as informações geradas 
em períodos de eleições, ou próximas a eventos esportivos como Copa do Mundo e 
Olimpíadas. Passado este período, quão relevante são estas informações? Por quanto 
tempo deverão ser mantidas?
Os arquivos de banco de dados mantêm o histórico dos clientes/fornecedores 
desde o início da relação com as empresas. Esse histórico pode até ser mantido sem ne-
nhum problema de desempenho, mas pode elevar o custo de manutenção deste banco.
A volatilidade do Big Data refere-se a quanto tempo os dados são válidos e a 
quanto tempo devem ser armazenados. Nesse mundo de dados em tempo real, você 
precisa determinar em que ponto os dados não são mais relevantes para a análise atual.
40
FIGURA 11 – TEMPO DE ARMAZENAGEM DO DADO
FONTE: <https://shutr.bz/3g4kGFf>. Acesso em: 23 abr. 2021.
Exemplificamos a volatidade com o exemplo de uma empresa de e-commerce, 
a qual não quer manter o histórico de compras de seus clientes para mais de um ano, 
dado ao fato de que, após este período, o perfil de compra dos clientes expira e necessita 
de novas análises. Isso significa que aquele perfil precisa ser reprocessado com novas 
informações e as antigas descartadas.
Dadas a velocidade e volume de dados gerados, no entanto, sua volatilidade 
precisa ser cuidadosamente considerada. Agora, você precisa estabelecer regras, 
estabelecer custos para os dados e disponibilidade, bem como garantir a recuperação 
rápida das informações quando necessário. A grande pergunta é: por quanto tempo 
seus dados são válidos para serem armazenados?
Em 2001, o Instituto Gartner indicou que teríamos uma avalanche de mudanças 
com um artigo que previu tendências na indústria dos dados, reunindo-as sob os títulos 
Volume, Velocidade e Variedade de dados (LANEY, 2001). Assim como o volume de 
dados aumenta a cada dia, os conceitos do Big Data também continuam a crescer, e 
cerca de uma década depois tivemos os quatro Vs de Big Data, depois sete Vs, e depois 
dez Vs e, hoje, já se fala nos 42 Vs do Big Data.
41
FIGURA 12 – OS Vs DO BIG DATA
FONTE: O autor
O conceito dos Vs ajudou a compreensão do que é necessário para ser ter 
um projeto de Big Data bem delineado e explicar qual o conceito de Big Data. Esta 
crescente adição de conceitos iniciados com a letra “V” tem acontecido pela também 
crescente necessidade de realização dos processamentos e das tecnologias utilizadas 
nos processos de Big Data. Como sabemos, a tecnologia está longe de se estabilizar e, 
portanto, o número de Vs, tende a aumentar ainda.
42
RESUMO DO TÓPICO 3
 Neste tópico, você adquiriu certos aprendizados, como:
• O Big Data é caracterizado por vertentes que iniciam com a letra V.
• O Volume de dados é a principal característica do Big Data, definida pela quantidade 
de dados gerados.
• A Velocidade, aqui, se refere a quão rápido os dados são gerados e podem ser 
processados e acessados
• A Veracidade se refere à confiabilidade e importância da fonte de dados, à confiabilidade 
das informações e a sua relevância para o seu caso de negócios.
• A Variedade não se refere somente aos tipos de dados, mas também de sua origem, 
de onde eles vêm.
• O Valor dos dados refere-se à utilidade dos dados para a finalidade pretendida, qual 
sua importância para empresa?
• A Visualização, aqui, se refere a como você pode apresentar seus dados à gerência 
para fins de tomada de decisão.
• A Volatilidade refere-se ao tempo de vida dos dados, por quanto tempo os dados são 
úteis para serem utilizados, quanto tempo eles se mantem atualizados.
43
RESUMO DO TÓPICO 3
1 A definição de Big Data está atrelada às características que alguns pesquisadores 
atribuíram como sendo os Vs do Big Data. A respeito dessa colocação, o Big Data 
possui as seguintes características:
a) ( ) Valor, velocidade, volume, visibilidade, voracidade, veracidade e variedade.
b) ( ) Valor, veracidade, volume, viabilidade, versatilidade, variedade e versatilidade.
c) ( ) Volume, velocidade, veracidade, variedade, valor, visualização e volatidade.
d) ( ) Variedade, valor, volume, variabilidade, volatilidade, visualização e vitalidade.
e) ( ) Velocidade, veracidade, volume, valor, volatilidade, visualização e versatilidade.
2 Você está realizando uma análise e encontra problemas relacionados ao 
armazenamento de dados em vários formatos, sendo que possuem uma estrutura 
inconsistente, dificultando a sua integração. Esse tipo de problema refere-se à 
qualidade dos dados para o Big Data e são inerentes a qual característica?
a) ( ) Volatilidade.
b) ( ) Visualização.
c) ( ) Variabilidade.
d) ( ) Volume.
e) ( ) Veracidade.
3 O Big Data trabalha com algumas dimensões consideradas as mais importantes a 
serem consideradas na elaboração de um projeto. Nestas dimensões, quando falamos 
da quantidade de dados gerados, estamos nos referindo a(o)?
a) ( ) Variedade.
b) ( ) Volatilidade.
c) ( ) Visibilidade.
d) ( ) Volume.
e) ( ) Valor.
4 No Big Data, a confiabilidade nos dados analisados é um dos principais fatores de 
sucesso. Se acaso os dados não são confiáveis, as respostas obtidas poderão levar a 
empresa a interpretações erradas e inclusive poderá levá-la a falência. Diante deste 
contexto, falamos sobre qual dimensão no Big Data? 
AUTOATIVIDADE
44
a) ( ) Veracidade.
b) ( ) Volume.
c) ( ) Variedade.
d) ( ) Volatilidade.
e) ( ) Viabilidade.
5 Os dados gerados podem ser apresentados de várias formas, seja por imagens, 
vídeos, áudios, documentos de texto, planilhas eletrônicas, dentre tantos formatos. 
No Big Data, se faz necessário compreendermos esses formatos, como devemos 
analisá-los e armazená-los. Esta característica do Big Data se refere a(o):
a) ( ) Velocidade.
b) ( ) Visibilidade.
c) ( ) Variedade.
d) ( ) Volatilidade.
e) ( ) Volume.
45
TÓPICO 4 - 
O CICLO DE VIDA DO BIG DATA
1 INTRODUÇÃO
A análise do Big Data difere da análise de dados tradicionais, principalmente, 
devido ao volume, velocidade e características de variedade dos processos de dados. 
Para atender aos distintos requisitos para a realização de análises de Big Data, é 
necessária uma metodologia passo a passo para organizar as atividades e tarefas 
envolvidas na aquisição, processamento, análise e redefinição de dados.
A fim de fornecer uma estrutura para organizar o trabalho necessário por uma 
organização e fornecer insights claros do Big Data, é útil pensar nele como um ciclo com 
diferentes estágios. Não é linear, o que significa que todas as etapas estão relacionadas 
entre si. Como analista de dados, ou alguém que trabalha com dados regularmente, é 
importante entender como gerenciar um projeto de análise de dados para que você 
possa garantir eficiência e obter os melhores resultados para seus clientes. Um dos 
primeiros passos para fazê-lo é entender o ciclo de vida do Big Data Analytics.
Neste tópico, você compreenderá o que é o Ciclo de Vida de Dados, quais são 
suas fases e subfases, quais as ações devem ser tomadas em cada uma delaspara que 
se tenha um projeto de Big Data Analytics bem-sucedido.
UNIDADE 1
2 AS FASES DO BIG DATA
Alguns problemas aparentam ser enormes e de difícil resolução no início, mas 
a partir do momento em que são divididos e analisados em partes, estes podem ser 
facilmente solucionáveis. 
Dividir para conquistar (divide et impera ou divide et Vinces) é um clássico 
nas estratégias de guerra e cabe muito bem no contexto do Big Data, em que dividir 
o problema em pequenas partes pode trazer vitórias na resolução. Além disso, ajuda a 
concentrar o tempo e a energia no início do processo para obter uma compreensão clara 
do problema do negócio a ser resolvido. O ciclo de vida analítico de dados foi projetado 
especificamente para problemas de Big Data e projetos de ciência de dados. O ciclo 
de vida tem seis fases, e o trabalho de projeto pode ocorrer em várias fases ao mesmo 
tempo. Para a maioria das fases do ciclo de vida, o movimento pode ser para frente ou 
para trás. 
46
Essa visão iterativa do ciclo de vida tem como objetivo retratar mais de perto um 
projeto real, no qual aspectos do projeto avançam e podem retornar às fases anteriores 
à medida que novas informações são descobertas e os membros da equipe aprendem 
mais sobre várias etapas do projeto. Isso permite que os participantes se movam iterati-
vamente através do processo e impulsionem para operacionalizar o trabalho do projeto.
O Ciclo de Vida do Data Analytics define as melhores práticas de processo 
de análise que abrangem a descoberta até a conclusão do projeto. O ciclo de vida se 
baseia em métodos estabelecidos no domínio da análise de dados e da ciência da 
decisão. Essa síntese foi desenvolvida após a coleta de informações de cientistas de 
dados e consultoria de abordagens estabelecidas que forneceram informações das 
peças do processo. 
Apresentamos uma breve visão das principais fases do Ciclo de Vida de um Big 
Data Analytics, composto por seis fases, sendo elas:
FIGURA 13 – FASES DO CICLO DE VIDA
FONTE: O autor
47
Aqui está uma breve visão geral das principais fases do Ciclo de Vida do Data 
Analytics:
• Descoberta – Fase 1: nesta fase, a equipe conhece a regra de negócio da empresa, 
buscam histórico de aprendizagem da empresa em projetos anteriores. Também 
fazem uma avaliação dos recursos disponíveis, pessoas, tecnologia, tempo e o 
principal, os dados. Neste momento, também se formulam as hipóteses da análise.
• Preparação dos dados – Fase 2: na segunda fase é necessário termos uma “massa 
de dados” para que a equipe possa trabalhar na extração, transformação e carga 
(ETL). Nesta fase, a equipe também precisa ter conhecimento dos dados para tomar 
medidas de como conduzir as análises.
• Planejamento do modelo – Fase 3: aqui a equipe deve definir quais serão os méto-
dos, as técnicas e o fluxo do trabalho. Nesta fase, também, aprende as relações entre 
as variáveis e faz a seleção para posterior utilização nos modelos mais adequados.
• Construção de modelos – Fase 4: a fase consiste em criar um conjunto de dados 
para teste, treinamento e produção da futura análise. A equipe também considera 
se suas ferramentas existentes serão suficientes para executar os modelos, ou se 
precisará de um ambiente mais robusto para executar modelos e fluxos de trabalho.
• Comunicação dos resultados – Fase 5: nesta fase são apresentados os resultados 
da análise, se deram certo ou quais foram os erros encontrados, as partes interessadas.
• Operacionalização – Fase 6: na Fase 6, a equipe entrega relatórios finais, briefings, 
códigos e documentos técnicos. Além disso, a equipe pode executar um projeto 
piloto para implementar os modelos em um ambiente de produção.
Uma vez que os membros da equipe tenham executado modelos e produzidos 
achados, é fundamental enquadrar esses resultados de uma forma que seja adaptada 
ao público que engajou a equipe. Além disso, é fundamental enquadrar os resultados do 
trabalho de forma a demonstrar valor claro. Se a equipe realizar uma análise tecnicamente 
precisa, mas não conseguir traduzir os resultados em uma linguagem que ressoa com 
o público, as pessoas não verão o valor, e grande parte do tempo e esforço no projeto 
terá sido desperdiçado. 
A introdução de soluções de análise de dados requer tanto uma revisão das 
políticas existentes para integrar novos usos de dados quanto uma extensão de 
políticas para incorporar questões específicas a novos dados. Isso exige que os ciclos 
de vida dos dados coletados sejam otimizados para que as necessidades sejam 
atendidas instantaneamente e tratadas adequadamente. A seguir, apresentaremos, 
detalhadamente, como cada uma das seis fases funciona.
48
Este ciclo tem semelhanças superficiais com o ciclo de mineração 
de dados mais tradicional, conforme descrito na metodologia CRISP. 
Conheça mais sobre o assunto no livro Data Mining: Conceitos, Técnicas, 
Algoritmos, Orientações e Aplicações de Ronaldo Goldschmidt.
DICAS
2.1 DESCOBERTA
A descoberta de dados descreve processos na compreensão de conjuntos de 
dados em mãos para integração de dados e/ou análise de dados. Esta fase ocorre no 
projeto e deve combinar pesquisa técnica a partir de ferramentas com conhecimento 
de assuntos, de pessoas.
Durante a descoberta de dados, uma visão de alto nível é tomada na avaliação 
da preparação de dados ou das necessidades de qualidade dos dados. A descoberta de 
dados pode ser dividida em dois conceitos:
• Descoberta manual de dados: nos últimos 20 anos, antes do avanço do aprendizado 
de máquina, especialistas em dados mapearam dados pelo único poder cerebral dos 
seres humanos. Simplificando, as pessoas pensavam criticamente sobre quais dados 
estão disponíveis, onde são armazenados e por que/o que precisa ser fornecido ao 
cliente final. 
• Descoberta inteligente de dados: com os avanços da tecnologia, ao longo dos últimos 
anos, a definição de descoberta inteligente de dados incluiu formas automatizadas de 
apresentar dados, para revelar insights mais profundos dos negócios. A descoberta 
inteligente de dados representa um avanço usando redes neurais, análise aumentada 
e aprendizado de máquina.
Na Fase 1, a equipe de ciência de dados deve aprender e investigar o problema, 
desenvolver contexto e compreensão e conhecer as fontes de dados necessárias e 
disponíveis para o projeto. Além disso, a equipe formula hipóteses iniciais que podem 
ser testadas posteriormente com dados.
• Conhecendo a regra de negócio
Entender a área de domínio do problema é essencial. Em muitos casos, os 
cientistas de dados terão profundo conhecimento computacional e quantitativo que 
pode ser amplamente aplicado em muitas disciplinas. Um exemplo dessa função seria 
alguém com um grau avançado em estatística de matemática aplicada. Esses cientistas 
49
de dados têm profundo conhecimento dos métodos, técnicas e formas de aplicar 
heurísticas a uma variedade de problemas de negócios e conceituais. Outros, nessa 
área, podem ter profundo conhecimento de uma área de domínio, juntamente com a 
expertise quantitativa.
Nesta fase inicial do processo, a equipe precisa determinar quanto conhecimento 
de negócios ou domínio o cientista de dados precisa para desenvolver modelos nas 
Fases 3 e 4. Quanto mais cedo a equipe conseguir fazer essa avaliação melhor, pois a 
decisão ajuda a ditar os recursos necessários para a equipe do projeto e garante que a 
equipe tenha o equilíbrio certo de conhecimento de domínio e conhecimento técnico.
• Recursos
É importante ter a ciência de alguns elementos como: existem informações 
suficiente para que seja elaborado o plano analítico e que este possa ser compartilhado 
entre os pares. Neste momento, a equipe precisa avaliar os recursos disponíveis, 
tecnologia, sistemas, sistemas pessoas e dados.
Durante este escopo, devemos considerar as ferramentas e tecnologia 
disponíveis que a equipe estará usando e os tipos de sistemas necessários para fases 
posteriores para operacionalizar os modelos. Além disso, procurar avaliar onível de 
sofisticação analítica dentro da organização e lacunas que podem existir relacionadas 
a ferramentas, tecnologia e habilidades. Por exemplo, para que o modelo que está 
sendo desenvolvido tenha longevidade em uma organização, considerar quais tipos de 
habilidades e papéis serão exigidos que podem não existir hoje ou deixar de existirem.
Outro elemento essencial além das habilidades e recursos de computação, é 
aconselhável fazer o inventário dos tipos de dados disponíveis à equipe para o projeto. 
Considere se os dados disponíveis são suficientes para apoiar as metas do projeto. A 
equipe precisará determinar se deve coletar dados adicionais, comprá-los de fontes 
externas ou transformar dados existentes. Muitas vezes, os projetos são iniciados 
olhando apenas para os dados disponíveis.
Depois de fazer o inventário das ferramentas, tecnologia, dados e pessoas, 
considere se a equipe tem recursos suficientes para ter sucesso nesse projeto, ou se 
recursos adicionais são necessários. Negociar recursos no início do projeto, ao mesmo 
tempo em que escoa as metas, objetivos e viabilidade, é geralmente mais útil do que 
mais tarde no processo e garante tempo suficiente para executá-lo corretamente. 
Os gerentes de projetos e as principais partes interessadas têm melhor sucesso 
na negociação dos recursos certos nesta fase, em vez de mais tarde, uma vez que o 
projeto está em andamento.
50
• Enquadrando o problema
É fundamental que o problema seja bem “enquadrado”. Este enquadramento 
significa que o problema será resolvido. Recomenda-se uma explanação detalhada do 
problema e o compartilhamento desta descrição com toda a equipe envolvida, com 
intuito de que todos possam indicar possíveis soluções a serem apresentadas para a 
resolução do problema. Neste momento, também é importante que se estabeleçam o 
famoso “Plano B”, e “a pergunta que não quer calar”, “o que faremos se acontecer isto?” 
Estabelecer critérios de falha, prevenção a riscos potenciais.
Os critérios de falha orientarão a equipe a entender quando é melhor parar 
de tentar ou se contentar com os resultados obtidos a partir dos dados. Muitas vezes, 
as pessoas continuarão a realizar análises além do ponto em que quaisquer insights 
significativos possam ser extraídos. Estabelecer critérios para o sucesso e o fracasso 
ajuda os participantes a evitar esforços improdutivos e permanecer alinhados com os 
patrocinadores do projeto.
• Identificando os stakeholders
Não devemos deixar de lado as partes interessadas no projeto. No decorrer do 
projeto, a equipe pode identificar os critérios de sucesso, os principais riscos envolvidos 
e as partes interessadas. Qualquer pessoa que faça parte ou seja beneficiada pelo 
projeto deve ser envolvida, pois estes poderão fornecer critério de verificação para o 
sucesso do projeto.
Quando uma parte interessada solicita uma saída específica, essa saída é quase 
sempre o meio para alcançar algum outro objetivo. O ideal é tentar transformar o pedido 
em um diálogo sobre seu objetivo principal e a melhor maneira de alcançá-lo.
• Entrevista com cliente
As vezes o cliente já tem uma ideia das respostas que busca no projeto, mas 
a equipe precisa utilizar seus conhecimentos e buscar determinar realmente qual o 
problema a ser respondido pelo projeto. Para estes casos a reunião de alinhamento com 
o cliente é a melhor saída. A definição clara da dor do cliente traz como consequência 
uma resolução mais assertiva do problema.
Portanto, a equipe pode sondar mais profundamente o contexto e o domínio 
para definir claramente o problema e propor possíveis caminhos do problema para o 
resultado. Em essência, a equipe de ciência de dados pode adotar uma abordagem 
mais objetiva, já que as partes interessadas podem ter desenvolvido vieses, ao longo 
do tempo, com base em sua experiência. Aqui vale todas as regras de entrevista com 
cliente para elaboração de projetos.
51
• Definindo as hipóteses iniciais
A definição das hipóteses iniciais pode ser considerada um dos fatores de 
sucesso na fase da descoberta. A geração de hipóteses pode ser utilizada para a primeira 
versão de testes.
Dessa forma, a equipe pode comparar suas respostas com o resultado de um 
experimento ou teste para gerar soluções possíveis adicionais para problemas. A equipe 
terá um conjunto de observações muito mais rico para escolher e mais opções para 
concordar com as conclusões mais impactantes de um projeto.
• Identificação de fontes de dados potenciais
Identificar os tipos de dados, levando em consideração o volume, o tempo 
que se levará para realizar os testes com as hipóteses primárias. Vale destacar as 
características dos dados conforme visto anteriormente, ou seja, os Vs do Big Data. Um 
diagnóstico minucioso terá forte influência na escolha das ferramentas e técnicas que 
serão futuramente utilizadas para a análise, aliado ao fato de que, nesta fase, a equipe 
irá determinar a quantidade de dados necessários para a realização do projeto.
2.2 PREPARAÇÃO DOS DADOS
A segunda fase do Ciclo de Vida do Data Analytics envolve a preparação de 
dados, que inclui as etapas para explorar, pré-processo e dados de condições antes da 
modelagem e análise. Nesta fase, a equipe precisa criar um ambiente robusto no qual 
possa explorar os dados separados de um ambiente de produção.
Normalmente, isso é feito preparando um repositório de dados para análise, 
comumente chamado de Sandbox. Para colocar os dados neste repositório, a equipe 
precisa realizar o processo de extração, transformação, carregamento e novamente 
a transformação destes dados. Uma vez que os dados estão no repositório, a equipe 
precisa aprender sobre os dados e se familiarizar com eles. 
Entender os dados em detalhes é fundamental para o sucesso do projeto. A 
equipe também deve decidir como condicionar e transformar dados para obtê-los em 
um formato para facilitar a análise subsequente. A equipe pode realizar visualizações 
de dados para ajudar os membros da equipe a entender os dados, incluindo suas 
tendências, outliers e relacionamentos entre variáveis de dados. Esta fase se subdivide 
em seis novas subfases assim descritas:
• preparação do repositório de análise;
• execução do processo de extração, transformação, carregamento e transformação;
• aprendizado dos dados;
52
• condicionamento de dados;
• pesquisa e visualização;
• busca por ferramentas para a fase de preparação dos dados.
A preparação dos dados tende a ser o passo mais intensivo no ciclo de vida 
da análise. Na verdade, é comum que as equipes gastem, pelo menos, 50% do tempo 
de um projeto de ciência de dados nesta fase crítica. Se a equipe não conseguir obter 
dados suficientes de qualidade, poderá ser incapaz de executar as etapas subsequentes 
no processo do ciclo de vida.
2.3 PLANEJAMENTO DE MODELOS
Na Fase 3, a equipe identifica modelos candidatos para aplicar aos dados para 
agrupamento, classificação ou encontrar relacionamentos nos dados dependendo 
do objetivo do projeto. É durante esta fase que a equipe se refere às hipóteses 
desenvolvidas na Fase 1, da descoberta, quando se familiarizaram pela primeira vez 
com os dados e compreensão dos problemas de negócios ou da área de domínio. 
Essas hipóteses ajudam a equipe a enquadrar as análises para executar na Fase 4, e 
selecionar os métodos certos para alcançar seus objetivos. Algumas das atividades a 
serem consideradas nesta fase incluem as seguintes:
• Exploração de dados e seleção variável: essa subfase requer iterações e testes para 
identificar as variáveis mais essenciais para as análises pretendidas. A equipe deve 
planejar testar uma série de variáveis para incluir no modelo e, em seguida, focar nas 
variáveis mais importantes e influentes.
• Seleção de modelos: normalmente, as equipes criam os modelos iniciais usando um 
pacote de software estatístico, como R, SAS ou Matlab. Embora essas ferramentas 
sejam projetadas para algoritmos de mineração de dados e aprendizado de máquina, 
elas podem ter limitaçõesao aplicar os modelos a conjuntos de dados muito grandes, 
como é comum no Big Data.
• Ferramentas comuns para a fase de planejamento de modelos: muitas ferramentas 
estão disponíveis para esta subfase, dentre as quais estacam-se: R, linguagem para 
análise e tratamento de grandes volumes de dados, SQL Analylis Service, conjunto de 
serviços para gerenciamento de Data Warehouse, O SAS/ACCESS fornece integração 
entre o SAS e o repositório de análise através de vários conectores de dados, como 
OBDC, JDBC e OLE DB.
O avanço desta fase requer uma metodologia geral para o modelo analítico, 
uma compreensão sólida das variáveis e técnicas a serem utilizados e uma descrição ou 
diagrama do fluxo de trabalho analítico.
53
2.4 CONSTRUINDO O MODELO
Na da construção do modelo, Fase 4, a equipe precisa desenvolver conjuntos 
de dados para fins de treinamento, teste e produção. Esses conjuntos de dados 
permitem que o cientista de dados desenvolva o modelo analítico e treine-o (“dados de 
treinamento”), reservando alguns dados (“dados de retenção” ou “dados de teste”) para 
testar o modelo. 
Durante esta fase, os usuários executam modelos a partir de pacotes de 
software analíticos, como R ou SAS, em pequenos conjuntos de dados para fins de 
teste. Em pequena escala, avaliam a validade do modelo e seus resultados.
Existem muitas ferramentas disponíveis para auxiliar nesta fase, focadas 
principalmente em análise estatística ou software de mineração de dados. Uma vez que 
a equipe pode avaliar se o modelo é suficientemente robusto para resolver o problema 
ou se a equipe falhou, ele pode passar para a próxima fase.
2.5 COMUNICAR OS RESULTADOS
Após a execução do modelo, a equipe precisa comparar os resultados 
da modelagem com os critérios estabelecidos para sucesso e fracasso. Como a 
apresentação é frequentemente circulada dentro de uma organização, é fundamental 
articular os resultados adequadamente e posicionar os achados de forma adequada 
para o público envolvido no projeto.
Ao realizar essa avaliação, a equipe deve determinar se os resultados são 
estatisticamente significativos e válidos. Se forem identificar os aspectos dos resultados 
que se destacam e podem fornecer descobertas importantes na hora de comunicá-los. 
Se os resultados não forem válidos, pensar em ajustes que podem ser feitos para refinar 
e iterar no modelo para torná-lo válido. 
Comparar os resultados reais com as ideias formuladas no início produz ideias 
e insights adicionais que teriam sido perdidos se a equipe não tivesse tido tempo para 
formular hipóteses iniciais no início do processo.
Como resultado, a equipe terá documentado os principais achados e os 
principais insights derivados da análise. A entrega desta fase será a parte mais visível do 
processo para os stakeholders e patrocinadores externos, por isso tome cuidado para 
articular claramente os resultados, a metodologia e o valor dos negócios dos achados. 
54
2.6 OPERACIONALIZAÇÃO
Chegamos à fase final, a fase da operacionalização, na qual a equipe comunica 
os benefícios do projeto de forma mais ampla e monta um projeto piloto para implantar 
o trabalho de forma controlada antes de ampliar o trabalho para um projeto completo 
ou para os stakeholders.
Parte da fase de operacionalização inclui a criação de um mecanismo para 
realizar o monitoramento contínuo da precisão do modelo e, se a precisão se degradar, 
encontrar maneiras de retreinar o modelo. Se possível, o design alerta para quando o 
modelo estiver operando “fora dos limites”. Isso inclui situações em que as entradas 
estão além do alcance em que o modelo foi treinado, o que pode fazer com que as saídas 
do modelo sejam imprecisas ou inválidas. Se isso começar a acontecer regularmente, o 
modelo precisa ser retreinado em novos dados.
Se observarmos o que foi apresentado até aqui, veremos que estamos 
praticamente falando da gestão de um projeto, mas com cunho voltado 
para análise de dados. O PMBok é um excelente caminho para quem 
está interessado na área de gerenciamento de projetos, mas, lembrem-
se: estamos falando sobre projeto de Big Data Analytics.
DICAS
55
RESUMO DO TÓPICO 4
 Neste tópico, você adquiriu certos aprendizados, como:
• Um projeto de Big Data trabalha com seis fases, que vão desde da descoberta dos 
dados até a visualização deles.
• Na fase da descoberta, a equipe deve conhecer a regra de negócio da empresa para 
a qual irá desenvolver o projeto de Big Data. 
• Na preparação dos dados, é feito o trabalho de coletar, limpar e transformar os dados 
para que sejam utilizados nos testes iniciais.
• Na fase do planejamento do projeto, a equipe define quais serão as ferramentas, 
técnicas que irão utilizar. 
• Ao construir o modelo, a equipe faz testes e treinamentos com um conjunto de dados 
e depois prepara estes dados para a produção do modelo.
• Após a construção do modelo, a equipe deve divulgar os resultados das análises para 
todos os stakeholders.
• A última etapa é a apresentação do relatório gerado.
56
1 O processo de Extração, Transformação, Carregamento e Transformação, também 
conhecido como ETLT, faz parte da fase que inclui as etapas para explorar, pré-
processar os dados antes da modelagem e análise. Estamos nos referenciando a 
qual fase?
a) ( ) A fase da descoberta dos dados.
b) ( ) A fase de preparação dos dados.
c) ( ) A fase do planejamento do modelo.
d) ( ) A fase da construção do modelo.
e) ( ) A fase de apresentação dos relatórios.
2 Muitas ferramentas estão disponíveis para essa subfase, dentre as quais se 
destacam: R, linguagem para análise e tratamento de grandes volumes de dados, 
SQL Analylis Service, conjunto de serviços para gerenciamento de Data Warehouse, 
O SAS/ACCESS fornece integração entre o SAS e o repositório de análise através de 
vários conectores de dados, como OBDC, JDBC e OLE DB. Esta subfase faz parte de 
qual etapa?
a) ( ) Preparação dos dados.
b) ( ) Descoberta dos dados.
c) ( ) Construção do modelo.
d) ( ) Apresentação dos relatórios.
e) ( ) Planejamento do modelo.
3 Uma das habilidades mais importantes para um cientista de dados é ser capaz de 
trabalhar efetivamente com as partes interessadas. Seu impacto dependerá de sua 
capacidade de pensar com os gerentes de produtos, colaborar com engenheiros e 
persuadir executivos. Estamos falando da identificação dos stakeholders, que faz 
parte de qual fase do Big Data?
a) ( ) Planejamento do modelo.
b) ( ) Preparação dos dados.
c) ( ) Descoberta dos dados.
d) ( ) Apresentação dos relatórios.
e) ( ) Construção do modelo. 
AUTOATIVIDADE
57
4 O estágio mais importante da análise de Big Data é o estágio 
de___________________, em que as operações de pré-processamento e 
integração de dados são realizadas para melhorar a qualidade do Big Data.
a) ( ) Planejamento do modelo.
b) ( ) Descoberta dos dados.
c) ( ) Seleção dos dados.
d) ( ) Preparação de dados.
e) ( ) Exploração de dados e seleção variável.
5 Na fase inicial do processo, a equipe de cientistas precisa determinar quanto 
conhecimento de negócios ou domínio o cientista de dados precisa para desenvolver 
modelos nas Fases 3 e 4. Quanto mais cedo a equipe conseguir fazer essa avaliação 
melhor, pois a decisão ajuda a ditar os recursos necessários para a equipe do projeto 
e garante que a equipe tenha o equilíbrio certo de conhecimento de domínio e 
conhecimento técnico. Essa fase refere-se:
a) ( ) À fase de preparação dos dados.
b) ( ) À fase do planejamento do modelo.
c) ( ) À fase da construção do modelo.
d) ( ) À fase de apresentação dos relatórios.
e) ( ) À fase da descoberta dos dados.
58
59
OS MITOS E VERDADES DO BIG DATA
1 INTRODUÇÃO
A análise de dados é uma dessas áreas em que eles estão utilizando Big Data 
e Data Science na ponta dos dedos para combinar a enorme quantidade de dados com 
estratégias de negócios.
De fato, o Big Data mantém uma extensão razoável de promessa para todas as 
empresas, independentemente de seus tamanhos.Através do Big Data Analytics, uma 
empresa pode obter os insights que os ajudam a não apenas impulsionar a receita, mas 
também entender as lacunas em seus serviços e produtos.
Embora a análise de dados ajude as empresas a tomarem decisões mais 
assertivas e ganharem uma vantagem competitiva, equívocos em torno dela podem 
dificultar seu resultado.
Neste tópico, você irá compreender que existem divergências em relação ao Big 
Data Analytics e desmistificará os principais mitos que o envolvem.
UNIDADE 1 TÓPICO 5 - 
2 VERDADES E MENTIRAS SOBRE BIG DATA 
A Ciência de Dados, juntamente com o Big Data, promete revolucionar o mer-
cado de informações a respeito de seus cliente e produtos. As empresas possuem uma 
gigantesca quantidade de dados em seus bancos de dados, Data Warehouse, espalha-
dos nos servidores ou nas nuvens, das mais diversas fontes como, dados cadastrais, 
financeiros, dados móveis, de pesquisas de clientes, dados das mídias sociais. 
A junção de novas técnicas de pesquisa e análise de dados com o aumento do 
poder de processamento computacional e a disponibilidade de recursos e dados on-
line resultou em ferramentas com possibilidades incríveis que, de certa forma, estão 
mudando a forma como vemos os dados, que geramos e analisamos, gerando novas 
oportunidades.
Entretanto, como em tudo o que é novo, sempre temos algumas verdades 
e mitos a respeito do que se trata Big Data Analytics. Para melhor compreendermos 
os conceitos, as técnicas e o que o Big Data Analytics pode fazer, vamos procurar 
desmistificar alguns dos principais mitos.
60
2.1 MITO 1 – BIG DATA É PARA GRANDES EMPRESAS
As iniciativas em Big Data Analytics são válidas tanto para grandes empresas, 
quanto para as pequenas. Apesar da quantidade de dados gerados pelas pequenas 
empresas parecer pouca, o processo de análise destes dados é o mesmo que o utilizado 
para analisar dados das grandes empresas. 
Se você tem uma empresa com dez, 50 ou até 1000 funcionários, você pode 
analisar os dados para vender mais, melhorar a qualidade de seus produtos fabricados, 
melhorar a produção, inovar e, consequentemente, obter mais lucro.
Devemos destacar que com o advento da computação em nuvem, novas 
tecnologias e o poder de processamento dos novos computadores, o Big Data Analytics 
está disponível para desde startups até grandes corporações e com um custo cada vez 
menor, tornando-se, assim, disponível para todos os tipos de organizações.
2.2 MITO 2 – BIG DATA REQUER GRANDES ORÇAMENTOS E 
GRANDES EQUIPES
O mito anterior mostrou o que ocorre quando algo novo é apresentado a socieda-
de. Assim como ter um computador nos anos 1980 era extremamente caro, hoje em dia 
está mais acessível, o processo de Big Data também está passando por esta mudança.
Como citado, a computação em nuvem e o aumento no poder de processamento 
dos computadores aliados às diversas ferramentas distribuídas gratuitamente, qualquer 
organização pode desenvolver um projeto de Big Data Analytics.
Adicione-o e você tem um enorme volume de dados para executar uma 
estratégia de gerenciamento bem planejada a um preço muito mais acessível do que 
nunca. Há três custos em queda que tornam a análise de dados mais acessível no 
mercado atual.
• O custo do armazenamento de dados – especialmente na nuvem – continua a cair. 
Se fizermos uma análise dos preços de armazenamento em nuvem veremos que 
Amazon AWS, Microsoft, Google e IBM reduziram seus preços na nuvem.
• O custo do uso do software de análise de dados caiu. Você não precisa mais comprar 
vários pacotes de software para alcançar seus objetivos.
• A facilidade de coletar mais dados do que nunca através de dispositivos móveis e 
plataformas de Internet das Coisas (IoT).
61
Empresas com pouco funcionários, mas gerando lucros, às vezes, maiores que 
muitas empresas consideradas grandes, podem fazer uso do Big Data Analytics, pois não 
é necessário ter um grande orçamento ou uma equipe com vários funcionários ou ainda 
pagar valores astronômicos por ferramentas de análises. Levando em consideração o 
porte do projeto, é possível montar o Big Data Analytics com baixo custo.
2.3 MITO 3 – QUANTO MAIS DADOS, MELHOR!
Não é verdade, às vezes, a grande quantidade de dados pode até atrapalhar ou 
atrasar o projeto. Muitos dados podem significar muitos riscos devido à necessidade de 
monitoramento constante desses dados. A qualidade dos dados é um fator crucial em 
qualquer projeto de Big Data Analytics. De nada adianta você ter uma enorme quantidade 
de dados se eles são dados “sujos”, são redundantes, duplicados, desatualizados.
Devemos ter em mente que há uma distinção entre uma grande quantidade de 
dados e uma grande quantidade de dados bons. Dados considerados ruins podem levar 
a interpretações errôneas. Os marcadores de vídeos e fotos das redes sociais podem 
estar incorretos ou não existirem, as reações às postagens podem ser interpretadas de 
maneiras diferentes, dependendo do contexto que se encontra que reagiu.
Os entusiastas do Big Data adoram especular sobre o que pode ser alcançado 
com vastas bases de dados. Claro, grandes conjuntos de dados desempenham um papel 
no sucesso do Google, Facebook e Amazon. No entanto, essa não é a única maneira de ir.
Com apenas 1000 registros, você pode realizar análises significativas de dados. 
Por exemplo, se você tivesse 1000 faturas do seu maior fornecedor, você poderia exe-
cutar um pequeno projeto de análise contra esses dados para procurar padrões. Melhor 
ainda, a maioria das organizações já está sentada em recursos significativos de dados.
O conjunto de dados coletados para análise pode conter o que chama de “Dirty 
Data” (Dados Sujos), mas não quer dizer que são dados que não possam ser utilizados. 
Eles precisam passar pelo processo de extração, transformação, carregamento e 
transformação, aquele que vimos na fase de preparação dos dados, para que possam 
ter utilidade.
Trabalhar somente com dados “limpos” talvez não seja viável. Os dados sujos 
também são utilizados na análise. Estes dados mostram para a empresa que possui 
problemas na geração de dados com qualidade e precisa criar mecanismo para 
corrigi-los e assim ter dados confiáveis e que não precisem ser retrabalhados na 
construção do projeto.
É comum afirmar que essa é uma das tarefas com maior relevância num projeto 
de Big Data, preparar os dados para as análises a serem realizadas. O tempo gasto aqui 
é compensado com uma análise de qualidade e mais assertiva.
62
2.4 MITO 4 – O BIG DATA SUBSTITUIRÁ O DATA WAREHOUSE
O Big Data ainda não evoluiu o suficiente para atender às necessidades de 
todos os tipos de problemas relacionados a dados. E também devemos lembrar que as 
tecnologias/plataformas de Big Data não são uma substituição para Data Warehouse 
tradicionais ou RDBMS. 
Big Data é para requisitos específicos e não deve ser aplicado em todos os 
lugares. Assim, o Big Data não é destinado a substituir os Data Warehouse atuais, 
embora possa atender a alguns requisitos de Data Warehouse em um futuro próximo.
O Data Warehouse é uma arquitetura, enquanto o Big Data é puramente uma 
tecnologia. Portanto, não se pode substituir o outro tecnicamente. Uma tecnologia, 
como o Big Data, armazena e gerencia uma enorme escala de dados para usá-los para 
diferentes soluções de Big Data a um custo razoável e baixo.
Por outro lado, como um Data Warehouse de estrutura organiza dados para 
fornecer uma única versão dele. Consolida dados de diferentes fontes e os organiza de 
forma facilmente legível. Também possui uma capacidade de linhagem de dados que 
ajuda a identificar a origem dos dados. Além disso, sabemos que a análise do Big Data 
pode ser realizada sem interferência das implementações existentes de Data Warehouse 
e análise de negócios. Assim, o Data Warehouse e o Big Data têm seu conjunto definitivo 
de necessidades e aplicações.
2.5 MITO 5 – BIG DATA TORNA QUALQUER EMPRESA 
LUCRATIVA
Não será apenas pela análise dos dados que as empresas irão se tornar 
lucrativas,porque não são apenas os dados que impulsionam as empresas. Existem 
vários fatores que contribuem para o sucesso ou fracasso de uma empresa, fatores 
econômicos, políticos, sociais, culturais, dentre tantos. 
O Big Data facilita acompanhar as tendências do mercado, fornece insights 
das necessidades dos clientes, melhora a comunicação entre as empresas em seus 
stakeholders, mas não consegue predizer com 100% de certeza se esta empresa será 
bem-sucedida ou não. Podemos fazer uma analogia com as pesquisas eleitorais, em 
que muitas vezes não são os resultados descritos nas vésperas das eleições.
O simples ato de adotar Big Data Analytics não se traduz em vantagem 
competitiva como tal. Você precisa ter uma estratégia clara e definida, diante da 
concorrência antecipada dos concorrentes, seja para proteger sua vantagem ou melhor 
se adaptar as mudanças constantes do mercado.
RESUMO DO TÓPICO 5
63
RESUMO DO TÓPICO 5
 Neste tópico, você adquiriu certos aprendizados, como:
• Existem mitos a respeito do Big Data.
• O Big Data Analytics não serve apenas para grandes organizações, pequenas 
empresas também podem desenvolver projetos e se beneficiar das análises. 
• Que não é necessário investir uma enorme quantia de dinheiro para desenvolver um 
projeto de Big Data.
• Nem sempre, quanto mais dados melhor para o projeto, as vezes uma pequena 
quantidade bem trabalha é o suficiente e mais econômica. 
• O Big Data não substitui o Data Warehouse.
• Apenas o Big Data não faz a sua empresa ser lucrativa e competitiva no mercado. 
Você precisa de uma estratégia bem definida.
64
1 Observa-se que a quantidade de dados gerados está crescente, isto faz com que 
a análise dos dados não seja feita da maneira tradicional, pois os tipos de dados 
gerados não são os mesmos tipos de dados armazenados em banco de dados 
relacionais. Considerando este contexto descreva a diferença entre Big Data e uma 
Base de Dados tradicional.
2 Tecnologia e ciência estão observando avanços revolucionários todos os dias e as 
empresas estão tentando extrair o melhor dela. A análise de dados é uma dessas 
áreas em que eles estão utilizando Big Data e Data Science na ponta dos dedos para 
combinar a enorme quantidade de dados com estratégias de negócios. Este cenário 
no remete a mito de que o Big Data.
a) ( ) Deve ser implantado no banco de dados relacional da empresa.
b) ( ) Apresentará respostas incertas sobre a concorrência.
c) ( ) Eliminará o trabalho dos departamentos de pesquisa e desenvolvimento.
d) ( ) Pode ser adotado por qualquer empresa que queira conhecer melhor seus dados.
e) ( ) Precisa de alto investimento, tanto na infraestrutura quanto em pessoal 
especializado.
3 A análise pode prever a tendência usando Big Data, mas não são os dados que 
impulsionam o negócio. Um negócio se mantém em muitos fatores como economia, 
recursos humanos, tecnologia e muito mais. Isto implica que o uso do Big Data.
a) ( ) Não traz respostas concretas a respeito dos dados analisados.
b) ( ) Permite planejar o desenvolvimento de novos produtos baseado em dados passados.
c) ( ) Requer uma equipe de cientistas de dados para a análise dos dados.
d) ( ) Pode prever o futuro, mas depende das perguntas feitas sobre os dados.
e) ( ) Exige um investimento considerável em analistas e equipamentos.
4 O Data Warehouse armazena dados consolidados de diversas fontes, mas interligados 
pelo ambiente de uma corporação. São os chamados dados estruturados, que têm 
como principal objetivo a precisão e qualidade, que darão suporte à tomada de 
decisões de qualquer empresa. Em relação ao Data Warehouse podemos afirmar que 
o Big Data.
AUTOATIVIDADE
65
a) ( ) É um complemento, pois necessita dos dados já tratados do Data Warehouse.
b) ( ) São arquiteturas idênticas, podendo usar tanto um quanto o outro.
c) ( ) O Big Data é uma substituição para um Data Warehouse.
d) ( ) Big data e Data Warehouse não são os mesmos, por isso não são intercambiáveis.
e) ( ) O Big Data veio substituir o Data Warehouse pela simplicidade no tratamento 
dos dados.
5 O volume de dados refere-se ao tamanho dos conjuntos de dados que precisam ser 
analisados e processados, que agora são frequentemente maiores que terabytes 
e petabytes ou mesmo zetabytes. O grande volume dos dados requer tecnologias 
de processamento distintas e diferentes do que os recursos tradicionais de 
armazenamento e processamento.
a) ( ) Para o Big Data a quantidade de dados é o fator chave para as análises, pois 
quanto mais dados, melhor.
b) ( ) Dados de má qualidade têm muitos erros, muitos dados perdidos que podem 
ser enganosos.
c) ( ) A quantidade de dados gerados é independente, uma vez que o Big Data faz 
suas análises em lotes de dados.
d) ( ) O processo de transformação dos dados é simples e de baixo custo para o Big Data.
e) ( ) Uma grande quantidade de dados atrapalha a geração dos relatórios.
66
67
APLICAÇÕES MAIS USUAIS DE BIG DATA
1 INTRODUÇÃO
Aplicações de Big Data Analytics introduziram possibilidades de ponta em todos 
os aspectos da nossa vida cotidiana. Vivemos em um mundo de tremenda competição. E 
manter um lugar para nós mesmos é o principal desafio. Se fizermos uma pausa mesmo 
por um curto período, ficaremos atrás dos outros. Para manter o ritmo e estabelecer-
se, usar big data pode ser a única opção. Aplicações de Big Data tornaram nossa vida 
melhor e suave também.
Influenciadores da indústria, acadêmicos e outras partes interessadas 
proeminentes certamente concordam que o Big Data Analytics se tornou um grande 
divisor de águas na maioria, se não todos, tipos de indústrias modernas nos últimos anos. 
Embora a compreensão do valor do Big Data Analytics continue a ser um desafio, outros 
desafios práticos, incluindo financiamento e retorno sobre investimentos e habilidades, 
continuam na vanguarda de várias indústrias diferentes que estão adotando o Big Data 
Analytics.
Neste tópico, você conhecerá as principais áreas que fazem uso do Big Data 
Analytics e suas aplicações.
UNIDADE 1 TÓPICO 6 - 
2 QUEM USA BIG DATA?
A quantidade de dados gerados por pessoas, dispositivos conectados à Internet 
e empresas está crescendo a uma taxa exponencial. Instituições financeiras, empresas 
e prestadores de serviços de saúde geram grandes quantidades de dados por meio 
de suas interações com fornecedores, pacientes, clientes e funcionários. Além dessas 
interações, grandes volumes de dados são criados através de pesquisas na Internet, 
redes sociais, sistemas GPS e transações no mercado de ações. Essa produção 
generalizada de dados resultou na “revolução dos dados” ou na era do Big Data.
As organizações estão aproveitando o Big Data para liderar seu mercado. Com 
Big Data, as organizações ganham insights e melhoram a produtividade, a experiência 
do cliente, reduzindo o custo dos negócios e a oportunidade para novos negócios. Novo 
e Neves (2013, p. 37) destacam que:
68
O Big Data abre a possibilidade de um modelo de decisão diferente, 
pois permite às empresas criação de experimentos controlados para 
testar hipóteses que guiarão a tomada de decisão em, por exemplo, 
novos investimentos ou mudanças operacionais. Possibilitando 
centenas ou milhares de experimentações é possível distinguir entre 
simples correlação de eventos daqueles que realmente possuem 
uma ligação de causa e efeito.
Romer (2013, s.p.) publicou em seu artigo no site Canaltech que “O valor é parte 
considerável da estimativa atual do tamanho deste setor na América Latina, que já 
chega à US$ 600 milhões. Em 2017, a América Latina deve atingir a marca de US$ 1,8 
bilhões. No mundo inteiro, o mercado deve movimentar US$ 11 bilhões”. 
Segundo Botega e Hoppen (2020), estima-se que a receita mundial com o Big 
Data Analytics atinja a cifra de US$ 274,3 bilhões de dólares até 2022. Isso demonstra o 
potencial do Big Data Analytics.
A seguir, destacamos as áreas que estão usando o Big Data, bem como seus 
desafios:
• Bancos e financeiras:estas áreas fazem uso do Big Data Analytics na prevenção 
e detecção de fraudes através da análise do perfil de seus clientes, na otimização 
do atendimento aos seus clientes, na proteção contra-ataques cibernéticos, na 
personalização de seus produtos e serviços, redução de churn que se trata do 
cancelamento de um investimento ou até mesmo no fechamento de uma conta, até 
mesmo nas operações de lavagem de dinheiro.
• Comunicações, mídia e entretenimento: as organizações deste setor analisam 
simultaneamente os dados dos clientes, juntamente com dados comportamentais 
para criar perfis detalhados de clientes que podem ser usados para: a) entender 
padrões de uso de conteúdo de mídia em tempo real; b) criar conteúdo para 
diferentes públicos-alvo; c) recomendar conteúdo sob demanda; d) medir o 
desempenho do conteúdo.
• Saúde: os grandes hospitais e operadoras de planos de saúde estão utilizando o Big 
Data para o gerenciamento de seus custos operacionais, prevenção de doenças 
(medicina preventiva), registro eletrônico do histórico dos pacientes (anamnese), 
redução de fraudes nos convênios, telemedicina, planejamento de programas sociais 
de saúde pública, pesquisa e estudos médicos nas mais diversas áreas buscando a 
cura para doenças.
• Educação: a área da educação traz utilizações do Big Data desde a análise do per-
fil dos alunos que ingressam num determinado curso até sua formatura, podem 
“rastrear” os movimentos dos alunos em seus ambientes virtuais de aprendizagem, 
quando os alunos acessam, quanto tempo permanecem, quais páginas visitam. Na 
parte pedagógica, na definição da melhor ferramenta de estudos para os alunos, 
com base no perfil destes, criando um programa de estudos personalizado para 
cada aluno. Utilizam também na análise e prevenção da evasão escolar.
69
• Manufatura e recursos naturais: as organizações deste setor utilizam do Big Data 
nas seguintes áreas: gestão de riscos (comunicação direta entre produtor e cliente), 
personalização de produtos sob encomenda, melhoria na qualidade dos produtos 
fabricados, acompanhamento da cadeia produtiva, pré e pós vendas, manutenção 
preditiva e preventiva, simulação de novos produtos e processos de fabricação, na 
logística, tanto interna quanto externa, análise gerencial e mercadológica (visando a 
vantagem competitiva).
• Governo: nos serviços públicos, o Big Data possui uma ampla gama de aplicações, 
incluindo exploração de energia, análise do mercado financeiro, detecção de fraudes, 
pesquisa relacionada à saúde e proteção ambiental, detecção e estudo de padrões de 
doenças (melhoria na qualidade dos serviços de saúde pública), segurança territorial, 
combate ao tráfico, evasão de dinheiro, controle de gastos públicos.
• Varejo e atacado: os dados de Big Data são utilizados para fidelização de clientes, 
análises de PDV, inventário de lojas, previsão de demanda e tendências, estratégias 
de marketing, definição de layouts de lojas (caso clássico do Wallmart, fraldas e 
cervejas), personalização de ofertas, melhoria nos processos de e-commerce.
• Transportes: dividido em três subáreas: a) uso governamental: controle de tráfego, 
planejamento de rotas, sistemas inteligentes de transporte, gerenciamento de 
congestionamentos (prevendo condições de tráfego); b) setor provado: gestão de 
receitas, melhorias tecnológicas, logística e vantagem competitiva (consolidando 
embarques e otimizando o movimento do frete); c) uso individual: planejamento de 
rotas para economizar combustível e tempo, para arranjos de viagem no turismo etc.
• Agricultura: no setor agrícola o uso do Big Data está sendo aplicado no entendimento 
e análise de dados meteorológicos, tratando informações sobre monitoramento de 
pragas, doenças e plantas daninhas; consumo, aplicações de defensivos agrícolas, 
dados de produtividade, velocidade e perdas na colheita.
É do interesse das empresas aproveitar as oportunidades que o Big Data Analy-
tics poderá trazer para o negócio, otimizando a eficiência e qualidade dos seus serviços, 
de forma a obter maiores índices de performance. Em primeira instância, as tecnologias 
de Big Data permitem vantagens de custo bastante significativas, uma vez que per-
mitem o armazenamento e processamento distribuído de grandes volumes de dados, 
bem como a identificação de novas estratégias de negócio mais eficientes e rápidas.
O Big Data permite que todas as empresas verifiquem não só o mercado, 
mas também a forma como a concorrência está se saindo, mostrando as diferentes 
promoções fornecidas aos clientes. 
O que torna isso incrível é o fato de que o Big Data vai deixar você saber se os 
clientes estão se sentindo atraídos por essas promoções ou não. O futuro da Análise 
Digital, Big Data, Ciência de Dados e Análise Aplicada é certamente brilhante em um 
ambiente vibrante, cheio de oportunidades econômicas.
70
Vejam alguns casos de sucesso de empresas que utilizam do Big Data 
nos seguintes artigos: 
• Data Analytics: 10 histórias de sucesso: https://cio.com.br/tendencias/
data-analytics-10-historias-de-sucesso/. 
• Top 20 melhores aplicações e exemplos de Big Data no mundo de hoje 
(em inglês): https://www.ubuntupit.com/best-big-data-applications-
in-todays-world/. 
• Como o Facebook utiliza o Big Data: o bom o mau e o feio (em Inglês): 
https://www.simplilearn.com/how-facebook-is-using-big-data-
article?source=CTAexp.
DICAS
https://cio.com.br/tendencias/data-analytics-10-historias-de-sucesso/
https://cio.com.br/tendencias/data-analytics-10-historias-de-sucesso/
https://www.ubuntupit.com/best-big-data-applications-in-todays-world/
https://www.ubuntupit.com/best-big-data-applications-in-todays-world/
https://www.simplilearn.com/how-facebook-is-using-big-data-article?source=CTAexp
https://www.simplilearn.com/how-facebook-is-using-big-data-article?source=CTAexp
71
O TERMO BIG DATA: QUEBRA DE PARADIGMA DOS N-V’S,
Marcos de Souza
Fernanda Gomes Almeida
Renato Rocha Souza
1 INTRODUÇÃO 
Os dados são considerados o novo petróleo na era digital, possuindo um 
valor altamente estratégico. Tão importante quanto o petróleo, os dados são a arma 
mais poderosa da sociedade. Grandes empresas tecnológicas como Amazon, Apple, 
Facebook, Google e Microsoft apresentaram um faturamento maior que 25 bilhões de 
dólares apenas no primeiro semestre de 2017, demonstrando que as organizações que 
detêm os dados também detêm o poder (ECONOMIST, 2017). 
A produção e armazenamento de dados têm passado por um processo evolutivo 
desde a popularização dos computadores e a difusão da Internet, dessa forma, tem 
ganhando destaque a partir de uma produção massiva de dados realizada por meio de 
sites, redes sociais digitais, smartphones, sistemas informatizados, satélites, sensores 
de carros, aviões e trens, câmeras de segurança entre outros tipos de serviços como 
streaming (AMARAL, 2016). Além da evolução referente a capacidade de armazenamento 
de dados, faz necessário destacar também o quantitativo de vezes que os dados são 
compartilhados pelos usuários (MARQUESONE, 2016). 
O conceito de Big Data foi cunhado a partir do crescimento e integração de 
grandes volumes de dados digitais produzidos por diversos meios e tecnologias, bem 
como pelo uso de ferramentas que perpassam as etapas de produção, compartilhamento, 
curadoria e análise de maneira eficiente dessa gigantesca quantidade de dados, 
resultando em informações de valia e permitindo descobrir novos padrões significativos 
de conhecimentos (SAKR, 2016; ELSHAWI; SAKR, 2018). 
Buscas realizadas utilizando o termo Big Data nas ferramentas de pesquisa 
acadêmica Google Scholar e o Portal de Periódicos da CAPES (Coordenação de Aper-
feiçoamento de Pessoal de Nível Superior) apresentou como resultado, respectiva-
mente, 4.820.000 e 1.739.128 documentos que abordam de alguma forma a temática 
Big Data. Já a pesquisa realizada no buscador Google apresentou aproximadamente 
4.170.000.000 resultados. Assim, trata-se de um quantitativo bastante representativo, 
uma vez que se referea um termo cunhado há poucos anos. 
LEITURA
COMPLEMENTAR
72
A definição de Big Data é considerada pobre (BOYD; CRAWFORD, 2012), 
equivocada e genérica, pois refere-se apenas ao tamanho (DAVENPORT, 2017). Contudo, 
este trabalho parte do princípio que o Big Data é um termo em fase de amadurecimento 
e que ainda está em processo de consolidação de conceitos. 
Justifica-se a importância desse trabalho pela notoriedade do termo Big Data 
nos últimos anos, tanto no meio acadêmico quanto empresarial e pela discrepância entre 
os conceitos encontrados na literatura. Como hipótese, acredita-se que, por se tratar de 
um termo relativamente novo e principalmente por estar atrelado aos meios e avanços 
tecnológicos, possam surgir cotidianamente novas características que contribuem para 
essa diversidade de conceitos.
2 OBJETIVOS 
O trabalho tem como objetivo identificar os conceitos relacionados ao termo Big 
Data e, identificar as características que compõem o conceito.
3 PROCEDIMENTOS METODOLÓGICOS 
Esta é uma pesquisa de natureza básica, abordando o problema de forma 
qualitativa. Do ponto de vista dos seus objetivos, é classificada como exploratória e 
descritiva. Da perspectiva dos procedimentos técnicos, identifica-se como pesquisa 
bibliográfica (GIL, 2010; Gil, 2016). A pesquisa consiste em um levantamento, análise 
e seleção de trabalhos que trazem uma conceituação do termo Big Data, bem como 
suas características, publicados entre os anos de 2011 e 2018. 
Os trabalhos foram identificados a partir de pesquisas realizadas no Portal 
de Periódicos da CAPES e no Google Scholar. Além desses, foram utilizados artigos 
científicos, livros digitais e impressos da área de domínio. As publicações selecionadas 
serviram como base para a identificação dos conceitos relacionados ao termo Big Data, 
bem como a identificação das características que compõem o seu conceito.
4 RESULTADOS 
Um número expressivo de documentos acadêmicos apresenta uma série de 
conceitos sobre o termo Big Data. Esses conceitos são apresentados no Apêndice A. 
Verifica-se dessa forma, uma diversidade de conceitos o que pode contribuir para a não 
consolidação do termo. 
A consultoria Gartner desenvolveu um estudo no ano de 2001 no qual apresentou 
o volume, a variedade e a velocidade – conhecidos como 3 Vs – como um dos maiores 
desafios para a manipulação e a gestão de dados. Esse viés tem sido discutido com 
maior relevância no meio acadêmico (LANEY, 2001). Posteriormente, a veracidade 
(qualidade) valor (relevância) foram incorporadas aos 3 Vs e constituíram assim o 5 Vs. 
73
Essas características têm ganhado destaque nas investigações relacionadas ao meio 
empresarial (Assunção et al., 2015). Tais características são utilizadas para definir o termo 
Big Data. Contudo, além dos 5 Vs, outras características podem surgir, formando assim 
os n-Vs, uma vez que o conceito de Big Data está atrelado aos avanços tecnológicos.
4.1 BIG DATA E SUAS CARACTERÍSTICAS 
O Big Data é um fenômeno tecnológico e humano, no qual são produzidos dados 
em diversos formatos e que são armazenados em grandes quantidades de dispositivos 
de II Workshop de Informação, Dados e Tecnologia, UFPB, Brasil armazenamento. 
Refere-se às características inerentes de um Big Data os n-Vs, sendo eles:
• Volume – relaciona-se ao quantitativo de informações armazenadas em dispositivos 
físicos ou virtualizados. No atual cenário, os armazenamentos de dados perpassam 
por um crescimento exponencial mediante a tecnologia de computação nas nuvens. 
Os dados têm sido criados em escala de zetabytes por meio de diversas fontes e 
aplicações por atividades cotidianas (VASCONCELOS; BARÃO, 2017). Considerando 
que bilhões de pessoas geram informações diariamente por meio da Internet, estima-
se que o volume de informações produzidas possa dobrar a cada 18 meses. O atributo 
volume é considerado a característica mais importante no conceito de Big Data e faz 
dimensão sem precedentes do volume de dados (MACHADO, 2018). 
• Variedade – define a diversidade de informações e dados produzidos e que possuem 
formatos heterogênicos, podendo ser dados estruturados, não estruturados ou 
semiestruturados que são criados, compartilhados e consumidos em diferentes 
formatos e uma variedade de fontes de dados, como por exemplo upload de fotos, 
transmissão de vídeos em tempo real, textos publicados em redes sociais (MACHADO, 
2018). A variedade também indica a variação das áreas de aplicações de um Big Data, 
tais como as áreas governamentais, financeiras, transportes e automação, varejistas, 
seguros e outras possibilidades (VASCONCELOS; BARÃO, 2017). 
• Velocidade – além dos desafios referentes ao volume e variedade de dados, o Big Data 
faz referência a agilidade em que os dados são coletados, processados, analisados 
e utilizados (MARQUESONE, 2016; VASCONCELOS; BARÃO, 2017; MACHADO, 2018). 
Um fator que contribuiu positivamente para a característica da velocidade está na 
evolução das telecomunicações, tais como largura de banda e infraestrutura física, 
possibilitando assim que os dados sejam transportados com uma maior velocidade 
por meio da Internet (VASCONCELOS; BARÃO, 2017). 
• Veracidade – diz respeito à qualidade dos dados e a confiabilidade das fontes dos 
dados. O Big Data está inserido em um contexto de variedade e volume de dados, 
sendo comum a existência de dados inconsistentes. Dessa forma, torna-se necessário 
garantir a autenticidade das fontes e dos dados coletados de forma que sejam 
confiáveis para uma determinada solução (MARQUESONE, 2016; VASCONCELOS; 
BARÃO, 2017; MACHADO, 2018). 
74
• Valor – caracteriza-se pelo quão valioso e significativo um dado pode ser para uma 
determinada solução em um Big Data, obtendo assim valor qualitativo a partir do 
volume, variedade e velocidade de dados (MARQUESONE, 2016). Torna-se importante 
ressaltar que se trata da relevância dos dados após o processamento. Os dados 
brutos perpassam por análise e processamento, quando poderão ser acrescidos de 
valor, transformando-se em vantagem competitiva para negócios. (VASCONCELOS; 
BARÃO, 2017; MACHADO, 2018). 
• Viabilidade – destina-se a identificar o relacionamento entre variáveis e padrões laten-
tes de dados (BIEHN, 2013). Esse conceito pode ser discutido, por exemplo, em mo-
delagem de tópicos que faz uso de machine learning e processamento de linguagem 
natural em grandes corpora textuais para identificar a emersão dos tópicos latentes. 
• Venalidade – projetado futuramente em formatos que possam ser vendidos 
(DAVENPORT, 2017). A questão da venda de dados já ocorre por meio de empresas 
prestadoras de II Workshop de Informação, Dados e Tecnologia, UFPB, Brasil serviços 
on-line, entretanto, o autor discute a questão de um formato específico para o 
conceito de grandes volumes de dados.
5 CONSIDERAÇÕES FINAIS 
O termo Big Data, novo se comparado a outros conceitos científicos consoli-
dados na literatura, apresenta uma diversidade de conceitos, contribuindo para a não 
consolidação do termo. Esse fato pode ser observado no Apêndice A que mostra uma 
não uniformidade entre as definições elaboradas pelos diversos autores, inclusive com 
críticas, disparidades, simplicidade e homogeneidade. Outro fator que contribui para 
falta de consolidação do termo Big Data está nas suas características. Inicialmente 
conhecidas por 3 Vs – volume, variedade e velocidade; mais tarde com o acréscimo de 
veracidade e viabilidade tornando-se 5 Vs; porém, as características que compõem o 
conceito de Big Data ultrapassam esse quantitativo, podendo ser acrescentado tam-
bém viabilidade e venalidade, tornando-se assim 7 Vs. 
Essa evolução de características de palavras iniciadas com a letra “V” tem 
acontecido mediante ao surgimento de novas necessidades que aparecem ao se realizar 
algum tipo de processamento com Big Data e também por conta do avanço tecnológico. 
Entretanto, acredita-se que as tecnologias estejam longe de serem estabilizadas. Com 
isso, novas possibilidadesou novos “Vs” poderão surgir nos próximos anos, como por 
exemplo, a Variabilidade – capacidade de submeter-se a variações de mudanças; e 
Visualização de dados associados ao Big Data. 
Percebe-se que as características associadas ao conceito de um Big Data no que 
diz respeito aos 5 Vs tem se apresentado de forma sólida na literatura, entretanto, com o 
avanço tecnológico, novas possibilidades têm surgido e colocado as características em 
cheque. Dessa maneira, surge o que podemos chamar de n-Vs, um paradigma ainda em 
construção, aberto para as novas características ou representações do termo Big Data. 
75
Ressalta-se que, em busca realizada no Portal de Periódicos da CAPES utilizando 
os termos “n-Vs Big Data”, “n-Vs Big Data”, “n-Vs Big Data” e “n-Vs Big Data”, apesar 
da quantidade elevada resultados que tratam do Big Data, não foram encontrados 
resultados que os abordem n-Vs da forma que foi proposta neste trabalho – o paradigma 
dos n-Vs. 
Sugere-se como pesquisas futuras uma quebra de paradigmas com relação à 
caracterização real do termo de forma que o mesmo não esteja atrelado à determinada 
letra alfabética, e sim ao que de fato representa um Big Data. Além disso, perspectivas 
futuras sobre o Big Data e tecnologias podem contribuir para a formação de um conceito 
consolidado, embora acredita-se que possa levar anos para realização de uma definição 
universalizada do conceito.
FONTE: Adaptado de <https://dadosabertos.info/enhanced_publications/idt/papers/6.pdf>. Acesso em: 23 
abr. 2021.
76
RESUMO DO TÓPICO 6
 Neste tópico, você adquiriu certos aprendizados, como:
• Vários setores produtivos fazem uso do Big Data Analytics para sua gestão. 
• O Big Data auxilia na tomada de decisões, mas não é a única ferramenta para que as 
empresas sejam bem-sucedidas. 
• Ainda há muitos caminhos a serem percorridos pelo Big Data. 
77
1 Big Data é um termo em evolução que descreve um grande volume de dados 
estruturados, não estruturados e semiestruturados com potencial para serem 
extraídos para informações e usados em projetos de machine learning e outros. Qual 
das características a seguir está entre os 5 V de dados?
a) ( ) Versatilidade.
b) ( ) Voracidade.
c) ( ) Virtualidade.
d) ( ) Velocidade.
e) ( ) Vácuo.
2 Big Data é um termo geral para as estratégias e tecnologias não tradicionais 
necessárias para coletar, organizar, processar grandes conjuntos de dados. Embora 
o problema de trabalhar com dados que excedam o poder de computação ou 
armazenamento de um único computador não seja novo, a penetração, escala e valor 
desse tipo de computação se expandiu muito nos últimos anos. Apenas coletar e 
armazenar informações não é suficiente para produzir valor real para o negócio. As 
tecnologias de análise de Big Data são necessárias para.
a) ( ) Formular gráficos e gráficos atraentes.
b) ( ) Extrair insights valiosos dos dados.
c) ( ) Integrar dados de fontes internas e externas.
d) ( ) Organizar os dados em suas respectivas tabelas.
e) ( ) Padronizar o acesso aos dados e seus relatórios.
3 Uma grande quantidade de dados é muito difícil de processar em bancos de 
dados tradicionais. Então, é por isso que podemos usar ferramentas de Big Data e 
gerenciar nosso enorme tamanho de dados muito facilmente. Qual é a melhor prática 
recomendada para o gerenciamento de programas de análise de Big Data?
a) ( ) Adotando ferramentas de análise de dados com base em uma lista de lavanderia 
de suas capacidades.
b) ( ) Mantendo inteiramente a concepção de "ideias antigas" relacionadas à gestão 
de dados.
c) ( ) Focando em metas de negócios e como usar tecnologias de análise de Big Data 
para atendê-las.
d) ( ) Utilizando de ferramentas de bancos de dados relacionais para efetuar as consultas.
e) ( ) Migrando os bancos de dados para o serviço nas nuvens, para garantir a 
segurança dos dados.
AUTOATIVIDADE
78
4 A análise de Big Data é o método de coletar, estudar e interpretar volumes maciços 
de dados quantitativos e qualitativos que impactarão as margens de lucro e o ROI 
de qualquer negócio. É um recurso valioso usado por profissionais de marketing e 
proprietários de empresas ao tomar decisões críticas, desde o lançamento de uma 
campanha de marketing, o desenvolvimento de um novo produto ou a descontinuação 
de um serviço previamente oferecido. Diante deste contexto, como a análise de Big 
Data é útil para aumentar a receita dos negócios?
5 As empresas de visão de futuro entendem que os insights orientados por dados são 
excelentes diretrizes quando se trata de gerenciar os aspectos complicados das 
empresas que nem sempre são evidentes, mas críticos, no entanto. Usar dados para 
lançar luz sobre esses fatores pode ajudá-lo a desenvolver melhores planos para 
o futuro e torná-los rentáveis para o seu negócio. Isto nos faz refletir e questionar: 
como podemos aplicar esses insights e gerenciá-los para obtermos lucros com a 
oportunidade que os dados nos apresentam?
REFERÊNCIAS
79
REFERÊNCIAS
AMARAL, F. Big Data: uma visão gerencial. São Paulo: Polo Books, 2016.
BARACH, P. The Challenges and applications of implementing complex 
predictive analytics in health care. Houston: Pegwin, 2019. (Apresentação de 
slides). Disponível em: https://www.beckershospitalreview.com/pdfs/Saturday,%20
Oct%2012/Track%20F/1015am_Barach.pdf. Acesso em: 23 abr. 2021.
BIEHN, N. The missing V’s in big data: viability and value. Wired, New York, 2013. Disponível 
em: https://www.wired.com/insights/2013/05/the-missing-V’s-in-big-data-viability-
and-value/. Acesso em: 10 dez. 2020.
BIG DATA. In: Gartner Glossary, Gartner, Stamford, c2020. Disponível em: https://www.
gartner.com/en/information-technology/glossary/big-data /. Acesso em: 23 abr. 2021.
BOTEGA, l.; HOPPEN, J. Por que o mercado demanda Big Data Analytics? Aquarela, 
Florianópolis, 7 fev. 2020. Disponível em: https://www.aquare.la/por-que-o-mercado-
demanda-big-data-analytics/. Acesso em: 23 abr. 2021.
CHEN, H.; CHIANG, R. H.L.; STOREY, V.C. Business intelligence and analytics: from big 
data to big impact. Mis Quarterly, [S. l.], v. 36, n. 4, p. 1165–1188, 2012.
COREA, F. AI Knowledge Map: How to Classify AI Technologies. In: An Introduction to 
Data. Studies in Big Data, [S. l.], v. 50, 2019.
DAVENPORT, T. H. Big data at work: dispelling the myths, uncovering 
the opportunities. Harvard: Harvard Business School Publishing, 2014.
DOMO. Data never sleeps 8.0. DOMO, American Fork, c2021. Disponível em: https://
www.domo.com/learn/data-never-sleeps-8. Acesso em: 23 abr. 2021.
EMC Education Services. Data science & big data analytics: discovering, analyzing, 
visualizing and presenting data. Indianapolis: John Wiley & Sons, Inc., 2015.
FRANCISCO, E. de R. Big data: conceitos, recursos, tendências e oportunidades. In: 
ENCONTRO DA ANPAD, 39., 2015, Belo Horizonte. Apresentação [...]. Belo Horizonte: 
ANPAD, 2015. Disponível em: https://marketinganpad.files.wordpress.com/2015/09/
workshop-big-data_eduardo-francisco_enanpad-2015_14set2015.pdf. Acesso em: 
23 abr. 2021.
GARTNER – Global Research and Advisory Company. Stamford, c2021. Disponível em: 
https://www.gartner.com/en. Acesso em: 23 abr. 2021.
80
GASTOS GLOBAIS com TI devem crescer 6,2% em 2018, diz Gartner. Computerworld, 
Negócios, [S. l.], 9 abr. 2018. Disponível em: https://computerworld.com.br/negocios/
gastos-globais-com-ti-devem-crescer-62-em-2018-diz-gartner/. Acesso em: 23 
abr. 2021.
GONÇALVES, B; ROGÉRIO, G e MORAIS, I. S. de. Fundamentos de Big Data. Porto 
Alegre: Sagah Educação S.A., 2019.
HURWITZ, J. et al. Big data para leigos. Rio de Janeiro: Alta Books, 2016.
IBGE – INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Downloads: estatísticas. 
IBGE, Rio de Janeiro, c2020. Disponível em: https://www.ibge.gov.br/estatisticas/
downloads-estatisticas.html. Acesso em: 23 abr. 2021.
INFOWORLD – Technology insight for enterprise. Needham, c2021. Disponível em: 
https://www.infoworld.com/. Acesso em: 23 abr. 2021.
LANEY, D. 3Ddata management: controlling data volume, velocity and variety. META 
Delta, Stamford, 6 fev. 2001. 
LUKOIANOVA, T.; RUBIN, V. L. Veracity roadmap: is big data objective, truthful and 
credible? Advances in Classification Research On-line, [S. l.], v. 24, n. 1, p. 4-15, 
2014. Disponível em: https://journals.lib.washington.edu/index.php/acro/article/
view/14671/12311. Acesso em: 23 abr. 2021.
MATA, F. G. da. Big data analytic e a tomada de decisões. Indaial: UNIASSELVI, 
2019.
MANYIKA, J.; CHUI, M. Big data: the next frontier for innovation, competition, and 
productivity. Mckinsey Global Institute, [S. l.], 1º maio, 2011. Disponível em: https://www.
mckinsey.com/business-functions/mckinsey-digital/our-insights/big-data-the-next-
frontier-for-innovation#. Acesso em: 9 dez. 2020.
NOVO, R.; NEVES, J. M. S. D. Inovação na inteligência analítica por meio do big data: 
característica de diferenciação da abordagem tradicional. In: WORKSHOP DE PÓS 
GRADUAÇÃO E PESQUISA DO CENTRO PAULA SOUZA, 8., 2013, São Paulo. Anais [...] 
São Paulo: Centro Paula Souza, 2013. p. 32-44. Disponível em: http://www.pos.cps.
sp.gov.br/files/artigo/file/488/839f2e27fa0fa7f5776622a62a48a776.pdf. Acesso em: 23 
abr. 2021.
OLIVEIRA, D. Analytics: comece pequeno e depois amplie, aconselha IBM. Itforum 
365, Notícias, [S. l.], 24 ago. 2021. Disponível em: https://itforum365.com.br/noticias/
analytics-comece-pequeno-e-depois-amplie-aconselha-ibm/?fbclid=IwAR1i9s9Njf9N
ZWcmYpNcdisq1Tfx3JnwoZDqXc-NWPJRFnBsXh0-D5tU0rg. Acesso em: 23 abr. 2021.
81
ROMER, R. Mercado de big data deve ultrapassar US$ 1 bi no Brasil e, 2017, diz IDC. 
Canaltech, [S. l.], 27 ago. 2013. Disponível em: https://canaltech.com.br/mercado/
Mercado-de-Big-Data-deve-ultrapassar-US-1-bi-no-Brasil-em-2017-diz-IDC/. Acesso 
em: 23 abr. 2021.
SCHREINER, G. A. Banco de dados para big data. Indaial: UNIASSELVI, 2020.
TAVARAYAMA, R; SILVA, R. C M. F.; MARTINS, J. R. A Sociedade da informação: 
possibilidades e desafios. Nucleus, Ituverava, v. 9, n. 1, p. 267-276, abr. 2012. Disponível 
em: http://www.nucleus.feituverava.com.br/index.php/nucleus/article/view/604/893. 
Acesso em: 23 abr. 2021.
82
83
TRABALHANDO COM DADOS
UNIDADE 2 — 
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• compreender o funcionamento do processamento de dados para Big Data;
• analisar e criar soluções para resolver o problema de escalabilidade em Big Data;
• compreender os principais conceitos que envolvem a computação em nuvem e o Big 
Data;
• diferenciar as características dos principais bancos de dados utilizados para Big Data;
• empregar técnicas de preparação, análise e visualização dos dados em Big Data.
Esta unidade está dividida em cinco tópicos. No decorrer dela, você encontrará 
autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – PROCESSANDO DADOS PARA BIG DATA
TÓPICO 2 – BIG DATA E A COMPUTAÇÃO EM NUVEM
TÓPICO 3 – BANCOS DE DADOS PARA BIG DATA
Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure 
um ambiente que facilite a concentração, assim absorverá melhor as informações.
CHAMADA
84
CONFIRA 
A TRILHA DA 
UNIDADE 2!
Acesse o 
QR Code abaixo:
85
TÓPICO 1 — 
PROCESSANDO DADOS PARA BIG DATA
UNIDADE 2
1 INTRODUÇÃO
A inovação transformou a forma como nos engajamos nos negócios, na 
prestação de serviços e na medição associada de valor e rentabilidade. Três tendências 
fundamentais que moldaram o mundo dos dados nos últimos anos são a transformação 
de modelos de negócios, a globalização e a personalização dos serviços. 
O maior fenômeno que chamou a atenção da indústria da computação moderna, 
desde a internet, é o Big Data A razão fundamental pela qual o Big Data é popular hoje, é 
porque as plataformas tecnológicas que surgiram junto com ele fornecem a capacidade 
de processar dados de múltiplos formatos e estruturas sem se preocupar com as 
restrições associadas aos sistemas tradicionais e plataformas de banco de dados.
Os anos de 2000 a 2010 foram um momento decisivo na história dos dados, 
surgimento de mecanismos de busca (Google, Yahoo), personalização da música (iPod), 
computação de tablets (iPad), soluções móveis maiores (smartphones, redes 3G, banda 
larga móvel, Wi-Fi) e surgimento de mídias sociais (impulsionadas pelo Facebook, 
MySpace, Twitter e Blogger). Todas essas entidades têm contribuído para a consumação 
dos dados a partir da criação, aquisição e perspectiva de consumo de dados.
Os modelos de negócios e as oportunidades que vieram com o crescimento em 
larga escala dos dados impulsionaram a necessidade de criar métricas poderosas para 
aproveitar o conhecimento da multidão que os estava conduzindo, e, em troca, ofere-
cem serviços personalizados para atender à necessidade do momento. A importância 
dos dados nos negócios de hoje é difícil de exagerar, porque nenhuma decisão signifi-
cativa pode ser tomada sem a análise de dados relevantes. A análise de dados não só 
impulsiona a tomada de decisão, mas também participa ativamente no desenvolvimen-
to de estratégias e métodos que garantam a existência e o sucesso das organizações.
 
O crescimento maciço da escala de dados tem sido observado nos últimos 
anos, sendo um fator-chave do cenário do Big Data. O Big Data pode ser definido como 
alto volume, velocidade e variedade de dados que requerem um novo processamento 
de alto desempenho. 
86
Abordar Big Data é uma tarefa desafiadora e exigente que requer uma grande 
infraestrutura computacional para garantir o processamento e análise de dados bem-
sucedidos. Neste tópico, você irá compreender e distinguir características, categorização 
das abordagens de pré-processamento, como é feito o processamento dos dados para 
serem utilizados no Big Data, bem como enfrentar a escalabilidade desses dados e a 
razão da crescente geração e disseminação de dados.
2 PROCESSAMENTO DE DADOS
Os dados são o modelo de inovação. Não é mais uma entidade passiva usada para 
preencher os arquivos, mas a ferramenta mais poderosa utilizada pelas organizações 
para tomar decisões de longo alcance e baseadas em fatos. É a plataforma em que as 
realidades são formadas. Nós estamos gerando grandes volumes de dados diariamente, 
interagindo uns com os outros através de vários canais eletrônicos.
Esses dados padronizados podem, então, ser usados para encontrar padrões e 
tendências subjacentes. A extração de dados agora é mais rápida e menos complicada 
com a combinação perfeita de IoT (Internet das Coisas) e Big Data. O valor dos dados é 
revolucionário e aumenta a cada dia com empresas trabalhando especificamente para 
coletar e vender dados. Mata (2019, p. 15) relata que:
Os dados que antes eram apenas armazenados em planilhas 
eletrônicas ou em Banco de Dados Relacionais para fins de consulta 
e/ou conformidade, hoje estão prontos para uso com as mais 
diversas finalidades. Essa realidade permitiu que áreas da ciência 
começassem a ganhar destaque, tais como a Computação, a 
Estatística, a Matemática, o Processamento de Linguagem Natural 
e muitas outras que abrangem o conhecimento. Além disso, novas 
tecnologias emergiram a partir dessa nova realidade, em que 
muitas empresas investem recursos em soluções de Análise de 
Dados (Data Analytics) cada vez mais robustas, sejam proprietárias 
ou open sources.
O processamento de Big Data é um conjunto de técnicas ou modelos de 
programação, para acessar dados em larga escala para extrair informações úteis para 
apoiar e fornecer decisões. A seguir, revisaremos algumas ferramentas e técnicas 
disponíveis para análise de Big Data.
A palavra-chave a entender aqui é que a parte de dados do Big Data sempre 
esteve presente e usada de forma manual, com muito processamento humano e 
refinamento analítico, eventualmente sendo usado em um processo de tomada de 
decisão. O que mudou e criou o “bum” com o Big Data é o recurso automatizado de 
processamento de dados extremamente rápido, escalável ecom processamento flexível.
87
2.1 EXPLOSÃO DE DADOS
Durante anos, a quantidade esmagadora de dados produzidos foi considerada 
inútil, mas os dados sempre foram parte integrante de todas as empresas, grandes 
ou pequenas. À medida que a importância e o valor dos dados para uma empresa se 
tornaram evidentes, também se tornou evidente a proliferação de bancos de dados 
dentro de uma empresa.
Os dados são a base para encontrar a realidade. Se não tem a informação 
certa, você é obrigado a tomar decisões ruins. As máquinas estão, agora, gerando mais 
informações do que os humanos. Métodos regulares de extração de dados não são mais 
suficientes. 
Esses dados eram, principalmente, de tipo estruturado, padronizados e 
fortemente regidos – seja através de programas de ampla empresa ou através de 
funções comerciais ou TI –, os volumes típicos de dados estavam na faixa de poucos 
terabytes e, em alguns casos, devido aos requisitos de conformidade e regulação, os 
volumes esperados subiram vários entalhes mais altos.
O que levou a esse crescimento explosivo de dados? Uma resposta é a inovação. 
A inovação transformou a forma como nos engajamos nos negócios, na prestação de 
serviços e na medição associada de valor e rentabilidade. Três tendências fundamentais 
que moldaram o mundo dos dados nos últimos anos são: a transformação de modelos 
de negócios, a globalização e a personalização dos serviços.
Outras razões para este crescimento nos dados são bem simples de entender. 
O crescente uso das redes sociais, o aumento das compras feitas via e-commerce, a 
proliferação do uso de smartphones, são todos estes fenômenos que levaram a essa 
explosão de dados e tendem a aumentar ainda mais nos próximos anos. Além desses, 
não podemos nos esquecer das outras fontes de dados gerados por intermédio das 
câmeras, dos dispositivos de segurança, das aplicações de IoT e seus sensores, os quais 
geram, também, uma gigantesca massa de dados. Segundo Caldas e Silva (2016, p. 75):
É certo que se trata de dados muito significativos, volumes enormes e 
informações diversas. Esses dados são extraídos em grande parte das 
redes sociais, onde a cada minuto os servidores dessas plataformas 
são bombardeados com milhões de dados, além do Enterprise 
Resource Planning (Planejamento de Recursos Empresariais – ERP), 
que concentra dados de toda uma organização.
As mídias sociais têm ganhado importância na última década, mas quanto as 
pessoas amam suas contas no Facebook, Instagram, YouTube e etc.? Ao olharmos para 
os números e criarmos algumas estatísticas, seja de adesão ou de uso, vimos que os 
números são realmente impressionantes.
88
A explosão de dados fez com que os desenvolvedores pensassem em uma 
abordagem alternativa aos bancos de dados relacionais tradicionais para armazenar e 
recuperar dados. 
Os bancos de dados NoSQL usam estruturas de dados, como pares de valor 
de chave, colunas amplas, gráficos ou documentos. Novos modelos paralelos de 
programação são utilizados para melhorar o desempenho das bases de dados NoSQL 
em data centers.
GRÁFICO 1 – PROJEÇÃO DA QUANTIDADE DE DADOS GERADOS EM 2020
FONTE: <https://bit.ly/3v6R3Yq>. Acesso: 12 jan. 2021.
À medida que esses conjuntos de dados crescem em tamanho, tipicamente 
variando de vários terabytes a vários petabytes, ou até mesmo hexabytes, as empresas 
enfrentam o desafio de capturar, gerenciar e analisar os dados em um prazo aceitável. 
Começar envolve várias etapas, começando com o treinamento. 
O treinamento é um pré-requisito para entender a mudança de paradigma 
que o Big Data oferece. Sem esse conhecimento privilegiado, torna-se difícil explicar e 
comunicar o valor dos dados, especialmente quando os dados são de natureza pública. 
O próximo da lista é a integração das equipes de desenvolvimento e operações 
(conhecidas como DevOps), as pessoas mais propensas a lidar com os fardos de 
armazenar e transformar os dados em algo utilizável. Para Schreiner (2019, p. 79):
Lidar com o grande volume de dados que representa o termo big 
data não é nada fácil. Os dados estão em todo lugar e processar 
esse grande volume de dados não estava nos planos durante os 
primórdios da computação. Isso pode ser percebido ao se constatar 
que os sistemas computacionais, em hardware e software, estão em 
constante evolução, pois quando foram criados não existiam todos 
esses dados.
89
O gerenciamento de informações é vital para que um Analista de Dados 
seja capaz de organizar dados de forma compreensível e gerenciável. Isso também 
é necessário para extrair dados relevantes e úteis de um grande pool disponível e 
padronizar os dados. Com o gerenciamento adequado das informações, os dados 
podem ser padronizados de forma fixa. 
O Big Data descreve um volume maciço de dados estruturados e não 
estruturados. Esses dados são tão grandes que é difícil processar usando técnicas 
tradicionais de banco de dados e software. Embora o termo se refira ao volume de 
dados, ele inclui tecnologia, ferramentas e processos necessários para lidar com as 
grandes quantidades de dados e instalações de armazenamento. 
Ao lidar com conjuntos de dados maiores, as organizações enfrentam 
dificuldades em ser capazes de criar, manipular e gerenciar Big Data. 
O Big Data é particularmente um problema na análise de negócios porque as 
ferramentas e procedimentos padrão não são projetados para pesquisar e analisar 
conjuntos de dados maciços. Se vemos a evolução como um processo de tentativa e 
erro, a capacidade de ter mais informações nos torna muito mais eficientes ao tomar 
decisões críticas. É aí que o Big Data é útil.
A análise de dados ganhou um papel primordial devido à grande disponibilidade 
de conjuntos de dados e ao avanço contínuo de métodos e algoritmos para encontrar 
conhecimento neles. As soluções de análise de dados avançam explorando o poder 
das técnicas de mineração de dados e machine learning e estão mudando várias áreas 
científicas e industriais.
A análise do Big Data pode ser feita com as ferramentas de software comumente 
usadas como parte de disciplinas avançadas de análise, como análise preditiva e 
mineração de dados. Mas as fontes de dados não estruturadas, usadas para análise de 
Big Data, podem não se encaixar em Data Warehouses tradicionais. 
As bases de dados relacionais tradicionais não podem lidar com dados 
semiestruturados, não estruturados e altamente variáveis da maneira que o código 
aberto e outras alternativas podem. 
Uma nova classe de tecnologia Big Data surgiu e está sendo usada em muitos 
ambientes de análise de Big Data. Essas tecnologias associadas incluem bancos de 
dados, Hadoop e MapReduce. Essas tecnologias formam o núcleo de uma estrutura 
de software de código aberto que suporta o processamento de grandes conjuntos de 
dados em sistemas agrupados.
90
Acesse o link a seguir e veja a quantidade de dados gerados por nós: 
https://canaltech.com.br/entretenimento/Infografico-A-Internet-em-
um-dia-hora-minuto-e-segundo/.
Agora veja o que foi produzido no ano de 2018 em tempo real, e o que, de 
lá para cá, só aumentou, disponível em: https://influencermarketinghub.
com/social-media-statistics/.
DICAS
2.1.1 Como lidar com a escalabilidade em Big Data?
O Big Data apresenta oportunidades interessantes para empresas novas e 
existentes, mas apresenta um grande problema: como escalar efetivamente.
O Big Data não é mais apenas uma palavra de ordem impressionante. Tornou-
se essencial para o sucesso de muitas empresas no cenário de negócios de hoje. As 
vantagens obtidas por uma extensa plataforma de análise separaram organizações 
dinâmicas de seus pares lentos, com lucros a seguir. E, hoje em dia, a grande quantidade 
de dados disponíveis é impressionante. Desde sites de mídia social, até resultados 
de mecanismos de busca, publicidade, empresas que procuram tirar proveito das 
informações do cliente, têm um tesouro na ponta dos dedos.
Mas com os aumentos exponenciais no volume de dados que estão sendo 
produzidos e processados,muitas bases de dados de muitas empresas estão sendo 
sobrecarregadas com o dilúvio de dados que estão enfrentando. Para gerenciar, 
armazenar e processar esse transbordamento de dados, uma técnica chamada 
“dimensionamento de dados” tornou-se necessária para muitas organizações que lidam 
com esta explosão de dados. 
Uma plataforma de dados escalável acomoda mudanças rápidas no crescimento 
dos dados, seja no tráfego ou no volume. Essas plataformas utilizam hardware ou 
software adicionados para aumentar a produção e o armazenamento de dados. 
Quando uma empresa tem uma plataforma de dados escalável, ela também 
está preparada para o potencial de crescimento de suas necessidades de dados. 
Embora a maioria das empresas no mundo não se encontre lidando com casos de uso 
tão complexos, temos que lutar pelo menos por um simples fato: a quantidade de dados 
que produzimos está crescendo. 
91
A escalabilidade é um recurso fundamental para análise de Big Data e estruturas 
de aprendizado de máquina e para aplicativos que precisam analisar dados muito 
grandes e em tempo real disponíveis em repositórios de dados, mídias sociais, redes de 
sensores, smartphones e web. 
A análise escalável de Big Data hoje pode ser alcançada por implementações 
paralelas capazes de explorar as instalações de computação e armazenamento de 
sistemas e nuvens de computação de alto desempenho. Schneider (2019, p. 147) nos 
apresenta um dos maiores problemas a ser enfrentado por quem deseja implementar o 
Big Data.
Um dos maiores desafios quando se trata de big data é a 
escalabilidade, isto é, a capacidade de crescimento de maneira 
escalar. Isso é um dos problemas mais comuns e importantes que 
toda empresa enfrenta, ou seja, lidar com negócios em crescimento, 
o que traz a necessidade de armazenamento exponencial de 
dados e grande demanda de disponibilidade deles. Existem 
duas abordagens principais para realizar o dimensionamento do 
armazenamento de dados: vertical e horizontal.
O dimensionamento pode ser difícil, mas absolutamente necessário no 
crescimento de uma empresa bem-sucedida orientada a dados. Há alguns sinais de 
que é hora de implementar uma plataforma de dimensionamento. Quando os usuários 
começam a reclamar do desempenho lento ou paralisações de serviço, é hora de escalar. 
Não espere que o problema se transforme em uma grande fonte de discórdia na mente 
de seus clientes. 
Isso pode ter um impacto massivamente negativo na retenção desses clientes. 
Se possível, tente antecipar o problema antes que se torne grave. Além disso, o aumento 
da latência do aplicativo, o aumento das consultas de leitura lenta e as gravações do 
banco de dados, também são indicadores importantes de que uma escala é necessária. 
Mata (2019, p. 93) reforça que:
 
Evidentemente que existem outras métricas digitais incorporadas em 
ferramentas voltadas para as análises digitais. As próprias features 
do Google Analytics são constituídas de numerosas métricas e 
indicadores para auxiliar as empresas a obterem ganho competitivo 
no mundo digital. Em situações nas quais o volume de dados 
cresce exponencialmente, é mais seguro optar por soluções Big 
Data que assegurem uma boa escalabilidade e disponibilidade para 
que o processo de análise transcorra adequadamente. (Grifo nosso).
As empresas devem implementar a escalabilidade em sua organização, 
precisamente quando surgem problemas de desempenho. Esses problemas podem 
impactar negativamente o fluxo de trabalho, a eficiência e a retenção do cliente. Existem 
três gargalos de desempenho comuns e importantes, que muitas vezes apontam o 
caminho para uma resolução adequada com o dimensionamento de dados.
92
Uma vez que o problema tenha sido diagnosticado, então chega a hora 
de “escalar ou escalar”. O dimensionamento, mais formalmente referido como 
dimensionamento vertical, envolve melhorar o hardware do servidor enquanto o 
dimensionamento envolve o uso de mais de uma máquina. É basicamente um caso de 
computação distribuída versus processamento de memória compartilhada.
Durante décadas, foram utilizadas bases de dados relacionais 
para armazenar dados estruturados, organizados em grupos 
denominados de tabelas. Nessas tabelas, os dados são agrupados 
por linhas e colunas. Porém, com o avanço da Internet, tem-se lidado 
com quantidades de dados nunca antes trabalhadas (Big Data), além 
destes estarem cada vez menos estruturados. São exemplos, os dados 
contidos em sites como Facebook, Google e Amazon. Desta forma, 
estes sites tiveram que desenvolver meios eficientes e baratos para 
processar seus dados. Uma solução encontrada foi a escalabilidade 
horizontal, que significa aumentar o número de máquinas, ao invés 
de aumentar o poder de processamento e armazenamento de uma 
só máquina (escalabilidade vertical) (RYBERG; FROZZA, 2015, p. 1).
A era do Big Data permitiu que empresas de todos os portes, desde startups 
até pequenas empresas, e estabeleceu grandes empresas para utilizar uma nova 
geração de processos e tecnologias. Em muitos casos, a promessa de superar os 
desafios de escalabilidade e agilidade da gestão de dados tradicionais, juntamente 
com o uso criativo de dados de múltiplas fontes, tem os stakeholders corporativos 
tomando conhecimento sério de seu potencial de Big Data.
Como qualquer plataforma de aplicativos, uma plataforma de aplicativos Big 
Data deve suportar todas as funcionalidades necessárias, incluindo elementos como 
escalabilidade, segurança, disponibilidade e continuidade. Portanto, é fundamental 
projetar soluções escaláveis para processamento e análise de tais conjuntos de dados. 
No entanto, as plataformas de aplicativos Big Data são únicas, elas precisam ser capazes 
de lidar com grandes quantidades de dados em vários armazenamentos de dados e 
iniciar o processamento simultâneo para economizar tempo. 
Isso significa que uma plataforma de Big Data deve incluir suporte integrado 
para tecnologias como MapReduce, integração com bancos de dados externos não 
somente SQL (NoSQL), recursos de processamento paralelo e serviços de dados 
distribuídos. Também deve fazer uso das novas metas de integração, pelo menos de uma 
perspectiva de desenvolvimento. Uma vez tomada uma decisão sobre a escalabilidade 
de dados, a abordagem de escalabilidade específica deve ser escolhida. Existem dois 
tipos comumente usados de escalabilidade de dados, para vertical e horizontal:
• Escalabilidade vertical: envolve a obtenção de um servidor mais rápido com 
processadores mais potentes e mais memória. Esta solução usa menos hardware 
de rede e consome menos energia; mas, em última análise, para muitas plataformas, 
só pode fornecer uma correção de curto prazo, especialmente se o crescimento 
contínuo for esperado.
93
• Escalabilidade horizontal: envolve a adição de servidores para computação paralela. 
A técnica de escala é uma solução de longo prazo, pois mais e mais servidores podem 
ser adicionados quando necessário, mas ir de um sistema monolítico para este tipo 
de cluster pode ser uma solução difícil, embora extremamente eficaz.
Desenvolver uma plataforma de dados escalável abrangente é fundamental 
para continuar o desenvolvimento de qualquer empresa. Se as necessidades de dados 
estiverem crescendo, garantir que o sistema possa lidar com a mudança do fluxo de 
informações é fundamental para reter clientes e manter a eficiência e, finalmente, 
preparar a empresa para o futuro. A escalabilidade e os requisitos de desempenho 
estão desafiando os armazenamentos convencionais de dados, sistemas de arquivos e 
sistemas de gerenciamento de banco de dados. 
Arquiteturas desses sistemas atingiram limites no manuseio de tarefas de 
processamento muito grandes envolvendo zetabytes de dados, porque não foram 
construídos para dimensionamento após um determinado limiar. Essa condição 
reivindica novas arquiteturas e soluções de plataforma de análise que devem processar 
Big Data para extrair modelos preditivos e descritivos complexos. Sistemas escaláveis,tanto do hardware quanto do lado do software, podem desempenhar um papel 
fundamental para apoiar soluções para esses problemas.
A era do Big Data está sobre nós. No entanto, os sistemas tradicionais de 
gerenciamento e análise de dados, baseados principalmente no Sistema de Gerenciamento 
de Banco de Dados Relacional (do inglês, Relational DataBase Management System 
– RDBMS), podem não ser capazes de lidar com o volume de dados em constante 
crescimento. Portanto, é importante projetar arquiteturas de sistemas escaláveis para 
processar o Big Data de forma eficiente e explorar seu valor. O dimensionamento do 
sistema refere-se à capacidade de um sistema de tolerar um aumento nas demandas de 
processamento de dados. Diferentes formas de dimensionamento de plataformas para 
processamento de Big Data podem ser agrupadas em duas vertentes, escalabilidade 
vertical e horizontal. 
A escalabilidade é a capacidade de manter o desempenho diante do aumento 
de dados ou carga adicionando recursos ao sistema. Pode ser definida, também, como 
a capacidade de um sistema, rede ou processo, para lidar com a crescente quantidade 
de trabalho de forma capaz, ou sua capacidade de ser ampliada para acomodar esse 
crescimento.
A seguir, discute-se as plataformas de Big Data de escalabilidade horizontal e 
vertical, com foco em seu princípio arquitetônico para aplicações de análise de Big Data, 
com objetivo de lhe ajudar a selecionar arquiteturas ou plataformas de sistema certos 
para seus aplicativos de Big Data.
94
Veja os principais benefícios da escalabilidade para banco de dados, 
acessando: https://www.woclo.com.br/blog/infraestrutura-em-nuvem/8-
beneficios-do-cloud-computing-para-a-escalabilidade-de-banco-de-
dados/.
INTERESSANTE
2.1.2 Escalabilidade horizontal
As aplicações corporativas tornaram-se a força vital da maioria das empresas. 
Eles tendem a ser aplicativos de vários níveis que são compostos por uma pilha de 
tecnologias de suporte, incluindo o hardware do servidor principal, sistema operacional, 
banco de dados e software de aplicativos.
Um sistema que tem baixa escalabilidade pode resultar em baixo desempenho. 
Em muitos casos, adicionar mais recursos a um sistema “inescalável” é um investimento 
ineficiente que não pode levar a melhorias substanciais.
Devido à singularidade do Big Data, projetar um sistema escalável de Big Data 
enfrenta uma série de desafios técnicos, incluindo:
• Primeiro, devido à variedade de fontes de dados diferentes e ao grande volume, é 
difícil coletar e integrar dados com escalabilidade de locais distribuídos. Por exemplo, 
mais de 175 milhões de tweets contendo texto, imagem, vídeo e relacionamento 
social são gerados por milhões de contas distribuídas globalmente.
• Em segundo lugar, os sistemas de Big Data precisam armazenar e gerenciar os 
conjuntos de dados maciços e heterogêneos coletados, ao mesmo tempo em que 
fornecem garantia de função e desempenho, em termos de recuperação rápida, 
escalabilidade e proteção de privacidade. Por exemplo, o Facebook precisa armazenar, 
acessar e analisar mais de 30 petabytes de dados de geração de usuários.
• Em terceiro lugar, a análise de Big Data deve, efetivamente, minerar conjuntos de 
dados maciços em diferentes níveis em tempo real ou perto de tempo real – incluindo 
modelagem, visualização, previsão e otimização – de modo que promessas inerentes 
possam ser reveladas para melhorar a tomada de decisões e adquirir mais vantagens.
Essa abordagem é geralmente referida como scale-out, o que significa adicionar 
mais nós a um sistema, por exemplo, novos nós de computação a um cluster. À medida 
que os preços dos computadores caem, um poderoso cluster de computação pode 
ser construído agregando computadores de “commodities” de baixo custo conectados 
através de uma rede local.
https://www.woclo.com.br/blog/infraestrutura-em-nuvem/8-beneficios-do-cloud-computing-para-a-escalabilidade-de-banco-de-dados/
https://www.woclo.com.br/blog/infraestrutura-em-nuvem/8-beneficios-do-cloud-computing-para-a-escalabilidade-de-banco-de-dados/
https://www.woclo.com.br/blog/infraestrutura-em-nuvem/8-beneficios-do-cloud-computing-para-a-escalabilidade-de-banco-de-dados/
95
Seguindo o modelo “dividir-para-conquistar”, em que cada nó é atribuído apenas 
um subconjunto do problema global, o cluster pode ser facilmente dimensionado para 
um certo número de nós de trabalhadores, para se adaptar a cada tamanho de problema 
específico. Para tentar minimizar este problema, Maia (2016, p. 16) sugere que:
 
A escalabilidade horizontal é uma tentativa de melhorar o desem-
penho do sistema através do aumento do número de unidades de 
processamento e armazenamento. Neste caso, cria-se um cluster 
de computadores que, interligados e trabalhando em conjunto, po-
dem exceder a capacidade de processamento de um único nó de 
armazenamento.
Neste tipo de escalabilidade, a inclusão de mais nós (máquinas), com uma 
cópia total ou de apenas parte da base de dados, fazendo com que o processamento 
seja distribuído entre esses nós, assim, não necessitando investir no aumento de 
processadores, mas sim na quantidade de máquina para efetuar esta tarefa. O Sharding 
surge como alternativa a este tipo de escalabilidade.
FIGURA 1 – ESCALABILIDADE HORIZONTAL
FONTE: O autor
Sharding é o processo de quebrar grandes tabelas em pedaços menores, 
chamados fragmentos, espalhados por vários servidores. Um fragmento é essencialmente 
uma partição horizontal de dados que contém um subconjunto do conjunto total de 
dados e, portanto, é responsável por servir uma parte da carga de trabalho global. O 
fragmento do banco de dados é o processo de fazer partições de dados em um banco 
de dados ou mecanismo de pesquisa, de tal forma que os dados são divididos em vários 
pedaços distintos menores, ou fragmentos.
96
A ideia é distribuir dados que não se encaixam em um único nó, em um conjunto 
de nós de banco de dados. Sharding também é referido como particionamento horizontal. 
A distinção entre horizontal e vertical vem da visão tabular tradicional de um banco de 
dados. Um banco de dados pode ser dividido verticalmente – armazenando diferentes 
colunas de tabela em um banco de dados separado ou horizontalmente – armazenando 
linhas da mesma tabela em vários nós de banco de dados.
2.1.3 Escalabilidade vertical
A escalabilidade vertical é a capacidade de aumentar a capacidade de har-
dware ou software existente adicionando recursos – por exemplo, adicionando poder 
de processamento a um servidor para torná-lo mais rápido. Por outro lado, a escala-
bilidade horizontal é a capacidade de conectar várias entidades para que elas funcio-
nem como uma única unidade lógica. Gregol e Schutz (2013, p. 1) assim descrevem a 
escalabilidade vertical:
 
Entende-se por escalabilidade vertical (scale up) aumentar o 
processamento do hardware de um servidor apenas, adicionando 
mais recursos como memória ou um disco rígido mais rápido para 
tender uma demanda crescente de requisições e armazenamento 
em uma aplicação.
O dimensionamento é relativamente simples, trata-se apenas de adicionar mais 
recursos no hardware do servidor, como CPU e memória, ou melhorar o desempenho do 
disco mudando-o para um mais rápido.
Essa estratégia é rápida e geralmente não requer nenhuma mudança 
arquitetônica, especialmente na computação em nuvem, na qual é possível aumentar 
a capacidade de uma máquina virtual com alguns cliques. No entanto, você pode, em 
breve, atingir o limite de hardware que pode ser usado no mesmo servidor, você não pode 
aumentar o tamanho da RAM ou a quantidade de CPUs infinitamente. A escalabilidade 
vertical refere-se à adição de mais recursos (CPU/RAM/DISK) ao seu servidor (o banco 
de dados ou o servidor de aplicativos ainda permanece um) conforme a demanda.
97
FIGURA 2 – ESCALABILIDADE VERTICAL
FONTE: O autor
A escalabilidade vertical é mais comumente utilizada em aplicações e produtos 
de médio porte, bem como pequenas e médias empresas. Um dos exemplosmais 
comuns de escalabilidade virtual é comprar um hardware caro e usá-lo como um 
hipervisor de máquina virtual (VMWare ESX).
A escalabilidade vertical geralmente significa atualização do hardware do 
servidor. Algumas das razões para escalar verticalmente incluem o aumento do 
IOPS (Input/Ouput Operations), ampliação da capacidade de CPU/RAM, bem como a 
capacidade do disco. Esta é a abordagem tradicional, que consiste em usar um servidor 
maior para suportar todos os dados.
No entanto, mesmo depois de usar a virtualização, sempre que um desempenho 
melhorado é direcionado, o risco de inatividade com ele é muito maior do que usar a 
escalabilidade horizontal.
98
Embora possa parecer que o escalonamento vertical é uma boa opção, porque 
não implica reprogramar o produto, na realidade, ele tem suas limitações. Há um 
momento em que o hardware não pode mais crescer, porque os recursos são limitados 
pelo máximo de recursos disponíveis no momento em que a necessidade de escalar o 
banco de dados emerge. Por essa razão, a melhor opção que os desenvolvedores do 
sistema tem para ampliar o banco de dados é combinar o modelo de dimensionamento 
vertical e horizontal.
Caso tenha se interessado pela questão de escalabilidade, sugerimos 
uma visita a este endereço: https://ssxdigital.com.br/escalabilidade/. 
Lá você conhecerá um pouco mais do que é e para que serve a 
escalabilidade.
DICAS
https://ssxdigital.com.br/escalabilidade/
99
RESUMO DO TÓPICO 1
 Neste tópico, você adquiriu certos aprendizados, como:
• O volume de dados está crescendo de forma gigantesca, impulsionado pelas mídias 
sociais.
• O processamento dos dados é realizado por técnicas ou métodos de programação 
para acessar dados em grande escala.
• A escalabilidade é um elemento importante quando se trata de processar dados.
• A escalabilidade horizontal se dá pela inclusão de mais máquinas (hardware) para 
realizar o processamento dos dados.
• Na escalabilidade vertical o aumento é na capacidade do poder de processo da 
mesma máquina.
100
1 O volume dos dados vem crescendo de forma vertiginosa, o uso massivo de dados 
e o aumento da capacidade de processamento de grandes bases intensificaram as 
pesquisas e o emprego da inteligência artificial nas tarefas diárias. Alinhando este 
contexto ao uso da Inteligência Artificial, assinale a alternativa INCORRETA:
a) ( ) Não existe risco, sejam éticos ou morais, quanto às decisões tomadas pelos 
dispositivos que fazem uso de técnicas de Inteligência Artificial.
b) ( ) Os dispositivos com técnicas de Inteligência Artificial já superam as habilidades 
humanas em algumas funções.
c) ( ) Veículos autônomos e robôs aspiradores são considerados exemplos de 
utilização da Inteligência Artificial.
d) ( ) Proteger e garantir a segurança dos dados são apontados como um desafio 
crescente com o avanço das técnicas de Inteligência Artificial.
e) ( ) O uso de técnicas de Inteligência Artificial em máquina e equipamentos, de certa 
forma, substitui empregos que em outra época eram atribuídos às pessoas.
2 A era do Big Data permitiu que empresas de todos os portes, desde startups até 
pequenas empresas, e estabeleceu grandes empresas para utilizar uma nova 
geração de processos e tecnologias. Isso fez com que a geração de dados tivesse 
um aumento nunca antes visto. Fato este que resultou na necessidade de ampliação 
da capacidade de se lidar com esta quantidade de dados. Neste contexto, estamos 
abordando o conceito de:
a) ( ) Computação em nuvem.
b) ( ) Redes de computadores.
c) ( ) Bancos de dados não relacionais.
d) ( ) Escalabilidade.
e) ( ) Proteção de dados.
3 O processo de quebrar grandes tabelas em pedaços menores, chamados fragmentos, 
espalhados por vários servidores. Um fragmento é essencialmente uma partição 
horizontal de dados que contém um subconjunto do conjunto total de dados e, 
portanto, é responsável por servir uma parte da carga de trabalho global. O fragmento 
do banco de dados é o processo de fazer partições de dados em um banco de dados 
ou mecanismo de pesquisa, de tal forma que os dados são divididos em vários 
pedaços distintos menores, ou fragmentos. Este conceito refere-se a(o):
AUTOATIVIDADE
101
a) ( ) Modularidade.
b) ( ) Troubleshooting.
c) ( ) Sharding.
d) ( ) Compartilhamento.
4 A escalabilidade é a capacidade de manter o desempenho diante do aumento de 
dados ou carga adicionando recursos ao sistema. Pode ser definida também como a 
capacidade de um sistema, rede ou processo, para lidar com a crescente quantidade 
de trabalho de forma capaz, ou sua capacidade de ser ampliada para acomodar esse 
crescimento. Disserte sobre este conceito.
5 Sua startup criada a menos de um ano obteve uma injeção de recursos por parte dos 
investidores que perceberam o potencial de crescimento. Este crescimento se deve 
ao fato de você estar à frente de seus concorrentes, pelo poder de processamento 
que seu sistema dispõe. A crise causada pela pandemia do COVID-19 não lhe afetou, 
muito pelo contrário, sua startup teve um crescimento sem precedente e agora 
você precisa ampliar ainda mais o poder de processamento de seu sistema. Na sua 
visão estratégica como administrador e conhecedor do mercado, qual seria a melhor 
solução? Investir em novos computadores ou partir para a nuvem? Descreva sua 
estratégia baseada nos conceitos de escalabilidade:
102
103
 BIG DATA E A COMPUTAÇÃO EM NUVEM
1 INTRODUÇÃO
O Big Data é definido como coleções de conjuntos de dados cujo volume, veloci-
dade ou variedade é tão grande que é difícil armazenar, gerenciar, processar e analisar os 
dados usando bancos de dados tradicionais e ferramentas de processamento de dados. 
Nos últimos anos, houve um crescimento exponencial dos dados estruturados e 
não estruturados gerados pela tecnologia da informação, industrial, saúde, varejo, web 
e outros sistemas. A ciência e análise de Big Data lida com a coleta, armazenamento, 
processamento e análise de dados em larga escala em sistemas de computação 
baseados em nuvem.
Big Data é uma metodologia de análise de dados habilitada pelos recentes 
avanços em tecnologias e arquitetura. No entanto, o Big Data implica um enorme 
compromisso de hardware e recursos de processamento, tornando os custos de ado-
ção da tecnologia de Big Data proibitivos para pequenas e médias empresas. A com-
putação em nuvem oferece a promessa de implementação de Big Data para pequenas 
e médias empresas. 
Neste tópico, você irá compreender e distinguir características de processa-
mento de dados no Big Data, como a computação em nuvem auxilia as empresas na 
redução dos custos em se tratando de armazenamento de dados, saberá distinguir os 
principais serviços disponíveis na nuvem e como são utilizados, bem como as catego-
rias de implantação de nuvens e como as organizações as utilizam.
UNIDADE 2 TÓPICO 2 -
2 BIG DATA E CLOUD COMPUTING
Com o advento da era digital, a quantidade de dados gerados, armazenados 
e compartilhados tem aumentado. Desde Data Warehouses, páginas web e blogs, 
até fluxos de áudio/vídeo, tudo isso são fontes de grandes quantidades de dados. O 
resultado dessa proliferação é a geração de grandes quantidades de dados pervasivos 
e complexos, que precisam ser criados, armazenados, compartilhados e analisados de 
forma eficiente para extrair informações úteis.
104
Esses dados têm enorme potencial, complexidade cada vez maior, insegurança, 
riscos e irrelevância. Os benefícios e limitações de acesso a esses dados são discutíveis, 
tendo em vista que essa análise pode envolver acesso e análise de prontuários médicos, 
interações nas redes sociais, dados financeiros, registros governamentais e sequências 
genéticas. 
A exigência de um serviço de análise eficiente e eficaz, aplicativos, ferramentas 
de programação e frameworks deu origem ao conceito de processamento e analytics 
de Big Data. Mata (2019, p. 9) explica que:
 
Diante deste cenário, empresas e Institutos de Pesquisa e Desenvol-
vimento (P&D)têm investido cada vez mais em infraestrutura, sejam 
físicas ou em nuvem, para suportar análises de dados cada vez mais 
robustas. No âmbito de empresas, em geral, o intuito sempre visa no 
mínimo, tentar manter ou elevar suas capacidades analíticas e assim 
tomar decisões que impulsionem seus negócios.
O conceito de Big Data tornou-se uma grande força de inovação, tanto entre 
acadêmicos quanto corporações. O paradigma é visto como um esforço para entender 
e obter insights adequados de grandes conjuntos de dados (Big Data Analytics), 
fornecendo informações resumidas sobre enormes cargas de dados. Como tal, esse 
paradigma é considerado pelas corporações como uma ferramenta para entender seus 
clientes, se aproximar deles, encontrar padrões e prever tendências.
O processamento de Big Data é realizado através de um paradigma de 
programação conhecido como MapReduce. Normalmente, a implementação do 
paradigma MapReduce requer armazenamento conectado em rede e processamento 
paralelo. As necessidades de computação da programação MapReduce estão muitas 
vezes além do que as pequenas e médias empresas são capazes de comprometer. 
A computação em nuvem é o acesso à rede sob demanda aos recursos de 
computação, fornecido por uma entidade externa. Os modelos comuns de implantação 
para computação em nuvem incluem plataforma como serviço (PaaS), software como 
serviço (SaaS), infraestrutura como serviço (IaaS) e hardware como serviço (HaaS). 
Três principais razões para as pequenas e médias empresas usarem a 
computação em nuvem para a implementação da tecnologia de big data são a redução 
de custos de hardware, a redução de custos de processamento e a capacidade de testar 
o valor do Big Data. 
As principais preocupações em relação à computação em nuvem são a 
segurança e a perda de controle. Para Gonçalves, Rogério e Morais (2019, p. 95):
105
Atualmente, a computação em nuvem é dividida em três principais 
tipos:
• Infrastructure as a service (IaaS) ou infraestrutura como serviço: 
é quando se utiliza uma porcentagem dos recursos do servidor 
para a necessidade específica de determinada aplicação (p. ex.: 
Softlayer).
• Plataform as a service (PaaS) ou plataforma como serviço: é 
quando se utiliza apenas os recursos de um banco de dados, 
um WebService ou uma API (p. ex.: IBM Bluemix, Windows Azure, 
Jelastic API do TransmiteNota). 
• Software as a service (SaaS) ou software como serviço: é quando 
se utiliza uma aplicação diretamente pela internet (p. ex.: Google 
Docs, TransmiteNota).
Hoje em dia, os dados estão crescendo a uma velocidade enorme, dificultando 
o manuseio de uma quantidade tão grande de dados (exabytes). Semelhante ao que 
acontece com os sistemas tradicionais, os algoritmos clássicos não são projetados para 
lidar com a escala e as demandas do Big Data. 
O Big Data impõe duas classes iniciais de desafios: engenharia, gerenciamento 
eficiente de dados em escala inimaginável e semântica, encontrar e combinar 
significativamente informações relevantes para o uso pretendido. Por sua vez, ao 
lidar com o desafio semântica, sua realização pode ser fortemente influenciada pela 
qualidade dos dados e, portanto, a avaliação da qualidade dos dados, juntamente com a 
gestão eficiente do Big Data, torna-se duas preocupações essenciais.
 
Falcão (2014, p. 17) retrata que “Big Data e Cloud Computing são tecnologias 
que estão sendo desenvolvidas e estão quase sempre relacionadas às dificuldades 
de processamento encontradas ao utilizar infraestruturas convencionais para o 
processamento de Big Data”.
A computação em nuvem é um paradigma extremamente bem-sucedido da 
computação orientada a serviços, e revolucionou a forma como a infraestrutura de 
computação é abstrata e usada. Três paradigmas de nuvem mais populares incluem: 
infraestrutura como serviço (IaaS), plataforma como serviço (PaaS) e software como 
serviço (SaaS). 
A computação em nuvem ganhou recentemente grande atenção, tanto da 
academia quanto do setor de TI, como uma nova infraestrutura que exige investimentos 
menores em plataforma de hardware, treinamento de pessoal ou licenciamento de 
novas ferramentas de software. É um novo paradigma que tem seguido a tecnologia 
de computação em grade, a qual fez uma revolução tanto no armazenamento de dados 
quanto na computação.
106
A computação em nuvem pode ser vista como qualquer serva baseada em 
assinatura ou pay per use que amplie os recursos existentes na internet. Ele pode ser 
usado como um software como serviço (SaaS Cloud), ou como uma plataforma como 
serviço (PaaS Cloud), ou como uma infraestrutura como serviço (IaaS Cloud). O data 
storage as a service (DaaS Cloud) também surgiu nos últimos anos para fornecer aos 
usuários recursos de armazenamento.
Paralelamente a esse progresso, as tecnologias de Big Data foram desen-
volvidas e implantadas tão rapidamente e dependem fortemente de plataformas de 
computação em nuvem para armazenamento e processamento de dados.
Buyya, Broberg e Goscinski (2011) identificam que os serviços de computação 
em nuvem são divididos em três classes, de acordo com o nível de abstração da capaci-
dade fornecida e o modelo de serviço dos provedores, na seguinte ordem: (a) infraestru-
tura como serviço (IaaS); (b) plataforma como serviço (PaaS); e (c) software como serviço 
(SaaS), e acrescentamos mais uma classe em particular software como função (FaaS).
2.1 IAAS: INFRAESTRUTURA COMO SERVIÇO
A infraestrutura como modelo de computação em nuvem de serviço fornece 
plataforma de autoatendimento para acessar, monitorar e gerenciar infraestruturas 
remotas de data center, como serviços de computação, armazenamento e rede para 
organizações por meio da tecnologia de virtualização. 
A IaaS tem a capacidade de provisionar processamento, armazenamento, redes 
e outros recursos fundamentais de computação, oferecendo ao cliente a capacidade de 
implantar e executar softwares arbitrários, que podem incluir sistemas operacionais e 
aplicativos. 
A IaaS coloca essas operações de TI nas mãos de terceiros. Opções para 
minimizar o impacto se o provedor de nuvem tiver a interrupção do serviço. Silva (2019, 
p. 21) explica que:
Este modelo é utilizado para aplicações cujo acesso será disponibi-
lizado para várias pessoas ao mesmo tempo, podendo ser traduzido 
como modelo de computação em nuvem no qual se oferece em 
forma de serviço, onde se paga pela hospedagem de softwares que 
iram funcionar remotamente.
Os usuários do IaaS são responsáveis pelo gerenciamento de aplicativos, 
dados, tempo de execução, middleware e SO, enquanto os provedores ainda gerenciam 
virtualização, servidores, discos rígidos, armazenamento e rede. IaaS fornece as 
mesmas capacidades como data centers sem ter que mantê-los fisicamente. Conforme 
AWS (2021a, s.p.):
107
A Infraestrutura como um serviço, às vezes abreviada como IaaS, 
contém os componentes básicos da TI em nuvem e, geralmente, 
dá acesso (virtual ou no hardware dedicado) a recursos de rede e 
computadores, como também espaço para o armazenamento de 
dados. A Infraestrutura como um serviço oferece a você o mais alto 
nível de flexibilidade e controle de gerenciamento sobre os seus 
recursos de TI e se assemelha bastante aos recursos de TI atuais 
com os quais muitos departamentos de TI e desenvolvedores estão 
familiarizados hoje em dia.
Neste modelo de entrega, ferramentas e interfaces baseadas em nuvem permi-
tem o acesso e o gerenciamento de recursos de TI centrados em infraestrutura. Portan-
to, reservas como hardware, rede, conectividade e recursos brutos de TI estão incluídas 
neste modelo. O usuário é livre para configurar esses recursos da maneira que deseja.
2.2 PAAS: PLATAFORMA COMO SERVIÇO
Plataforma como modelo de serviço fornece ferramentas de hardware e software 
pela internet, usados por desenvolvedores para construir aplicativos personalizados. PaaS 
faz o desenvolvimento, testes e implantação de aplicativos rápidos, simples e econômicos. 
A PaaS tem a capacidade de implantarna infraestrutura em nuvem aplicativos 
criados ou adquiridos criados pelo cliente criados usando linguagens de programação e 
ferramentas suportadas pelo provedor. Silva (2019, p. 21) define que este modelo:
É a camada intermediária do modelo conceitual, sendo composta 
por hardware virtual disponibilizado como serviço. Oferece tipos 
específicos de serviços como sistemas operacionais, banco de 
dados, serviços de mensagens, serviços de armazenamento de 
dados e etc. Muitos serviços podem ser oferecidos através de uma 
PaaS, facilidades para o projeto e desenvolvimento de aplicações, 
testes, implantação, hospedagem, integração de serviços web, 
segurança, integração de banco de dados, persistência etc. Todos 
estes serviços também podem ser configurados como uma solução 
integrada, oferecida através da internet.
Este modelo permite que as empresas projetem e criem aplicativos integrados 
aos componentes de software PaaS, enquanto as operações corporativas ou provedores 
de trinta partes gerenciam OS, virtualização, servidores, armazenamentos, networking e 
o próprio software PaaS. Esses aplicativos são escaláveis e altamente disponíveis, uma 
vez que eles têm características de nuvem. A AWS (2021a, s.p.) destaca que:
Com a Plataforma como um serviço, as empresas não precisam 
mais gerenciar a infraestrutura subjacente (geralmente, hardware 
e sistemas operacionais), permitindo que você se concentre na 
implantação e no gerenciamento das suas aplicações. Isso o ajuda 
a tornar-se mais eficiente, pois elimina as suas preocupações com 
aquisição de recursos, planejamento de capacidade, manutenção 
de software, correção ou qualquer outro tipo de trabalho pesado 
semelhante envolvido na execução da sua aplicação.
108
Embora a infraestrutura forme a camada base e o requisito para qualquer tipo 
de desenvolvimento ou uso, os desenvolvedores também podem exigir recursos de TI 
pré-implantados e pré-configurados. Isso lhes dá um ambiente completo para trabalhar 
diretamente, o que economiza tempo e esforço.
2.3 SAAS: SOFTWARE COMO SERVIÇO
Software como serviço representa o maior mercado de nuvem e negócios mais 
usados opção em serviços em nuvem. O SaaS fornece aplicativos aos usuários pela 
internet. Aplicativos entregues através do SaaS são mantidos por fornecedores de 
terceiros e as interfaces são acessadas pelo cliente através do navegador. 
O SaaS, por sua vez, tem a capacidade de usar os aplicativos do provedor em 
execução em infraestrutura em nuvem. Os aplicativos são acessíveis a partir de vários 
dispositivos clientes através de uma interface de cliente fina, como um navegador da 
Web. No quesito SaaS, a AWS (2021a, s.p.) relata que:
O Software como um serviço oferece um produto completo, 
executado e gerenciado pelo provedor de serviços. Na maioria dos 
casos, as pessoas que se referem ao Software como um serviço 
estão se referindo às aplicações de usuário final. Com uma oferta 
de SaaS, não é necessário em como o serviço é mantido ou como a 
infraestrutura subjacente é gerenciada, você só precisa pensar em 
como usará este tipo específico de software. Um exemplo comum de 
aplicação do SaaS é o webmail, no qual você pode enviar e receber 
e-mails sem precisar gerenciar recursos adicionais para o produto 
de e-mail ou manter os servidores e sistemas operacionais no qual o 
programa de e-mail está sendo executado.
Como a maioria dos aplicativos SaaS são executados diretamente de um 
navegador, elimina a necessidade de o cliente baixar ou instalar qualquer software. No 
SaaS, o fornecedor gerencia aplicativos, tempo de execução, dados, middleware, SO, 
virtualização, servidores, armazenamento e rede, o que facilita a simplificação de sua 
manutenção e suporte. Para Silva (2019, p. 22), o SaaS:
Correspondendo a camada mais externa do modelo conceitual, ela é 
composta por aplicativos que são executados no ambiente da nuvem. 
Podem ser aplicações completas ou conjuntos de aplicações cujo uso 
é regulado por modelos de negócios que permitem customização. Os 
sistemas de software devem estar disponíveis na internet através de 
uma interface com um navegador web, logo devem ser acessíveis 
de qualquer lugar a partir dos diversos dispositivos dos usuários. 
Desta forma, novos recursos podem ser adicionados aos sistemas de 
forma transparente aos usuários, tornando-se assim a manutenção 
e evolução dos sistemas tarefas bem mais simples. A aquisição de 
licenças para uso é dispensada para a utilização do SaaS, reduzindo-
se então custos operacionais.
O serviço de nuvem compartilhado também pode hospedar soluções de software 
que podem ser usadas diretamente pelos consumidores com base na sua necessidade.
109
2.4 FAAS: FUNÇÕES COMO SERVIÇO
Muitas vezes conhecido como computação sem servidor, o FaaS permite 
que os clientes executem o código responsivamente sem ter que alocar recursos 
de processamento antes do tempo. O provedor de nuvem lida com a infraestrutura, 
permitindo que o cliente se concentre estritamente na implantação do código do 
aplicativo. 
As funções são dimensionadas automaticamente, tornando-as um excelente 
ajuste para cargas de trabalho dinâmicas que flutuam em termos de consumo de 
recursos. Os clientes só pagam pelos recursos que usam, tornando o FaaS a forma mais 
verdadeira de computação em nuvem pay as you go (pague quando usar).
A maioria dos aplicativos FaaS são bastante simples e podem ser implantados 
muito rapidamente. O cliente em nuvem só precisa carregar o código de função e dizer 
à plataforma como prover recursos quando ele executa. Novas instâncias da função 
podem ser dimensionadas sob demanda, e quando a função está em repouso, ela não 
consome nenhum recurso. 
A principal desvantagem para a FaaS é o tempo de execução. Uma vez que as 
funções precisam prover recursos cada vez que forem executadas, pode haver leves 
atrasos de desempenho se o aplicativo exigir muito poder de computação ou executar 
durante os horários de pico de uso. A maioria dos serviços de FaaS estão disponíveis 
através de grandes provedores de nuvem como AWS e Azure, o que pode resultar em 
bloqueio de fornecedores.
Funções como serviço (FaaS) adiciona outra camada de abstração ao PaaS, para 
que os desenvolvedores fiquem completamente isolados de tudo na pilha abaixo de seu 
código. Em vez de lidar com os problemas de servidores virtuais, contêineres e tempos 
de execução de aplicativos, eles carregam blocos de código estritamente funcionais 
e os definem para serem acionados por um determinado evento. As aplicações FaaS 
não consomem recursos do IaaS até que ocorra um evento, reduzindo as taxas de 
pagamento por uso. O Quadro 1 representa os diferentes serviços de computação em 
nuvem abordados nos parágrafos anteriores.
QUADRO 1 – ESTRUTURA DOS SERVIÇOS NA NUVEM
110
FONTE: Adaptado de Buyya, Broberg e Goscinski (2011, p. 14)
O conceito, no entanto, também pode ser estendido ao Banco de Dados como 
um serviço ou armazenamento como serviço. Elasticidade, remuneração por uso, baixo 
investimento inicial, baixo tempo para o mercado e transferência de riscos são alguns dos 
principais recursos de habilitação que tornam a computação em nuvem um paradigma 
universal para a implantação de novas aplicações que não eram economicamente 
viáveis em um ambiente tradicional de infraestrutura empresarial. 
Sistemas de gerenciamento de banco de dados escaláveis, tanto para 
atualização de cargas de trabalho intensivas de aplicativos quanto sistemas de suporte 
a decisões, são, portanto, uma parte crítica da infraestrutura em nuvem. 
O gerenciamento escalável e distribuído de dados tem sido a visão da 
comunidade de pesquisa de banco de dados há mais de três décadas. Muitas pesquisas 
se concentraram na concepção de sistemas escaláveis, tanto para atualizar cargas 
intensivas de trabalho quanto para cargas de trabalho ad-hoc. 
FIGURA 3 – INTERAÇÃO BIG DATA E CLOUD COMPUTING
FONTE: <https://bit.ly/3ir9Evu>. Acesso em: 27 abr. 2021.
111
Os projetos iniciais incluem basesde dados distribuídas para atualização de 
cargas de trabalho intensivas, e sistemas paralelos de banco de dados para cargas de 
trabalho analíticas. Bancos de dados paralelos cresceram além de sistemas protótipos 
para grandes sistemas comerciais, mas sistemas de banco de dados distribuídos não 
foram muito bem-sucedidos e nunca foram comercializadas várias abordagens ad-hoc 
para escalar foram usadas. Galdino (2016, p. 6) destaca que:
 
A computação em nuvens (Cloud Computing) é uma grande 
aliada no uso de ferramentas de big data. A queda no preço de 
armazenamento ao longo dos anos, aliada à elasticidade que 
ambientes em nuvem oferecem facilitam o acesso a esses serviços 
até mesmo para corporações que não tem muito dinheiro para 
investir. Diferentemente de mainframes que custam para a empresa 
um valor considerável, e muitas vezes não é utilizado completamente, 
os ambientes em nuvem permitem o pagamento por hora e somente 
cobram pela quantidade de informação necessitada pela empresa. 
A escalabilidade permite que as configurações de nuvem, quanto 
ao número de visitas ao sistema, desempenho, processamento dos 
dados entre outros, seja aumentada somente quando a empresa 
realmente necessite disso, como em épocas em que as vendas 
aumentam, Natal e Black Friday, por exemplo, e posteriormente volte 
a operar com menos servidores, evitando gastos desnecessários 
com servidores que seriam usados apenas em um período do ano.
A computação em nuvem também fornece forte capacidade de armazenamento, 
computação e distribuição para suportar o processamento de Big Data. Para alcançar 
todo o potencial do Big Data, é necessário adotar novos algoritmos de análise de dados e 
novas abordagens para lidar com o crescimento dramático de dados e as necessidades 
de análises em larga escala. Como resultado, uma das vantagens subjacentes da implan-
tação de serviços na nuvem é a economia de escala. Usando a infraestrutura em nuvem, 
um provedor de serviços pode oferecer serviços melhores, mais baratos e mais confiáveis.
A computação em nuvem fornece um ambiente para pequenas e médias em-
presas implementarem a tecnologia de Big Data. Os benefícios que as empresas podem 
realizar a partir de Big Data incluem melhoria de desempenho, suporte à tomada de de-
cisões e inovação em modelos de negócios, produtos e serviços (MANYIKA et al., 2011). 
Três principais razões para as pequenas e médias empresas usarem a compu-
tação em nuvem para a implementação de tecnologia de Big Data são a capacidade 
de reduzir custos de hardware, reduzir custos de processamento e testar o valor do 
Big Data antes de comprometer recursos significativos da empresa. As principais pre-
ocupações em relação à computação em nuvem são segurança e perda de controle 
(GÉCZY; IZUMI; HASIDA, 2012).
Os recursos em nuvem são os recursos abstraídos do hardware físico subjacente 
com a ajuda de um Hypervisor. Mas há muita confusão a respeito da computação em 
nuvem, porque existem vários tipos de serviços e modelos de implantação que se 
enquadram no guarda-chuva que é a computação em nuvem. 
112
3 OS TIPOS DE IMPLANTAÇÃO DE NUVENS
Existem diferentes tipos de nuvens que você pode assinar dependendo de suas 
necessidades. Como usuário doméstico ou proprietário de pequenas empresas, você 
provavelmente usará serviços públicos em nuvem.
Esses modelos de implantação diferem com base no tipo de implementação, 
tipo de hospedagem e quem tem acesso a ele. Todos os modelos de implantação em 
nuvem são baseados no mesmo princípio de virtualização (abstração de recursos de 
hardware), mas diferem em termos de localização, capacidade de armazenamento, 
acessibilidade e muito mais. 
Dependendo do tipo de dados com os usuários com os usuários, você vai querer 
comparar nuvens públicas, privadas, híbridas e comunitárias em termos de diferentes 
níveis de segurança que eles oferecem e a gestão necessária.
3.1 NUVEM PÚBLICA
Uma nuvem pública pode ser acessada por qualquer assinante com conexão à 
internet e acesso ao espaço na nuvem.
Santos (2016, p. 16) relata que “[...] a infraestrutura da nuvem é provisionada 
para uso público em geral”. Toda a infraestrutura de computação está localizada nas 
dependências de um Provedor de Serviço em Nuvem (em inglês, Cloud Service Providers 
– CSP), que oferece serviços em nuvem pela Internet. Essa é a opção mais econômica 
para aqueles indivíduos/organizações que não desejam investir em infraestrutura de 
TI. Em um ambiente de nuvem pública, os recursos são compartilhados entre vários 
usuários que também são chamados de ‘inquilinos’. O custo de uso dos serviços cloud é 
determinado através do uso dos recursos de TI consumidos.
Alguns exemplos de nuvem pública incluem os serviços oferecidos pela 
Amazon, Microsoft ou Google. Essas empresas fornecem serviços e infraestrutura 
compartilhados por todos os clientes. Nuvens públicas, normalmente, têm grandes 
quantidades de espaço disponível, o que se traduz em escalabilidade fácil. 
Uma nuvem pública é frequentemente recomendada para desenvolvimento de 
software e projetos colaborativos. As empresas podem projetar suas aplicações para 
serem portáteis, para que um projeto testado na nuvem pública possa ser movido para 
a nuvem privada para produção. A maioria dos provedores de nuvem embalam seus 
recursos de computação como parte de um serviço.
113
3.2 NUVEM PRIVADA
Uma nuvem privada é estabelecida para um grupo ou organização específica e 
limita o acesso a esse grupo. Santos (2016, p. 16) comenta que “[...] a infraestrutura da 
nuvem é provisionada para uso exclusivo de apenas uma organização[...]”. Indivíduos/
organizações que escolhem a nuvem privada recebem infraestrutura dedicada que 
não é compartilhada por qualquer outro indivíduo/organização. O nível de segurança e 
controle é mais alto ao usar uma rede privada. Os custos nascem de uma organização 
individual e não são compartilhados com qualquer outro indivíduo/organização. O 
gerenciamento da nuvem privada é cuidado pelo usuário e o CSP não fornece nenhum 
serviço de gerenciamento em nuvem.
Nuvens privadas geralmente residem atrás de um firewall e são utilizadas 
por uma única organização. Uma nuvem completamente no local pode ser a solução 
preferida para empresas com requisitos regulatórios muito apertados, embora nuvens 
privadas implementadas através de um provedor de colocação estejam ganhando 
popularidade. Os usuários autorizados podem acessar, utilizar e armazenar dados na 
nuvem privada de qualquer lugar, assim como poderiam com uma nuvem pública. A 
diferença é que ninguém mais pode acessar ou utilizar esses recursos de computação.
3.3 COMMUNITY CLOUD
Exemplos de nuvem pública vão desde o acesso a uma infraestrutura 
completamente virtualizada que fornece pouco mais do que energia e armazenamento 
de processamento bruto (infraestrutura como serviço, ou IaaS) a programas de software 
especializados fáceis de implementar e usar (software como serviço, ou SaaS).
Uma nuvem comunitária é compartilhada entre duas ou mais organizações que 
têm requisitos semelhantes na nuvem.
A nuvem comunitária é uma infraestrutura em nuvem compartilhada por 
usuários da mesma indústria ou por aqueles que têm objetivos comuns. Essa 
infraestrutura em nuvem é construída após entender as necessidades de computação 
de uma comunidade, pois existem muitos fatores, incluindo conformidades e políticas 
de segurança que precisam ser incluídas na infraestrutura de nuvem da comunidade. 
Para Santos (2016, p. 16) “a infraestrutura da nuvem é provisionada para uso exclusivo 
de uma comunidade de consumidores com interesse em comum que podem pertencer 
a uma ou várias organizações”.
Embora não seja tão comumente usada como os outros três modelos, as 
nuvens comunitárias são uma plataforma colaborativa e multi-inquilina, usada por 
várias organizações distintas para compartilhar os mesmos aplicativos. Os usuários 
normalmente operam dentro do mesmo setor ou campo e compartilham preocupações 
comuns em termos de segurança,conformidade e desempenho.
114
Em essência, uma nuvem comunitária é uma nuvem privada que funciona muito 
como uma nuvem pública. A plataforma em si é gerenciada em particular, seja em um 
data center ou no local. Os usuários autorizados são segmentados dentro desse ambien-
te. Essas implantações são comumente usadas por agências governamentais, organi-
zações de saúde, empresas de serviços financeiros e outras comunidades profissionais.
3.4 NUVEM HÍBRIDA
Uma nuvem híbrida é essencialmente uma combinação de pelo menos duas 
nuvens, onde as nuvens incluídas são uma mistura de público, privado ou comunidade.
Este modelo de implantação em nuvem inclui as características de nuvem 
pública e nuvem privada. O hybrid cloud permite o compartilhamento de dados e 
aplicativos entre ambientes de nuvem pública e privada. As organizações usam 
principalmente a nuvem híbrida quando sua infraestrutura on-premise precisa de mais 
escalabilidade, por isso fazem uso da escalabilidade na nuvem pública para atender 
às demandas flutuantes dos negócios. As organizações podem manter seus dados 
confidenciais em sua nuvem privada ao colher o poder da nuvem pública. Santos (2016, 
p. 16) conceitua a nuvem híbrida como: “a infraestrutura da nuvem é composta por 
duas ou mais infraestruturas de nuvem que se comportam como uma única entidade 
e que são obrigadas a estabelecer padrões tecnológicos em comum para garantir a 
portabilidade de dados e aplicações”.
Existem dois tipos comumente usados de arquitetura híbrida em nuvem. A 
cloudbursting usa uma nuvem privada como sua nuvem primária, armazenando dados 
e abrigando aplicativos proprietários em um ambiente seguro. 
Quando as demandas de serviços aumentam, no entanto, a infraestrutura 
da nuvem privada pode não ter capacidade de acompanhar. É aí que entra a nuvem 
pública. Um modelo de cloudbursting usa os recursos de computação da nuvem pública 
para complementar a nuvem privada, permitindo que a empresa lide com o aumento do 
tráfego sem ter que comprar novos servidores ou outra infraestrutura.
O segundo tipo de modelo de nuvem híbrida também executa a maioria dos 
aplicativos e abriga dados em um ambiente privado de nuvem, mas terceiriza aplicativos 
não críticos para um provedor de nuvem pública. 
Esse arranjo é comum para organizações que precisam acessar ferramentas de 
desenvolvimento especializadas (como o Adobe® Creative Cloud), software básico de pro-
dutividade (como o Microsoft Office 365®) ou plataformas de CRM (como o Salesforce®). 
A arquitetura em várias nuvens é frequentemente implantada aqui, incorporando 
vários provedores de serviços em nuvem para atender a uma variedade de necessidades 
organizacionais únicas.
115
Simplificando, nuvens híbridas combinam nuvens públicas com nuvens privadas. 
Eles são projetados para permitir que as duas plataformas interajam perfeitamente, com 
dados e aplicativos se movendo suavemente de uma para outra. É a solução perfeita 
para uma empresa ou organização que precisa de um pouco de ambas as opções, 
geralmente dependentes da indústria e do tamanho.
FIGURA 4 – TIPOS DE IMPLANTAÇÃO DE NUVENS
FONTE: O autor
Os provedores de serviços em nuvem oferecem serviços de nuvem e data center 
que permitem que uma organização escolha entre os serviços de nuvem desejados e os 
modelos de implantação de acordo com seus requisitos.
Embora você não perceba que provavelmente está usando a computação em 
nuvem agora, existem muitos serviços que usamos no dia a dia, como enviar e-mails, 
editar documentos, transmitir filmes etc. Há grandes chances de que uma plataforma 
cloud esteja tornando tudo isso possível nos bastidores.
Acesse a biblioteca virtual e leia o livro Fundamentos ao Cloud Computing 
e Deploy na Nuvem. Disponível em: https://bit.ly/3xaiuBT.
DICAS
116
RESUMO DO TÓPICO 2
 Neste tópico, você adquiriu certos aprendizados, como:
• O MapReduce é o paradigma em que se baseia o processamento dos dados no Big 
Data.
• A computação em nuvem está se mostrando uma solução mais viável para as 
empresas na questão de armazenamento, processamento e distribuição de dados.
• Existem serviços na computação em nuvem que são oferecidos para as empresas, 
que vão desde infraestrutura até o processamento de partes do código fonte de seus 
sistemas.
• Existem quatro tipos de implantação de nuvens, sendo elas: privada, pública, híbrida 
ou comunitária.
117
RESUMO DO TÓPICO 2
1 A computação em nuvem é um paradigma extremamente bem-sucedido da 
computação orientada a serviços, e revolucionou a forma como a infraestrutura de 
computação é abstrata e usada. Dentre suas classes de serviços, encontra-se uma 
que possibilita que o usuário acesse aplicativos e serviços de qualquer local usando 
um computador conectado à internet. Assinale a alternativa CORRETA:
a) ( ) Saas.
b) ( ) Iaas.
c) ( ) PaaS.
d) ( ) FaaS.
e) ( ) CaaS.
2 Usamos o termo cloud computing (ou computação em nuvem) para designar uma 
série de serviços relacionados à TI disponibilizados para os mais diversos usuários. 
Sem a necessidade de instalarem programas em suas máquinas. A distribuição 
desses serviços é realizada por intermédio de uma plataforma, a cloud ou nuvem. 
Dentre esses serviços tem-se o que envolve a contratação de servidores e máquina 
virtuais, armazenamento e até sistemas operacionais. Este tipo de serviço na nuvem 
é conhecido como:
a) ( ) Saas.
b) ( ) Iaas.
c) ( ) PaaS.
d) ( ) CaaS.
3 Os provedores de cloud computing, também conhecidos como SPs (do inglês Service 
Providers), oferecem diferentes tipos de serviços. Analise as proposições a seguir, em 
relação aos modelos de serviços oferecidos na computação em nuvem.
I- No SaaS, o usuário administra a infraestrutura subjacente, incluindo rede, servidores, 
sistemas operacionais, armazenamento ou mesmo as características individuais da 
aplicação.
II- O SaaS é disponibilizado por prestadores de serviços na camada de aplicação. Ele 
roda inteiramente na nuvem e pode ser considerado uma alternativa a rodar um 
programa em uma máquina local.
III- O modelo de serviço PaaS prevê que o usuário deve administrar a infraestrutura 
subjacente, incluindo rede, servidores, sistemas operacionais ou armazenamento. 
AUTOATIVIDADE
118
IV- No modelo de serviço IaaS existe a disponibilização de recursos completos, tais 
como servidores, rede, armazenamento e outros recursos de computação, como se 
fosse o aluguel de um data center. 
V- O PaaS é uma modalidade que oferece um ambiente sob demanda. Este serviço é 
ideal para empresas que desenvolvem aplicativos web baseados em nuvem.
Estão CORRETAS apenas as afirmações:
a) ( ) I, II e III.
b) ( ) I, III e IV.
c) ( ) II, III e IV.
d) ( ) II, IV e V.
e) ( ) III, IV e V.
4 Além dos tipos de serviços prestados à computação em nuvem, também temos 
alguns modelos de implantação, dentre os quais destacamos as nuvens privadas. 
Disserte sobre este tipo de implementação de nuvem.
5 Sua startup progrediu e virou um unicórnio. Com este crescimento, você foi obrigado 
a abrir novas unidade para melhor atender seus clientes. Você não pretende investir 
em mais servidores, pois considera melhor utilizar os serviços da nuvem para isso. 
Que tipo de serviços você utilizaria e qual o modelo de implementação de nuvem 
seria adquirido? Descreva suas ações sobre este contexto. 
119
TÓPICO 3 - 
BANCOS DE DADOS PARA BIG DATA
1 INTRODUÇÃO
Hoje, o Big Data chama muita atenção no mundo da TI. O rápido aumento da 
internet e da economia digital tem alimentado um crescimento exponencial na demanda 
por armazenamento e análise de dados, e o departamento de TI está enfrentando um 
tremendo desafio em proteger e analisar esses volumes crescentes de informações. 
O mundo digital está crescendo muito rápido e se torna mais complexo no 
volume (terabyte para petabyte), variedade (estruturada e não estruturada e híbrida), 
velocidade (alta velocidade de crescimento) na natureza. 
A razão pela qual as organizações estão coletando earmazenando mais dados 
do que nunca é porque seus negócios dependem disso. O tipo de informação que está 
sendo criada não é mais dados tradicionais orientados por banco de dados referidos 
como dados estruturados, mas dados que incluem documentos, imagens, áudio, vídeo 
e conteúdo de mídia social conhecidos como dados não estruturados ou Big Data.
Isso se refere ao Big Data como um fenômeno global. Isso é tipicamente 
considerado como uma coleta de dados que cresceu tanto que não pode ser efetivamente 
gerenciada ou explorada usando ferramentas convencionais de gerenciamento de 
dados: por exemplo, sistemas clássicos de sistemas de gerenciamento de bancos 
de dados relacionais (RDBMS) ou mecanismos de busca convencionais. O Big Data 
Analytics é uma maneira de extrair valor desses enormes volumes de informações, e 
impulsiona novas oportunidades de mercado e maximiza a retenção de clientes.
Neste tópico, você irá associar os principais tipos de banco de dados para Big 
Data, irá também avaliar as categorias de transação em Bancos de dados, desenvolverá 
a capacidade de categorizar os bancos de dados não relacionais em relação as suas 
finalidades de uso, experimentará também as características de um dos principais 
bancos de dados NoSQL, o MongoDB.
UNIDADE 2
120
2 TIPOS DE BANCOS DE DADOS PARA BIG DATA
O Big Data é um conceito importante aplicado aos dados, que não está de 
acordo com a estrutura normal do banco de dados tradicional. O Big Data consiste 
em diferentes tipos de tecnologias-chave como Hadoop, HDFS, NoSQL, MapReduce, 
MongoDB, Cassandra, PIG, HIVE e HBASE, que trabalham juntos para alcançar o objetivo 
final, como extrair valor de dados que seriam previamente considerados mortos.
Para lidar com esse problema, o RDBMS tradicional é complementado por um 
conjunto de Database Management Systems (DBMS) alternativos; tais como – Sistemas 
baseados em NoSQL, NewSQL e Search. Esta motivação de papel é fornecer classificação, 
características e avaliação de bancos de dados NoSQL no Big Data Analytics. Esse 
relatório tem o objetivo de ajudar os usuários, especialmente as organizações a obterem 
uma compreensão independente dos pontos fortes e fracos de várias abordagens de 
banco de dados NoSQL para apoiar aplicativos que processam grandes volumes de 
dados. Schreiner (2020, p. 3) reforça que:
Praticamente, todas as aplicações acessadas utilizam algum meio 
de armazenamento de dados. Durante décadas, os dados foram 
armazenados através do modelo relacional de dados. Com o sur-
gimento da Web e a popularização da internet, cada vez mais pes-
soas utilizam as aplicações de maneira on-line, trazendo à tona os 
limites do modelo relacional.
Os bancos de dados relacionais foram inventados por Edgar F. Codd na década 
de 1970, e tornaram-se bastante populares na década de 1980. Os bancos de dados 
relacionais (RDBMs), por sua vez, permitiram que os usuários escrevessem em Sequel 
(SQL) e recuperassem dados de seu banco de dados. Bancos de dados relacionais e 
SQL proporcionaram a vantagem de poder analisar dados sob demanda, e ainda são 
amplamente utilizados. Eles são fáceis de trabalhar, e muito úteis para manter registros 
precisos. No lado negativo, os RDBMs são geralmente bastante rígidos e não foram 
projetados para traduzir dados não estruturados.
FIGURA 5 – ESTRUTURA DE BANCO DE DADOS RELACIONAIS
FONTE: O autor
121
Durante meados da década de 1990, a internet tornou-se extremamente 
popular, mas as bases de dados relacionais não conseguiram acompanhar. O imenso 
fluxo de informações combinado com a variedade de tipos de dados provenientes de 
muitas fontes diferentes levou a bancos de dados não relacionais, também chamados 
de NoSQL. 
Para Schreiner (2020, p. 6) “A quantidade de dados gerados, armazenados e 
processados atingiu escalas inéditas com a Web 2.0, a partir disso nasceram os chamados 
BDs NoSQL”. Um banco de dados NoSQL pode traduzir dados usando diferentes idiomas 
e formatos rapidamente e evita a rigidez do SQL substituindo seu armazenamento 
“organizado” por maior flexibilidade. Mata (2019, p. 28) retrata que:
Com o passar dos anos, diante do expressivo aumento no volume e 
variedade dos dados, recursos computacionais mais robustos eram 
requeridos. Neste caso, surgiam duas alternativas para resolver o 
problema: uma seria alocar mais investimentos em infraestrutura 
física, outra seria utilizar um Banco de Dados que pudesse armazenar 
dados em um formato adequado para rápida consulta e análise. Não 
é de se admirar que muitas empresas optaram pelo uso de Banco 
de Dados não Relacional. Afinal, ele compreendia exatamente essas 
vantagens mencionadas: agilidade na busca de respostas, elevada 
capacidade de armazenamento e, mais além, capacidade de trabalhar 
com dados não estruturados.
O desenvolvimento do NoSQL foi seguido por mudanças na internet. Larry Page 
e Sergey Brin projetaram o mecanismo de busca do Google para pesquisar um site 
específico, enquanto processam e analisam Big Data em computadores distribuídos. O 
mecanismo de busca do Google pode responder em poucos segundos com os resultados 
desejados. Os principais pontos de interesse no sistema são sua escalabilidade, 
automação e alto desempenho. 
FIGURA 6 – REPRESENTAÇÃO NoSQL
FONTE: <https://bit.ly/2SmXwRx>. Acesso em: 27 abr. 2021.
122
O termo “NoSQL” foi cunhado em 2009, em um evento em bancos de dados 
distribuídos. O termo é vago, incorreto (alguns motores NoSQL usam variantes da 
linguagem SQL, por exemplo, Cassandra), mas tem a vantagem de ter um certo 
marketing e efeito polêmico. Os defensores do movimento NoSQL apresentam-no como 
uma evolução bem-vinda do antigo modelo relacional. Em vez disso, seus críticos veem 
isso como uma regressão. O modelo relacional surgiu na década de 1970, rapidamente 
se tornando o modelo dominante, e nunca destronou desde então, assim como as 
linguagens imperativas (como C- e Java) no campo da programação.
A necessidade de organizar dados, potencialmente grandes quantidades 
de dados, a fim de otimizar sua retenção e restituição, sempre esteve no centro da 
computação. A forma como representamos o computador é uma metáfora para o 
cérebro humano. Sendo óbvio que o elemento central do funcionamento intelectual 
é a memória. Sem o estoque de informações que constitui a memória humana, é 
impossível produzir qualquer raciocínio, pois este último manipula estruturas, elementos 
conhecidos, reconhecidos e compreendidos, que vêm de nossa memória.
2.1 BANCO DE DADOS NOSQL
Os desenvolvimentos de software seguem naturalmente as evoluções de 
hardware. Os primeiros SGBDs foram construídos em torno de mainframes e dependiam 
da capacidade de armazenamento da época. 
O sucesso do modelo relacional deve-se não apenas às qualidades do modelo 
em si, mas também às otimizações de armazenamento que reduzem a redundância 
de dados. Com a disseminação das interconexões de rede, o aumento da largura de 
banda da internet, a diminuição do custo das máquinas e o aumento no poder de 
processamento, novas possibilidades surgiram, no campo da computação distribuída e 
da virtualização, por exemplo.
A transição para o século XXI tem visto o volume de dados manipulados por 
algumas empresas ou organizações, particularmente aquelas relacionadas à internet, 
aumentar consideravelmente. Dados científicos, redes sociais, operadoras de telefonia, 
bancos de dados médicos, agências nacionais de defesa territorial, indicadores 
econômicos e sociais etc., o aumento da informatização de tratamentos de todos os 
tipos implica um aumento exponencial desse volume de dados que hoje é contabilizado 
em petabytes (100.000 terabytes). Denominamos isto de Big Data. O gerenciamento 
e o processamento desses volumes de dados são vistos como um novo desafio de TI, 
e os mecanismos tradicionais de banco de dados relacionais altamente transacionais 
parecem totalmente desatualizados.
123
Do Inktomi, provavelmente o primeiro verdadeiro motor de busca, ao Google, 
líder mundial presenteno quesito de busca na web, os cientistas da computação 
reconheceram bem as limitações do RDBMS tradicional e amplamente utilizado 
especificamente relacionado às questões de escalabilidade, paraleloização e custo, 
também observando que o conjunto de dados é minimamente cruzado em comparação 
com os dados transacionais volumosos, alimentados principalmente com RDBMS.
O Inktomi foi considerado o primeiro motor de busca na web. Acompanhe 
um pouco mais de sua história acessando http://www.fundinguniverse.
com/company-histories/inktomi-corporation-history/.
NOTA
Antes de começar a detalhar os tipos NoSQL e os conceitos envolvidos, é 
importante definir o contexto em que o NoSQL surgiu. Bancos de dados não relacionais 
não são novos. Na verdade, os primeiros bancos não relacionais voltaram no tempo para 
quando o primeiro conjunto de máquinas de computação foram inventados.
Bancos de dados não relacionais prosperaram com o advento de mainframes e 
existiram em domínios especializados e específicos, por exemplo, diretórios hierárquicos 
para armazenamento de credenciais de autenticação e autorização, ao longo dos anos. 
No entanto, os bancos não relacionais que apareceram no mundo do NoSQL são uma 
nova encarnação, que nasceu no mundo de aplicações de internet massivamente 
escaláveis. Estes bancos NoSQL não relacionais, em sua maioria, foram concebidos no 
mundo da computação distribuída e paralela. De Diana e Gerosa (2010, p. 2) relatam que:
Os bancos de dados NOSQL surgiram como uma solução para a 
questão da escalabilidade no armazenamento e processamento de 
grandes volumes de dados na Web 2.0. No início, grandes empresas 
enfrentando esse tipo de problema criaram suas próprias soluções, e 
publicaram alguns artigos científicos descrevendo diversas soluções 
ligadas ao gerenciamento de dados distribuído em larga escala, mas 
sem usar ainda o nome NOSQL.
Por décadas, bancos de dados relacionais têm sido usados para armazenar o 
que conhecemos como dados estruturados. Os dados são subdivididos em grupos, 
chamados de tabelas. As tabelas armazenam unidades de dados bem definidas em 
termos de tipo, tamanho e outras restrições. 
http://www.fundinguniverse.com/company-histories/inktomi-corporation-history/
http://www.fundinguniverse.com/company-histories/inktomi-corporation-history/
124
Cada unidade de dados é conhecida como coluna, enquanto cada unidade 
do grupo é conhecida como linha. As colunas podem ter relações definidas entre si, 
por exemplo, pai-filho, e, portanto, os bancos de dados relacionais de nome. E como a 
consistência é um dos fatores críticos, escalar horizontalmente é uma tarefa desafiadora, 
se não impossível.
Cerca de uma década antes, com o surgimento de grandes aplicações web, 
pesquisas surgiram no tratamento de dados em escala. Uma das saídas dessas 
pesquisas é a base de dados não relacional, em geral referida como banco de dados 
NoSQL. Um dos principais problemas que uma base de dados NoSQL resolve é a escala, 
entre outros. Para Souza e Santos (2015, p 1):
Apesar da riqueza de recursos, os SGBDs relacionais tendem a 
aumentar a complexidade de utilização com o aumento do fluxo 
de dados. Eles não foram criados para trabalhar em ambientes 
distribuídos e o escalonamento, em geral, se dá pelo aumento da 
capacidade da máquina servidora (escalonamento vertical). Acontece 
que ao aumentar muito o fluxo de dados, o uso de clusters torna-se 
inevitável e o desempenho dos SGBDs relacionais cai.
Os desafios do RDBMS para o processamento maciço de dados em escala web 
não são específicos para um produto, mas pertencem a toda a classe desses bancos 
de dados. A RDBMS assume uma estrutura bem definida em dados. Ele assume que os 
dados são densos e são em grande parte uniformes.
A RDBMS baseia-se em um pré-requisito para que as propriedades dos dados 
possam ser definidas na frente e que suas inter-relações sejam bem estabelecidas e 
sistematicamente referenciadas. Também assume que os índices podem ser consis-
tentemente definidos em conjuntos de dados e que tais índices podem ser uniforme-
mente alavancados para uma consulta mais rápida. Infelizmente, a RDBMS começa a 
mostrar sinais de ceder assim que essas suposições não se mantiverem verdadeiras. 
O RDBMS certamente pode lidar com algumas irregularidades e falta de 
estrutura, mas no contexto de conjuntos de dados de análise maciça com estruturas 
vagamente definidas, o RDBMS parece um ajuste forçado. Com conjuntos de dados 
maciços, os mecanismos típicos de armazenamento e os métodos de acesso também 
são esticados. Tabelas desnormalizantes, restrições de queda e garantia transacional 
relaxante podem ajudar uma escala RDBMS, mas após essas modificações um RDBMS 
começa a se assemelhar a um produto NoSQL.
O movimento NoSQL começou nos primeiros anos do século XXI, quando o 
mundo começou seu foco profundo na criação de banco de dados em escala web. Com 
escala web, queremos dizer escala para atender a centenas de milhões de usuários e 
agora crescer para bilhões de dispositivos conectados, incluindo, mas não se limitando, 
celulares, smartphones, TV de internet, dispositivos no carro e muito mais. Schreiner 
(2019, p. 7) alerta que:
125
No entanto, é importante compreender que não se trata de 
afirmar que os BDs NoSQL são perfeitos e vieram para substituir 
os BDs relacionais, pelo contrário, os BDs são na verdade 
complementares. Os BDs NoSQL surgiram para suportar requisitos 
que o modelo relacional não conseguia, porém eles não tratam do 
mesmo tipo de problema. Como dito, os BDs NoSQL não possuem 
suporte da ACID, assim, não podem ser utilizados em ambientes 
que necessitam de transações.
NoSQL é literalmente uma combinação de duas palavras: No e SQL. A implicação 
é que o NoSQL é uma tecnologia ou produto que contraria o SQL. Os criadores e os 
primeiros adotantes do buzzword NoSQL provavelmente queriam dizer sem RDBMS ou 
nenhum relacional, mas foram apaixonados pelo som mais agradável NoSQL e preso a 
ele. No devido tempo, alguns propuseram o NonRel como uma alternativa ao NoSQL. 
Alguns outros tentaram salvar o termo original propondo que o NoSQL é, na 
verdade, um acrônimo que se expande para “Não só SQL”. Seja qual for o significado 
literal, o NoSQL é usado hoje como um termo guarda-chuva para todos os bancos de 
dados e armazenamentos de dados que não seguem os princípios RDBMS populares 
e bem estabelecidos e, muitas vezes, se relacionam com grandes conjuntos de dados 
acessados e manipulados em uma escala web. Isso significa que o NoSQL não é um 
único produto ou mesmo uma única tecnologia. Representa uma classe de produtos e 
uma coleção de conceitos diversos, e às vezes relacionados, sobre armazenamento e 
manipulação de dados.
Especificamente, se pegarmos o caso do Google, que recebe bilhões de 
solicitações por mês em aplicativos que podem não estar totalmente relacionados no que 
fazem, mas relacionados na forma como eles entregam, o problema da escalabilidade 
deve ser resolvido em cada camada – desde o acesso aos dados até a entrega final. 
O Google, portanto, teve que trabalhar de forma inovadora e deu origem a um novo 
ecossistema de computação composto por:
• GFS: sistema de arquivos distribuído.
• Chubby: sistema de coordenação distribuído.
• MapReduce: sistema de execução paralelo.
• Big Data: banco de dados orientado para colunas.
Caso você queira se inteirar mais sobre esses conceitos, confira estes links:
• Google File System: http://research.google.com/archive/gfs.html.
• Chubby: http://research.google.com/archive/chubby.html.
• MapReduce: http://research.google.com/archive/mapreduce.html.
• Big Data: http://research.google.com/archive/bigtable.html.
DICAS
http://research.google.com/archive/gfs.html
http://research.google.com/archive/chubby.html
http://research.google.com/archive/mapreduce.html
http://research.google.com/archive/bigtable.html
126
Nas últimas quatro décadas, o RDBMS continua sendo uma tecnologia-chave 
para armazenar dados estruturados, mas com otamanho crescente de dados, as 
empresas precisam de tecnologias modernas para manter e processar dados. O RDBMS 
não é tão bom para grandes volumes de dados com diferentes tipos de dados. 
Eles também têm problema de escalabilidade e muitas vezes resultam em falha 
durante a execução de fragmentos distribuídos. Oracle Real Application Clusters (RAC) é 
um cluster de banco de dados relacional que fornece alta disponibilidade, confiabilidade 
e desempenho. As propriedades RDBMS satisfazem as propriedades ACID (Atomicidade, 
Consistência, Isolamento e Durabilidade) definidas por Jim Gray, no final dos anos 1970. 
Consistência é gargalo para escalabilidade de bancos de dados relacionais. O 
RDBMS segue um modelo de dados rigoroso e não pode violar propriedades ACID. É por 
isso que os bancos de dados NoSQL foram desenvolvidos para enfrentar os desafios das 
bases de dados tradicionais.
Em 1998, Carlo Strozzi usou o termo “NoSQL” pela primeira vez. Rick Cattell 
explica o NoSQL como “Não só SQL”. Os bancos de dados NoSQL têm um modelo de 
concorrência mais fraco que o RDBMS. Muitas vezes não suportam garantias ACID 
completas. Sua capacidade de escalar horizontalmente e alta disponibilidade tem 
dado ampla aceitação aos bancos de dados NoSQL nos últimos anos. Especialmente 
nas empresas baseadas em nuvem e provedores de serviços, os bancos de dados 
NoSQL são extremamente populares. Agora, os bancos de dados NoSQL têm ampla 
aceitação em diversos setores que vão desde manufatura, petróleo e gás, energia, 
bancos e cuidados de saúde. Os aplicativos RDBMS tradicionais se concentraram em 
transações ACID:
• Atomicidade: tudo em uma transação é bem-sucedido para que não seja revertido. 
Ou uma operação transacional tem sucesso ou falha completamente. Nada que seja 
inconsistente entre os dois Estados é aceitável. O exemplo canônico que ilustra 
essa propriedade é a transferência de fundos de uma conta, digamos A, para outra, 
digamos B. Se $100 precisa ser transferido de A para B, $100 precisa ser debitado de 
(retirado de) A e creditado em (depositado em) B. Isso pode logicamente significar que 
a operação envolve duas etapas: débito de A e crédito para B. A atomicidade implica 
que se, por algum motivo, o débito de A ocorrer com sucesso e então a operação 
falhar, toda a operação é revertida e não será deixada em um estado inconsistente 
(onde o dinheiro foi debitado de A, mas não creditado em B).
• Consistência: uma transação não pode deixar o banco de dados em um estado 
inconsistente. A consistência implica que os dados nunca são persistidos se violarem 
uma restrição ou regra predefinida. Por exemplo, se um determinado campo afirma 
que ele deve conter apenas valores inteiros, então um valor flutuante não é aceito 
ou é arredondado para o inteiro mais próximo e, em seguida, salvo. Consistência é 
127
muitas vezes confundida com atomicidade. Além disso, sua implicação no contexto 
do RDBMs muitas vezes se relaciona com restrições únicas, validações de tipo de 
dados e integridade referencial. Em um cenário de aplicação maior, a consistência 
poderia incluir regras mais complexas impostas aos dados, mas nesses casos a tarefa 
de manter a consistência é principalmente deixada para o aplicativo.
• Isolamento: uma transação não pode interferir com outra. O isolamento se torna 
relevante quando os dados são acessados simultaneamente. Se dois processos 
independentes ou threads manipularem o mesmo conjunto de dados, é possível que 
eles possam pisar nos dedos do pé um do outro. Dependendo da exigência, os dois 
processos ou segmentos podem ser isolados um do outro. Como exemplo, considere 
dois processos, X e Y, modificando o valor de um campo V, que detém um valor inicial 
V0. Se X lê o valor V0 e quer atualizar o valor para V1, mas antes de completar a 
atualização, Y lê o valor V0 e atualiza-o para V2. Agora, quando X quer escrever o valor 
V1, ele descobre que o valor original foi atualizado. Em uma situação descontrolada, X 
substituiria o novo valor que Y escreveu, o que pode não ser desejável. O isolamento 
garante que tais discrepâncias sejam evitadas. Os diferentes níveis e estratégias de 
isolamento são explicados posteriormente em uma seção seguinte.
• Durabilidade: uma transação concluída persiste, mesmo após a reinicialização 
dos aplicativos. A durabilidade implica que, uma vez confirmada uma operação 
transacional, ela é garantida. O caso em que a durabilidade é questionada é quando 
o programa do cliente recebeu a confirmação de que uma operação transacional 
foi bem-sucedida, mas então uma falha no sistema impede que os dados sejam 
persistidos para a loja. Um RDBMs geralmente mantém um registro de transação. 
Uma transação só é confirmada depois de ser escrita no registro da transação. Se um 
sistema falhar entre a confirmação e a persistência dos dados, o registro de transações 
será sincronizado com a loja persistente para levá-lo a um estado consistente.
Schreiner (2019, 5) destaca que:
As propriedades ACID são um dos principais atrativos dos BDs 
relacionais, porém elas acarretam processamento extra. Por 
exemplo, a propriedade de atomicidade necessita de logs e outros 
mecanismos para permitir, caso necessário, que o sistema realize 
um rollback. Já a propriedade isolamento acarreta operações de 
locks, que deixam outras transações (usuários) esperando sua vez 
para acessar aos recursos.
Como essas qualidades podem parecer indispensáveis, elas são bastante 
incompatíveis com a disponibilidade e o desempenho em aplicações de escala web. Por 
exemplo, se uma empresa como a Amazon usasse um sistema como esse, imagine o quão 
lento seria. Se você continuar a comprar um livro e uma transação estiver acontecendo, 
ele bloqueará uma parte do banco de dados, especificamente o inventário, e todas as 
outras pessoas no mundo terão que esperar até que você complete sua transação.
128
Os desafios da indisponibilidade de recursos em transações de longo prazo 
também aparecem em cenários de alta disponibilidade. O problema toma o centro do 
palco especialmente quando há menos tolerância para indisponibilidade de recursos e 
paralisação. Uma maneira congruente e lógica de avaliar os problemas envolvidos na 
garantia do ACID, como garantias em sistemas distribuídos, é entender como os três 
fatores a seguir são impactados em tais sistemas:
• Consistência.
• Disponibilidade.
• Tolerância à partição.
Em 2000, Eric Brewer introduziu o teorema do CAP. Dois anos depois, Gilbert 
e Lynch provaram formalmente o teorema do CAP. Esse teorema afirma que para 
qualquer armazenamento de dados distribuído, existem três propriedades básicas com 
interdependência.
Consistência, Disponibilidade e Tolerância à partição (em inglês, Consistency, 
Availability and Partition tolerance – CAP) são os três pilares do Teorema de Brewer, o 
qual está por trás de grande parte da geração recente de pensar em torno da integridade 
transacional em sistemas distribuídos grandes e escaláveis. 
Dito de forma sucinta, o Teorema de Brewer afirma que em sistemas distribuídos 
ou dimensionados é impossível alcançar todos os três (consistência, disponibilidade 
e tolerância à partição) ao mesmo tempo. Você deve fazer trocas e sacrificá-los pelo 
menos um em favor dos outros dois. No entanto, antes que as trocas sejam discutidas, 
é importante explorar um pouco mais do que esses três fatores significam e implicam.
• Consistência (Consistency) 
Significa que os dados permanecem consistentes no banco de dados após 
cada operação. Para De Diana e Gerosa (2010, p. 4): “Consistência nesse contexto não 
tem exatamente o mesmo significado da consistência de transações de bancos de 
dados, mas sim diz respeito à ordem de execução de requisições, e significa que uma 
leitura de um item após uma escrita desse item deve retornar o novo valor”.
Consistência não é um termo muito bem definido, mas no contexto do CAP 
refere-se à atomicidade e isolamento. Consistência significa leituras e gravações 
consistentes para que asoperações simultâneas vejam o mesmo estado de dados 
válido e consistente, o que, no mínimo, não significa nenhum dado obsoleto.
No ACID, a consistência significa que os dados que não satisfazem restrições 
predefinidas não são persistidos. Isso não é o mesmo que a consistência em CAP.
129
• Disponibilidade (Availability)
Significa que o sistema de banco de dados está sempre disponível sem tempo 
de inatividade. Independentemente do sucesso ou fracasso, cada solicitação recebe 
uma resposta. De Diana e Gerosa (2010, p. 4) descrevem a que “[...] Disponibilidade é 
a propriedade de um sistema responder a todas as requisições que chegam a um nó 
funcionando”.
Disponibilidade significa que o sistema está disponível para servir no momento 
em que for necessário. Como consequência, um sistema que está ocupado, não 
comunicativo ou sem resposta quando acessado não está disponível. Autores que 
tentam refutar o Teorema do CAP e sua importância, argumentam que um sistema com 
pequenos atrasos ou um atraso mínimo ainda é um sistema disponível. No entanto, 
em termos do CAP, a definição não é ambígua: se um sistema não está disponível para 
atender a uma solicitação no momento em que for necessário, ele não está disponível.
• Tolerância à partição (Partition tolerance) 
Significa que, em caso de particionamento de rede, o sistema continua 
funcionando. Mesmo que a comunicação entre diferentes nós de banco de dados na 
rede não seja confiável, tudo funciona. Para De Diana e Gerosa (2010, p. 4):
Tolerância à partição é a propriedade de um sistema continuar 
funcionando mesmo quando um problema ocorre na rede dividindo 
o sistema em duas ou mais partições, o que faz com que nós de uma 
partição não consigamos se comunicar com as outras. Em sistemas 
tolerantes à partição clientes acessando uma partição conseguem 
ser atendidos normalmente.
O processamento paralelo e o dimensionamento são métodos comprovados e 
estão sendo adotados como modelo de escalabilidade e maior desempenho em vez de 
escalar e construir supercomputadores maciços.
Os últimos anos mostraram que construir engenhocas computacionais 
monolíticas gigantes são caras e impraticáveis na maioria dos casos. Adicionar uma 
série de unidades de hardware de commodities em um cluster e fazê-las trabalhar em 
conjunto é uma solução mais econômica, eficaz e eficiente em recursos. O surgimento 
da computação em nuvem é um testemunho desse fato.
130
FIGURA 7 – TRIPÉ TEOREMA DE BREWER
FONTE: O autor
De acordo com o teorema do CAP, não é possível que qualquer banco de 
dados distribuído satisfaça todas as três propriedades por vez. Portanto, os bancos 
de dados distribuídos só podem satisfazer no máximo duas dessas três propriedades. 
Logicamente, um sistema distribuído deve satisfazer a condição de tolerância à partição, 
caso contrário, um banco de dados não pode ser considerado como distribuído. Portanto, 
qualquer banco de dados distribuído precisa escolher consistência ou disponibilidade, 
juntamente com a tolerância à partição.
O Teorema de Brewer (CAP) demonstrou-se interessante? Saiba mais em: 
https://universodosdados.com/2019/05/31/teorema-cap-explicado/.
DICAS
https://universodosdados.com/2019/05/31/teorema-cap-explicado/
131
3 CLASSIFICAÇÕES DE BANCOS DE DADOS 
NÃO RELACIONAIS
Você deve ter percebido que os bancos de dados NoSQL cresceram em 
popularidade nos últimos anos, vamos investigar algumas das diferentes opções 
disponíveis. Há muitos bancos de dados NoSQL por aí, alguns deles de código aberto, 
alguns produtos premium, muitos deles construídos para propósitos muito diferentes. 
Schreiner (2019, p. 9) destaca que:
Normalmente, somos apresentados ao modelo relacional de dados, 
aprendemos suas abstrações (organização dos dados em tabelas) 
e como utilizá-lo (SQL), e o usamos em todas as situações. Como 
visto anteriormente, ele não é o mais indicado para tratar grandes 
quantidades de dados. Os BDs NoSQL não seguem o modelo relacional 
e, para variar, não possuem um modelo de dados padrão, ou seja, 
cada BD NoSQL tem seu modelo de dados e suas especificações.
Como NoSQL geralmente se refere a qualquer DBMS que não emprega o modelo 
relacional, existem vários modelos de dados operacionais associados ao conceito NoSQL. 
Em linhas gerais, existem quatro modelos diferentes de bancos de dados NoSQL:
• Bancos de dados orientado a chave/valor.
• Bancos de dados orientados à documentos.
• Bancos de dados orientados a colunas.
• Bancos de dados de grafos.
Vamos detalhar cada um dos quatro modelos, como eles são diferentes um do 
outro, e alguns exemplos das opções de produtos em cada um.
3.1 BANCOS DE DADOS ORIENTADO A CHAVE/VALOR
Nos bancos de dados orientados a chave/valor os dados são armazenados em 
pares de chaves/valores. Ele é projetado de tal forma para lidar com muitos dados e 
carga pesada. Schreiner (2019, p. 9) descreve os bancos de dados orientados a chave/
valor como:
O modelo de dados chave/valor é o mais simples de todos. Nesse 
modelo, você apenas dispõe de pares chave/valor como estrutura 
de armazenamento. A chave representa o identificador único para 
um determinado “valor”. Para a maioria dos BDs, a chave pode ser 
representada por qualquer vetor de caracteres (exemplo: “pessoa.1”). 
O valor, que é atrelado à chave, é um valor atômico (indivisível) que 
pode conter qualquer tipo de dado (outros pares chave–valor, um 
inteiro, entre outros), sendo considerado uma “caixa-preta”. Uma 
importante característica desse modelo de dados é que os BDs 
apenas permitem pesquisar pela chave e não pelo valor já que este 
é uma incógnita e não segue um padrão. Apesar de soar estranho 
não poder realizar busca pelo valor, essa simplificação faz com que 
132
a busca por uma chave seja muito rápida. Geralmente, a busca 
por uma chave em um BD chave/valor é O (1), ou seja, com uma 
única operação é encontrada a chave procurada. Sendo assim, é 
ótimo para pesquisas em que se possui a chave, mas não pode ser 
utilizado para buscas que envolvam informações armazenadas no 
campo de valor.
A AWS (2021b, s. p.) destaca que:
 
[...] os bancos de dados de chave/valor são altamente particionáveis 
e permitem escalabilidade horizontal em escalas que outros tipos 
de bancos de dados não conseguem alcançar. Casos de uso, como 
jogos, tecnologia de publicidade e IoT, encaixam-se particularmente 
bem ao modelo de dados de chave/valor.
Os bancos de dados orientados a chave/valor funcionam armazenando e 
gerenciando arrays associativos. Uma matriz associativa, também conhecida como 
dicionário, ou tabela hash, consiste em uma coleção de pares de chave/valor em que 
uma chave serve como um identificador único para recuperar um valor associado. 
Valores podem ser qualquer coisa, desde objetos simples, como inteiros ou cordas, até 
objetos mais complexos, como estruturas JavaScript Object Notation (JSON).
Ao contrário das bases de dados relacionais, que definem uma estrutura de da-
dos composta por tabelas de linhas e colunas com tipos de dados predefinidos, bancos 
de dados de chave/valor armazenam dados como uma única coleta sem qualquer es-
trutura ou relação. Depois de se conectar ao servidor de banco de dados, um aplicativo 
pode definir uma chave (por exemplo, o_sentido_da_vida) e fornecer um valor corres-
pondente (por exemplo, 50) que pode ser recuperado posteriormente da mesma forma, 
fornecendo a chave. Um banco de dados de chave/valor trata qualquer dado mantido 
nele como uma bolha opaca; cabe ao aplicativo entender como ele está estruturado.
QUADRO 2 – ESTRUTURA BD ORIENTADO CHAVE/VALOR
FONTE: O autor
Ao contrário das bases de dados relacionais tradicionais, os bancos de dados 
de chave/valor não exigem uma estrutura predefinida. Eles oferecem mais flexibilidade 
ao armazenar dados e têm desempenho mais rápido. Sem ter que confiar em espaços 
reservados, os bancos de dados de chave/valor são uma solução mais leve, pois exigem 
menos recursos. Bancos de dados de chave/valor são frequentemente descritos comoaltamente performáticos, eficientes e escaláveis. Os bancos de dados mais citados 
nesta categoria são:
133
QUADRO 3 – PRINCIPAIS BANCOS DE DADOS ORIENTADOS A CHAVE/VALOR
BANCO DESCRIÇÃO LINK
Redis
Um armazenamento de dados na me-
mória usado como banco de dados, 
cache ou corretor de mensagens, o 
Redis suporta uma variedade de estru-
turas de dados, que vão desde strings 
até bitmaps, fluxos e índices espaciais.
https://redis.io/
Memcached
Um sistema de cache de objetos de 
memória de uso geral frequentemente 
usado para acelerar sites e aplicativos 
orientados por dados, caching de 
dados e objetos na memória.
https://memcached.org/
Riak
Um banco de dados distribuído de 
chave/valor com replicação local e 
multi cluster avançada.
https://docs.riak.com/riak/
ts/latest/
FONTE: O autor
Esses bancos de dados NoSQL possuem uma estrutura de dados de dicionário 
que consiste em um conjunto de objetos que representam campos de dados. A 
cada objeto é atribuído uma chave única. Para recuperar dados armazenados em 
um determinado objeto, você precisa usar uma chave específica. Por sua vez, você 
recebe o valor (ou seja, dados) atribuído à chave. Esse valor pode ser um número, uma 
sequência ou até mesmo outro conjunto de pares de chave/valor. Tais funcionalidades 
são adequadas para grandes bancos de dados que lidam com dados simples. Portanto, 
eles são comumente usados para cache, armazenamento e gerenciamento de sessões 
de usuário, manutenção de anúncios e recomendações.
3.2 BANCOS DE DADOS ORIENTADOS A DOCUMENTOS
Os sistemas NoSQL orientados a documentos são muito semelhantes aos 
sistemas de gerenciamento de banco de dados de par de chaves/valor. A única diferença 
é que o valor que é emparelhado com uma chave é armazenado como um documento. 
Cada documento é independente, o que significa que nenhum esquema é necessário – 
dando um grau significativo de flexibilidade sobre os dados que você tem.
Os bancos de dados orientados a documentos são um passo acima da 
complexidade dos bancos de dados orientados à chave/valor: uma loja de documentos 
assume uma determinada estrutura de documentos que pode ser especificada com 
um esquema. Schreiner (2019, p. 10) descreve os bancos de dados orientados a 
documentos como:
134
O modelo de dados orientado a documentos armazena seus dados 
baseado em uma organização de documentos. Ele utiliza o conceito 
de coleção de documentos, em que cada documento é acessado 
também a partir de uma chave única e atômica (CATTELL, 2015). 
Da mesma forma que um objeto em um BD orientado a objetos, um 
documento é composto por uma série de atributos, cujo valor pode 
ser simples ou complexo. Considera-se um atributo simples aquele 
que possui um valor atômico, e um atributo complexo aquele que 
possui um conteúdo multivalorado ou um conteúdo organizado em 
uma estrutura, como uma lista, um registro ou um conjunto. Esse 
modelo de dados é basicamente composto por um BD, um conjunto 
de coleções de documentos, documentos, atributos e valores. 
Assim como o modelo colunar, o modelo orientado a documentos 
permite consultas complexas sobre os valores de cada atributo. 
Adicionalmente, a orientação a documento possui uma estrutura 
mais flexível facilitando a inclusão dos dados.
Os bancos de dados orientados a documentos parecem mais naturais entre os 
tipos de banco de dados NoSQL, porque são projetados para armazenar documentos 
cotidianos como estão, e permitem consultas e cálculos complexos sobre essa forma 
de dados muitas vezes já agregada. A forma como as coisas são armazenadas em um 
banco de dados relacional faz sentido do ponto de vista da normalização: tudo deve ser 
armazenado apenas uma vez e conectado via chaves estrangeiras. 
Para a AWS (2021b, s.p.) “Os bancos de dados de documentos facilitam para 
que os desenvolvedores armazenem e consultem dados usando o mesmo formato de 
modelo de documento que usam no código do aplicativo”.
Os bancos de dados orientados à documentos pouco se preocupam com a 
normalização, desde que os dados estejam em uma estrutura que faça sentido. Um 
modelo de dados relacionais nem sempre se encaixa bem com certos casos de negócios. 
Marquesone (2017, p. 47) explica que:
 
Considerado uma extensão do banco de dados orientado a chave/
valor, este tipo de banco de dados é provavelmente a categoria 
NoSQL mais popular atualmente. Ele oferece meios de criação de 
índices sobre os valores dos dados armazenados, enriquecendo as 
possibilidades de consultas, além de permitir normalização de dados 
e muitos outros conceitos oriundos do banco de dados relacional, 
tais como a criação de joins e definição de esquemas rígidos. 
Sendo um banco de dados NoSQL, você pode facilmente armazenar dados 
sem implementar um esquema. Você pode transferir o modelo de objeto diretamente 
para um documento usando vários formatos diferentes. Os mais utilizados são JSON, 
BSON e XML.
No Quadro 4, apresentamos um exemplo de um documento simples no formato 
JSON que consiste em três pares de chave/valor:
135
QUADRO 4 – FORMATO ARQUIVO JSON
FONTE: O autor
Jornais ou revistas, por exemplo, contêm artigos. Para armazená-los em um 
banco de dados relacional, você precisa cortá-los primeiro: o texto do artigo vai em 
uma mesa, o autor e todas as suas informações, em outra, e comentários sobre o artigo 
quando publicado em um site vão em outra. 
Além disso, você também pode usar consultas aninhadas nesses formatos, for-
necendo distribuição de dados mais fácil em vários discos e desempenho aprimorado. 
Por exemplo, pode-se adicionar uma sequência de valor aninhada ao documento anterior:
QUADRO 5 – ADIÇÃO DE INSTÂNCIA NO ARQUIVO
FONTE: O autor
Devido à sua estrutura, os bancos de dados orientados a documentos são ideais 
para casos de uso que requerem flexibilidade e desenvolvimento rápido e contínuo. Por 
exemplo, você pode usá-los para gerenciar perfis de usuários, que diferem de acordo 
com as informações fornecidas. Sua estrutura sem esquema permite que você tenha 
atributos e valores diferentes.
136
QUADRO 6 – PRINCIPAIS BANCOS DE DADOS ORIENTADOS A DOCUMENTOS
BANCO DESCRIÇÃO LINK
MongoDb
Um Banco de Dados Orientado 
a documentos distribuído de 
propósito geral.
https://www.mongodb.com/
Couchbase
Originalmente conhecido como 
Membase, baseado em JSON. 
Um Banco de Dados Orientado 
a documentos compatíveis com 
Memcached. Um banco de dados 
de vários modelos, o Couchbase 
também pode funcionar como um 
Banco Orientado a chave/valor.
https://www.couchbase.com/
Apache 
CouchDB
Um projeto da Apache Software 
Foundation, o Apache CouchDB 
armazena dados como documentos 
JSON e usa JavaScript como sua 
linguagem de consulta.
https://couchdb.apache.org/
FONTE: O autor
Ao contrário das bases de dados relacionais, nas quais as informações de um 
determinado objeto podem ser espalhadas por várias tabelas ou bancos de dados, 
um banco de dados orientado a documentos pode armazenar todos os dados de um 
determinado objeto em um único documento. 
Alguns usam uma variante de SQL, pesquisa de texto completo ou sua própria 
linguagem de consulta nativa para recuperação de dados, e outros apresentam mais de 
um método de consulta.
Bancos de dados orientados a documentos têm visto um enorme crescimento 
de popularidade nos últimos anos. Graças ao seu esquema flexível, eles encontraram 
uso regular em plataformas de e-commerce, blogs e análises, bem como sistemas de 
gerenciamento de conteúdo. 
Os bancos de documentos são considerados altamente escaláveis, sendo 
o fragmento uma estratégia de dimensionamento horizontal comum. Eles também 
são excelentes para manter grandes quantidades de informações não relacionadas e 
complexas que variam em estrutura.
137
3.3 BANCOS DE DADOS ORIENTADOS A COLUNAS
Bancos de dados orientados a colunas separam dados em colunas discretas. 
Em vez de usar linhas – em que o ID da linha é a chave principal –, sistemas de banco de 
dados baseados em colunas mudam as coisas para tornar os dados a chaveprincipal.
Ao usar colunas, você pode ganhar uma velocidade muito maior ao consultar 
dados. Embora seja verdade que consultar uma linha inteira de dados levaria mais tempo 
em um DBMS orientados a colunas, os casos de uso para bancos de dados baseados em 
colunas significam que você provavelmente não fará isso. Em vez disso, você consultará 
uma parte específica dos dados em vez de toda a linha. Schreiner (2019, p. 10) descreve 
os bancos de dados orientados a colunas como:
O modelo orientado a colunas é semelhante à chave/valor. Na 
verdade, podemos dizer que ele é uma especialização do modelo 
chave/valor. O modelo orientado a colunas organiza seus dados 
com base em uma distribuição por colunas (propriedades), esta 
organização é mais complexa que a anterior e permite consultas 
com filtro em valores de colunas. Conforme descrito por Sadalage 
(2012), esse modelo de dados é composto por uma keyspace 
(base de dados), famílias de colunas, conjuntos de colunas 
acessadas com base em uma chave única, colunas e seus 
respectivos valores. Famílias de colunas tem a ideia de agrupar 
colunas que possuam um domínio em comum (exemplo: conjunto de 
colunas que representam pessoas). Cada conjunto de colunas possui 
uma chave de acesso, como se fosse uma chave primária de um BD 
relacional, e este conjunto representa um conjunto de características 
de uma ocorrência (exemplo: informações pessoais de uma pessoa). 
Por fim, cada coluna de um desses conjuntos possui um nome e 
um valor. A principal diferença para o modelo chave/valor é que o 
modelo orientado a colunas permite consultas mais complexas que 
envolvam o valor das colunas.
Para Marquesone (2017, p. 49-50):
 
De todos os modelos de armazenamento NoSQL, provavelmente o 
orientado a colunas seja o mais complexo. Esse modelo também é 
considerado uma extensão do armazenamento orientado a chave/va-
lor e possui conceitos similares ao do modelo relacional, como a cria-
ção de linhas e colunas. Entretanto, é preciso ficar atento, pois existem 
diferenças fundamentais no modo como essas estruturas são criadas.
O benefício mais significativo de ter bancos de dados orientados a colunas é 
que você pode armazenar grandes quantidades de dados dentro de uma única coluna. 
Esse recurso permite reduzir os recursos do disco e o tempo necessário para recuperar 
informações dele. Eles também são excelentes em situações em que você tem que 
espalhar dados em vários servidores. No entanto, ao contrário dos bancos de dados 
tradicionais, os bancos de dados de colunas amplas são altamente flexíveis. Eles não 
têm chaves predefinidas nem nomes de coluna. Sua característica livre de esquema 
permite a variação de nomes de colunas mesmo dentro da mesma tabela, bem como 
adicionar colunas em tempo real.
138
Os dados armazenados em um banco de dados de colunas são exibidos em 
ordem de registro, o que significa que a primeira entrada em uma coluna está relacionada 
à primeira entrada em outras colunas. Este design permite que as consultas leiam 
apenas as colunas de que precisam, ao invés de ler todas as linhas de uma tabela e 
descartar dados desnecessários depois de armazenados na memória.
QUADRO 7 – ESTRUTURA DE BANCO DE DADOS ORIENTADOS A COLUNAS
FONTE: O autor
FONTE: O autor
As famílias das colunas podem ser usadas para agrupar colunas relacionadas 
por conveniência, para otimizar o input/output do disco, colocalizando colunas que são 
frequentemente acessadas em disco, ou para criar uma estrutura multidimensional que 
pode ser usada para dados mais complexos.
QUADRO 8 – PRINCIPAIS BANCOS DE DADOS ORIENTADOS A COLUNAS
BANCO DESCRIÇÃO LINK
Apache 
Cassandra
Projetado para maximizar a escalabili-
dade, disponibilidade e desempenho.
https://cassandra.apache.org/
Apache 
HBase
Um banco de dados distribuído que 
suporta armazenamento estruturado 
para grandes quantidades de dados 
e foi projetado para trabalhar com a 
biblioteca de software Hadoop.
https://hbase.apache.org/
ClickHouse
Um DBMS tolerante a falhas que 
suporta a geração em tempo real de 
dados analíticos e consultas SQL.
https://clickhouse.tech/
139
Como os dados em cada coluna são do mesmo tipo, permite várias estratégias 
de armazenamento e otimização de leitura. Em particular, muitos administradores de 
banco de dados orientados a colunas implementam uma estratégia de compactação, 
como codificação de comprimento de execução para minimizar a quantidade de espaço 
ocupado por uma única coluna. Isso pode ter o benefício de acelerar as leituras, uma vez 
que as consultas precisam passar por menos linhas. 
Uma desvantagem dos bancos de dados orientados a colunas, no entanto, 
é que o desempenho da carga tende a ser lento, uma vez que cada coluna deve ser 
escrita separadamente e os dados são muitas vezes mantidos comprimidos. Cargas 
incrementais, em particular, bem como leituras de registros individuais, podem ser caras 
em termos de desempenho.
Eles oferecem alto desempenho em consultas de agregação como SUM, COUNT, 
AVG, MIN etc. como os dados estão prontamente disponíveis em uma coluna. Os bancos 
de dados NoSQL baseados em colunas são amplamente usados para gerenciar Data 
Warehouses, business intelligence, CRM.
3.4 BANCOS DE DADOS ORIENTADOS A GRAFOS
Um banco de dados orientados a grafos armazena entidades, bem como as 
relações entre essas entidades. A entidade é armazenada como um nó com a relação 
como bordas. Uma vantagem dá uma relação entre nós. Cada nó e borda tem um 
identificador único.
Comparado a um banco de dados relacional, onde as tabelas estão vagamente 
conectadas, um banco de dados orientado a grafos é de natureza multirrelacional. A 
relação de travessia é rápida, pois eles já estão capturados no DB, e não há necessidade 
de calculá-los. Marquesone (2017, p. 54-55) destaca que:
Entre os quatro tipos de armazenamento NoSQL apresentados, o 
orientado a grafos é provavelmente o mais especializado. Diferente 
dos outros modelos, em vez dos dados serem modelados utilizando 
um formato de linhas e colunas, eles possuem uma estrutura 
definida na teoria dos grafos, usando vértices e arestas para 
armazenar os dados dos itens coletados e os relacionamentos 
entre esses dados, respectivamente. Esse modelo oferece maior 
desempenho nas aplicações que precisam traçar os caminhos 
existentes nos relacionamentos entre os dados, como por exemplo, 
as que precisam identificar como um conjunto de amigos está 
conectado em uma rede, ou descobrir a melhor rota para se chegar 
a um local em menor tempo.
Para Schreiner (2019, p. 10):
140
O modelo orientado a grafos é consideravelmente diferente dos de-
mais. Sua estrutura, assim como uma estrutura de grafo tradicional, 
é baseada em nós e arestas. Cada nó armazena um nome e uma 
série de atributos e valores. Os nós são conectados por arestas que 
possuem um nome, e opcionalmente uma série de atributos e valo-
res. Devido a sua natureza de organização, o modelo de grafos é o 
mais especializado de todos. Ele é muito indicado para modelar re-
lacionamentos entre objetos e para realizar consultas que envolvam 
esses relacionamentos. No entanto, seu uso para o armazenamento 
de informações que não possuam relacionamento é desencorajado, 
já que o processo de busca no grafo pode se tornar custoso.
Oliveira (2014, p. 8) comenta que “O modelo de grafos é mais interessante 
que outros quando informações sobre a interconectividade ou a topologia dos dados 
são mais importantes, ou tão importante quanto os dados propriamente ditos”, sendo 
que este modelo de banco de dados tem por ideia a representação dos dados e/ou a 
interconectividade dos dados, considerando isto, inclusive, muito importante.
FIGURA 8 – EXEMPLO BD ORIENTADO A GRAFOS
FONTE: <https://bit.ly/3gazRgb>. Acesso em: 27 abr. 2021.
Para entendermos melhor o conceito de bancos de dados orientado a grafos, é 
importante entender os seguintes termos:
141
• Nó: um nó é uma representação de uma entidade individual rastreada por um banco 
de dados gráfico. É maisou menos equivalente ao conceito de registro ou linha em 
um banco de dados relacional ou um documento em uma loja de documentos.
• Propriedade: uma propriedade é informação relevante relacionada a nódulos individuais.
• Borda: também conhecida como gráfico ou relacionamento, uma borda é a 
representação de como dois nós estão relacionados, e é um conceito-chave de 
bancos de dados gráficos que os diferencia de RDBMS e bancos de documentos. As 
bordas podem ser direcionadas ou não direcionadas.
• Sem direção: em um gráfico não direcionado, as bordas entre nós existem apenas 
para mostrar uma conexão entre eles. Neste caso, as bordas podem ser consideradas 
como relações “bidirecional” – não há diferença implícita entre como um nó se 
relaciona com o outro.
• Direção: em um gráfico direcionado, as bordas podem ter significados diferentes com 
base em qual direção a relação se origina. Neste caso, as bordas são relacionamentos 
“unidirecionais”. 
Certas operações são muito mais simples de executar usando bancos de 
dados gráficos devido à forma como eles vinculam e agrupam peças de informação 
relacionadas. Esses bancos de dados são comumente usados em casos em que é 
importante ser capaz de obter insights a partir das relações entre pontos de dados ou 
em aplicativos onde as informações disponíveis para usuários finais são determinadas 
por suas conexões com outros, como em uma rede social. Eles encontraram uso regular 
em detecção de fraudes, mecanismos de recomendação e aplicativos de gerenciamento 
de identidade e acesso.
QUADRO 9 – PRINCIPAIS BANCOS DE DADOS ORIENTADOS A GRAFOS
BANCO DESCRIÇÃO LINK
Neo4J
Um DBMS compatível com ACID com armazena-
mento e processamento de gráficos nativos.
https://neo4j.com/
ArangoDB
Não é exclusivamente um Banco de Dados 
Orientado a Grafos, o ArangoDB é um banco 
de dados multimodelo que une os modelos de 
dados de grafos, documento e chave/valor em 
um DBMS. Ele possui AQL (uma linguagem de 
consulta nativa semelhante a SQL), pesquisa de 
texto completo e um mecanismo de classificação.
https://www.arangodb.
com/
OrientDB
Outro Banco de Dados multimodelo, o OrientDB 
suporta os modelos de grafos, documento, 
chave/valor e objeto. Suporta consultas SQL e 
transações ACID.
https://orientdb.org/
FONTE: O autor
142
O tipo final de banco de dados NoSQL é baseado em gráficos. A notável distinção 
sobre bancos de dados NoSQL baseados em gráficos é que eles contêm as relações 
entre diferentes dados. Posteriormente, os bancos de dados orientados a grafos 
parecem bastante diferentes de qualquer um dos outros bancos de dados anteriormente 
mencionados, eles armazenam dados como nódulos, com as ‘bordas’ dos nódulos 
descrevendo sua relação com outros nódulos.
Os bancos de dados orientados a grafos, comparados aos bancos de dados 
relacionais, são de natureza multidimensional. Eles exibem não apenas relações básicas 
entre tabelas e dados, mas as mais complexas e multifacetadas.
Para saber mais dos modelos de bancos de dados NoSQL, acesse esta 
biblioteca e leia o livro Banco de dados para Big Data, de Geomar André 
Schreiner. Disponível em: https://bibliotecavirtual.uniasselvi.com.br/livros/
livro/251064.
DICAS
4 MONGODB
Se você construiu aplicativos web nos últimos anos, provavelmente usou um 
banco de dados relacional como o principal armazenamento de dados. Se você está fami-
liarizado com o SQL, você pode apreciar a utilidade de um modelo de dados bem norma-
lizado, a necessidade de transações e as garantias fornecidas por um motor de armaze-
namento durável. Simplificando, o banco de dados relacional é maduro e bem conhecido. 
Quando os desenvolvedores começam a defender bancos de dados alternativos, 
surgem dúvidas sobre a viabilidade e utilidade dessas novas tecnologias. Esses novos 
bancos de dados são substituições por sistemas de banco de dados relacionais?
Em 2007, fundadores e engenheiros seniores da empresa de serviços de 
anúncios on-line, DoubleClick, a qual tinha acabado de ser adquirida pelo Google, 
estabeleceram uma nova startup chamada 10gen. A empresa tinha como objetivo criar 
uma PaaS (Platform as a Service) oferecendo algo semelhante ao Google App Engine. 
A plataforma exigia um mecanismo de armazenamento de dados escalável e 
elástico; na ausência de um candidato existente adequado, a equipe criou seu próprio 
banco de dados, que eles chamavam de MongoDB. Em 2008, a 10gen se concentrou 
exclusivamente no MongoDB e, em 2009, lançou o produto sob licença de código aberto, 
juntamente com uma distribuição empresarial comercial. Segundo Hows, Membrey e 
Plugge (2019, p. 2):
https://bibliotecavirtual.uniasselvi.com.br/livros/livro/251064
https://bibliotecavirtual.uniasselvi.com.br/livros/livro/251064
143
O MongoDB (derivado da palavra humongus em inglês, que quer 
dizer gigantesco) é um tipo relativamente novo de banco de dados 
que não tem acesso a tabelas, esquemas, SQL ou linhas. Não há 
transações, conformidade com ACID, joins (junções), chaves 
estrangeiras nem vários outros recursos que tendem causar dores 
de cabeça nas primeiras horas da manhã. Em suma, o MongoDB 
é um banco de dados bem diferente daqueles com que você 
provavelmente já está acostumado a trabalhar, em especial, se você 
usou um RDBMs [...]
MongoDB é um banco de dados de documentos orientado a JSON, embora 
internamente ele use uma variante codificada binária de JSON chamada BSON. O 
formato BSON suporta uma sobrecarga de análise mais baixa que a JSON, bem como 
suporte mais rico para tipos de dados, como datas e dados binários, utilizado numa 
grande variedade de aplicações em tempo real. Também fornece suporte total de 
índice para coleta de documentos. O MongoDB possui um mecanismo de consulta de 
documentos bem estruturado. De acordo com Schreiner (2019, p. 37):
O MongoDB possui um modelo de documento baseado em documentos no 
formato JSON, possuindo uma linguagem de consulta que se assemelha muito à 
linguagem de programação JavaScript. Fisicamente, o MongoDB armazena seus dados 
em documentos BSON, que são um formato binário para os documentos JSON.
O MongoDB é um sistema de gerenciamento de banco de dados projetado 
para desenvolver rapidamente aplicativos Web e infraestrutura de Internet. O modelo 
de dados e as estratégias de persistência são construídos para alto rendimento de 
leitura e gravação e a capacidade de escalar facilmente com failover automático. Se um 
aplicativo requer apenas um nó de banco de dados ou dezenas deles, o MongoDB pode 
fornecer um desempenho surpreendentemente bom.
Failover  é a capacidade de alternar perfeita e automaticamente para 
um sistema de backup confiável. Ou seja, para servidores, a automação 
de failover inclui cabos de pulsação que conectam um par de servidores. 
O servidor secundário apenas descansa enquanto percebe que o pulso ou 
a pulsação contínua.
FONTE: <https://bit.ly/2RESiAc.>. Acesso em: 27 abr. 2021.
NOTA
144
5 A ABORDAGEM NÃO RELACIONAL
O desempenho de um Banco de Dados Relacional pode ser melhorado 
simplesmente adicionando mais “máquina”, ou seja, adquirindo mais um servidor ou 
mais espaço na nuvem, mas para quem não tem um serviço na nuvem pode ser um 
problema, pois chega um determinado momento em que não existirá mais espaço nos 
servidores locais e mesmo na nuvem, isto é um problema para alguns bancos de dados.
Por exemplo, o PostgreSQL não pode executar um único banco de dados em 
dois servidores, nos quais ambos os servidores podem ler e gravar dados (muitas 
vezes referidos como um cluster ativo/ativo), e o MySQL só pode fazê-lo com um 
pacote adicional especial. E embora a Oracle possa fazer isso com sua impressionante 
arquitetura Real Application Clusters (RAC), o custo para implementação desta solução 
é elevadíssimo, implementar uma solução baseada em RAC requer vários servidores, 
armazenamento compartilhado e várias licenças de software.
As plataformas RDBMS tradicionais fornecem escalabilidade usando uma 
abordagem scale-up, que requer um servidor maisrápido para aumentar o desempenho. 
Os seguintes problemas nos sistemas RDBMS levaram à razão pela qual o MongoDB e 
outros bancos de dados NoSQL foram projetados da maneira como são projetados:
• Para ser dimensionada, o banco de dados RDBMS precisa vincular os dados disponíveis 
em dois ou mais sistemas para reportar o resultado. Isso é difícil de conseguir nos 
sistemas RDBMS, uma vez que eles são projetados para funcionar quando todos os 
dados estão disponíveis para computação em conjunto. Assim, os dados devem estar 
disponíveis para processamento em um único local.
• No caso de vários servidores “ativo/ativo”, quando ambos estão sendo atualizados de 
várias fontes, há um desafio em determinar qual atualização está correta.
• Quando um aplicativo tenta ler dados do segundo servidor, e as informações foram 
atualizadas no primeiro servidor, mas ainda não foram sincronizadas com o segundo 
servidor, as informações devolvidas podem estar obsoletas.
O MongoDB armazena seus dados em documentos BSON, nos quais todos 
os dados relacionados são colocados juntos, o que significa que tudo está em um só 
lugar. As consultas no MongoDB são baseadas em chaves no documento, para que 
os documentos possam ser espalhados por vários servidores. Consultar cada servidor 
significa que ele verificará seu próprio conjunto de documentos e devolverá o resultado. 
Isso permite escalabilidade linear e melhor desempenho. 
145
FIGURA 9 – INTERFACE MONGODB MANAGEMENT STUDIO (MMS)
FONTE: <https://bit.ly/3x9eIss>. Acesso em: 27 abr. 2021.
O MongoDB tem uma replicação primária-secundária, na qual o principal aceita 
as solicitações de gravação. Se o desempenho da gravação precisar ser melhorado, 
então o fragmento pode ser usado; isso divide os dados em várias máquinas e permite 
que essas várias máquinas atualizem diferentes partes dos conjuntos de dados. 
Sharding é automático em MongoDB; à medida que mais máquinas são adicionadas, os 
dados são distribuídos automaticamente.
Para saber mais dos métodos de clusterização de servidores, acesse: 
https://computerworld.com.br/acervo/clusterizacao-alta-disponibilidade-
e-continuidade-dos-negocios/.
DICAS
O MongoDB armazena suas informações em documentos em vez de linhas. O 
JSON/BSON oferece um modelo sem esquema, que proporciona flexibilidade em termos 
de design de banco de dados. Ao contrário dos RDBMS, alterações podem ser feitas ao 
esquema perfeitamente. Esse design também torna o alto desempenho, fornecendo o 
agrupamento de dados relevantes em conjunto internamente e tornando-os facilmente 
pesquisáveis.
https://computerworld.com.br/acervo/clusterizacao-alta-disponibilidade-e-continuidade-dos-negocios/
https://computerworld.com.br/acervo/clusterizacao-alta-disponibilidade-e-continuidade-dos-negocios/
146
Um documento JSON contém os dados reais e é comparável a uma linha em 
SQL. No entanto, ao contrário das linhas RDBMS, os documentos podem ter esquema 
dinâmico. Isso significa que documentos dentro de uma coleção podem ter diferentes 
campos ou estrutura, ou campos comuns podem ter diferentes tipos de dados. Um 
documento contém dados na forma de pares de chave/valor. Vamos entender isso com 
um exemplo:
 { 
 “Nome”: “PEDRO”, 
 “Celular”: [“47999999999”, 
 ........”47999999991” 
 ........], 
 “E-mail”:.. 
 }
Como mencionado, chaves e valores vêm em pares. O valor de uma chave em 
um documento pode ser deixado em branco. No exemplo anterior, o documento tem 
três chaves: “Nome”, “Celular” e “E-mail”. A chave “E-mail” não tem valor.
Quando você adiciona itens como a lista de números de telefone, você está 
realmente criando o que é conhecido como um documento incorporado. Isso acontece 
sempre que você adiciona conteúdo complexo, como uma lista (ou matriz, para usar o 
termo favorecido no JSON). De um modo geral, há também uma distinção lógica. Por 
exemplo, um documento pessoa pode ter vários documentos de endereço incorporados 
dentro dele. Da mesma forma, um documento de fatura pode ter inúmeros documentos 
de item de linha incorporados dentro dele. É claro que o documento de endereço 
incorporado, por exemplo, também pode ter seu próprio documento incorporado que 
contém números de telefone.
A fim de tornar o MongoDB de alto desempenho e rápido, certos recursos 
comumente disponíveis em sistemas RDBMS não estão disponíveis no MongoDB. O 
MongoDB é um DBMS orientado a documentos, nos quais os dados são armazenados 
como documentos. Ele não suporta JOINs, e não tem transações totalmente 
generalizadas. No entanto, ele fornece suporte para índices secundários, permite que os 
usuários consultem usando documentos de consulta e fornece suporte para atualizações 
atômicas em um nível por documento. Ele fornece um conjunto de réplicas, uma forma 
de replicação de escravos mestres com failover automatizado, e tem dimensionamento 
horizontal embutido.
147
Leia o livro MongoDB: construa novas aplicações com novas tecnologias, de 
Fernando Boagio. Excelente para quem quer se aventurar com este novo 
modelo de Banco de Dados.
Você pode realizar diversos cursos no próprio site do fornecedor: 
• Cursos MongoDB: https://university.mongodb.com/courses/catalog.
DICAS
INTERESSANTE
5.1 CRIAÇÃO OU GERAÇÃO DE CHAVE
Um documento representa a unidade de armazenamento em MongoDB. Em um 
RDBMS, isso seria chamado de linha. No entanto, os documentos são muito mais do que 
linhas, porque podem armazenar informações complexas, como listas, dicionários e até 
listas de dicionários. 
Em contraste com um banco de dados tradicional, onde uma linha é fixa, um 
documento em MongoDB pode ser composto de qualquer número de chaves e valores. 
Em última análise, uma chave nada mais é do que um rótulo; é aproximadamente 
equivalente ao nome que você pode dar a uma coluna em um RDBMS. Você usa uma 
chave para referenciar dados dentro do seu documento.
Em um banco de dados relacional, deve haver sempre alguma forma de 
identificar de forma única um determinado registro; caso contrário, torna-se impossível 
se referir a uma linha específica. Para isso, você deve incluir um campo que contém 
um valor único (chamado de chave primária) ou uma coleção de campos que podem 
identificar exclusivamente a linha dada (chamada de chave primária composta).
O MongoDB exige que cada documento tenha um identificador único pelo 
mesmo motivo; em MongoDB, este identificador é chamado de _id. A menos que você 
especifique um valor para este campo, o MongoDB gerará um valor único para você. 
Mesmo no mundo bem estabelecido das bases de dados RDBMS, a opinião é dividida 
em: se você deve usar uma chave única fornecida pelo banco de dados ou gerar uma 
chave única você mesmo.
https://university.mongodb.com/courses/catalog
148
Recentemente, tornou-se mais popular permitir que o banco de dados criasse a 
chave para você. O MongoDB é um banco de dados distribuído, então um dos principais 
objetivos é remover dependências de recursos compartilhados (por exemplo, verificar se 
uma chave primária é realmente única). 
Bancos de dados não atribuídos geralmente usam uma simples chave 
primária, como um número de sequência de autocriação. O formato de “_id” padrão do 
MongoDB é um “ObjectId”, um identificador exclusivo de 12 bytes que pode ser gerado 
independentemente em um ambiente distribuído.
A razão para isso é que números únicos criados pelo homem, como números 
das placas de veículos automotores, têm o péssimo hábito de mudar. Por exemplo, em 
2020, o Brasil implementou um novo esquema de placas numéricas completamente 
diferente do sistema anterior, as placas do Mercosul. Acontece que o MongoDB pode 
lidar perfeitamente com esse tipo de mudança; no entanto, as chances são de que você 
precisaria fazer algum pensamento cuidadoso se você usou a placa de registro como 
sua chave principal. Um cenário semelhante pode ter ocorrido quando o esquema ISBN 
(International Standard Book Number) foi atualizado de dez dígitos para 13. 
Anteriormente, a maioria dos desenvolvedores que usavamo MongoDB 
pareciam preferir criar suas próprias chaves únicas, assumindo-se sobre si mesmos 
para garantir que o número permaneceria único. Hoje, porém, o consenso geral parece 
apontar para usar o valor padrão de ID que o MongoDB cria para você. No entanto, como 
é o caso ao trabalhar com bancos de dados RDBMS, a abordagem escolhida se resume 
principalmente à preferência pessoal. Preferimos usar um valor fornecido pelo banco de 
dados porque significa que podemos ter certeza de que a chave é única e independente 
de qualquer outra coisa.
Em última análise, você deve decidir o que funciona melhor para você. Se você 
está confiante de que sua chave é única (e provavelmente permanecerá inalterada), 
então sinta-se livre para usá-la. Se você não tem certeza da exclusividade da sua chave 
ou não quer se preocupar com ela, então você pode simplesmente usar a chave padrão 
fornecida pelo MongoDB.
6 PREPARAÇÃO DOS DADOS
O MongoDB armazena suas informações em documentos, que podem ser 
impressos no formato JSON. Você provavelmente gostaria de armazenar diferentes 
tipos de documentos, como usuários e pedidos, em lugares separados. Isso significa 
que o MongoDB precisa de uma maneira de agrupar documentos, semelhante a uma 
tabela em um RDBMS. Em MongoDB, isso é chamado de coleção. Schreiner (2019, p. 37) 
reforça que:
149
Esse BD é constituído de coleções de documentos, e para cada 
coleção temos conjuntos de documentos. Assim como em todo BD 
orientado a documentos, cada documento no MongoDB possui um 
identificador único. Esse identificador é armazenado internamente 
em todos os documentos em um atributo chamado “_id”. O atributo 
deve ser único para a coleção de documentos, porém o usuário 
geralmente não necessita se preocupar com o seu valor, pois o 
Mongo gera automaticamente um OBJECT ID para o campo.
Uma implantação do MongoDB pode ter muitos bancos de dados. Cada banco 
de dados é um conjunto de coleções. As coleções são semelhantes ao conceito de 
tabelas em SQL, no entanto, eles são sem esquema. Cada coleção pode ter vários 
documentos. Pense em um documento como uma linha em SQL.
Em um sistema RDBMS, uma vez que as estruturas de tabela e os tipos de dados 
de cada coluna são fixos, você só pode adicionar dados de um determinado tipo em uma 
coluna. No MongoDB, uma coleção é uma coleção de documentos, na qual os dados são 
armazenados como pares de chave/valor.
Vamos entender com um exemplo como os dados são armazenados em um do-
cumento. O documento a seguir contém o nome e os números de telefone dos usuários:
{“Nome”: “Pedro”, “Telefone”: [“1111111”, “222222”] }
Vejamos um exemplo de uma coleção da Região:
{“R_ID” : “REG001”, “Nome” : “Brasil” }
{“R_ID” :1234, “Nome” : “Santa Catarina” , “País” : “Brasil” }
No código apresentado, você tem dois documentos na coleção região. Embora 
ambos os documentos façam parte de uma única coleção, eles possuem estruturas 
diferentes: a segunda coleção tem um campo adicional de informação – o país. Na 
verdade, se você olhar para o campo “R_ID”, ele armazena um valor STRING no primeiro 
documento, enquanto é um número no segundo documento. Assim, os documentos de 
uma coleção podem ter esquemas totalmente diferentes. Cabe ao aplicativo armazenar 
os documentos em uma determinada coleção em conjunto ou ter várias coleções.
Cada documento do MongoDB requer uma _id, que se não estiver presente 
quando o documento for criado, um ObjectID MongoDB especial será gerado e 
adicionado ao documento nesse momento. 
O ObjectID que aparecer no seu console não será o mesmo da listagem de 
código, mas será único entre todos os valores _id na coleção, o único requisito para o 
campo. Você pode definir seu próprio _id definindo-o no documento inserido, o ObjectID 
é apenas o padrão do MongoDB.
150
O MongoDB usa “documento” para armazenar seus dados que podem ter 
esquema flexível (documentos em mesma coleção podem ter campos diferentes) 
permitindo que os usuários armazenem campos aninhados ou multivalores, como 
arrays, hash etc. 
Considerando que no RDBMS é um esquema fixo em que o valor de uma coluna 
deve ter um tipo de dados semelhante, também não podemos armazenar matrizes ou 
valores aninhados na célula.
O MongoDB não fornece suporte para operações “JOIN” como no SQL. No entanto, 
permite que o usuário armazene todos os dados relevantes em um único documento, 
evitando na periferia o uso do JOINS. Tem uma solução alternativa para superar essa 
questão, a qual discutiremos com mais detalhes no subtópico de consideração sobre 
modelagem de dados.
O MongoDB não fornece suporte para “transação” nos caminhos do SQL. 
No entanto, garante atomicidade a nível de documento. Além disso, não garante o 
“isolamento”, o que significa que um dado que está sendo lido por um cliente pode ter 
seus valores modificados por outro cliente, simultaneamente. 
Se você se interessou pelo Banco MongoDB, acesse a biblioteca virtual 
e lei a livro: 
The Definitive Guide to MongoDB: The NoSQL Database for Cloud and 
Desktop Computing, dos autores Plugge, Membrey e Hawkins, nas páginas 
3 a 33, você conhecerá desde a introdução até a instalação do MongoDB. 
É claro que também indicamos o site do fornecedor, disponível em: 
https://www.mongodb.com.
DICAS
Bons estudos!
https://www.mongodb.com
151
ENTENDENDO O CONCEITO DO NOSQL
Vinicius Ianni 
Neste artigo, veremos o que é o conceito NoSQL, porque ele é geralmente 
associado à Big data e quais são algumas das várias opções de banco de dados NoSQL 
existentes atualmente.
O que é NoSQL?
Vamos começar sobre o NoSQL, o que vem a ser esse conceito?
Pesquisando pela net, encontramos muitas definições, algumas bem 
confusas, que passam a ideia de um conceito que tenta acabar com o padrão SQL, 
bem como encontramos também definições mais realistas, que passam a ideia de um 
padrão de armazenamento de dados alternativo ao SQL, oferecendo uma robustez e 
escalabilidade melhores.
Para sabermos mais claramente o que é o NoSQL, e qual seu uso, é interessante 
saber algumas coisas antes.
O termo NoSQL foi primeiramente utilizado em 1998 como o nome de um banco 
de dados não relacional de código aberto.
Seu autor, Carlo Strozzi, alega que o movimento NoSQL “é completamente 
distinto do modelo relacional e, portanto, deveria ser mais apropriadamente chamado 
“NoREL” ou algo que produzisse o mesmo efeito”.
Com a crescente popularização da internet, diversos novos dados foram 
surgindo e tratá-los foi se tornando gradualmente mais complexo e sua manutenção 
cada vez mais cara.
Em 2006, o artigo: BigTable: A Distributed Storage System for Structured Data, 
publicado pelo Google em 2006, traz novamente à tona o conceito NoSQL.
No início de 2009, o termo NoSQL é reintroduzido por um funcionário do 
Rackspace, Eric Evans, quando Johan Oskarson da Last.fm queria organizar um evento 
para discutir bancos de dados open source distribuídos.
LEITURA
COMPLEMENTAR
152
O nome era uma tentativa de descrever o surgimento de um número crescente 
de bancos de dados não relacionais e fazia uma referência ao esquema de atribuição de 
nomes dos bancos de dados relacionais mais populares do mercado como MySQL, MS 
SQL, PostgreSQL etc.
A partir de então, os bancos de dados não relacionais passaram a ser conhecidos 
como NoSQL, e com crescente popularização das redes sociais, a geração de conteúdo 
por dispositivos móveis bem como o número cada vez maior de pessoas e dispositivos 
conectados, faz com que o trabalho de armazenamento de dados com o objetivo de 
utilizá-los em ferramentas analíticas, comece a esbarrar nas questões de escalabilidade 
e custos de manutenção desses dados.
Bancos de dados relacionais escalam, mas quanto maior o tamanho, mais 
custoso se torna essa escalabilidade, seja pelo custo de novas máquinas, seja pelo 
aumento de especialistas nos bancos de dados utilizados.
Já os não relacionais, permitem uma escalabilidade mais barata e menos 
trabalhosa, pois não exigem máquinas extremamente poderosas e sua facilidadede 
manutenção permite que um número menor de profissionais seja necessário.
Assim, os bancos de dados NoSQL, vão ficando mais populares entre as grandes 
empresas pois reúnem as características de poder trabalhar com dados semiestruturados 
ou crus vindos de diversas origens (arquivos de log, websites, arquivos multimídia etc.).
Podemos listar algumas dessas características a seguir:
Utilização do processamento paralelo para processamento das informações: 
para se atingir uma performance razoável no processamento de grandes volumes 
de dados, é mais eficiente dividir a tarefa em várias outras menores e que podem 
assim, serem executadas ao mesmo tempo, distribuindo essas tarefas pelos vários 
processadores disponíveis, para isso, os sistemas precisam atingir um alto grau de 
maturidade no processamento paralelo.
O uso de muitos processadores baratos, não só oferece melhor performance, 
mas se torna também uma solução economicamente interessante, pois dessa forma é 
possível escalar o sistema horizontalmente apenas adicionando hardware e não limita a 
empresa a poucos fornecedores de hardware mais poderoso.
Distribuição em escala global: para atender seus usuários de forma eficiente, 
algumas empresas utilizam vários data centers, localizados em diversas partes do país 
ou do mundo.
Com isso, uma série de questões sobre disponibilidade e performance são 
levantadas ao construir os sistemas.
153
A distribuição deles combinada com o hardware barato, impõe ao sistema a 
necessidade de ser robusto o suficiente para tolerar falhas constantes e imprevisíveis, 
seja de hardware, seja da infraestrutura do lugar onde o data center se encontra.
Pensando nessas questões, bem como nas necessidades internas ou dos 
clientes, foi surgindo uma grande quantidade de bancos de dados não relacionais de 
trabalham de diferentes maneiras, e as principais estão listadas a seguir.
Banco de dados que trabalham no esquema chave/valor (key/value): sistemas 
distribuídos nessa categoria, também conhecidos como tabelas de hash distribuídas, 
armazenam objetos indexados por chaves, e possibilitam a busca por esses objetos 
a partir de suas chaves. Alguns bancos que utilizam esse padrão são: DynamoDb, 
Couchbase, Riak, Azure Table Storage, Redis, Tokyo Cabinet, Berkeley DB etc.
Bancos de dados orientados a documentos: os documentos dos bancos dessa 
categoria, são coleções de atributos e valores, nas quais um atributo pode ser multiva-
lorado. Em geral, os bancos de dados orientados a documento não possuem esquema, 
ou seja, os documentos armazenados não precisam possuir estrutura em comum.
Essa característica faz deles boas opções para o armazenamento de dados 
semiestruturados.
Alguns bancos que utilizam esse padrão são: MongoDb, CouchDB, RavenDb etc.
Bancos de dados de famílias de colunas: Bancos relacionais normalmente 
guardam os registros das tabelas contiguamente no disco. Por exemplo, caso se queira 
guardar id, nome e endereço de usuários em um sistema de cadastro, os registros 
seriam: Id1, Nome1, Endereço1; Id2, Nome2, Endereço2.
Essa estrutura torna a escrita muito rápida, pois todos os dados de um registro 
são colocados no disco com uma única escrita no banco. Essa estrutura também é 
eficiente caso se queira ler registros inteiros. Mas para situações em que se quer ler 
algumas poucas colunas de muitos registros, essa estrutura é pouco eficiente, pois 
muitos blocos do disco terão de ser lidos. Para esses casos em que se quer otimizar 
a leitura de dados estruturados, bancos de dados de famílias de colunas são mais 
interessantes, pois eles guardam os dados contiguamente por coluna.
O exemplo anterior em um banco de dados dessa categoria ficaria: Id1, Id2; 
Nome1, Nome2; Endereço1, Endereço2.
Por esse exemplo é possível perceber a desvantagem de um banco de dados de 
famílias de colunas: a escrita de um novo registro é bem mais custosa do que em um 
banco de dados tradicional. Assim, num primeiro momento, os bancos tradicionais são 
mais adequados a processamento de transações on-line (OLTP) enquanto os bancos 
154
de dados de famílias de colunas são mais interessantes para processamento analítico 
on-line (OLAP). O Bigtable é uma implementação da Google dessa categoria de bancos 
de dados. Outros bancos de dados orientados a coluna: Hadoop, Cassanda, Hypertable, 
Amazon SimpleDB etc. Bancos de dados de grafos: diferentemente de outros tipos de 
bancos de dados NoSQL, esse está diretamente relacionado a um modelo de dados 
estabelecido, o modelo de grafos. A ideia desse modelo é representar os dados e / ou 
o esquema dos dados como grafos dirigidos, ou como estruturas que generalizem a 
noção de grafos.
O modelo de grafos é mais interessante que outros quando “informações 
sobre a interconectividade ou a topologia dos dados são mais importantes, ou tão 
importante quantos os dados propriamente ditos. O modelo orientado a grafos possui 
três componentes básicos: os nós (são os vértices do grafo), os relacionamentos (são as 
arestas) e as propriedades (ou atributos) dos nós e relacionamentos.
Neste caso, o banco de dados pode ser visto como um multígrafo rotulado 
e direcionado, no qual cada par de nós pode ser conectado por mais de uma aresta. 
Um exemplo pode ser: “Quais cidades foram visitadas anteriormente (seja residindo ou 
viajando) por pessoas que viajaram para o Rio de Janeiro?” No modelo relacional esta 
consulta poderia ser muito complexa devido a necessidade de múltiplas junções, o que 
poderia acarretar uma diminuição no desempenho da aplicação. Porém, por meio dos 
relacionamentos inerentes aos grafos, estas consultas tornam-se mais simples e diretas.
Alguns bancos que utilizam esse padrão são: Neo4J, Infinite Graph, InforGrid, 
HyperGraphDB etc. Como podem ver, os bancos de dados que se utilizam do conceito 
NoSQL, abrangem uma ampla gama de possibilidades de armazenamento da informação. 
Veremos no próximo artigo porque ele tem sido considerado fundamental para o Big 
Data, e como podemos tirar partido de seu potencial.
FONTE: <https://www.devmedia.com.br/introducao-aos-bancos-de-dados-
nosql/26044>. Acesso em: 27 abr. 2021.
155
RESUMO DO TÓPICO 3
 Neste tópico, você adquiriu certos aprendizados, como:
• Os Bancos de Dados Não Relacionais utilizam a notação NoSQL (Não SQL) para se 
diferenciar do Banco de Dados Relacionais.
• Os Bancos de Dados Relacionais fazem uso das propriedades ACID em suas 
transações, enquanto os bancos de dados NoSQL utilizam o Teorema de Brewer 
(CAP).
• Os Bancos de Dados NoSQL se classificam em quatro grandes categorias com 
relação ao seu uso, sendo: bancos de dados orientados à Chave/Valor; orientados a 
Documentos; orientados a Colunas; e bancos de dados orientados a Grafos.
• O MongoDB é, nos dias de hoje, o principal banco de dados NoSQL orientado a 
documentos.
156
1 Conceitua-se que um banco de dados não relacional não segue o padrão dos bancos 
de dados tradicionais, conhecidos como SGBDR. Sobre os bancos de dados não 
relacionais, conhecidos como NoSQL, assinale a alternativas CORRETA:
a) ( ) Os bancos de dados do tipo NoSQL não podem ser indexados.
b) ( ) Os bancos de dados NoSQL são considerados banco de dados relacionais pela 
relação de suas colunas.
c) ( ) Para se trabalhar com bancos de dados NoSQL, deve ser definido um esquema 
de dados fixo antes de qualquer operação.
d) ( ) Bancos como: MongoDB, Firebird, DynamoDB, SQLite, Microsoft Access e Azure 
Table Storage são considerados Bancos NoSQL.
e) ( ) Para acessar e gerenciar os dados, os bancos de dados NoSQL usam diversos 
modelos, como documento, gráfico, chave/valor, em memória e pesquisa.
2 De acordo com Schreiner (2019, p. 9), “Os BDs NoSQL não seguem o modelo relacional 
e, para variar, não possuem um modelo de dados padrão, ou seja, cada BD NoSQL 
tem seu modelo de dados e suas especificações”. Existem vários modelos de dados 
operacionais associados ao conceito NoSQL. Assinale a alternativa que correlaciona 
corretamente os bancos NoSQL emrelação ao modelo orientado a Chave/Valor:
a) ( ) SqlServer, Redis, Memcached.
b) ( ) PostgreSql, SqlServer, Riak.
c) ( ) Riak, Redis, Memcached.
d) ( ) Riak, Memcahed, Oracle.
e) ( ) Memcached, Oracle, Riak.
3 Consistência, Disponibilidade e Tolerância à partição (do acrônimo em inglês: 
Consistency, Availability e Partition Tolerance, CAP) são os três pilares do Teorema 
de Brewer, o qual está por trás de grande parte da geração recente de pensar em 
torno da integridade transacional em sistemas distribuídos grandes e escaláveis. Em 
relação ao termo Consistência, é CORRETO afirmar que:
a) ( ) Significa leituras e gravações consistentes para que as operações simultâneas 
vejam o mesmo estado de dados válido e consistente.
b) ( ) Significa que os dados que não satisfazem restrições predefinidas não são 
persistidos.
c) ( ) Significa que o sistema de banco de dados está sempre disponível sem tempo 
de inatividade.
AUTOATIVIDADE
157
d) ( ) Significa que, mesmo que a comunicação entre diferentes nós de banco de 
dados na rede não seja confiável, tudo funciona.
e) ( ) Significa que tudo em uma transação é bem-sucedido para que não seja 
revertido.
4 Sua empresa desenvolveu um sistema que trabalha com o histórico e sessões de 
usuários, fóruns e websites de e-commerce. As codificações em uso incluem XML, 
YAML, JSON e BSON, bem como formulários binários, como documentos PDF e 
Microsoft Office (MS Word, Excel, e assim por diante). Descreva qual é o tipo de banco 
de dados NoSQL que você deve utilizar para suportar estas transações.
5 Como NoSQL geralmente se refere a qualquer DBMS que não emprega o modelo 
relacional, existem vários modelos de dados operacionais associados ao conceito 
NoSQL. Eles funcionam bem para sistemas de gerenciamento de conteúdo, softwares 
de blogs, entre outros. Esses bancos de dados NoSQL possuem uma estrutura de 
dados de dicionário que consiste em um conjunto de objetos que representam 
campos de dados. Disserte sobre o modelo de banco de dados NoSQL ao qual se 
refere o exposto.
158
REFERÊNCIAS
ABOUT Memcached. Memcached, [s.l.], c2021. Disponível em: https://memcached.org/
about. Acesso em: 27 abr. 2021.
AWS – AMAZON WEB SERVER. Tipos de computação em nuvem. AWS, [S. l.], c2021a. 
Disponível em: https://aws.amazon.com/pt/types-of-cloud-computing/. Acesso em: 
20 fev. 2021.
AWS – AMAZON WEB SERVER. O que é NoSQL? AWS, [S. l.], c2021b. Disponível em: 
https://aws.amazon.com/pt/nosql/. Acesso em: 27 abr. 2021.
BOAGLIO, F. MongoDB: construa novas aplicações com novas tecnologias. São Paulo: 
Casa do Código. 2020. 254 p.
BUYYA, R.; BROBERG, J.; GOSCINSKI, A. Cloud computing: principles and paradigms. 
New Jersey: John Wiley & Sons.
BUYYA, R.; VECCHIOLA, C.; SELVI, S. T. Mastering cloud computing: foundations 
and applications programming. Walthan: Elsevier, 2013. Disponível em: https://bit.
ly/3wd6EXH. Acesso em: 27 abr. 2021.
CALDAS, M. S.; SILVA, E. C. C. Fundamentos e aplicação do Big Data: como tratar 
informações em uma sociedade de yottabytes. Bibliotecas Universitárias: pesquisas, 
experiências e perspectivas, Belo Horizonte, v. 3, n. 1, p. 65-85, jan./jun. 2016. Disponível 
em: https://periodicos.ufmg.br/index.php/revistarbu/article/view/3086. Acesso em: 27 
abr. 2021.
CARDOSO. R. M. F. Base de dados NoSQ. Porto: Instituto Superior de Engenharia do 
Porto, 2012.
COSTA, L. H. M. K.; AMORIN, M. D.; CAMPISTA, M. E. M.; RUBINSTEIN, M. G.; FLORISSI, 
P.; DUARTE, O. C. M. B. Grandes massas de dados na nuvem: desafios e técnicas para 
inovação. In: SIMPÓSIO BRASILEIRO DE REDES DE COMPUTADORES E SISTEMAS 
DISTRIBUÍDOS, 30., 2012, Campo Grande. Anais [...]. Campo Grande: SRBC, 2012. 
Disponível em: https://www.gta.ufrj.br/ftp/gta/TechReports/CAC12.pdf. Acesso em: 27 
abr. 2021.
DE DIANA, M.; GEROSA, M. A. NOSQL na web 2.0: um estudo comparativo de bancos não 
relacionais para armazenamento de dados na web 2.0. In: WORKSHOP DE TESES E DIS-
SERTAÇÕES EM BANCO DE DADOS, 9., 2010, Belo Horizonte. Anais [...]. Belo Horizon-
te: WTDBD, 2010. Disponível em: http://200.17.137.109:8081/novobsi/Members/josino/
fundamentos-de-banco-de-dados/2012.1/sbbd_wtd_12.pdf. Acesso em: 27 abr. 2021.
159
REFERÊNCIAS DO THINGS BIG with MongoDB at Scale, MongoDB, [S. l.], c2021. Disponível em: https://www.mongodb.com/mongodb-scale. Acesso em: 17 fev. 2021.
DOCUMENTATION. Redis, [S. l.], c2021. Disponível em: https://redis.io/documentation. 
Acesso em: 27 abr. 2021.
DOCUMENTS. MongoDB, Introduction to MongoDB, [S. l.], c2021. Disponível em: https://
docs.mongodb.com/manual/core/document/. Acesso em: 27 abr. 2021.
FALCÃO, D. F. D. Uma Arquitetura de cloud computing para análise de big data 
provenientes da internet of things. 2014, 71 f. Trabalho de Conclusão de Curso 
(Graduação em Engenharia da Computação) – Universidade Federal de Pernambuco, 
Recife, 2014. Disponível em: https://www.cin.ufpe.br/~tg/2013-2/dfdf.pdf. Acesso em: 
27 abr. 2021.
GALDINO, N. Big data: ferramentas e aplicabilidade.  In: SIMPÓSIO DE EXCELÊNCIA EM 
GESTÃO E TECNOLOGIA: DESENVOLVIMENTO DE COMPETÊNCIAS FRENTE AOS DESA-
FIOS DO AMANHÃ, 13., 2016, Resende. Anais [...]. Resende: AEDB, 2016. Disponível em: 
https://www.aedb.br/seget/arquivos/artigos16/472427.pdf. Acesso em: 27 abr. 2021.
GÉCZY, P.; IZUMI, N.; HASIDA, K. Cloudsourcing: managing cloud adoption. Global 
Journal of Business Research, [S. l.], v. 6, n. 2, p. 57-70, 2012.
GONÇALVES, B; ROGÉRIO, G e MORAIS, I. S. de. Fundamentos de Big Data. Porto 
Alegre: Sagah Educação S.A., 2019.
GREGOL, R. E; SCHUTZ, F. Recursos de escalabilidade e alta disponibilidade para 
aplicações Web. Revista Eletrônica Científica Inovação e Tecnologia, Medianeira, 
v. 4, n. 7, p. 28-30, 2013.
HOWS, D.; MEMBREY, P.; PLUGGE, E. Introdução ao MongoDB. São Paulo: 
Novatec, 2019.
MAIA, D. C. M.  Arquitetura de armazenamento de dados para sistemas de 
informação geográfica voluntária utilizando banco de dados NoSQL baseado em 
documento. 2016. 110 f. Dissertação (Mestrado em Informática) – Instituto de Ciências 
Exatas, Departamento de Ciência da Computação, Universidade de Brasília, Brasília, 2016.
MANYIKA, J. et al. Big data: the next frontier for innovation, competition and 
producitivity. [s.l.]: McKinsey Global Institute, 2011. p. 1-13.
MARQUESONE. R. Big data: técnicas e tecnologias para extração de valor dos dados. 
São Paulo: Casa do Código. 2017.
160
MATA, F. G. da. Big data analytic e a tomada de decisões. Indaial: UNIASSELVI, 2019.
MYSQL 8.0 OVERVIEW. MySQL, [S. l.], c2021. Disponível em: https://www.mysql.com/
why-mysql/presentations/mysql-80-overview/. Acesso em: 27 abr. 2021.
OLIVEIRA, S. S. Bancos de dados não relacionais: um novo paradigma para 
armazenamento de dados em sistemas de ensino colaborativo. Revista Eletrônica 
da Escola de Administração Pública do Amapá, Macapá, v. 2, n. 1, p. 184-194, ago./
dez. 2014. Disponível em: https://www2.unifap.br/oliveira/2016/02/01/artigo_nosql/. 
Acesso em: 27 abr. 2021.
O QUE FAREMOS com os 40 trilhões de gigabytes de dados disponíveis em 2020? Open 
Knowledge Brasil, [S. l.], 29 set. 2017. Disponível em: https://www.ok.org.br/noticia/o-
que-faremos-com-os-40-trilhoes-de-gigabytes-de-dados-disponiveis-em-2020/. 
Acesso em: 27 abr. 2021.
RIAK TS. Riak/docs, [S. l.], c2021. Disponível em: https://docs.riak.com/riak/ts/latest/. 
Acesso em: 26 fev. 2021.
RYBERG, N. I.; FROZZA, A. A. Estudo sobre a tecnologia de banco de dados NoSQL. In: 
MOSTRA NACIONAL DE INICIAÇÃO CIENTÍFICA E TECNOLÓGICA INTERDISCIPLINAR, 8., 
2015, Sombrio. Anais [...]. Blumenau: IFC, 2015. Disponível em: http://eventos.ifc.edu.
br/micti/wp-content/uploads/sites/5/2015/10/ESTUDO-SOBRE-A-TECNOLOGIA-DE-
BANCO-DE-DADOS-NoSQL.pdf. Acesso em: 27 abr. 2021. 
SANTOS, M. A. dos. Modelo de escalonamento aplicativo para bag of tasks em 
ambientes de nuvem computacional. 2016. Dissertação (Mestrado em Ciências da 
Computação) – Universidade Federal de Pelotas, Pelotas, 2016.
SCHREINER, G. A. Banco de dados parabig data. Indaial: UNIASSELVI, 2020.
SILVA, A. T. da.  Computação em nuvem: análise dos atuais modelos. 2019. 42 f. 
Trabalho de Conclusão de Curso (Tecnólogo em Sistemas de Computação) – Instituto 
de Computação, Universidade Federal de Fluminense, Niterói, 2019.
SOUZA, E. C.; OLIVEIRA, M. R. de. Comparativo entre os bancos de dados MySQL 
e MongoDB: quando o MongoDB é indicado para o desenvolvimento de uma 
aplicação.  Revista Interface Tecnológica,  Taquaritinga, v. 16, n. 2, p. 38-48, 2019. 
Disponível em: https://revista.fatectq.edu.br/index.php/interfacetecnologica/article/
view/664. Acesso em: 27 abr. 2021.
SOUZA, V. C. O.; SANTOS, M. V. C. Amadurecimento, consolidação e performance de 
SGBDs NoSQL– estudo comparativo. In: BRAZILIAN SYMPOSIUM ON INFORMATION 
SYSTEM, 11., 2015. Goiânia. Anais [...]. Goiânia: SBC, 2015. Disponível em: https://sol.sbc.
org.br/index.php/sbsi/article/view/5822/5720. Acesso em: 27 abr. 2021.
161
WHAT IS MONGODB. MongoDB, [S. l.], c2021. Disponível em: https://www.mongodb.
com/what-is-mongodb. Acesso em: 20 fev. 2021.
WHAT’S NEW IN MYSQL 8.0. MySQL, [S. l.], c2021. Disponível em: https://www.mysql.
com/why-mysql/white-papers/whats-new-mysql-8-0/. Acesso em: 19 fev. 2021.
162
163
BIG DATA PARA NEGÓCIOS
UNIDADE 3 — 
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• compreender como o Big Data é utilizado pelas empresas que buscam obter 
vantagens competitivas;
• categorizar as fases de implementação do Big Data;
• diferenciar as fases do ciclo de vida do Big Data;
• justificar o uso do Big Data nas diversas áreas de uma empresa;
• elaborar planos de implantação do Big Data;
• definir quais são as tecnologias e ferramentas a serem utilizadas nas análises do Big 
Data;
• planejar sua carreira na área de Big Data.
Esta unidade está dividida em três tópicos. No decorrer dela, você encontrará 
autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – BIG DATA NAS ORGANIZAÇÕES
TÓPICO 2 – INOVAÇÃO E TOMADA DE DECISÃO COM BIG DATA
TÓPICO 3 – BIG DATA NA PRÁTICA
Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure 
um ambiente que facilite a concentração, assim absorverá melhor as informações.
CHAMADA
164
CONFIRA 
A TRILHA DA 
UNIDADE 3!
Acesse o 
QR Code abaixo:
165
TÓPICO 1 — 
BIG DATA NAS ORGANIZAÇÕES
UNIDADE 3
1 INTRODUÇÃO
Qualquer que seja o tamanho da organização, seja pequena, média, grande ou 
até multinacional, ela trabalha e precisa de dados para se manter no mercado. Dados que 
geram insights preciosos quando bem tratados. Trata-se de uma abordagem inovadora 
em relação a como manipular os dados, sejam eles gerados pelas organizações ou 
dados externos, disponíveis na internet.
O Big Data é considerado a junção de todos os processos e ferramentas 
relacionados para o uso e gestão de grandes quantidades de dados. 
A necessidade de entender as tendências, preferências e padrões ocultos nos 
grandes bancos fez surgir o conceito de Big Data. Com a utilização do Big Data, as or-
ganizações conseguem obter insights preciosos de seus clientes, produtos e serviços.
Usar o Big Data já pode ser considerado fator crucial para que muitas 
organizações se mantenham no mercado e superem a concorrência. 
Na economia globalizada de hoje, quando as fronteiras físicas não são mais um 
fator limitante, novos entrantes ou concorrentes utilizam as mais diversas estratégias, 
muitas delas baseadas no uso de dados, para captar novos clientes ou mesmo se manter 
no mercado.
 
O Big Data trouxe novos olhares sob a forma de análise de clientes, sendo muito 
mais objetivo que os métodos mais antigos. As organizações podem tomar suas deci-
sões baseadas em insights gerados pela enorme quantidade de dados que temos hoje. 
As organizações podem interagir diretamente com os clientes, buscando 
descobrir quais seus anseio e desejos, desta forma, direcionando seus esforços de 
captura ou retenção para este cliente. 
Nos subtópicos a seguir, iremos desbravar quais as maneiras com que as 
organizações podem fazer uso do Big Data.
166
Acadêmico, neste primeiro tópico, abordaremos como o Big Data está sendo 
utilizado pelas organizações para aumentar a captação e retenção de seus clientes, 
como as organizações criam campanhas de marketing, criam novos produtos, gerenciam 
a cadeia de suprimentos e os riscos que as envolvem.
Aproveite e bons estudos!
Preparado para ampliar seus conhecimentos? Respire e vamos em 
frente! Procure um ambiente que facilite a concentração, assim 
absorverá melhor as informações.
GIO
2 BIG DATA NAS ORGANIZAÇÕES
O desencadear das perspectivas criadas pelo conceito de vantagem competitiva 
sobre suas fontes e mecanismos gerou uma série de expectativas para as organizações 
de como obter esta vantagem, como extrair os insights que garantem a lucratividade da 
organização? No entanto, o próprio conceito de vantagem competitiva tem sido alterado 
durantes os tempos, fazendo que seja remoldado e constantemente atualizado.
Quando uma organização deseja definir suas metas, o melhor é começar pelos 
seus clientes e o mercado em que irá atuar, mercado este que deve ser definido para 
que as organizações não sejam, de certa forma, engolidas por ele. Uma vez escolhidos, 
clientes e mercado, uma boa análise deve ser usada para prever o tamanho do mercado 
e as expectativas destes clientes.
Baseadas nas análises dos clientes, as empresas podem prever como, onde, 
quando e quanto investimento será necessário para que se atinja a meta estipulada. É 
bom lembrar que um negócio deve começar nos níveis mais baixos e ir agregando até 
que se gere visualizações maiores em relação aos custos e objetivos.
Estamos vendo uma mudança sem precedentes na maneira como vivemos 
e como trabalhamos, na qual um dos principais responsáveis são os dados que nós 
estamos gerando. Isso nos faz refletir sobre o quão incrível potencial estamos gerando. 
As empresas têm a sua disposição uma gigantesca quantidade de dados oriundos de 
diversos canais, tornando um campo fértil para análises, entendimento e gerenciamento 
de forma estratégica a complexa dinâmica do comportamento dos clientes.
167
Esses dados já estão transformando a forma como as empresas trabalham e, a 
cada dia que passa, se tornarão um dos seus principais ativos para os próximos anos. 
As empresas que enxergam os dados com um ativo estratégico serão as empresas que 
irão sobreviver e prosperar no mercado. Com o crescimento da quantidade de dados 
gerados e o avanço nos métodos de análise, a importância dos dados em todos os 
aspectos dos negócios só tende a crescer.
Davenport e Dyché (2013, p. 2, tradução nossa) comentam a respeito do 
surgimento do Big Data nas organizações:
 
O Big Data entrou em cena na primeira década do século XXI, e 
as primeiras organizações a adotá-lo foram empresas on-line e 
startups. Indiscutivelmente, empresas como Google, eBay, LinkedIn 
e Facebook foram construídos em torno de Big Data desde o início. 
Eles não tinham que conciliar ou integrar Big Data com fontes mais 
tradicionais de dados e as análises realizadas sobre eles, porque eles 
não tinham essas formas tradicionais. Eles não tinham que fundir 
tecnologias de Big Data com suas infraestruturas tradicionais de 
TI porque essas infraestruturas não existiam. O Big Data pode ficar 
sozinho, o Big Data Analytics pode ser o único foco de análise, e as 
arquiteturas de tecnologia de Big Data podem ser a única arquitetura. 
As empresas podem tomar decisões baseadas nos insights gerados pelo Big 
Data, sendo estes insights mais objetivos do que os obtidos pelos métodos anteriores de 
análise. Num passado não tão distante, as empresas só conseguiam obter informações 
de seus clientes quando estes iam até suas lojas físicas. E não havia como saber o que 
queriam quando fossem agrupados num grande grupo de clientes. Isso mudou com a 
chegada do Big Data. 
Com o advento da Internet, vimos uma sériede mudanças ocorrerem, a 
globalização, o estreitamento da relação com os clientes causado pelo e-commerce, 
isso permitiu que as empresas possam se envolver diretamente com cada um dos 
seus clientes de forma on-line e determinar quais seus desejos e, assim, baseadas nos 
insights gerados, poder realizá-los.
Dado o contínuo aumento da quantidade de dados gerados, as empresas estão 
em busca de novas formas de transformá-los em informações úteis e tomar decisões 
mais assertivas procurando manter-se competitiva. 
Este crescente aumento de dados gerados principalmente pelo aumento da 
dependência da internet e do acesso às redes sociais, é um dos principais impactos que 
o Big Data tem sobre as empresas.
168
FIGURA 1 – ANÁLISE DE DADOS
FONTE: <https://bit.ly/3wP0Q68>. Acesso em: 5 jul. 2021.
Gimenez (2018, p. 8) relata que:
O crescimento do tráfego de dados ocorre de maneira exponencial. 
Muitas podem ser as fontes desses dados: navegação na web; 
mídias sociais; dados transacionais de diferentes naturezas, 
como gerenciamento de risco, consumo, financeiro, seguros, 
telecomunicações, saúde e entretenimento; dados de biometria para 
identificação e validação como reconhecimento de voz, íris, retina e 
face; dados gerados no dia a dia pelas pessoas por envio de e-mails, 
logs, blogs, relatórios, apresentações e documentos em geral e, 
finalmente, a comunicação entre dispositivos fixos e móveis que 
monitoram processos, máquinas, localizam pessoas, liberam acessos 
e contabilizam estoques.
As organizações devem estar preparadas para integrar desde pequenos a 
grandes volumes de dados, das mais variadas fontes e dos mais variados tipos, para 
produzirem insights preditivos e prescritivos, os quais irão dizer para os gestores qual a 
melhor forma de trabalhar com seus clientes.
2.1 FASES DO BIG DATA
No mundo digital, dados são elementos cruciais. Em sua vida útil, eles passam por 
várias fases à medida que são criados, utilizados, testados, manipulados e reutilizados. 
Como todo ciclo tem suas fases, o Big Data também possui fases especificas para a 
análise desse grande volume de dados. Trata-se de uma estrutura cíclica que envolve as 
fases do ciclo de vida dos dados, na qual cada etapa tem seu significado e característica.
O ciclo é iterativo para representar um projeto real. Para atender aos distintos 
requisitos na realização de análises de Big Data é necessária uma metodologia de passo 
– para organizar as atividades e tarefas envolvidas na aquisição, processamento, análise 
e redefinição de dados.
A seguir, apresentamos todas essas fases. 
169
2.1.1 Fase 1 – descoberta
O início se dá pela definição dos objetivos. Nesta fase, devemos definir os 
propósitos dos dados e como obtê-los. Aqui a equipe se concentra em aprender, 
investigar e entender os objetivos e requisitos do projeto e, em seguida, utilizar esse 
conhecimento para definir o problema a ser trabalhado. 
Nesta fase devemos mapear o uso potencial e a exigência dos dados, como e 
de onde as informações estão sendo recebidas, qual o contexto e apresentar a versão 
que queremos dar para os dados. Devemos nos preocupar também em analisar como 
a organização irá se beneficiar com estes dados, quais são os requisitos relacionados 
a eles.
No decorrer da fase de descoberta de dados, os stakeholders fazem análises 
constantes das tendências do negócio, estudam casos semelhantes para contribuir 
com o processo no geral. Uma avaliação interna é realizada a respeito dos recursos, 
infraestrutura e tecnologia a ser usada.
Além de verificar quais serão as ferramentas ou sistemas que irão utilizar para 
realizar este processo. Ainda nesta fase, junto da estruturação do problema da análise 
do contexto dos dados, outra atividade é a formulação das hipóteses inicias a serem 
elaboradas para os testes. As fases seguintes são fortemente baseadas e influenciadas 
por esta, pois os objetivos a serem atendidos serão o elo de todas as fases.
2.1.2 Fase 2 – preparação e processamento dos dados
Nesta etapa, o elemento principal de todo o processo é levado ao status máximo. 
É nesta fase que a atenção de todos esteja voltada para os dados. A pergunta a ser 
respondida aqui é: possuímos dados de qualidade para construir o modelo?
Coletar, processar e executar a limpeza dos dados são atividades que constituem 
esta etapa. É extremamente crucial que se garanta que os dados estejam disponíveis, 
sejam úteis e em quantidade certa para que sejam realizadas as próximas etapas. A fase 
da preparação se subdivide antes de seguir para o processo de construção do modelo 
a ser trabalhado:
• Identificar fontes de dados: quantos e quais tipos de dados serão acumulados. Qual a 
estrutura destes dados e quais ferramentas serão usadas para esta coleta.
• Coleta de dados: pode ser por intermédio de fontes externas, entrada manual e dados 
de dispositivos digitais, como dispositivos IoT e sistemas de controle.
170
Um dos pontos essenciais desta fase é que seja garantida a disponibilidade 
de dados para o processamento. A atenção dos especialistas muda de requisitos de 
negócio para requisitos de informação.
2.1.3 Fase 3 – planejamento do modelo
Depois de preparar os dados, deve-se determinar quais serão as técnicas, 
os métodos e o fluxo do trabalho para o desenvolvimento do modelo. Nesta fase, o 
problema dos negócios é explicitado e distribuído aos envolvidos. Geralmente se cria 
uma sandbox, ambiente isolado, para esta fase. Algumas técnicas de modelagem são 
selecionadas e aplicadas e seus parâmetros então ajustados para a obtenção dos 
valores ideias. Existem várias técnicas para o mesmo tipo de problema, desta forma, as 
vezes se faz necessário voltar à fase de preparação dos dados. Apresentamos algumas 
técnicas para carregar e estudar os dados:
• ETL (Extração, Transformação e Carregamento) transforma os dados primeiro usando 
um conjunto de regras de negócios, antes de carregá-los em uma sandbox.
• ELT (Extração, Carregamento e Transformação) primeiro carrega dados brutos na 
sandbox e depois os transforma.
• ETLT (Extração, Transformação, Carregamento, Transformação) é uma mistura; tem 
dois níveis de transformação.
Ficou interessado em saber mais a respeito de sandbox, acesse: https://
glo.bo/3r1vyrD.
DICAS
Nesta fase, as variáveis usadas para categorizar os dados são identificadas, 
são identificados e alterados os possíveis erros contidos nos dados, como: valores 
duplicados, dados inconsistentes, nulos, erros de ortografia etc. tudo para que o 
processamento dos dados seja mais eficiente e não tenha nenhuma distorção. Feita 
a limpeza dos dados, determinadas as técnicas, os métodos e o fluxo de trabalho, a 
próxima etapa é a construção do modelo.
171
2.1.4 Fase 4 – construção do modelo
É na etapa da construção do modelo que o modelo planejado é construído num 
ambiente em tempo real. Nesta fase, os analistas solidificam o processo de tomada 
de decisão com base nas informações analíticas aprofundadas. O objetivo desta etapa 
consiste em prever as decisões, personalizar as estratégias a serem adotadas para 
desenvolver o interesse personalizado dos clientes.
Nesta fase, a equipe aprimora o conjunto de dados de testes, treinamento e 
produção, além de construir e executar pormenorizadamente o modelo planejado na 
fase anterior. A equipe testa os dados e busca respostas para os objetivos traçados 
usando métodos e técnicas estatísticas, como regressão logística, árvore de decisão, 
redes neurais, dentre outras.
O modelo pode se alinhar perfeitamente aos objetivos traçados, mas, às 
vezes, requer que sejam feitas novas análise, novos processos sejam executados, 
outras técnicas utilizadas. Também se considera se suas ferramentas existentes serão 
suficientes para executar os modelos ou se precisam de ambiente mais robusto para 
executar modelos. Em determinados casos se executa as variâncias de modelos e 
técnicas até que se obtenha os resultados desejados.
2.1.5 Fase 5 – comunicação dos resultados
A comunicação é vitale envolve todas as partes interessada na construção de 
uma organização baseada em dados. Ela se torna importante para embutir a cultura dos 
dados em todos os departamentos. Nesta fase, o objetivo é verificar se os resultados 
obtidos foram um sucesso ou um fracasso. Os achados essenciais da análise são 
identificados e medidos, criando uma narrativa para transmitir esses resultados a todas 
as partes envolvidas e interessadas no processo.
2.1.6 Fase 6 – medição da eficácia
Nesta etapa, os dados são inseridos num ambiente real e passam a ser 
monitorados para que obtenha a eficácia da análise. Um relatório detalhado deve ser 
gerado com a codificação e os resultados-chave obtidos, assim como a documentação 
técnica e demais documentos criados ou gerados nas fases anteriores. Neste momento, 
os achados são comparados aos objetivos criados e, caso estejam em concordância, 
são finalizados. Já se estiverem em desacordo, retornasse à fase anterior para que 
sejam alteradas as entradas, refeito novo processamento e obtido novo resultado, 
dando sequência ao ciclo novamente. Nesta etapa, a equipe entrega relatórios finais, 
briefings, código, bem como documentos técnicos. A criação do modelo geralmente não 
é o fim da fase.
 
172
Essas fases são: descoberta, preparação e processamento dos dados, plane-
jamento do modelo, construção do modelo, comunicação dos resultados e medição 
da eficácia. A fase de descoberta de dados inclui a coleta e armazenamento de dados 
de recursos diferentes. Na fase de preparação e processamento de dados, é realizado 
o gerenciamento da confirmação se há algum item indesejado dentro dos dados ou 
valores perdidos. 
Na fase de planejamento do modelo, são definidas as técnicas que irão ser uti-
lizadas para extração dos resultados. Na fase de construção do modelo, então os dados 
são trabalhados num ambiente real. Na fase de comunicação dos resultados, os resul-
tados são apresentados aos interessados no processo. Finalmente, na fase de medição 
da eficácia é feita a confrontação entre os resultados e os objetivos criados e, caso haja 
divergências, uma nova rodada se inicia. Essas fases são retratadas na Figura 2.
FIGURA 2 – CICLO DE VIDA BIG DATA
FONTE: O autor
A figura omite as setas que mostram os muitos loops de feedback no ciclo de 
vida dos dados. Inevitavelmente, depois de apresentar algumas observações ao usuário 
com base nos dados gerados, o usuário faz novas perguntas e essas perguntas exigem 
coletar mais dados ou fazer mais análises.
O ciclo de vida da análise de dados no Big Data consiste num processo circular 
de seis etapas básicas, as quais definem como os dados são coletados, processados, 
usados e analisados para o objetivo de negócios. Todavia, a ambiguidade de se ter um 
conjunto padrão de fases para a arquitetura de análise de dados deixa os especialistas 
em dados atormentados ao trabalharem com as informações, porém, trata-se do 
primeiro passo para estruturar um objetivo e elaborar as estratégias para alcançá-lo.
173
2.2 COMO AS EMPRESAS USAM BIG DATA PARA CAPTAR E 
RETER SEUS CLIENTES?
É fato que não existe empresa sem cliente! Como captar e, ainda mais importante, 
como manter esses clientes, é fundamental para qualquer empresa. O Big Data pode ser 
um excelente aliado para resolver esta situação, pois permite que as empresas façam 
uma análise e observem as tendências dos clientes para depois comercializarem seus 
produtos sempre com o foco nos seus clientes. 
Um dos ativos mais importantes de qualquer negócio é o cliente. Não se tem 
notícia de que um negócio seja de sucesso sem que antes tenha estabelecido uma 
relação de base sólida com os clientes, porém, mesmo com esta base sólida de clientes, 
a empresa não pode se dar ao luxo de não levar em consideração a concorrência e 
novos entrantes.
A utilização do Big Data possibilita às empresas observarem diversos padrões e 
tendências atreladas aos clientes. O comportamento dos clientes é de suma importância 
para que este seja fidelizado e seja leal à empresa. Com os mecanismos corretos de 
análise de dados dos clientes, as empresas têm a capacidade de obterem insights 
preciosos do comportamento de seus clientes e, assim, podem criar estratégias para 
manter e ampliar sua base de clientes.
A tomada de decisão é considerada um processo complexo, haja vista não se 
tratar de ser simplesmente racional, envolve fatores como a intuição, o sentimento 
e experiências anteriores dos tomadores de decisão, sendo de forma consciente ou 
mesmo inconsciente.
FIGURA 3 – INTERAÇÃO BIG DATA SUCESSO EMPRESARIAL
FONTE: <https://bit.ly/3wUgq0g>. Acesso em: 5 jul. 2021.
BIG DATA
174
Sugi (2017, p. 11, grifos do original) destaca que:
Porém, para se manter competitiva a empresa não pode se 
estagnar e deve estar sempre à procura de uma melhoria contínua 
visando atender as expectativas de seus clientes e stakeholders. 
Devido a esta necessidade de desenvolvimento constante, diversas 
tecnologias e processos vêm sendo desenvolvidos, como por 
exemplo, o uso de robótica em montadoras, de processos cada 
vez mais computadorizados e de uso de dados para tomadas de 
decisões, tanto internas como externas. Este uso de tecnologias 
como robótica, sistemas cyber-físicos, internet das coisas, Big Data 
está configurando a chamada Indústria 4.0 ou Quarta Revolução 
Industrial.
Fazendo uso das análises preditivas do Big Data, as empresas poderão prever 
quem são seus clientes, quais são suas tendências de compra, se estão passando 
por problemas com os produtos. Quanto mais dados as empresas tiverem sob seus 
clientes, mais precisa serão as respostas oriundas das análises, mais assertivo será seu 
gerenciamento de relacionamento com seus clientes.
Uma das maneiras de conhecer seus clientes era ouvindo-os diretamente por 
intermédio de grupos focais e pesquisas direcionadas, mas este tipo de abordagem não 
pode ser aplicado a cada cliente individualmente, pois levam tempo demasiado e são 
relativamente caras para serem feitas regularmente. Mechis (2017, p. 23) destaca que:
Atualmente, ocorrem enormes mudanças socioeconômicas, onde a 
tecnologia e a conectividade se mostram como dois grandes agentes 
causadores nesta quebra de paradigma. E as empresas, para se 
adequarem a esta nova realidade, estão cada vez mais lançando 
mão da tecnologia para melhorar o desempenho, aumentar o 
alcance e garantir resultados melhores. A isto dá-se a denominação 
de transformação digital – uma mudança na estrutura social e 
corporativa onde a tecnologia exerce papel essencial.
Os dados gerados ou pertencentes aos clientes são de riqueza inestimável, 
as análises têm se apresentado capazes de ter um conhecimento muito detalhado 
do indivíduo. Neste conhecimento mais aprofundado dos clientes, está inclusa a 
propensão de determinados clientes adquirirem seus produtos, aderirem a sua marca. 
Estão presentes, também, a possibilidade de saber se seu cliente é fiel ou 
esporádico, quanto ele compra de você e de seus concorrentes, isto tudo pode levar 
a uma segmentação multidimensional e identificar personas de segmento. A partir 
destas personas as empresas podem elaborar suas estratégias para melhor atender o 
segmento, aumentando a satisfação e possível lealdade destes clientes.
O entendimento dos insights de comportamento dos clientes permite que as 
empresas sejam capazes de entregar mais do que simplesmente os clientes querem, 
criando, assim, uma relação de certa dependência dos clientes com as empresas.
175
Se interessou em saber como o Big Data ajuda na retenção de clientes? 
Leia o artigo de Daniel Lázaro, disponível em: https://bit.ly/2Ul4ze9.
DICAS
2.2.1 Transformando dados em decisões
As organizações começaram a investir significativamente em pesquisa e análise 
de dados com objetivo de conseguirem insights e, a partir dos dados, transformá-
los em decisões que as tornem mais competitivas, melhorando seus processos e 
consequentemente os seus resultados se tornam mais rentáveis.
Na conjuntura datomada de decisões, o primeiro elemento a se pensar é a 
identificação das prioridades de sua organização e elaboração das perguntas que irão 
nortear a sua busca pelos insights. Perguntas como: de que forma podemos aumentar 
o volume de vendas? Como podemos atrair mais clientes? E como manter os clientes 
que já possuímos?
O Big Data fornece às empresas a capacidade de incrementar uma considerável 
variedade de fontes de dados em tempo real. Isso possibilita aumentar a interação entre 
a empresa e o cliente, uma vez que as interações se tornam mais eficazes e melhores 
propostas podem ser conduzidas, fatos que acabam levando as empresas a alcançarem 
um relacionamento mais duradouro e, por consequência, mais lucrativo. As soluções 
avançadas do Big Data disponibilizam perfis completos de clientes, o que decorrem em 
experiências mais personalizadas para os clientes em cada instante que interage com 
a empresa.
FIGURA 4 – TRANSFORMANDO DADOS EM INSIGHTS
FONTE: <https://hbs.me/2Wa6gfz>. Acesso em: 5 jul. 2021.
176
Uma ampla variedade de ferramentas para análise de dados está disponível 
para as empresas. Assim como outras ferramentas de análise de negócios, ferramentas 
de análise de dados devem ser implantadas de forma adequada, para que os resultados 
sejam no mínimo satisfatórios. Ou seja, a eficácia dessas ferramentas não depende 
somente delas, mas sim de quão bem elas se enquadram no domínio do problema e de 
quanto elas podem fornecer às empresas para enfrentar a concorrência.
A responsabilidade em determinar qual estratégia de análise de dados cabe 
aos executivos e gestores que estão familiarizados com os desafios organizacionais 
internos e externos. Para isso, estes gestores têm como premissa básica a compreensão 
e entendimento dos fundamentos de análise de dados e seus aplicativos, com intuito de 
integrá-los nos processos de negócios existentes na empresa.
Esse entendimento e compreensão permite que os gestores façam as perguntas 
certas e identifiquem as técnicas corretas de análise de dados que irão fornecer soluções 
e insights preciosos para a condução das estratégias determinadas pela empresa. O uso 
de forma inteligente do Big Data nas empresas permite que se tomem decisões com 
base em dados e que se responda prontamente ao desenvolvimento do mercado.
2.3 O BIG DATA NO MARKETING
Considerado um dos melhores exemplos de uso do Big Data, o marketing tem 
informações valiosas de seus atuais e futuros clientes. O Big Data auxilia as empresas 
a entender como agilizar os importantes processos de fluxo de trabalho, além de ajudar 
as equipes de marketing a evoluírem nas análises. Costa, Costa e Conrado (2020, p. 2, 
grifo do original) destacam que:
As técnicas de Big Data podem proporcionar melhores resultados 
a uma organização. Através da obtenção e análise de informações 
sobre múltiplos consumidores é possível potencializar a oferta de 
produtos e serviços de modo cada vez mais “individualizado” para 
que o consumidor receba contato ofertando algo que realmente 
ele demanda, tais ações irão resultar em um maior engajamento 
com a marca.
O marketing tem papel de alta importância no sucesso de qualquer que seja o 
negócio, que ofereça um relacionamento entre o cliente e a empresa. É por isso que é 
muito importante ter estratégias de marketing bem definidas, para entender o mercado, 
os concorrentes, os clientes e tudo que se refere a vendas.
177
FIGURA 5 – FIDELIZAÇÃO DE CLIENTES
FONTE: <https://bit.ly/3zcgABQ>. Acesso em: 5 jul. 2021.
Saber se os esforços de marketing continuam sendo direcionados efetivamente 
para os clientes certos continua sendo uma das principais perguntas feitas pelos 
profissionais de marketing. Baseados nas análises dos clientes, os profissionais de 
marketing podem compreender melhor a heterogeneidade de sua base de clientes e, 
assim, responder as necessidades específicas de cada cliente, dessa forma, permitindo 
um direcionamento mais assertivo das ações de marketing e, como consequência, 
obtendo um melhor desempenho para a empresa.
Especialistas em marketing podem fazer uso das análises do Big Data de 
diferentes maneiras, e, para isso, eles têm que identificar o que querem alcançar a partir 
da análise do Big Data. Assim, eles podem tirar proveito da visão com base em seus 
requisitos. Uma estratégia perfeita com Big Data certamente ajudará os profissionais de 
marketing a moldar melhores planos de marketing.
O Big Data está mudando de forma impressionante o marketing e seus desdo-
bramentos, de maneira que antes eram consideradas inalcançáveis. Os especialistas 
em marketing têm a seu favor ferramentas e know-how para lançar esforços de marke-
ting de Big Data altamente eficazes, habilitados pela tecnologia em nuvem que nos 
permite fazê-lo de forma rápida e relativamente fácil a um custo razoável.
2.4 BIG DATA E GERENCIAMENTO DE RISCOS
A implementação do Big Data nos esforços de gerenciamento de riscos por 
parte das empresas as torna mais capazes de identificar possíveis riscos que possam 
atormentá-las. 
178
O Big Data alterou de forma drástica o contexto dos negócios e da gestão de 
riscos, com acesso ilimitado a informações de potenciais clientes e comportamento 
do usuário, as empresas estão usando análises para melhorar suas práticas de 
gerenciamento de riscos de maneiras mais avançadas do que nunca.
O Big Data pode ser utilizado para coletar e analisar uma vasta quantidade de 
dados, sejam internos ou externos, disponíveis nos mais variados locais e das mais 
variadas formas. Estes dados podem auxiliar no desenvolvimento de modelos de 
gerenciamento de riscos de curto e longo prazo.
Segundo o Blog Academia em (AFINAL [...], 2017, s.p.):
[...] assim como o  Big Data pode ser utilizado em ferramentas de 
gestão  do perfil comportamental de cliente, voltado a ações de 
marketing e planejamento estratégico, ele também pode ser usado 
para medir possíveis graus de inadimplência entre tais perfis e definir 
qual é o índice de risco com o qual uma Instituição financeira pode 
atuar no mercado.
FIGURA 6 – POSSÍVEIS FRAUDES ELETRÔNICAS
FONTE: <https://bit.ly/3zmiDmM>. Acesso em: 5 jul. 2021.
A seguir, apresentamos algumas possibilidades de uso do Big Data no 
gerenciamento de riscos:
• Prevenção de fraudes: o Big Data tem sido adotado por grandes corporações 
financeiras para a detecção e evitar fraudes em seus sistemas. O grande volume 
de dados é obtido pela integração dos sistemas aos órgãos reguladores, o que 
permite uma análise em que as discrepâncias e comportamentos incomuns indicam 
possibilidade de fraudes.
http://blog.academiain1.com.br/analise-de-dados-e-carreira-por-que-ter-o-dominio-das-ferramentas/?utm_source=blog&utm_campaign=rc_blogpost
http://blog.academiain1.com.br/analise-de-dados-e-carreira-por-que-ter-o-dominio-das-ferramentas/?utm_source=blog&utm_campaign=rc_blogpost
179
2.5 BIG DATA E A CADEIA DE SUPRIMENTOS
Podemos dizer que todas as atividades da cadeia de suprimentos estão sendo 
impactadas pelo Big Data, indo desde a melhora nos prazos de entrega até a identificação 
das maneiras para redução do hiato entre fabricantes e fornecedores. Diversos relatórios 
de análises possibilitam os tomadores de decisão alcançarem eficiência operacional e 
monitorarem o desempenho na busca pela melhor produtividade.
• Avaliação de potenciais locais de negócios: o Big Data ajuda na identificação de 
tendências emergentes e existentes entre os consumidores. O monitoramento 
do comportamento dos clientes pode mostrar rapidamente descontentamento e 
reclamações que influenciarão diretamente no seu processo de tomada de decisão.
• Auxílio na gestão de crédito: seja para conseguir crédito ou concedê-lo. Os padrões 
de pagamento, compras on-line, renovações de créditos, podem ser facilmente 
analisados e utilizados para conceder ou não crédito aos clientes. Antes de emitir 
qualquer empréstimo a um cliente, as instituições financeiras avaliam a capacidade 
do indivíduo de pagar.
• Riscos operacionais:pode haver muitos riscos operacionais que uma empresa pode 
ser vítima. O Big Data, porém, oferece mais controle e conhecimento das interações 
que a empresa tem com seus clientes, melhorando assim a segurança.
Em geral, o Big Data tem evoluído muito na gestão de riscos para as empresas 
e à medida que mais empresas utilizam, mais consistente e confiável vai se tornando, 
criando mais oportunidades para as empresas e para seus clientes.
FIGURA 7 – BIG DATA NA CADEIA DE SUPRIMENTOS
FONTE: <https://bit.ly/2UZ1hNZ>. Acesso em: 5 jul. 2021.
180
As análises do Big Data tronaram-se incontestáveis para os gestores da área 
em todos os setores. O uso de aplicativos de análise que podem oferecer vantagem 
competitiva se manifestam o temor das tomadas de decisão na cadeia de suprimentos, 
indo desde o marketing até a otimização dos estoques em centros de distribuição e até 
na logística reversa. Isto vem ao encontro de Montoya (2020, p. 18), que conclui que:
Aplicando esse tipo de tecnologia, além da incorporação de novas 
tecnologias, o resultado será um aumento de produtividade, 
otimização de custos, redução de tempo e, em última instância, uma 
melhoria na qualidade do produto ou serviço que está diretamente 
relacionada à satisfação do cliente durante sua experiência de 
compra. Aos poucos, os profissionais da área e organizações estão 
aprendendo a integrar sistemas e a tomar decisões com base em 
todos os dados de que dispomos, mesmo durante a pandemia.
A análise do Big Data é uma junção de ferramentas, sistemas de processamento 
e algoritmos que auxiliam na interpretação e criação de insights a partir de dados. 
O Supply Chain Management (SCM) conta com o ERP e outros sistemas para o 
armazenamento de dados. 
O Big Data está transformando a forma com que as empresas trabalham. A 
digitalização está em toda parte na indústria da cadeia de suprimentos, sistemas de 
RFID, IoT entre outras tecnologias, e, portanto, tornou-se vital que as mais recentes 
tecnologias e processos sejam implementados em operações, em outras palavras, as 
empresas correm o risco de se tornarem obsoletas.
O processo de análise de dados está evoluindo. Ele irá acelerar os processos 
disponibilizando análises em tempo real para soluções como: preços dinâmicos, 
roteamento de frotas, reposição de estoques. Apesar das tecnologias apresentarem 
grande promessa no fornecimento de insights e análises mais aprofundadas, haverá a 
necessidade do julgamento humano.
Os dados precisam de contexto e interpretação. Muitas vezes há variáveis em 
jogo que só os humanos podem entender. Além disso, a análise de dados precisa de 
pessoas que tenham uma compreensão de como os modelos funcionam, para que 
possam estabelecer quais informações são úteis. Eles também são necessários para 
fornecer uma dimensão ética e moral para a tomada de decisões, o que os dados 
sozinhos não podem fazer.
Os benefícios da análise de Big Data podem ser notáveis, especialmente a 
capacidade de entender tendências em tempo real e manter as linhas de comunicação 
abertas. Big Data é factual, então não há espaço para erros ou discrepâncias. Como 
também é baseado em uma variedade de fontes, ele dá uma visão mais ampla de todo 
o processo, o que pode ajudar a garantir que o processo de cadeia de suprimentos 
funcione da forma mais suave possível. As empresas que introduzirem Big Data em sua 
gestão da cadeia de suprimentos poderão transformar seu processo.
181
RESUMO DO TÓPICO 1
 Neste tópico, você adquiriu certos aprendizados, como:
• Independentemente do tamanho das empresas, o uso do Big Data pode proporcionar 
vantagem competitiva e tornar as empresas mais valiosas.
• O Big Data produz insights preciosos de como lidar com os clientes, podendo oferecer 
a eles produtos e/ou serviços mais personalizados.
• Existem fases do Big Data que servem para nortear o seu processo de implantação 
nas empresas.
• As empresas estão utilizando o Big Data não somente para a captação, mas também 
para manter os clientes que possui.
• As empresas utilizam o Big Data nos diversos setores como: marketing, gestão de 
riscos, prevenção de fraudes e cadeia de suprimentos.
182
1 O Big Data geralmente inclui conjuntos de dados com tamanhos além da capacidade 
de ferramentas de software comumente usadas para capturar, curar, gerenciar e 
processar dados dentro de um tempo tolerável decorrido. Qual é a melhor prática 
recomendada para o gerenciamento de programas de análise de Big Data?
a) ( ) Adotando ferramentas de análise de dados com base em uma lista de suas 
capacidades.
b) ( ) Adotando totalmente ideias antigas relacionadas à gestão de dados.
c) ( ) Focando em metas de negócios e como usar tecnologias de análise de Big Data 
para atendê-las.
d) ( ) Utilizando ferramentas de banco de dados tradicionais, pois já estão 
consolidadas.
e) ( ) Utilizando somente dados oriundos dos sistemas internos da empresa, uma vez 
que são dados mais confiáveis.
2 Big Data é um termo em evolução que descreve um grande volume de dados 
estruturados, não estruturados e semiestruturados que tem o potencial para ser 
extraído de informação e utilizados em projetos de aprendizado de máquina e 
outros. As empresas que têm grandes quantidades de informações armazenadas em 
sistemas diferentes devem começar um projeto de análise de Big Data considerando:
a) ( ) A criação de um plano para a escolha e implementação de tecnologias de 
infraestrutura de Big Data.
b) ( ) A inter-relação dos dados e a quantidade de trabalho de desenvolvimento que 
será necessária para conectar várias fontes de dados.
c) ( ) A capacidade dos fornecedores de business intelligence e análise de ajudá-los 
a responder a perguntas de negócios em ambientes de Big Data.
d) ( ) A análise dos dados que estão retendo e avaliar como estão sendo usados. 
e) ( ) As ferramentas de análise de dados tradicionais que integram dados internos.
3 É um termo aplicado a um conjunto de dados que excede a capacidade de 
processamento dos sistemas convencionais de banco de dados, ou não se 
encaixa nos requisitos estruturais da arquitetura tradicional do banco de dados. 
a) ( ) Big Data.
b) ( ) Data Warehouse.
c) ( ) Business Analytics.
d) ( ) Database.
e) ( ) Data Mining.
AUTOATIVIDADE
183
4 A análise de Big Data examina grandes quantidades de dados para descobrir padrões 
ocultos, correlações e outros insights. Com a tecnologia de hoje, é possível analisar 
seus dados e obter respostas quase imediatamente – um esforço mais lento e menos 
eficiente com soluções de business intelligence mais tradicionais. Disserte sobre o 
conceito de Big Data nas empresas.
5 A análise de dados lida principalmente com a coleta, inspeção, limpeza, transfor-
mação e modelagem de dados para obter alguns insights valiosos e apoiar a melhor 
tomada de decisão em uma organização. Disserte sobre as etapas do ciclo de vida 
do Big Data.
184
185
INOVAÇÃO E TOMADA DE DECISÃO 
COM BIG DATA
1 INTRODUÇÃO
Os dispositivos conectados, os wearebles, sensores de IoT, já deixaram de ser 
tendência e estão cada vez mais presentes em nossa realidade. Estes equipamentos têm 
gerado um grande volume de dados nunca vista antes. E esta quantidade de dados aliada 
às novas práticas de análise de dados fazem do Big Data um campo em franca expansão.
Essas novas práticas de análise de informações e tomadas de decisões baseadas 
em dados podem ser vantajosas para o processo de inovação adotado pelas empresas. A 
análise dos padrões de consumo ou de sentimentos de redes sociais, podem, por exemplo, 
auxiliar as empresas no desenvolvimento de novos produtos, ajudar na detecção de 
defeitos e na subsequente melhoria dos produtos existentes. 
Perguntas importantes vêm sendo colocadas em pauta pelos gestores: como o 
Big Data pode ser usado para melhorar o desempenho de suas empresas? De que forma 
as análises resultados do Big Data podem influenciar na inovação? Como reduzir os custos 
dos processos de inovação utilizando oBig Data?
As informações resultantes das análises do Big Data deverão diminuir as barreiras, 
quebrar os bloqueios na experiência de entrada de um novo produto, seja ele para qualquer 
que seja o setor. As novas tecnologias mudarão principalmente a natureza da organização 
no quesito inovação na produção, levando as empresas a novos patamares.
Conforme a capacidade de análise e armazenamento de dados aumenta, as 
empresas veem o interesse em seguir nas pesquisas e utilização do Big Data, uma vez 
que agora a maneira de desenvolver produtos está cada vez mais contando com a análise 
dos resultados obtidos pelo Big Data. O Big Data vem sendo anunciado como sendo o 
próximo grande passo das empresas para obterem vantagem competitiva.
Um dos grandes potenciais do Big Data é a geração e valores para as empresas. 
O avanço das tecnologias e ferramentas de análises está gerando um novo ecossistema 
repleto de oportunidades para inovação. 
UNIDADE 3 TÓPICO 2 - 
186
Diante do aumento da quantidade de dados disponíveis para análises, as 
organizações estão sendo desafiadas a criarem novos contextos para seus produtos ou 
serviços, baseadas nas perguntas certas que fazem na análise dos dados. 
Neste tópico, iremos abordar o impacto do uso do Big Data na inovação e nas 
tomadas de decisões, como transformar grandes quantidades de dados em informações 
que fornecem aos gestores os insights certos para a tomada de decisões, qual a relação 
do Big Data com a inovação, o que de novo ele pode trazer para as organizações?
2 BIG DATA E INOVAÇÃO NAS EMPRESAS
Mesmo diante de todos os desafios aderentes ao Big Data, uma expectativa 
largamente dividida é que as mudanças contínuas na forma como os dados estão sendo 
gerados e sendo relevantes para as empresas, podem incrementar o valor dos negócios 
destas empresas pelo uso consciente e rentável dos dados. 
Em resposta às mudanças na procura e nas oportunidades que os clientes têm 
gerado mediante ao uso da tecnologia e pelas mudanças do mercado, as organizações 
precisam investir em inovação (BAREGHEH; ROWLEY; SAMBROOK, 2009). 
Embora o Business Analytics (BA) seja cada vez mais utilizado pelas empresas, 
ainda há uma carência na teoria que faça a vinculação das análises à inovação, e, 
como consequência, uma orientação que seja prática para os gestores e tomadores de 
decisões. Novas técnicas de análise de informações e tomada de decisões baseadas em 
dados podem ser vantajosas para as empresas em seus processos de inovação.
Não obstante ao discurso de que o BA pode aperfeiçoar a inovação por 
intermédio da diferenciação de produtos e/ou serviços com o uso do Big Data, ainda 
existe a necessidade de comprovação científica que faça a ligação do Business 
Analytics e a inovação (STUBBS, 2014). Todavia, com os avanços do Business Analytics 
na era do Big Data, vislumbram-se oportunidades nunca vistas anteriormente para que 
as empresas inovem. Com os insights resultantes do Big Data, as empresas são capazes 
de desenvolver novos produtos e/ou aprimorar seus serviços.
O Business Analytics e a análise do Big Data carregam muitas semelhanças, 
mas são conceitos distintos com algumas diferenças fundamentais. Enquanto o 
Business Analytics se concentra principalmente em estatísticas operacionais e 
análises internas, a análise de Big Data contextualiza os dados operacionais no escopo 
muito maior dos dados da indústria e do mercado.
187
FIGURA 8 – USO DO BIG DATA NA INOVAÇÃO
FONTE: <https://bit.ly/3xVOomx>. Acesso em: 5 jul. 2021.
O Business Analytics tem como métrica central a análise financeira e operacional 
do negócio, enquanto a análise do Big Data se concentra em uma gama maior de dados 
oriundos das mais diferentes fontes e seus insights ajudam os gestores/tomadores de 
decisões.
Outro fato a ser levado em consideração é que o Big Data envolve a automação 
e análise de negócios, deixando para os gestores o olhar para os dados e a inferência, 
sendo que grande parte do processo de análise é realizado pelas máquinas. 
Seja uma startup ou uma grande empresa multinacional, todas elas precisam 
tirar proveito dos dados para inovação e crescimento de seus negócios. As práticas de 
análise do Business Analytics e do Big Data dividem um objetivo comum de otimizar os 
dados para melhorar a eficiência e fazer com que as empresas obtenham vantagens 
competitivas. 
Qualquer que seja a decisão a ser tomada, os dados são a base para isso. 
Nenhuma decisão ou ação empresarial é tomada hoje sem a análise de dados. No atual 
cenário, as empresas têm a necessidade de extrair insights preciosos e tirar o maior 
proveito de cada interação realizada com os seus clientes. 
2.1 BIG DATA E OS SISTEMAS DE INFORMAÇÃO
O crescimento da internet e suas diversas mídias, a proliferação dos disposi-
tivos móveis, da rede de sensores, aliados à redução nos custos das tecnologias de 
armazenamento e dos equipamentos de computação, levou ao surgimento de um 
quase onipresente registro digital, que tem sido denominado Big Data.
188
Enquanto os processos de negócios estão se tornando grandes diferenciais 
para as empresas nos mais variados setores, as empresas estão cada vez mais 
aproveitando os insights gerados pelas análises do Big Data para gerar e obter valores 
destes processos (DAVENPORT, 2006).
Como consequência, as empresas estão olhando para os dados como um dos 
seus principais ativos dos negócios primários. Nos arranjos organizacionais, a tarefa da 
área de Tecnologia da Informação (TI) é de gerenciar e integrar dados com objetivo de 
facilitar os processos de negócios orientados por dados e colaborar nas tomadas de de-
cisões. O advento do Big Data tornou a TI ainda mais relevante no contexto empresarial.
Diversas empresas estão implementando e integrando o Big Data aos seus 
sistemas de informação, baseadas nas suas necessidades organizacionais. Esses 
sistemas de informação e a natureza dos problemas aos quais se destinam a resolver 
refletem o tipo de estrutura organizacional. Os sistemas de informação ergueram-se 
de acordo com os requisitos das empresas que se baseiam no que as empresas fazem, 
com elas fazem e em seus objetivos organizacionais.
FIGURA 9 – INTEGRAÇÃO DE BIG DATA E SI
FONTE: <https://bit.ly/36PRmwX>. Acesso em: 5 jul. 2021.
Os sistemas de informação são processos organizados para os regulamentos 
da empresa limitados pelos limites da empresa. Esses limites exprimem a relação entre 
seus sistemas e seu ambiente (organizacional). Os sistemas de informação reúnem 
e redistribuem os dados dentro das suas operações internas da empresa e de seu 
ambiente utilizando três procedimentos básicos: entrada, processamento e saída das 
informações (LAUDON; LAUDON, 2014).
189
No meio das empresas e dos sistemas de informação encontram-se os processos 
de negócios, tarefas relacionadas logicamente com regras formais para a realização 
de um determinado trabalho. Dentro de uma perspectiva futura, torna-se quase que 
inseparável a integração do Big Data e os Sistemas de Informações Gerenciais junto 
com suas tecnologias. 
As empresas estão em constante evolução e cada vez mais exigindo de seus 
Sistemas de Informações Gerenciais (SIG). Elas não estão mais satisfeitas somente com 
relatórios padronizados e demorados, elas estão demandando acessos mais rápidos e 
difundidos às informações a respeito das quais irão se basear para a tomada de decisões. 
Esta mudança está forçando para que se tenha tecnologia que sustente estas soluções. 
Mata (2019, p. 99) destaca que:
Por intermédio da integração, os gestores podem passar a ter 
informações agregadas de todos os segmentos da empresa. Assim, é 
possível utilizar informações de fluxos de caixa, balancete patrimonial, 
total de vendas e estratégias de marketing para tomar decisões mais 
consistentes e embasadas. Eventualmente, são incrementadas 
informações externas – como situação do mercado financeiro em 
um dado momento ou avaliação de posts em uma página que a 
empresa possui no Facebook para aperfeiçoarou ampliar o escopo 
das análises de Big Data.
Estamos presenciando um número crescente de estudos acadêmicos e 
científicos de projetos de Big Data, mas o que se observa ainda é que se têm poucos 
padrões ou diretrizes que sejam amplamente aceitas para que os desenvolvedores 
implementem seus projetos de Big Data. Destacamos que não é por falta de material, pois 
os fabricantes têm publicado muito material sobre Big Data, mas sim por consistência 
das pesquisas que estão sendo realizadas.
Sugerimos a leitura do Capítulo 3 do livro Big Data Analytic e a tomada 
de decisões, do professor Fernando Gama da Mata, para uma melhor 
compreensão da implementação do Big Data Analytic no processo de 
tomada de decisão. Acesse o livro em nossa Biblioteca virtual, no endereço: 
https://bibliotecavirtual.uniasselvi.com.br/livros/livro/36267.
DICAS
190
2.1.1 Implementação de Sistemas de Big Data em 
Organizações
Procurando novas maneiras de melhorar a eficiência de seus processos, as 
empresas estão em busca de novas alternativas, dentre as quais o Big Data e suas 
soluções. Todavia, essas oportunidades enfrentam uma série de desafios, que vão desde 
o planejamento até a implantação final e colheita de seus resultados.
Muitas vezes este processo de implantação de tecnologias associadas ao Big 
Data falha de forma drástica, com orçamento e prazos estourados, não atendendo as 
expectativas iniciais do negócio. Para que haja uma garantia no lançamento de um 
projeto de implantação do Big Data, as equipes devem abordar questões urgentes da 
sua implantação e seguir algumas práticas já estabelecidas. Existem muitas maneiras de 
incorporar o processo de Big Data nas operações da sua empresa. Vamos ver algumas 
delas a seguir.
• Entendendo os requisitos de negócios
Para a implantação do Big Data as empresas precisam primeiro definir uma 
estratégia bem clara e definida com seus objetivos de negócios. Esta estratégia pode 
incluir a melhora na eficiência operacional, dar impulso nas campanhas de marketing, 
realizar análises para prever ou combater fraudes e mitigar a perda de clientes. 
Investigar e compreender os requisitos de negócios e os objetivos da empresa 
são os primeiros passos a serem realizados, mesmo antes de tirar proveito das análises 
do Big Data em seus projetos. Os envolvidos no projeto devem entender muito bem 
quais são os projetos em suas empresas devem utilizar o Big Data procurando obter o 
maior lucro.
• Definindo os ativos digitais coletados
Gerir os ativos digitais consiste em monitorar e administrar os ativos de forma 
sistemática e é usada para o aumento da produtividade e como consequência um 
ROI maior. Muito utilizada, a gestão dos ativos normalmente se refere a aplicações 
financeiras, mas está cada vez mais sendo utilizada para a gestão dos ativos digitais e 
seus conteúdos.
A gestão dos ativos digitais lhe permite que mantenha o controle de seus ativos, 
informando onde, como e por quem estão sendo utilizados e se facilita a manutenção 
no caso de ter que recuperá-los. Garante também que se esteja trabalhando com 
informações atualizadas e confiáveis. 
 
O segundo passo, então, é a inserção dos dados (feeds sociais, perfis de usuários 
e quaisquer outros dados necessários para tornar os resultados relevantes para a 
análise) e dar início ao processo de reunião, interpretação e entendimento dos dados.
191
• Verificar o que está faltando
A terceira etapa consiste em analisar e entender o que está faltando. Depois 
de coletados os dados necessários, deve-se identificar as necessidades adicionais 
necessárias para o projeto e de onde estas podem vir. Nesta etapa, verifica-se se não 
está faltando numa informação, se sim, de onde ela poderá ser extraída.
• Interpretar as análises que devem ser utilizadas
Após coletar e analisar dados de diferentes fontes, a empresa precisa 
compreender quais as tecnologias do Big Data, como análises descritivas, preditivas, 
prescritivas, de diagnósticos, detecção de fraudes ou análise de sentimentos e assim 
por diante, podem ser melhor utilizadas para atender os requisitos atuais de negócio.
FIGURA 10 – BIG DATA E SISTEMAS DE INFORMAÇÃO GERENCIAL
FONTE: O autor
Os Sistemas de Informação Gerencial coletam e redistribuem dados dentro 
dos trabalhos internos das empresas, baseados nos processamentos básicos e já 
conhecidos de entrada, processamento e geração da informação. Entre a organização 
e os sistemas estão os “processos de negócios” – tarefas logicamente relacionadas 
a regras formais para realizar um trabalho específico que precisa coordenar toda a 
hierarquia da organização. 
192
No mundo dos negócios, técnicas e gestão inovadoras são consideradas 
essenciais, pois dão às empresas vantagem competitiva para que tenham acesso a 
novos mercados. A Indústria 4.0 é também chamada de indústria baseada em dados. 
A inovação com base em dados auxilia as empresas a entender melhor seu entorno, 
facilitando a resolução de problemas antes considerados complexos e a tomar decisões 
mais assertivas. Com os avanços nas tecnologias dos dados, nossa compreensão a 
respeito deles está mudando radicalmente. 
Conforme o Big Data modifica as fontes e os tipos de informações à disposição 
dos tomadores de decisão nas empresas, espera-se um impacto positivo nas metodo-
logias já delineadas de tomada de decisão e ampliem as estratégias de análise que tra-
dicionalmente são baseadas em dados para obter o melhor desempenho das empresas.
2.2 BIG DATA E SEUS TIPOS DE ANÁLISES
Considerada uma etapa vital para o gerenciamento de qualquer negócio, a 
análise de dados, quando utiliza dados de forma eficaz, orienta os tomadores de decisão 
a uma melhor compreensão do desempenho organizacional. Há diversas maneiras 
como os dados podem ser utilizados, em todas as fases, setores e níveis de operação 
de uma empresa. 
Na era do Big Data, os diferentes tipos de análises estão dando impulso à 
inteligência de negócios e para se ter sucesso junto aos seus clientes as empresas 
precisam compreender e diferenciar os tipos de análises do Big Data e saber como 
utilizá-las para obterem insights valiosos para o sucesso de seus produtos ou serviços.
O termo Big Data Analytics está em ascensão, as empresas estão à procura de 
funcionários que tenham conhecimento e experiência em análise de dados. As empresas 
têm ciência de que estão jogando fora oportunidades valiosas ao não trabalharem com 
Big Data. 
Os métodos de análise de dados podem ser classificados em um modelo 
gradativo de maturidade, segundo Deka (2014), e se classificam como: analise descritiva, 
análise diagnóstica, análise preditiva e análise prescritiva, conforme estudo realizado 
por Gartner (2016 apud RIBEIRO NETO, 2021). 
Esses quatro modelos de análise de dados auxiliam as empresas a tomarem 
as suas decisões com maior confiabilidade, dado ao incremento posto pelo grau de 
maturidade que ele contém. Conforme há um avanço no nível de maturidade na análise 
de dados, mais complexo e completo será o resultado da análise.
193
GRÁFICO 1 – MÉTODOS DE ANÁLISE E GRAU DE MATURIDADE
FONTE: <https://bit.ly/2UgAxbR>. Acesso em: 5 jul. 2021.
O gráfico apresenta uma evolução lógica na análise dos dados ao longo do 
tempo. Conforme os dados e métodos de coleta das empresas amadurece, elas 
começam a prever, prescrever e fazer uso de aplicações cognitivas em sua estratégia 
de negócios. Quanto maior o nível de maturidade nas análises de dados, mais complexo 
será o resultado das análises.
2.2.1 Análise descritiva
A análise descritiva é considerada a forma mais simples de análise. Todavia, não 
se deve subestimar sua importância. É o primeiro passo para um complexo processo, 
que fornece uma sólida base para novas análises a serem realizadas. Ribeiro Neto (2021) 
apresenta assim a análise descritiva:
Análise Descritiva dos Dados é o processo de coleta, limpeza e 
apresentação de dados para obter informações imediatas. É o 
primeiro contato com os dados, buscando responder perguntas 
simples,tais como: Por que as nossas vendas estão diminuindo? 
Quais tipos de pessoas estão comprando nossos produtos?
Na análise descritiva, examina-se o que está ocorrendo em tempo real nas 
empresas, com base nos dados recebidos, isso permite que as empresas transformem 
os resultados das análises em pequenos insights possíveis de serem trabalhados.
A análise descritiva é o primeiro tipo de análise a ser realizado. Este tipo de 
análise está na base de praticamente todos os insights de dados. Uma visão do que 
aconteceu, respondendo à pergunta “O que aconteceu?”, baseada nos dados passados, 
geralmente visualizada nos dashboards. Isso vem ao encontro de Dantas (2016, p. 30), 
que apresenta assim a análise descritiva:
194
Esta primeira análise se compromete essencialmente em buscar 
o que aconteceu no passado e no presente, para depois tentar 
entender o porquê das causas. Para isso, faz-se uso de técnicas 
gráficas para organizar os dados adquiridos. Exemplos de gráficos 
utilizados são: gráficos de barras, grafos, gráfico em pizza, mapas, 
gráficos de dispersão, entre outros. Todos estes procedimentos 
visuais facilitam o entendimento, provendo insights das informações 
contidas na base. Exemplos de aplicação dessa etapa, é o uso da 
performance financeira passada para entender tendências futuras 
de certos clientes.
Este método de análise é mais intensivo em tempo e algumas vezes produz um 
menor valor, porém, é bastante útil quando se quer descobrir padrões num determinado 
segmento de clientes. Essas análises fornecem informações do que aconteceu 
historicamente e trazem direcionamentos para novas análises mais aprofundadas. O 
Gartner Glossary (DESCRIPTIVE ANALYTICS, 2021, s.p., tradução e grifo nossos) define 
assim a análise descritiva:
 
Análise descritiva é o exame de dados ou conteúdo, geralmente realizada 
manualmente, para responder à pergunta “O que aconteceu?” (ou O que está 
acontecendo?), caracterizado por Business intelligence (BI) e visualizações como 
gráficos de pizzas, gráficos de barras, gráficos de linha, tabelas ou narrativas geradas.
Plá (2019, p. 28) nos apresenta a descrição dos modelos preditivos de análise 
da seguinte forma:
Modelos prescritivos são modelos que utilizam estatística associado 
com gestão para basear decisões tornando as estratégias das 
empresas mais eficientes. Ele visa não apenas identificar quais 
eventos podem ocorrer, mas as consequências dos eventos e os 
comportamentos que ele pode gerar. Busca, desta forma, encontrar 
os melhores resultados possíveis sugerindo ações que tragam 
vantagens e minimizem riscos.
A análise descritiva coleta e resume os dados brutos e os converte em 
informações mais aceitáveis, aliado ao fato de compreender com mais detalhes um 
evento ocorrido no passado e formar um padrão para esses dados. Essa análise auxilia 
na revelação de informações consideradas críticas sobre um negócio, por intermédio 
dessa análise é possível a criação de dashboards considerados ideais sem que haja a 
necessidade de análises mais robustas.
Ao fazerem uso dos dashboards, as empresas podem acompanhar os resultados 
pelo processo de mineração de dados, processo este amplamente conhecido pelas 
empresas e cientistas de dados. 
Técnicas como estatística, clusterização e segmentação são exemplos de 
análises descritivas. Algumas ferramentas úteis para análises descritivas são: Microsoft 
Excel, SPSS e STATA.
195
Quer conhecer mais a respeito dos softwares de análise descritiva? 
Acesse os seguintes endereços:
• SPSS: https://www.ibm.com/br-pt/products/spss-statistics.
• STATA: https://www.stata-brasil.com/#.
DICAS
2.2.2 Análise diagnóstica
Determinadas situações são analisadas com maior profundidade com objetivo 
de identificar a causa da ocorrência de um problema e/ou explorar uma oportunidade. 
Na análise diagnóstica, um conjunto de dados é escolhido para que, por intermédio 
deste, seja descoberta a relação causa/efeito.
À medida que subimos um degrau na escada do grau de maturidade, podemos 
obter uma resposta à pergunta de por que algo ocorreu, evoluímos da análise descritiva 
para a análise diagnóstica. A análise diagnóstica tem um olhar mais aprofundado dos 
dados, fazendo uma medição destes dados com outros, desta forma confrontando os 
dados analisados. De acordo com Gartner Glossary (DIAGNOSTIC ANALYTICS, 2021, s. 
p., tradução e grifo nossos):
 
A análise de diagnóstico é uma forma de análise avançada que 
examina dados ou conteúdo para responder à pergunta: “Por que 
isso aconteceu?” Caracteriza-se por técnicas como detalhamento, 
detecção de dados, mineração de dados e correlações.
A análise diagnóstica tem por objetivo determinar as causas de um determinado 
evento, fazendo uma comparação com eventos passados. São duas as categorias 
principais de análise diagnóstica:
• Descoberta e alerta: o objetivo é alertar os responsáveis de um potencial problema 
antes de sua ocorrência. Como exemplo: a baixa quantidade de insumo em estoque 
para a produção de determinado produto, ajudando assim ao setor de compras na 
aquisição do insumo.
• Detalhar certos eventos: quando um evento ocorre, podemos obter mais detalhes 
sobres ele. Exemplo: uma vez que se observa a queda na produção por determinados 
funcionários, ao realizar a análise diagnóstica verifica-se que esses funcionários se 
encontram em período de férias ou afastados por alguma licença.
Dantas (2019, p. 31) destaca que:
https://www.stata-brasil.com/
196
A análise diagnóstica procede a etapa de análise descritiva. A pergunta 
essencial que ela busca responder é “Por que aconteceu?” [...] 
Sendo assim, esta análise irá funcionar como uma espécie de 
relatório expandido e quando feita em uma base de dados volumosa, 
permite entender a razão de cada um dos desdobramentos das ações 
adotadas e, a partir disso, mudar estratégias ineficazes ou reforçar as 
eficazes. (Grifo nosso).
Um elemento a ser considerado neste modelo de análise é a criação de 
informações detalhadas, uma vez que novos problemas surgem, é possível que já se 
tenha coletado dados relativos a esse problema, o que pode acarretar num retrabalho. 
Outro fator a ser considerado também é de que a análise diagnóstica tem sua capacidade 
de dar insights limitada, uma vez que fornece apenas a compreensão de uma relação 
causal do problema. Cabe aos analistas identificarem as fontes de dados que serão 
utilizadas. Muitas vezes, isso exige que eles procurem padrões fora dos conjuntos de 
dados internos da empresa. Pode exigir a retirada de dados de fontes externas para 
identificar correlações e determinar causalidade.
A análise descritiva, etapa inicial na análise de dados da maioria das empresas, 
é um processo mais simples que narra os fatos do que já aconteceu. A análise de 
diagnóstico leva um passo adiante para descobrir o raciocínio por trás de certos 
resultados. Dado ao fato de analisar dados passados, muitas vezes esse método de 
análise é utilizado para ajudar na identificação de tendências dos clientes.
A análise diagnóstica é utilizada para determinar por que o evento ocorreu. A 
análise diagnóstica revisa os dados relativos a evento na busca pelo fator gerador deste. 
A análise diagnóstica normalmente usa técnicas como mineração de dados, correlação, 
probabilidades e padrão de identificação para analisar uma situação.
2.2.3 Análise preditiva
Dando um passo acima na escada do grau de maturidade chegamos à análise 
preditiva, cujo objetivo é responder à pergunta “O que vai acontecer?” Este método de 
análise se utiliza de dados anteriores para realizar previsões de possíveis resultados 
futuros. O Gartner Glossary (PREDECTIVE ANALYTICS, 2021, s.p., tradução e grifo 
nossos) define assim a análise preditiva:
A análise preditiva é uma forma de análise avançada que 
examina dados ou conteúdo para responder à pergunta “O que 
vai acontecer?”, ou mais precisamente, “O que é provável que 
aconteça?”, e é caracterizada por técnicas como análise de regressão, 
previsão, estatísticas multivariadas,correspondência de padrões, 
modelagem preditiva e previsão. 
A análise preditiva é resultante das análises descritiva e diagnóstica, na qual 
se transforma os insights resultantes destas duas análises em etapas acionáveis. A 
análise preditiva auxilia na descrição de acontecimentos que acontecerão no futuro 
caso determinadas condições sejam atendidas.
197
FIGURA 11 – ANÁLISE PREDITIVA
FONTE: O autor
Plá (2019, p. 27) afirma que:
 
Modelos preditivos são modelos que identificam padrões e relações 
em dados e, desta forma, oferecem uma previsão do assunto 
desejado, apresentando possibilidades futuras. Essa previsão 
oferece embasamento para tomadas de decisões de organizações 
de acordo com seus objetivos e estratégias. O resultado da análise 
preditiva são diferentes predições e suas respectivas probabilidades 
de ocorrência.
Há diferentes tipos de análises preditivas, mas a maioria utiliza um sistema de 
pontos para indicar a probabilidade de determinado resultado vir a ocorrer. A análise 
preditiva se utiliza de dados históricos, machine learning e inteligência artificial para 
fazer suas previsões do futuro. Esses dados são processados por um modelo matemático 
(algoritmo preditivo), que leva em consideração as principais tendências e padrões dos 
dados, em seguida o modelo é processado com dados atuais para prever o irá acontecer.
Tendo passado pelas análises descritivas e diagnóstica, a análise preditiva utiliza 
os dados processados por elas para fazer previsões lógicas dos resultados dos eventos 
anteriores. A análise preditiva tem por base a modelagem estatística, que significa 
ter mais tecnologia e mão de obra para prever. Ouro fato importante também é que a 
previsão se trata de apenas uma estimativa, pois a precisão da previsão vai depender 
muito da qualidade dos dados a serem processados.
Um dos exemplos mais clássicos da análise preditiva está no setor de saúde, no 
qual se tenta prever a probabilidade de um paciente contrair determinada doença, base-
ando-se no estilo de vida, alimentação, hábitos, ambiente de trabalho e na sua genética. 
198
Como visto anteriormente, a análise descritiva serve de base para análises 
mais avançadas. É na fase da etapa preditiva que a qualidade das análises anteriores, 
descritiva e diagnóstica, é vista com maior incidência. Sem a qualidade dos dados 
gerados por estas análises anteriores, a análise preditiva se torna inútil. Algumas 
ferramentas úteis para análise preditiva são Python, MATLAB e RapidMiner.
Assim como todas as análises, a análise preditiva tem seus desafios, mas os seus 
resultados podem levar as empresas à negócios de valor inestimável. Sem trocadilhos, 
pode-se dizer que a análise preditiva é considerada a “bola de cristal” das empresas.
2.2.4 Análise prescritiva
Chegando ao topo da escada do grau de maturidade encontra-se a análise 
prescritiva. Assim como a análise preditiva, a análise prescritiva também é considerada 
muito importante para as empresas. Na hierarquia da escada criada pela Gartner, Inc., 
a análise preditiva é inferior à prescritiva, uma vez que a análise preditiva diz o que vai 
acontecer, mas não dá o direcionamento de quais decisões devem ser tomadas.
Segundo o Gartner Glossary (PRESCRIPTIVE ANALYTICS, 2021, s.p., tradução e 
grifos nossos) a prescritiva é:
 
[...] uma forma de análise avançada que examina dados ou 
conteúdo para responder à pergunta “O que deve ser feito?” ou 
“O que podemos fazer para fazer ________ acontecer?”, e 
é caracterizada por técnicas como análise de gráficos, simulação, 
processamento de eventos complexos, redes neurais, motores de 
recomendação, heurística e machine learning.
O método de análise prescritiva é a o mais valioso e também o mais subutilizado. 
A análise prescritiva oferece ajuda para determinar a melhor solução dentre tantas 
opções, dados os parâmetros conhecidos e indica opções para tirar proveito de uma 
oportunidade futura.
Em análises prescritivas, você irá para o próximo nível de análise de dados, pois 
avaliará uma grande variedade de opções e verá como você chegou a um determinado 
resultado. Um exemplo bastante padrão de análise prescritiva é o aplicativo GPS, pois 
ele olha para várias opções de rotas disponíveis antes de zerar na melhor rota possível 
para o seu destino.
Dantas (2016, p. 33) destaca que:
 
a análise prescritiva apresenta uma forma de definir qual escolha 
será mais efetiva em determinada situação, traçando as possíveis 
consequências de cada ação. No entanto, a análise prescritiva 
ainda é pouco utilizada, na maioria das vezes, por causa de 
desconhecimento [...]
199
A análise prescritiva faz a empresa subir no topo do modelo de maturidade e 
permite que a empresa tome decisões mais rápidas e eficazes. Ela identifica rapidamente 
as variáveis certas e, às vezes, até sugere novas variáveis, procurando aconselhar a 
respeito da próxima ação a ser tomada.
Muitas ferramentas, como aprendizado de máquina e algoritmos sofisticados, 
são necessárias para implementar análises prescritivas adequadamente. Assim, ajudaria 
se uma análise de custo-benefício fosse feita antes de prosseguir com a implementação 
de análises prescritivas.
Um exemplo bem-sucedido de análise prescritiva são os sistemas de recomen-
dações da Netflix ou do Spotify, nos quais os usuários enviam os dados ou classificam 
determinado vídeo ou áudio e esta classificação ou recomendação é passada para usu-
ários que tenham o gosto semelhante e não os possuem em suas listas de preferências.
200
RESUMO DO TÓPICO 2
 Neste tópico, você adquiriu certos aprendizados, como:
• O Business Analytics e a análise do Big Data carregam muitas semelhanças, mas são 
conceitos distintos com algumas diferenças fundamentais. 
• Com os insights resultantes do Big Data, as empresas são capazes de desenvolver 
novos produtos e/ou aprimorar seus serviços. 
 
• Os Sistemas de Informações Gerenciais estão cada vez mais se aproximando do Big 
Data e seus insights. 
 
• Existem quatro principais métodos de análises no Big Data: análise descritiva, análise 
diagnóstica, análise preditiva e análise prescritiva.
 
• Ao aumentar o grau de maturidade das análises, aumenta também a complexidade 
dos dados e melhora a performance das empresas.
201
RESUMO DO TÓPICO 2
1 Apenas coletar e armazenar informações não é suficiente para produzir valor real para 
o negócio. As tecnologias de análise de Big Data são necessárias para:
a) ( ) Formular gráficos e gráficos atraentes.
b) ( ) Extrair insights valiosos dos dados.
c) ( ) Integrar dados de fontes internas e externas.
d) ( ) Agrupar os dados sob a mesma base de dados.
e) ( ) Facilitara o trabalho do Administrador de banco de dados.
2 O método pelo qual as empresas analisam dados de clientes ou outros tipos de 
informações em um esforço para identificar padrões e descobrir relações entre 
diferentes elementos de dados é frequentemente referido como:
a) ( ) Data Mining.
b) ( ) Data Warehouse.
c) ( ) Clusterização.
d) ( ) Web Mining.
3 Empresas que possuem grandes quantidades de informações armazenadas em 
diferentes sistemas devem iniciar um projeto de análise de Big Data considerando:
a) ( ) A criação de um plano de escolha e implementação de tecnologias de 
infraestrutura de Big Data.
b) ( ) A inter-relação dos dados e a quantidade de trabalho de desenvolvimento que 
será necessária para vincular várias fontes de dados.
c) ( ) A capacidade dos fornecedores de business intelligence e analytics para 
ajudá-los a responder perguntas de negócios em ambientes de Big Data.
d) ( ) A quantidade de máquinas disponíveis para realizar o trabalho de processamento 
dos dados a serem coletados.
4 Os clientes vivem em um mundo de expectativa instantânea, onde tudo se move 
a uma velocidade vertiginosa. Com vendas digitais, feedback do consumidor e 
dispositivos que produzem dados em um ritmo igualmente rápido e em volumes cada 
vez maiores. Como as empresas podem se organizar de forma eficaz e criativapara a 
inovação?
AUTOATIVIDADE
202
5 Big Data e as tecnologias de análise avançada prometem uma visão sem precedentes 
sobre as operações de negócios e clientes, permitindo que as empresas não apenas 
aumentem a eficiência operacional, níveis de serviço, receita e modelos de negócios, 
mas também aumentem a centralização no cliente. Como o Big Data pode agregar 
valor às empresas?
203
TÓPICO 3 - 
BIG DATA NA PRÁTICA
1 INTRODUÇÃO
Com o Big Data, as empresas têm a oportunidade de ter a convergência dos 
avanços tecnológicos alavancada aliada com o universo de dados em expansão 
contínua para extraírem insights valiosos. Este processo não trata somente de dados 
dos sistemas internos, mas de todo o esgotamento de dados das redes sociais e dos 
diversos dispositivos móveis ou até mesmo industriais no caso da IoT. No caso de 
soluções de Business Intelligence (BI) e Big Data, o propósito é a geração de insights 
para a tomada de decisões de forma mais assertiva. 
Se comparadas às implementações Big Data, as tecnologias e abordagens 
tradicionais do BI possuem um risco muito menor. Estas tecnologias e abordagens 
possuem mais anos de refinamento, mais experiência e modelos mais maduros de 
implementação, enquanto as metodologias do Big Data prometem entregar novos 
modelos e técnicas de análises às empresas, mas ainda não iguais às do BI.
O Big Data demanda tanto do gerenciamento de mudanças quanto das lideranças 
de mudanças para obter sucesso. Sabe-se que as novas tecnologias são disruptivas 
e o sucesso das empresas não depende somente do uso de novas tecnologias, mas 
também das equipes de trabalho e de uma boa gestão de mudanças.
Acadêmico, no Tópico 3, abordaremos a influência da gestão de mudanças 
aplicada no contexto do Big Data, como essa gestão deve se portar mediante a inserção 
das metodologias e análises do Big Data. 
Abordaremos também as principais metodologias utilizadas para implantar o 
Big Data nas empresas, bem como as principais ferramentas par ao uso do Big Data 
pelas empresas. Ao final, veremos quais são as principais funções e as habilidades 
necessárias para quem quer ingressar na área do Big Data.
UNIDADE 3
2 IMPLANTANDO BIG DATA NAS EMPRESAS
A junção do Big Data e suas tecnologias, aliada a uma abordagem inteligente 
para análises tem potencial para fornecer às empresas insights valiosos para os clientes 
e um direcionamento mais preciso para a tomada de decisões orientada por dados, 
porém, para que o desenvolvimento de novos recursos seja bem-sucedido, se faz 
204
necessário a inclusão de elementos tecnológicos e também de agentes de mudança 
para que a transição seja a mais suave possível. A gestão e a liderança de mudanças 
são consideradas elementos importantes na obtenção do sucesso dos benefícios do 
Big Data.
Considerado, ainda, relativamente novo para muitas organizações, o Big 
Data vem alterando os conceitos e a importância nos processos de negócios e seus 
resultados estão mostrando seus benefícios e também suas fragilidades. Para que um 
projeto de implantação de Big Data obtenha o maior sucesso, as organizações devem 
seguir práticas para que as equipes de implementação aumentem suas chances de 
sucesso. Vejamos algumas delas a seguir.
2.1 EM BUSCA DOS DADOS PERFEITOS
No início do projeto, as organizações devem reunir os requisitos do negócio 
antes mesmo de coletar os dados. Com base nesses requisitos, tem-se uma maior 
clareza dos dados a serem coletados e de onde serão extraídos. As organizações devem 
começar com informações que já possuem, uma vez que estas informações podem 
fornecer resultados a curto prazo, o que economiza tempo e recursos, além de propiciar 
o aprendizado para trabalhar com a carga de dados.
Após o levantamento dos requisitos, parte-se então para a coleta dos dados 
primários necessários para que o projeto de implantação saia do papel e comece a 
tornar realidade. Como já mencionado anteriormente, não há problemas em começar o 
projeto com os dados que a organização já possui, porém, fontes adicionais de dados 
devem ser utilizadas para coletar dados.
As organizações devem considerar todos os tipos de dados que possuem 
atualmente, isso inclui desde dados gerados internamente por seus usuários, bem 
como dados externos coletados de outras fontes.
Um dos obstáculos relatados com frequência no processo de implantação de 
Big Data é a qualidade dos dados. É sabido que os dados armazenados em bancos 
dedados tradicionais, são diferentes e possuem formatos, às vezes, incompatíveis com 
as ferramentas de análise do Big Data. Agrupar os dados num único repositório pode 
ser um processo demorado, mas se faz necessário para que a experiência do Big Data 
seja exitosa.
205
FIGURA 12 – PROCURA DE DADOS
BIG DATA
FONTE: <https://bit.ly/3xWFncW>. Acesso em: 5 jul. 2021.
Por sinal, os dados podem ser armazenados em Data Lakes (lago de dados) que 
são, conforme o exposto no site da AWS (WHAT IS DATA LAKE, 2021, tradução nossa):
 
Um lago de dados é um repositório centralizado que permite ar-
mazenar todos os seus dados estruturados e não estruturados em 
qualquer escala. Você pode armazenar seus dados como estão, sem 
ter que primeiro estruturar os dados e executar diferentes tipos de 
análise — desde painéis e visualizações até processamento de Big 
Data, análises em tempo real e aprendizado de máquina para orientar 
melhores decisões.
Diferente de um Data Warehouse, um Data Lake implica uma arquitetura plana 
para o armazenamento de dados. Aliado ao fato de que as organizações podem construir 
e implantar seus Data Lakes utilizando tanto a infraestrutura local quanto à nuvem.
Mata (2019, p. 105, grifo nosso) nos apresenta assim o Data Lake:
 
O conceito de Data Lake é um novo mindset, não apenas a 
tecnologia de um grande repositório. Sua arquitetura é composta 
por um sistema de arquivos do Hadoop – HDFS com uma gama 
de diretórios e arquivos que têm sido explorados por grandes 
empresas, como Google, Netflix e Yahoo. Não é possível se limitar 
às tecnologias como Data Warehouses e Data Minings, em que os 
modelos de dados são previamente definidos e, portanto, limitam o 
escopo das perguntas possíveis. Especialmente considerando que 
a obtenção de um insight normalmente conduz a novas perguntas, 
que, por sua vez, geram novos conhecimentos. A utilização de Data 
Lake torna mais flexível a busca de novos insights, incluindo em 
fontes não estruturadas.
206
Um Data Lake, além dos recursos básicos de uma plataforma de Big Data, fornece 
recursos de gerenciamento, governança e gerenciamento de ativos de dados. Fornece 
ainda recursos de armazenamento e computação necessários para o processamento de 
dados em grande escala, premissa básica do Big Data, a grande quantidade de dados.
Para saber mais de Data Lake, leia o artigo: Data Lake, a fonte do Big 
Data, disponível ao final deste tópico, na Leitura Complementar.
ESTUDOS FUTUROS
Um Data Lake é considerado mais do que uma simples plataforma técnica e 
pode ser implementado de diversas maneiras. A maturidade de um Data Lake é aferida, 
sobretudo, por base de sua capacidade de gerenciamento dos dados e sua interconexão 
com ecossistemas do entorno. Seus recursos de gestão de dados incluem recursos 
relacionados a metadados, catálogos de ativos, fontes, tarefas de processamento, 
ciclos de vidas e governança de dados.
Ao final da etapa de seleção dos dados e coleta, as organizações devem ter os 
principais componentes para a implementação do Big Data, um Data Lake povoado com 
os dados e um mecanismo de análise.
Complemente seu aprendizado em relação ao Data Lake lendo o artigo 
intitulado Data Lake: concepts, characteristics, architecture, and case 
studies, disponível em: https://bit.ly/3kjgfsH.
DICAS
2.2 DESENHANDO UMA METODOLOGIA PARA BIG DATA
Muitas organizações têm equipes próprias de TI que seguem processos e práti-
cas de desenvolvimentos já previamente descritos. Cabe lembrar que algumas dessas 
metodologias são adequadas à implantação de Big

Mais conteúdos dessa disciplina