Buscar

BIG_DATA_ANALYTIC_TOMADA_DECISÃO

Prévia do material em texto

BIG DATA ANALYTIC E A 
TOMADA DE DECISÕES
Programa de Pós-Graduação EAD
UNIASSELVI-PÓS
Autoria: Fernando Gama da Mata
CENTRO UNIVERSITÁRIO LEONARDO DA VINCI
Rodovia BR 470, Km 71, no 1.040, Bairro Benedito
Cx. P. 191 - 89.130-000 – INDAIAL/SC
Fone Fax: (47) 3281-9000/3281-9090
Reitor: Prof. Hermínio Kloch
Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol
Equipe Multidisciplinar da Pós-Graduação EAD: 
Carlos Fabiano Fistarol
Ilana Gunilda Gerber Cavichioli
Jóice Gadotti Consatti
Norberto Siegel
Camila Roczanski
Julia dos Santos
Ariana Monique Dalri
Marcelo Bucci
Revisão Gramatical: Equipe Produção de Materiais
Diagramação e Capa: 
Centro Universitário Leonardo da Vinci – UNIASSELVI
Copyright © UNIASSELVI 2019
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
 UNIASSELVI – Indaial.
M425b
 Mata, Fernando Gama da
 Big data analytic e a tomada de decisões. / Fernando Gama da 
Mata. – Indaial: UNIASSELVI, 2019.
 137 p.; il.
 ISBN 978-85-7141-305-4
1. Big data analytic - Brasil. 2. Administração da produção – Brasil. 
II. Centro Universitário Leonardo Da Vinci.
CDD 658.5
Impresso por:
Sumário
APRESENTAÇÃO ............................................................................5
CAPÍTULO 1
COMPREENDENDO A ANÁLISE DE
INFORMAÇÃO NO CONTEXTO DE BIG DATA ...............................7
CAPÍTULO 2
COMPREENDENDO E EXPLORANDO
TÉCNICAS PARA ANÁLISE DE BIG DATA ....................................49
CAPÍTULO 3
FUNDAMENTOS PARA INTEGRAÇÃO ANALÍTICA, TÓPICOS 
AVANÇADOS E TENDÊNCIAS EM BIG DATA ANALYTICS ..........97
APRESENTAÇÃO
A dinâmica dos dados precisa ser compreendida para quem deseja trabalhar 
com eles. Tudo começou com a transição Web, que permitiu novas formas de 
armazenar conteúdo. Alinhado a isso, novas tecnologias surgiram. Custos de 
hardware e software, fortalecimento da computação em nuvem, entre outros 
fatores, permitiram que nos últimos anos houvesse uma explosão de dados. Além 
do contexto histórico, mostraremos alguns exemplos para que você compreenda 
como as novas tecnologias já estão sendo incorporadas em nosso cotidiano e 
serão utilizadas como fontes de dados para nossas análises.
Na seção seguinte, exibiremos alguns exemplos de tipos de análise de 
dados que podem ser aplicadas nos contextos de negócio. Neste sentido, você 
compreenderá como diferenciar um tipo de análise de outro. A análise tradicional 
será apresentada para que tenha condições de saber algumas limitações e 
estabelecer algumas distinções com relação ao Big Data.
Por falar nisso, serão apresentados conceitos relacionados ao Big Data, bem 
como citaremos alguns exemplos. Conceitos complementares e úteis também 
serão mostrados, como dados estruturados, semiestruturados e não estruturados; 
introdução a bancos de dados não relacionais e seus tipos: chave-valor, orientado 
a documentos, orientado a colunas e aqueles baseados em grafos. Além disso, 
apresentaremos uma importante diferença entre o processamento em batch (lote) 
e processamento em tempo real. 
Na parte final do capítulo será apresentada uma arquitetura típica de Big 
Data composta pelas respectivas camadas: camada de extração de integração, 
camada de armazenamento e fluxo de dados, camada de análise e camada de 
apresentação. Será ainda conceituado o Hadoop e os componentes core, que 
são fundamentais para o adequado funcionamento, assim como alguns módulos 
complementares que podem ser utilizados de acordo com as necessidades do 
projeto. 
Neste capítulo abordaremos uma gama de técnicas voltadas especialmente 
para as análises em cluster e mineração de texto. Você compreenderá o contexto 
nos quais essas técnicas possuem a sua devida importância. 
A primeira seção abordará os conceitos e os algoritmos para a análise de 
cluster, técnicas tradicionais de particionamento e suas limitações, assim como 
os algoritmos que podem ser empregados. Em seguida, serão apresentadas as 
evoluções das técnicas que se adequaram às exigências de Big Data. 
Já a segunda seção apresentará os principais conceitos voltados para um 
subcampo da análise de rede - as redes socias. Você conhecerá as técnicas, as 
métricas e as aplicações voltadas para esse amplo campo de estudo. Ao final 
desta seção serão apresentadas algumas ferramentas que você poderá utilizar 
nas suas análises. 
Dando continuidade, a terceira seção abordará as técnicas voltadas à 
mineração de texto. A contextualização do tema reforçará a complexidade 
adicional de trabalhar com dados dessa natureza. Assim, é possível empregar 
análises e utilizar métricas na tentativa de extrair insights interessantes mesmo 
em grandes volumes de dados. Por fim, a quarta e última seção deste capítulo 
encerrará tratando do Digital Analytics e suas implicações no mundo dos 
negócios. Serão mostrados alguns conceitos relacionados a esse campo de 
aplicação e como algumas empresas estão tirando proveito de métricas digitais 
para impulsionar seus negócios. 
 Ao longo do capítulo procure experimentar ferramentas e pesquisar 
adicionalmente alguns pontos que foram destacados.
Neste capítulo você terá um conteúdo um pouco mais voltado para a prática. 
Antes, é necessário que você compreenda e consiga distinguir a relação entre um 
ambiente de Extração-Transformação-Carga (ETL) de um ambiente de Extração-
Carga-Transformação. A diferença pode parecer sutil, mas na realidade revela 
dois cenários distintos. 
Em seguida você conhecerá o Apache Spark, como realizar a extração, a 
transformação e a manipulação de dados. Além disso, conhecerá seus principais 
componentes e características que os diferem. Destacaremos o principal 
componente de sua estrutura - o RDD, na qual, inclusive, você será convidado a 
implementar e assim consolidar seu aprendizado. 
Na Seção 4 você aprenderá com mais profundidade a respeito dos conceitos 
e aplicações de Internet das Coisas, bem como conhecerá algumas soluções já 
disponíveis que podem ser utilizadas.
Na Seção 5 apresentaremos algumas tendências de Big Data para que 
você esteja por dentro do que estará por vir e se antecipar para lidar com novos 
problemas e soluções que virão.
Bons estudos!
CAPÍTULO 1
COMPREENDENDO A ANÁLISE DE
INFORMAÇÃO NO CONTEXTO
DE BIG DATA
A partir da perspectiva do saber-fazer, são apresentados os seguintes 
objetivos de aprendizagem:
 Defi nir e esclarecer os principais conceitos relacionados ao Big Data. 
 Apresentar componentes que compõem a arquitetura.
 Analisar e discutir, a partir dos conceitos e da compreensão dos componentes 
que fazem parte da arquitetura de Big Data, a distinção entre o emprego da 
análise de dados tradicional e o Big Data.
8
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
9
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
1 CONTEXTUALIZAÇÃO
No atual século, o surgimento de novas tecnologias tem contribuído 
signifi cativamente para uma explosão de dados gerados. Não à toa, vivemos no 
ápice de uma era conhecida como a Era da Informação. É conveniente pensar que 
grande parte dos dados gerados podem ser consumidos para os mais diversos 
fi ns.
Diante deste cenário, empresas e Institutos de Pesquisa e Desenvolvimento 
(P&D) têm investido cada vez mais em infraestrutura, sejam físicas ou em nuvem, 
para suportar análises de dados cada vez mais robustas. No âmbito de empresas, 
em geral, o intuito sempre visa no mínimo, tentar manter ou elevar suas 
capacidades analíticas e assim tomar decisões que impulsionem seus negócios. 
No que diz respeito aos Institutos de Pesquisa e Desenvolvimento, implementar 
soluções que atendam aos requisitos de alto desempenho computacional é um 
grande desafi o: são vídeos, imagens, textos, vozes, sons e os mais variados tipos 
e estruturas de dados que precisam ser analisados na tentativa de prover novas 
soluções em inúmeras áreas da ciência.
Desta forma, estão ganhando destaque nas mídias: InteligênciaArtifi cial 
(IA), Aprendizagem de Máquina (ou Machine Learning), Inteligência de Negócios 
(ou Business Intelligence), Ciência de Dados e Big Data. O que há de comum 
entre eles? O fato de que a essência para a existência destes são os dados. 
Por exemplo, a Aprendizagem de Máquina pode ser compreendida como um 
subcampo da IA, que tem como objetivo automatizar processos por meio da 
construção de modelos analíticos que recebem como parâmetro um conjunto de 
dados como entrada (input). Para isso, é fundamental que esse conjunto de dados 
obedeça a uma série de requisitos para que a aprendizagem de fato ocorra. 
O que acontece quando você tem um conjunto de dados bem amplo e 
precisa extrair de fontes de diferentes naturezas e tipos de dados heterogêneos? 
Concorda que a complexidade cresce proporcionalmente?
Diante desses questionamentos, é fundamental que a priori você refl ita sobre 
o cenário informacional que vivemos e também mergulhe nos conceitos úteis 
relacionados ao Big Data, como compreender os elementos que compõem a sua 
arquitetura. Todas essas questões serão abordadas neste capítulo. Bons estudos!
10
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
2 CENÁRIO ATUAL E VISÃO GERAL 
DO BIG DATA
Você consegue imaginar o quanto de informação tem sido gerada na internet 
em apenas um minuto? Um relatório apresentado pelo grupo Domo (s.d.) destaca 
que a população que utiliza a internet aumentou nos últimos anos. Em 2012, o 
número de usuários girava em torno dos 2,5 bilhões enquanto que, em 2017, 
47% da população mundial estava conectada, o que representa 3,8 bilhões de 
usuários. O mesmo relatório aponta que a cada minuto são assistidos 4.333.560 
vídeos no Youtube, 473.400 tweets são publicados no Twitter, 176.220 chamadas 
são realizadas pelo Skype, 49.380 fotos são postadas no Instagram, entre outros 
casos. 
Observe a diversidade de dados que estão sendo produzidos e consumidos 
pelos usuários constantemente: vídeos, fotos, textos, vozes e assim por diante. 
Essa realidade está diretamente relacionada ao contexto histórico da Web, 
abrangendo suas transições conhecidas como Web 1.0, Web 2.0 e a mais 
recente Web 3.0. A Figura 1 exibe as fases da Web ao longo do tempo. É possível 
constatar que as tecnologias evoluíram para atender à demanda de cada etapa. 
Por exemplo, na Web 1.0, o HTML constituiu-se como uma tecnologia-chave 
para o desenvolvimento de websites, enquanto que na etapa posterior, a Web 
2.0, tecnologias dinâmicas, como a linguagem PHP, emergiram para atender uma 
demanda de produção de conteúdo e interação com o usuário. 
FIGURA 1 – EVOLUÇÃO DA WEB E SUAS FERRAMENTAS/TECNOLOGIAS 
AO LONGO DO TEMPO NESSAS ETAPAS DE TRANSIÇÃO DA WEB
FONTE: O autor
11
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
Enfatiza-se também que, na Web 1.0, os sistemas Web eram estáticos, o 
que signifi ca que o objetivo era apenas informar, produzir conteúdo dependia 
diretamente do administrador do sistema, que alimentava o website e o resultado 
era exibido para o usuário. Por outro lado, na Web 2.0, o papel do usuário não se 
restringia ao mero consumo de conteúdo, mas também na produção deste, seja 
através de blogues, como também de aplicações Web dinâmicas. 
A transição da Web 2.0 para Web 3.0 foi impulsionada pelo uso crescente 
de smartphones e tablets. Além disso, o acesso à Web foi facilitado com o 
barateamento destes dispositivos e, assim, os usuários se tornaram mais 
ativos na rede. Outro fator importante foi o surgimento das redes sociais, que 
contribuíram para uma rápida explosão de conteúdos produzidos pelo usuário, 
bem como o surgimento de novas tecnologias e o barateamento de software e 
hardware. O advento da computação em nuvem também é considerado precursor 
nesta importante transição. 
A Web 3.0, também conhecida como Web Semântica, está relacionada a 
uma nova forma de Web, que tem a ver com a compreensão do signifi cado do 
seu uso e apresenta como característica o fato de que o entendimento sobre o 
comportamento do usuário perante a rede permite, por exemplo, que campanhas 
digitais publicitárias possam atingir um público-alvo desejado de maneira mais 
assertiva. Atividades do usuário, como cliques no mouse, podem ser monitoradas 
para diferentes propósitos. Uma outra maneira de reforçar a Web 3.0 é o aumento 
da importância dos cookies. Quando você acessa pela primeira vez um website, 
uma mensagem é exibida solicitando sua autorização para utilização de cookies. 
Quando concedemos permissão estamos, na verdade, autorizando o site a enviar 
cookies que armazenam informações do nosso comportamento de navegação. 
Assim, websites de cunho jornalístico podem reordenar as notícias publicadas 
conforme nossas preferências. No caso de lojas virtuais, você já notou que um 
carrinho de compras continua cheio depois de você ter encerrado a sessão 
e voltar naquele website? Naturalmente, para muitos, é vantajoso e prático ter 
informações de login e senha armazenadas em um website.
Até que ponto podemos confi ar que nossas informações 
confi denciais não estão sendo armazenadas ou quão seguro é este 
armazenamento? Qual o limite da nossa privacidade neste atual 
contexto?
12
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
Acesse <https://web.archive.org/>. Este site armazena um 
conjunto de arquivos históricos de modifi cações salvas de mais de 
300 bilhões de websites. Escolha um website de sua preferência 
e experimente checar suas modifi cações ao longo do tempo. Você 
consegue perceber algumas das diferenças que mencionamos aqui 
e sentir essa transição de contextos web?
Além do mais, as transições da Web 1.0, 2.0 e 3.0 refl etem uma 
realidade na qual vivemos - existindo uma sobrecarga de informação, 
isto é, em uma excessiva quantidade de informação, o gerenciamento 
depende da ação humana, mas de forma inviável. Como gerenciar 
essas informações? De que maneira podemos extrair aquilo que é útil 
para nós? Por exemplo, quando desejamos pesquisar algo na internet, 
a primeira coisa que fazemos é realizar uma busca através de um site 
de busca, como o Google. Por que fazemos isso? Porque ao digitar 
palavras-chave no buscador, este nos retornará apenas um conjunto de 
informações que é do nosso interesse. 
Da mesma forma ocorre quando empresas buscam alternativas 
para encontrar informações úteis e alavancarem seus negócios. Neste caso, 
a ideia geral é fi ltrar informações que sejam relevantes, seja no âmbito interno 
(entender e/ou otimizar seus processos), como também externos (por exemplo, 
informações sobre a concorrência), com a fi nalidade de se tornarem cada vez 
mais competitivas. 
A revolução dos dados tem tornado o mundo “mais inteligente”, antes, apenas 
conectado. A inteligência já faz parte dos dispositivos, como o celular, que há 
alguns anos, possuía recursos limitados a SMS e voz (ligação) e, posteriormente, 
conexão com a internet. Atualmente, existem aplicativos inteligentes que 
monitoram o nosso dia a dia e, progressivamente, conhecem mais nossos 
hábitos. O GPS ativo permite que aplicativos conheçam nossa rotina diária, tais 
como perceber se praticamos exercícios físicos, se dormimos bem ou não nas 
últimas noites, com qual contato da nossa agenda nos comunicamos mais e 
assim por diante. Note que tudo isso já faz parte da nossa vida diária e estamos 
mergulhados nesse mar de tecnologias, ou seja, a onipresença desses meios é 
algo que retrata o atual momento em que vivemos. 
Não é difícil imaginar que grande parte dessa onda de dados afetará, além de 
Uuma realidade 
na qual vivemos 
- existindo uma 
sobrecarga de 
informação, isto é, 
em uma excessiva 
quantidade de 
informação, o 
gerenciamento 
depende da ação 
humana, mas de 
forma inviável
13
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
outros segmentos, o esporte, a saúde, a nossa casa e até o relacionamento com 
as pessoas e a nossa família.Marr (2015) destaca algumas dessas mudanças que 
tornarão o mundo mais “inteligente”, no qual sistemas de GPS e microssensores 
terão grande utilidade. A seguir, apresenta-se alguns segmentos que estarão (ou 
já estão) diante desta revolução:
• Saúde: a capacidade de monitorar nossa própria saúde permitirá que 
a medicina atue de forma preventiva com base nos dados disponíveis. 
Apps de dispositivos móveis, como também pulseiras e relógios que se 
conectam à Web, podem ser considerados mecanismos de coleta de 
dados. É possível que, por exemplo, esses dados fi quem armazenados 
em nuvem e sejam compartilhados com seu plano de saúde ou seu 
médico em tempo real. Microssensores também podem ser úteis para 
monitorar e/ou alertar pacientes que estão se medicando adequadamente 
no horário correto e até avisar membros da sua família para lembrá-
lo sobre a medicação. Além disso, scanners com alta tecnologia estão 
sendo utilizados para detectar lesões cerebrais e/ou tumores e assim 
aumentar a precisão do diagnóstico. 
• Casa: quando falamos de inteligência em lares é importante destacar 
que isso está diretamente relacionado à autonomia de sistemas de 
aquecimento, geladeiras e até objetos se tornarem capazes de “entender” 
o ambiente que os cerca e tomar ações para lidar com as tarefas 
rotineiras. Isso signifi ca chegarmos em casa com nosso carro equipado 
com câmeras e sensores “inteligentes” capazes de detectar obstáculos, 
medir temperatura ambiente, pressão barométrica, entre outros atributos, 
que se comunicarão com a garagem da nossa casa por intermédio de 
um portão equipado com sensores, detectando se estamos próximos 
de casa e, assim, com base na distância e velocidade calculará o exato 
momento para sua abertura. Ao mesmo tempo, nosso chuveiro elétrico 
se ajustará, de acordo com a temperatura ambiente, a um banho quente, 
frio ou moderado. Nossa geladeira, guiada por GPS, saberá exatamente 
onde estamos, medirá a temperatura e ao acusar alta temperatura 
externa aumentará sua potência e diminuirá a temperatura interna para 
que, assim que chegarmos, nos ofereça uma água bem gelada. A TV da 
nossa casa, por intermédio do uso de reconhecimento facial, nos dará 
segurança como pais e garantirá que crianças não assistam conteúdo 
inapropriado de acordo com sua faixa etária. Tudo isto retrata uma 
realidade que, quase todo objeto que temos, se conectará à internet e 
ganhará “vida”, tornando-se ainda mais útil para nossa rotina. Todo esse 
ambiente de comunicação produzirá mais dados. É algo real e que, 
progressivamente, será inserido em nossos ambientes.
14
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
• Amor mais inteligente: o relacionamento com as pessoas vem se 
modifi cando ao longo dos anos. As pessoas estão se relacionando 
bastante pela internet. Possuímos mais amigos virtuais do que reais e 
parece que isso será uma tendência nos próximos anos, pelo menos 
no que diz respeito a relacionamentos amorosos. Sites e aplicativos 
de encontros combinam pessoas considerando como base variáveis 
referentes aos comportamentos, às crenças, aos valores, aos traços 
de personalidade e às habilidades sociais. Normalmente, esses dados 
são coletados no momento do cadastro por meio de um questionário. 
Os matches (ou correspondências) são traçados no momento em que o 
modelo classifi ca um usuário como match potencial em relação a outro 
usuário. Outro critério que pode ser utilizado é comparar os matches 
em potencial com base em outros perfi s similares, defi nindo scores em 
função de probabilidades que atribuem um valor para qualifi car um perfi l 
como match ou não match.
O seguimento de relacionamento foi um dos mais afetados com 
a difusão da tecnologia. Alguns aplicativos ganham destaque neste 
ramo, com a promessa de fornecer um conjunto de pessoas que se 
aproximam do nosso perfi l. Faça uma pesquisa e cite um case de 
sucesso de aplicativos voltados para este fi m. Observe seu contexto 
histórico, suas estratégias e os resultados que alcançou considerando 
parâmetros, como número de usuários ativos, lucratividade e assim 
por diante.
Em muitas empresas, o Big Data já vem sendo implementado. As empresas 
de vendas e varejo estão interessadas em coletar informações sobre seus 
clientes para compreender seus padrões de compra e assim conhecê-los mais a 
fundo. Empresas de fabricação buscam reduzir custos de fabricação e maximizar 
sua produção. Alguns exemplos apresentados por Marr (2015) mostram que, em 
2013, uma gigante do ramo farmacêutico utilizou análise de dados para reduzir 
drasticamente a quantidade de desperdício causada pela variação das condições 
no ambiente de fabricação. Os dados obtidos permitiram que a empresa 
descobrisse condições ótimas durante o processo de fermentação. Outro exemplo 
são as empresas do ramo automotivo, que também têm explorado soluções de 
Big Data, especialmente em processos de fabricação para avaliar a efi ciência de 
cada máquina. Já na agricultura, a análise de dados tem auxiliado a indústria a 
15
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
enfrentar os desafi os frente à crescente produção de alimentos no mundo, pois as 
máquinas que operam nos campos estão equipadas com sensores que captam 
diversas informações que são utilizadas para estabelecer condições ideais para 
suas culturas. Em 2014, a Cisco anunciou um investimento de 150 milhões de 
dólares para fi nanciar startups que trabalhem para melhorar a integração com o 
mundo físico, com o intuito de controlar o estoque, mantendo elevada efi ciência e 
reduzindo desperdícios.
Os exemplos citados reforçam apenas uma pequena parcela do total de 
empresas com real interesse em fi nanciar ou investir na sua capacidade de 
explorar dados ou as que têm proposto iniciativas em análise de dados. Contudo, 
existem muitos outros cases espalhados pela internet que corroboram com o 
avanço da análise dos dados, com a tendência que as empresas estão em busca 
de insights valiosos que possam ser utilizados para melhorar sua cadeia de 
produção, conhecer melhor seus clientes e assim tornarem-se mais competitivas. 
2.1 ANÁLISE DE DADOS: POTENCIAIS 
E LIMITAÇÕES
Os dados que antes eram apenas armazenados em planilhas eletrônicas ou 
em Banco de Dados Relacionais para fi ns de consulta e/ou conformidade, hoje 
estão prontos para uso com as mais diversas fi nalidades. Essa realidade permitiu 
que áreas da ciência começassem a ganhar destaque, tais como a Computação, 
a Estatística, a Matemática, o Processamento de Linguagem Natural e muitas 
outras que abrangem o conhecimento. Além disso, novas tecnologias emergiram 
a partir dessa nova realidade, em que muitas empresas investem recursos em 
soluções de Análise de Dados (Data Analytics) cada vez mais robustas, sejam 
proprietárias ou open-sources. 
Com base nisso, a análise de dados tradicional tornou-se uma alternativa 
importante para as empresas encontrarem valor em dados que fi cavam apenas 
armazenados em seus sistemas legados. No entanto, para que isso aconteça, 
é necessário seguir etapas importantes, como a aquisição e a exploração dos 
dados, descrevê-los e minerá-los na tentativa de encontrar padrões que possam 
conduzir a um entendimento maior do objeto de estudo que está sendo analisado. 
Dessa forma, existe uma diversidade de conceitos, técnicas e algoritmos 
que permitirão extrair o que há de melhor no conjunto de dados. Isso signifi ca 
que nem sempre a tarefa é simples de ser realizada e, por isso, é necessário 
que o profi ssional seja amplamente capacitado com um mix de conhecimentos, 
16
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
tais como: habilidades para trabalhar com Bancos de Dados, especialmente 
tarefas de Data Manipulation Language (DML), para realizar manipulação 
de dados com comandos de leitura, inserção, alteração e deleção, também 
habilidades estatísticas para compreensão de como os dados estão distribuídos 
e relacionados entre si,testar ou refutar hipóteses, anexar novos conjuntos de 
dados para enriquecer a análise, pelo menos alguma linguagem de programação 
ou ferramenta para análise de dados e construção de visualizações para que o 
dado seja transmitido de forma mais clara e objetiva aos tomadores de decisão.
Assim, é importante que você compreenda que a análise de dados é um 
processo constituído por pelo menos quatro etapas bem defi nidas, conforme 
mostrado na Figura 2, e que serão delineadas a seguir. Apesar de todas elas 
estarem dispostas em sequência, isso não signifi ca necessariamente que todas 
devam ser executadas. Isso porque tudo dependerá do escopo do projeto que você 
trabalhará. Por outro lado, estas etapas são altamente dependentes, não sendo 
recomendado, portanto, pular etapas e/ou ignorar importantes subprocessos 
que as compõem. Por exemplo, começar diretamente a etapa preditiva sem 
antes conhecer a fundo os dados - como eles estão distribuídos ou se algum 
fenômeno causou discrepância em um intervalo de tempo. Faria algum sentido 
desconsiderar isso? Se você não conhece seus dados, a máquina muito menos. 
Em outras palavras, o mínimo que você fará é consultar e selecionar informações 
que realmente possam ser relevantes para dar prosseguimento a sua análise. 
Desse modo, considere sempre explorar com profundidade cada uma das etapas 
anteriores. O processo de análise de dados pode ser defi nido em quatro etapas: 
análise descritiva, diagnóstica, preditiva e prescritiva.
FIGURA 2 – ANÁLISE DESCRITIVA, DIAGNÓSTICA, PREDITIVA E PRESCRITIVA
FONTE: <http://arunkottolli.blogspot.com/2018/08/4-types-of-
data-analytics.html>. Acesso em: 15 nov. 2018.
17
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
2.1.1 ETAPA 1: ANáLiSE DESCriTiVA
A análise descritiva diz respeito à primeira etapa do processo de análise de 
dados, é o momento em que estamos interessados em saber “o que aconteceu” 
ou “o que está acontecendo”, ou seja, fatos do passado são utilizados para que 
compreendamos o cenário e tomemos as decisões no presente. Dessa maneira, 
essa etapa possui um alto grau de dependência humana para compreender e 
avaliar as variáveis em questão na tentativa de encontrar inconsistências. 
Normalmente, a utilização deste tipo de análise é feita em pequenos 
projetos ou alguma análise ad-hoc, um tipo de análise que visa atender a um 
determinado propósito em um intervalo de tempo específi co. Por exemplo, o 
gestor da empresa está interessado em saber qual cliente mais comprou na loja 
nos últimos dois meses. De posse dessa informação, ele poderá decidir os top-n 
em um grupo seleto de clientes, que passarão a ter direito a descontos especiais 
em lançamentos de produtos na loja. Dependendo da modelagem do sistema, 
implementando medidas estatísticas básicas, como a moda, seria o sufi ciente para 
solucionar esse problema ou uma contagem simples de ocorrência de compras. 
Observe que situações que envolvam análises descritivas, técnicas ou medidas 
básicas podem auxiliar gestores e o próprio analista de dados ou de negócios a 
extrair insights úteis no dia a dia. 
Assim, é comum que nessa etapa medidas como: médias, medianas, 
variância, desvio padrão, frequência cumulativa, bem como visualizações que 
utilizam gráfi cos em barras ou em linhas, gráfi cos de dispersão ou de pizza, não 
resumidos a estes, sejam comumente exploradas.
2.1.2 ETAPA 2: ANáLiSE DiAGNÓSTiCA
A análise diagnóstica está interessada em saber o porquê das coisas, isto é, 
o motivo pelo qual determinados eventos aconteceram na tentativa de encontrar 
pistas que possam sinalizar tendências de ocorrência e assim tomar medidas 
práticas para minimizar eventuais problemas que possam surgir. Da mesma 
maneira que a etapa anterior, a análise diagnóstica está preocupada com dados 
do passado para que ações sejam tomadas no presente. 
Por exemplo, para alocar produtos na prateleira de um supermercado, o 
analista aplica técnicas de mineração de dados para tentar encontrar padrões 
de consumo, eleger os produtos mais consumidos e, com base nos resultados, 
propor ao gerente a alocação de produtos em prateleiras mais acessíveis ao 
consumidor. 
18
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
Algoritmos de associação podem ser aplicados sobre os dados históricos 
para identifi car regras e encontrar padrões associativos entre os elementos. 
Além das técnicas de mineração de dados e ferramentas voltadas para atender 
às demandas de negócio, também pode ser utilizada a análise multidimensional, 
bem explorada em cenários de Business Intelligence. Essa análise permite que 
gestores obtenham insights sob diferentes perspectivas e em altos (Drill Up) ou 
baixos níveis de granularidade (Drill Down). 
Adicionalmente, percebe-se que nessa etapa ocorre um gradual decréscimo 
da ação humana e, consequentemente, os algoritmos passam a ter mais 
independência para descrever o cenário da empresa com base nos dados.
2.1.3 ETAPA 3: ANáLiSE PrEDiTiVA
A análise preditiva representa um avanço signifi cativo no processo de análise 
de dados. Nesse momento, o cientista de dados ganha destaque, especialmente 
por ser o responsável por construir modelos preditivos que possam ter autonomia 
para classifi car conjuntos de dados com base na aprendizagem obtida a respeito 
destes. Quando trabalhamos com modelos preditivos, estamos interessados em 
responder à pergunta: “o que (provavelmente) acontecerá?”. De fato, isso está 
diretamente relacionado ao contexto de aprendizado de máquina, o que signifi ca 
que a ação humana é cada vez menor e o algoritmo progressivamente vai se 
aprimorando e aprendendo mais a respeito dos padrões históricos contidos nos 
dados. 
Por isso, é essencial que, antes de aplicar técnicas e algoritmos de Machine 
Learning, sejam identifi cados os dados que servirão de input para o modelo que 
será construído. Algumas técnicas de Machine Learning se destacam, como: 
Árvores de Decisão, Florestas Aleatórias (Random Forest), Redes Neurais, 
Support Vector Machines (SVM), K-Nearest Neighbor (KNN), entre outras. 
Por exemplo, uma empresa de crédito talvez esteja interessada em saber 
se houve alguma compra suspeita com o número do cartão de crédito de seus 
clientes. O rastreio pode se dar em um nível no qual o resultado obtido seja um 
alerta à empresa e ao cliente informando a respeito da atividade suspeita. Nesse 
caso, a variável valor de compra pode ser utilizada para rastrear essa questão. 
Por exemplo, se o valor de compra for extremamente maior em relação a outras 
atividades de compra do consumidor. É lógico que esse é um modelo simplifi cado, 
mas didaticamente viável. Por fi m, um modelo de classifi cação poderia discriminar 
a atividade de compra como normal ou anômala. 
19
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
2.1.4 ETAPA 4: ANáLiSE PrESCriTiVA
A etapa de análise prescritiva é a mais complexa, porém, a que acrescenta 
mais valor para a organização e fornece suporte à decisão de forma automatizada. 
Nesse momento, a máquina consegue aprender com as experiências nas 
previsões e a ação humana é mínima ou nula. Técnicas analíticas avançadas 
podem ser utilizadas para fi ns de otimização, sendo capazes de responder 
à pergunta: “o que devo fazer?” e assim mostrar às organizações as ações 
necessárias na tomada de decisão.
Obviamente que, para chegar até aqui, é necessário um elevado nível de 
maturidade nos processos de análise anteriores, por isso que na maioria das 
vezes ou quase sempre, a implementação desse tipo de análise é feita por 
grandes corporações. Algumas técnicas que são utilizadas na etapa prescritiva 
são: simulações, redes neurais convolucionais, heurísticas, processamento de 
eventos complexos, entre outras. 
Um exemplo que retrata a análise prescritiva são os carros ou os caminhões 
autônomos (inteligentes). Modelos construídos para esse fi m apresentam um 
alto nível de robustez eutilizam como referência dados históricos e previsões 
anteriores para decidirem a melhor rota e assim aperfeiçoar suas tarefas com 
base na experiência.
2.2 ANÁLISE AVANÇADA DE DADOS 
O Grupo Gartner (2017) defi ne o conceito de Advanced Analytics como um 
processo de observação autônomo ou semiautônomo de dados ou conteúdo por 
intermédio de técnicas e ferramentas sofi sticadas, normalmente além daquelas de 
Inteligência de Negócios (BI) tradicional para descobrir insights mais profundos, 
realizar previsões ou gerar recomendações de produtos ou serviços. Além disso, 
compreende técnicas analíticas avançadas, como mineração e dados/textos, 
aprendizado de máquina, correspondência de padrões, virtualização, análise 
semântica, de sentimento, de rede e em cluster, estatística multivariada, análise 
de gráfi cos, simulação, processamento de eventos complexos e redes neurais. 
Algumas dessas técnicas variam em complexidade e, consequentemente, em 
tempo de implementação. 
Modelos analíticos avançados apontam para um elevado nível de maturidade 
e sugerem que a empresa já possua uma grande quantidade de dados. Mais do 
que isso, pode ser que o desempenho das análises esteja sendo afetado, novas 
20
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
estruturas de dados vêm sendo incorporadas e quando a infraestrutura básica, 
anteriormente construída para atender à demanda da análise de dados, não 
esteja mais suportando o fl uxo. A potencialização do seu uso está diretamente 
relacionada ao advento do Big Data e das necessidades atuais de negócio.
1 Cite um exemplo de “casa inteligente” e explique como a análise 
de dados pode melhorar nossa rotina automatizando tarefas 
cotidianas. 
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
2 O processo de análise pode ser dividido em etapas. Cite e explique 
cada uma delas. 
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
21
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
2.3 VISÃO GERAL DO BIG DATA
Nas seções anteriores, exploramos um contexto histórico e apresentamos os 
tipos de análise de dados que estão sendo aplicados em diferentes segmentos 
empresariais. Acontece que a abordagem tradicional de análise de dados possui 
algumas limitações que merecem a nossa atenção. Antes de mais nada, é 
importante frisar que o conceito de Big Data ainda não é bem defi nido. Entretanto, 
existem algumas defi nições que fazem todo sentido, entre estas, cabe mencionar 
que:
O Big Data pode ser introduzido como uma combinação 
de tecnologias novas e antigas que ajudam empresas a 
conseguirem ideias viáveis. Portanto, Big Data é a capacidade 
de administrar um volume enorme de dados diferentes na 
velocidade certa e dentro do prazo certo para permitir análises 
e reações em tempo real (HURWITZ et al., 2016, p. 15-16).
Adicionalmente, Gartner (2018, s.p.) defi ne o Big Data como “um grande 
volume de informações, com alta velocidade e/ou ativos de informações de 
alta variedade que exige formas inovadoras e econômicas de processamento 
de informações que permitem uma melhor percepção na tomada de decisão e 
automação de processos”.
Notamos que, em ambos conceitos, existem termos em comum que 
precisamos considerar: volume, velocidade e variedade. De fato, esses termos 
podem ser utilizados para compreender melhor o que de fato é o Big Data. 
Considere que você esteja trabalhando em um projeto de análise consolidado. Em 
um determinado momento você nota que seja viável trabalhar com informações de 
outros ambientes para enriquecer sua análise, tais como: informações de redes 
sociais, ou blogues, ou informações não estruturadas armazenadas em arquivos 
de texto, ou até de Bancos de Dados não Relacionais. 
Diante disso, você extrai essas informações de diferentes fontes, mas 
percebe que não tem hardware necessário para armazená-las, tampouco uma 
infraestrutura que possa processar toda essa informação em tempo hábil. De fato, 
estamos em uma realidade que foge do escopo da análise de dados tradicionais. 
As questões relativas a desempenho até podiam ser consideradas anteriormente. 
Entretanto, nesse atual momento, essa questão assume um papel central, ou 
seja, para prosseguir com suas análises, você precisa, necessariamente, adquirir 
um servidor ou um espaço de armazenamento em nuvem para suportar o volume 
de dados ou considerar uma infraestrutura que suporte computação paralela. 
Os sistemas tradicionais de análise de dados muitas vezes não suportam 
estruturas de dados com formatos e tamanhos diversifi cados. Assim, você 
22
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
precisará também garantir que a infraestrutura seja capaz de suportar 
essa diversidade de dados. Por fi m, uma vez que você consiga 
armazenar uma grande quantidade de dados de múltiplas fontes, é 
fundamental que você se certifi que de que os dados estão sendo 
processados em um adequado intervalo de tempo. 
Observe que quando falávamos em análise de dados tradicional 
não comentamos os pontos mencionados sobre os Vs de Big Data, 
porque estamos exatamente em uma transição entre esse tipo de 
análise e o Big Data. Assim, podemos concluir que estamos diante 
do Big Data quando percebemos que as análises, tradicionalmente 
aplicadas, não estão mais suportando o volume, a velocidade e a 
variedade dos dados que estão chegando e, como consequência disso, 
é necessário examinar novas estratégias para suportar esse “mar de 
dados”, sem comprometer nossas análises. Obviamente, a análise 
de dados tradicional e o Big Data estão longe de serem abordagens 
antagônicas, pelo contrário, complementam-se e são fundamentais 
para que as empresas mantenham elevado poder analítico e, como 
consequência, sejam competitivas no mercado contemporâneo.
Erroneamente, algumas pessoas conceituam Big Data como 
uma ferramenta. Entretanto, como mostramos, Big Data não se 
resume apenas a uma ou mais ferramentas. Big Data é um conceito, 
compreendido de forma simplifi cada. Em função dos 3Vs mencionados 
- volume, velocidade e variedade -, existem abordagens que ampliam o 
conceito para 4, 5, 6 e até 7Vs. Independentemente disso, é importante 
que você compreenda que, nestes casos, não existe um conceito certo 
ou errado. Lembre-se de que o conceito de Big Data ainda está em 
formação. Desta maneira, para este livro optamos pela abordagem 
baseada em 5Vs, conforme mostra a Figura 3. Essa abordagem é 
amplamente utilizada e compreende: Volume, Velocidade, Variedade, 
Veracidade e Valor. Vamos delinear cada uma dessas etapas.
Estamos diante do 
Big Data quando 
percebemos 
que as análises, 
tradicionalmente 
aplicadas, não estão 
mais suportando 
o volume, a 
velocidade e a 
variedade dos 
dados que estão 
chegando e, como 
consequência 
disso, é necessário 
examinar novas 
estratégias para 
suportar esse 
“mar de dados”, 
sem comprometer 
nossas análises. 
Obviamente, a 
análise de dados 
tradicional e o Big 
Data estão longede 
serem abordagens 
antagônicas, 
pelo contrário, 
complementam-
se e são 
fundamentais para 
que as empresas 
mantenham elevado 
poder analítico e, 
como consequência, 
sejam competitivas 
no mercado 
contemporâneo.
23
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
FIGURA 3 – 5Vs: VOLUME, VELOCIDADE, VARIEDADE, VERACIDADE E VALOR
FONTE: <https://www.omnivex.com/company/blog/what-
is-big-data/>. Acesso em: 15 nov. 2018.
• Volume: diz respeito à quantidade de dados - com tamanhos na ordem 
de peta, hepta ou exabytes sendo gerados e que, uma vez extraídos, 
deverão ser suportados na arquitetura de Big Data. Isso quer dizer 
que o quesito escalabilidade precisa ser pensado no início de uma 
implementação do Big Data.
• Variedade: dados estruturados, semiestruturados ou não estruturados 
estão espalhados no meio digital. Eventualmente, desejamos 
incrementar em nossas análises informações obtidas de websites (neste 
caso, certifi que-se de ser autorizado para fazer isso). A ferramenta de 
coleta precisa “raspar” os dados (ou realizar Web Scrapping) que serão 
obtidos em um formato de tags e texto. Talvez estejamos interessados 
em informações de um Banco de Dados não transacional que armazena 
as informações em formato JSON, ou dados de redes sociais, como 
Twitter ou Facebook. Enfi m, a arquitetura de Big Data precisa ser robusta 
o sufi ciente para lidar com essa diversidade de formatos e estruturas, 
tendo como desafi o tornar a tarefa de integração e extração de dados o 
mais transparente possível.
• Velocidade: está relacionada a questões de desempenho. O 
processamento dos dados precisa ser efi ciente a ponto de não 
24
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
causar altas taxas de latência no fl uxo de dados. O sucesso de uma 
implementação do Big Data também está relacionado a entregar 
respostas em tempo hábil e, por isso, estratégias (por exemplo, cache dos 
dados) podem ser adotadas para otimizar o desempenho. É importante 
considerar também qual o foco da análise, isto é, se o processamento 
será em lote (batch) ou em tempo real, ou ambos (arquitetura Lambda). 
Essa questão é um importante requisito de negócio, pois quando 
lidamos com processamento em lote são alocados maiores recursos de 
armazenamentos em detrimento ao processamento em tempo real.
• Veracidade: precisamos confi ar nos dados adquiridos e a veracidade 
está relacionada à inconsistência, à ambiguidade e à incompletude 
desses dados. Quando anexamos fontes de dados externas à nossa 
arquitetura, precisamos ter um cuidado especial, uma vez que não temos 
total controle desses dados, como teríamos se estivéssemos coletando 
dados de sistemas legados da empresa. Por isso, devemos sempre 
questionar os dados que adquirimos e garantir que a origem da nossa 
arquitetura não seja comprometida com dados que possam enviesar ou 
distorcer nossas análises. Assim, a veracidade desempenha um papel 
importante dentro do Big Data.
• Valor: o verdadeiro sentido do Big Data é na geração de valor para a 
organização. De nada adianta elevados investimentos em qualifi cações 
dos profi ssionais, aquisição de soluções proprietárias, entre outros 
recursos, se os resultados obtidos não agregam valor e a organização 
apenas extrai informações desconexas que não agregam novos 
conhecimentos. Essa frustação certamente poderia colocar em risco o 
andamento de todo o processo de Big Data. Na verdade, a obtenção 
do real valor pode trazer para a empresa uma consequência de todo o 
processo de Big Data. Contudo, quando pensamos em termos-chave 
para compor o conceito de Big Data, faz todo sentido acrescentar o valor 
resultante que queremos obter em um processo de Big Data.
Além destes aspectos, algumas outras keywords também podem ser 
incorporadas ao conceito de Big Data, como a Variabilidade e a Visualização. A 
primeira está relacionada à rastreabilidade dos dados, ou seja, verifi car o quanto 
o signifi cado dos dados vem se modifi cando ao longo do tempo, enquanto que 
a segunda corresponde à etapa de apresentação dos dados em um formato 
amigável para o usuário, ou seja, queremos nos certifi car que os resultados das 
nossas análises de Big Data estão prontos para serem consumidos por usuários 
com facilidade e transparência.
 
25
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
Antes de entrarmos em uma discussão mais profunda a respeito de Big Data, 
é importante que você esteja habituado com alguns conceitos introdutórios, porém 
relevantes, e que também servirão de base para todo o conteúdo deste livro. Por 
essa razão, reservamos a próxima seção para discutirmos um pouco isso. 
1 Descreva o conceito de Big Data. 
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
2 Análise de dados tradicional e análise em Big Data são a mesma 
coisa? Justifi que sua resposta.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
3 BIG DATA: CONCEITOS ÚTEIS
Nesta seção, exploraremos alguns conceitos necessários para a 
compreensão das etapas seguintes do ecossistema Big Data. Neste sentido, serão 
apresentados conceitos e diferenças entre dados estruturados, semiestruturados 
e não estruturados, bem como comentaremos tipos de Bancos de Dados não 
Relacionais existentes, apresentando as ferramentas que os compõem e que 
podem ser anexadas no seu projeto. Por fi m, encerraremos a seção comentando 
diferenças entre processamento em lote (batch) e em tempo real, realçando suas 
particularidades, vantagens e desvantagens.
26
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
3.1 DADOS ESTRUTURADOS, 
SEMIESTRUTURADOS E NÃO 
ESTRUTURADOS
Como vimos, a disseminação de dados refl ete em uma nova Era da 
Informação na qual vivemos. Esses dados podem estar em um formato pronto para 
análise, como é o caso dos dados estruturados contidos em planilha ou em um 
Banco de Dados Relacional. Contudo, na prática não é algo que sempre acontece, 
especialmente em tempos de Big Data. Por conseguinte, é imprescindível que 
compreendamos as diferenças entre dados estruturados, semiestruturados e não 
estruturados, tão presentes nos dias de hoje, conforme mostra a Figura 4. Lidar 
com diferentes estruturas de dados é algo comum na era Big Data.
FIGURA 4 – ESTRUTURAS DE DADOS NA ERA BIG DATA
FONTE: <https://www.building-blocks.nl/blog/different-types-
of-data-sources>. Acesso em: 16 nov. 2018.
Os dados estruturados compreendem apenas uma pequena parcela dos 
dados que estão sendo analisados no mundo. Esse formato é representado por 
linhas e colunas e estão armazenados em Bancos de Dados Relacionais ou 
planilhas eletrônicas, tais como: Oracle, Excel, MySQL, entre outros. Algumas 
características dessas estruturas são a facilidade de acesso e manipulação, além 
de um esquema de armazenamento e organização bem defi nido. Isso quer dizer 
que podemos obter respostas rápidas para alguns tipos de perguntas ao realizar 
uma simples consulta em um banco de dados. Para exemplifi car, podemos extrair 
a média de idade dos alunos com sexo masculino do Ensino Médio considerando 
uma determinada escola com um simples SQL e utilizando campos estruturados, 
como idade, sexo, escolaridade e escola.
 
No que se refere a dados semiestruturados, estes normalmente estão 
espalhados pela Web em arquivos HTML, XML ou em Banco de Dados não 
27
COMPREENDENDOA ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
Relacionais, como o MongoDB, que possui uma estrutura semelhante a um 
arquivo JSON. Se pensarmos em um arquivo XML ou HTML, perceberemos 
que existe uma diferença nesses tipos de estruturas: a hierarquia ou a estrutura 
em árvore. As tags ou elementos possuem uma certa organização e qualifi cam 
os documentos. Os nós apresentam uma certa fl exibilidade e não contêm uma 
representação fi xa ou rígida como em um modelo estruturado, ao contrário, 
alguns campos (tags) podem conter descrições ou informações textuais, por 
exemplo, páginas web (como HTML e CSS), campos de e-mail, informações de 
redes sociais etc. Além disso, quando trabalhamos com projetos de Web Scraping, 
normalmente nos deparamos com esse tipo de estrutura.
 
Cerca de 80% dos dados existentes que estão sendo difundidos não possuem 
estrutura bem defi nida, ou seja, são não estruturados ou desestruturados. Por 
exemplo: arquivos textuais, vídeos, imagens, dados de sensores, mensagens em 
formulários ou em campos de e-mails, posts no Facebook ou Twitter, arquivos de 
áudio e assim por diante. São infi nidades de fontes diferentes que contêm dados 
não estruturados. Uma simples pesquisa no Google, uma conversa no WhatsApp, 
uma chamada de vídeo pelo Skype. A verdade é que estamos mergulhados em 
uma quantidade de informação desestruturada que poderia ser perfeitamente 
analisada. Entretanto, há um aumento de complexidade para analisar esse tipo de 
dado. Dados textuais estão sujeitos a problemas de erros sintáticos ou semânticos 
provenientes da linguagem natural, isso poderia inviabilizar todo o processo de 
análise. Felizmente, existem técnicas específi cas para esse fi m e, além de realizar 
o tratamento adequado, podemos converter os dados não estruturados em um 
formato estruturado e assim dar continuidade ao processo de análise a partir de 
uma única visão sobre os dados.
 
Antigamente, incorporar informações não estruturadas ao processo de análise 
era algo extremamente custoso ou muitas vezes inviável. Então, as empresas 
direcionavam suas decisões apenas a uma pequena parcela das informações que 
possuía. Todavia, essa fronteira para integração dos dados progressivamente foi 
se rompendo ao longo do tempo, especialmente com o surgimento do Big Data. 
Por isso, é imprescindível que compreendamos essas diferenças e não limitemos 
nossas análises. O tipo de estrutura de dados que vamos manipular precisa ser 
indiferente para nós, precisamos focar nas estratégias e posteriormente nas 
análises para implementarmos com sucesso e extrairmos valor nas análises de 
Big Data.
28
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
3.2 BANCOS DE DADOS NÃO 
RELACIONAIS
Os Bancos de Dados não Relacionais surgiram no fi nal do século 
passado, mas começaram a ganhar destaque também com o advento do Big 
Data. Observe que mais uma tecnologia emergiu a partir do conceito de Big 
Data. No passado, tarefas analíticas eram realizadas em cima de armazém de 
dados (Data Warehouse) que era um banco, à parte de um SGBD (para não 
concorrer recursos), que armazenava informações estruturadas em um formato 
multidimensional para agilizar consultas. Outra alternativa mais simplifi cada 
era baseada em cubos multidimensionais que permitiam aos gestores analisar 
informações e extrair insights sob diferentes perspectivas.
 
Com o passar dos anos, diante do expressivo aumento no volume e 
variedade dos dados, recursos computacionais mais robustos eram requeridos. 
Neste caso, surgiam duas alternativas para resolver o problema: uma seria 
alocar mais investimentos em infraestrutura física, outra seria utilizar um Banco 
de Dados que pudesse armazenar dados em um formato adequado para rápida 
consulta e análise. Não é de se admirar que muitas empresas optaram pelo uso 
de Banco de Dados não Relacional. Afi nal, ele compreendia exatamente essas 
vantagens mencionadas: agilidade na busca de respostas, elevada capacidade 
de armazenamento e, mais além, capacidade de trabalhar com dados não 
estruturados.
 
Os Bancos de Dados não Relacionais são também conhecidos como 
NoSQL. Não caia na tentação de concluir pela nomenclatura de que esses 
bancos surgiram como concorrentes da linguagem SQL ou não incentivam mais 
o uso dessa linguagem. Ao contrário, NoSQL signifi ca (Not Only SQL) 
ou não somente SQL, isto é, Bancos de Bados NoSQL surgiram como 
uma alternativa para armazenamento de dados com a fi nalidade de 
oferecer uma solução mais robusta e escalável para suportar grandes 
volumes de dados. 
 
No entanto, em Bancos de Dados não Relacionais não existe uma 
maneira única de armazenar um conjunto de dados. Assim, eles podem 
ser classifi cados em quatro tipos: banco de dados chave-valor (key-
value), orientado a documentos (document store), orientado a famílias 
de colunas (column-family stores) e os que são baseados em grafos 
(graph-databases). A Figura 5 ilustra os tipos de Bancos de Dados não 
Relacionais e a seguir explicaremos cada um deles.
NoSQL surgiram 
como uma 
alternativa para 
armazenamento 
de dados com 
a fi nalidade de 
oferecer uma 
solução mais 
robusta e escalável 
para suportar 
grandes volumes de 
dados.
29
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
FIGURA 5 – À ESQUERDA SÃO APRESENTADOS FORMATOS DOS 
BANCOS DE DADOS RELACIONAIS BASEADOS EM SQL. À DIREITA 
OS QUATRO TIPOS DE BANCOS DE DADOS NÃO RELACIONAIS
FONTE: <https://www.kdnuggets.com/2016/07/seven-steps-
understanding-nosql-databases.html>. Acesso em: 15 nov. 2018.
• Banco de dados chave-valor: você talvez já tenha tido algum contato 
com esse tipo de estrutura quando programou em Java ou Python, por 
exemplo. A compreensão é simples: para toda chave existe um valor 
vinculado. Para ilustrar, talvez você tenha observado que na biblioteca, 
há estantes numeradas que armazenam um conjunto de livros. Se você 
precisar consultar alguma informação de um livro específi co, você abre a 
gaveta ou o localiza na estante por meio de uma chave que o identifi ca 
e captura a informação que deseja em um determinado capítulo do livro. 
O conceito é simples, por isso a complexidade para manipular os dados 
é baixa. Além disso, esses tipos de bancos possuem como característica 
a alta escalabilidade, fl exibilidade e uma boa performance. Podemos 
mencionar alguns exemplos de Bancos de Dados que se encaixam 
nessa categoria, tais como: Redis, Riak, Oracle NoSQL. Observe um 
exemplo genérico de um banco chave-valor:
30
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
“Gustavo”
“idade: 22; sexo: M; escolaridade: ensino médio completo; 
fi lhos: não”
“Maria”
“idade: 27; sexo: F; escolaridade: ensino superior comple-
to”; fi lhos: não”
• Banco de dados orientado a documentos: são Bancos de Dados que 
armazenam dados em forma de coleção de documentos. Cada documento é 
único e pode conter diversas informações com dados aninhados, “tipados” como 
strings, valores numéricos, listas. É um dos tipos de Bancos de Dados não 
Relacionais mais utilizado e possui uma estrutura muito semelhante a objetos 
JSON. Estes bancos possuem baixa complexidade e elevada performance e 
escalabilidade, embora não possuam tanta fl exibilidade quanto os outros Bancos 
não Relacionais. Alguns exemplos de bancos orientados a documentos são 
MongoDB, Apache CouchDB, Azure Cosmos DB. Observe um exemplo a seguir:
{
 “id”: 12, 
“nome”: “UNIASSELVI”,
 “unidades”: {
 “SP”: “Bragança Paulista”,
 “AC”: “Cruzeiro do Sul”,
 “MA”: “Bacabal”,
 “GO”: “Anápolis”,
 “RS”: “Bagé” 
}
}
• Banco de dados orientado a colunas: são úteis quando você deseja 
recuperar informações com efi ciência de bases de dados com poucas colunas 
e muitos registros, ou seja, em uma tabela você pode ter uma família de 
colunas com número igual ou diferente de colunas. A estrutura desse tipo de 
banco pode ser demonstrada no exemplo a seguir. Nós mostramos exemplos de 
uma famíliae, nesse caso, existem três chaves, cada uma apontando para um 
conjunto de registros que possuem tamanho de colunas diferentes. O ID = 1, por 
exemplo, possui uma quantidade de colunas menor que os outros dois IDS. Essa 
é uma característica importante desses tipos de Bancos de Dados. Além disso, 
bancos colunares também possuem elevada performance, boa fl exibilidade e alta 
escalabilidade. Evidentemente que isso pode variar de acordo com o domínio que 
você está trabalhando. É possível obter registros de mídias sociais para serem 
armazenados em um banco orientado a colunas. Os seguintes bancos podem ser 
utilizados: Cassandra, HBase, Vertica etc. 
31
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
“ID” = 1 Nome: Gustavo Idade: 21 Estado: Minas Gerais
“ID” = 2 Nome: Samanta Idade: 30 Estado: São Paulo Telefone: (11) 4310-0234
“ID” = 3 Nome: Maria Sexo: F Idade: 31 Estado: Paraná Telefone: (11) 4310-0234
• Banco de dados orientado a grafos: sugere um formato diferente de 
armazenamento dos bancos anteriores, baseado na teoria dos gafos. Os nós 
são dados que queremos armazenar e as arestas exibem o relacionamento entre 
um conjunto de nós. O grafo dirigido e ponderado reforça a ideia de que, para 
esse tipo de banco, há necessidade de uma forte ligação entre os dados. Por 
esta razão, o Banco de Dados orientado a grafos é utilizado somente em alguns 
casos específi cos. Apesar de possuir bastante fl exibilidade, sua performance e 
escalabilidade variam de acordo com o domínio que está sendo trabalhado e sua 
implementação não é trivial, podendo demandar tempo. O banco mais popular é o 
Neo4JS, mas também é possível utilizar o OrientDB e o GraphBase. Um exemplo 
deste modelo de banco pode ser mostrado através da Figura 6. Os nós centrais 
são pessoas que estão conectadas às cidades que visitaram ou residiram. Por 
exemplo, Jonas morou em Recife e João Pessoa e visitou Belo Horizonte.
FIGURA 6 – MODELO DE BANCO
FONTE: <https://www.researchgate.net/publication/268201466_NoSQL_no_
desenvolvimento_de_aplicacoes_Web_colaborativas>. Acesso em: 15 nov. 2018.
32
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
3.3 PROCESSAMENTO EM BATCH E 
EM TEMPO REAL
Não devemos pensar em Big Data somente em função dos tipos e estruturas 
de dados que manipularemos, ou mesmo se extrairemos ou manipularemos 
informações de Bancos de Dados Relacionais ou não Relacionais. Outro ponto 
que precisamos considerar diz respeito ao volume de dados serem processados 
em batch (lote) ou em tempo real. Por isso, você precisa compreender e distinguir 
ambos, é o que faremos nesta seção.
3.3.1 ProCESSAmENTo Em LoTE 
O processamento em lote ou em batch refere-se à forma de processar 
transações, tendo em vista um grupo de registros armazenados em um intervalo 
de tempo. Quando desejamos obter os dados de vendas dos produtos em uma 
grande loja de varejo considerando a última quinzena de vendas, nós já temos 
um conjunto signifi cativo de informações armazenadas em lote dentro de 
uma janela temporal de duas semanas, o que pode representar um volume de 
petabytes de dados para processar. Por outro lado, talvez estejamos interessados 
em analisar dados da próxima semana. Nesse caso, somente ao fi nal de sete dias, 
quando a janela temporal de lote estiver completa ou cheia, podemos processar 
todos esses dados. Isso representa uma característica importante desse tipo 
de processamento: você primeiro armazena o dado em grandes lotes de dados 
respeitando uma janela temporal, para posteriormente processá-los.
No entanto, trabalhar com esse tipo de processamento nem sempre é 
adequado. Por exemplo, ao notarmos que precisamos trabalhar com uma 
janela temporal mais curta, talvez uma semana, ao invés de duas semanas, 
precisaríamos reprocessar todo aquele lote de dados novamente ou mesmo criar 
códigos para lidar com essas variações. Cabe considerar que o processamento 
em lote é utilizado há várias décadas, então, alguns consideram um modelo 
ultrapassado, tendo em vista que a tomada de decisões atualmente está muito 
mais dinâmica e com demandas de respostas cada vez mais ágeis.
Em compensação, você pode processar lotes de forma independente e 
atemporal, o que torna este modelo mais fl exível, sendo ideal para processar 
imensos conjuntos de dados de forma mais efi ciente. A Figura 7 ilustra o fl uxo de 
dados em um ambiente de processamento em lotes.
33
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
FIGURA 7 – OS DADOS SÃO COLETADOS E ARMAZENADOS E LOGO 
EM SEGUIDA PROCESSADOS PARA POSTERIOR ANÁLISE
FONTE: <http://www.irisidea.com/lambda-architecture-big-
data-processing/>. Acesso em: 15 nov. 2018.
3.3.2 ProCESSAmENTo Em TEmPo rEAL
Com o surgimento e a redução de custo de novos dispositivos físicos, como 
câmeras de alta defi nição para áudio, vídeo e imagens, drones para mapear 
informações geográfi cas, sensores para implantação na indústria ou na agricultura, 
uma nova demanda de análise foi ganhando espaço - a análise em tempo 
real. Diferentemente do processamento baseado em grandes lotes de dados, 
o processamento em tempo real captura um microlote de dados e disponibiliza 
de forma imediata para análise. Assim, você pode capturar informações em 
tempo real do Twitter e de imediato aplicar um processo de tratamento (como 
transformação e limpeza) e, em seguida, aplicar um modelo de Machine Learning 
para realizar alguma previsão. Por exemplo, investidores estão interessados em 
mitigar riscos de investimento em novos negócios, tomando como base a Bolsa de 
Valores. Um sistema baseado em Machine Learning pode ser criado para mapear 
fontes, coletar, tratar, analisar e prever riscos de investimento. Além disso, detectar 
eventos anômalos de atividades de cartão de crédito baseados em microlotes de 
dados também necessitam de uma arquitetura que suporte processamento em 
tempo real. 
Note que o foco não é o armazenamento e sim a análise, por este 
motivo, frameworks de Big Data criados para esta fi nalidade não possuem 
a mesma robustez em termos de armazenamento do que àqueles voltados ao 
processamento em batch. Em uma eventual necessidade, combinações de 
componentes de Big Data em uma única arquitetura, por exemplo, combinando 
o Hadoop e o Spark, podem ser úteis para enfrentar situações nas quais você 
precise processar e armazenar grandes volumes de dados em tempo real.
34
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
O Hadoop será apresentado a você na última seção deste 
capítulo. Além disso, você conhecerá o Spark em mais detalhes no 
Capítulo 3.
Podemos elencar algumas vantagens dessa forma de processamento, a 
saber: respostas ágeis, informações atualizadas, identifi cação de padrões ou 
detecção de eventos em tempo de execução de modo a oferecer a gestores 
decisões mais ágeis e assertivas em um determinado momento. Por outro 
lado, existe aumento de complexidade se comparado ao modelo tradicional em 
lote. Como os dados, muitas vezes, são analisados e logo após descartados, o 
processo de auditoria pode ser comprometido. A Figura 8 mostra um pipeline que 
exemplifi ca o processamento em tempo real.
FIGURA 8 – OS DADOS SÃO COLETADOS, PROCESSADOS À CADA MICROLOTE, 
EM SEGUIDA, ANALISADOS E POSTERIORMENTE DESCARTADOS
FONTE: <http://www.irisidea.com/lambda-architecture-big-
data-processing/>. Acesso em: 15 nov. 2018.
1 Explique as principais diferenças entre processamento de dados 
estruturados, semiestruturados e não estruturados.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
35
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATACapítulo 1 
____________________________________________________
2 Quais são os tipos de bancos de dados NoSQL existentes? Cite 
uma ferramenta indicada para cada um dos tipos.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
3 Qual a principal diferença entre o processamento em lote e o 
processamento em tempo real?
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
4 ARQUITETURA DE BIG DATA E 
SEUS COMPONENTES
Agora que você possui conhecimento dos conceitos básicos, conseguirá 
distinguir diferenças importantes no contexto de Big Data e assim generalizar seu 
aprendizado. Nesta seção, apresentaremos a arquitetura tradicional de Big Data e 
seus componentes. A partir destes conhecimentos será possível que você consiga 
refl etir sobre as novas abordagens e enfrentar desafi os em cenários reais.
4.1 ARQUITETURA TRADICIONAL DE 
BIG DATA
Em seções anteriores comentamos a respeito do valor que a análise de Big 
Data pode trazer para as organizações. A construção de uma arquitetura que 
possa atender a todas as demandas e expectativas de negócios desempenha 
um papel central para que a implementação de Big Data realmente apresente 
36
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
resultados e forneça insights valiosos para a organização, fazendo valer a 
pena todo o investimento dispensado, tais como pessoas, recursos, dinheiro e 
tempo. Tendo isso em mente, não podemos pular etapas sem antes pensar em 
mecanismos que precisamos considerar ao implementar o Big Data.
 
Uma arquitetura de Big Data precisa ser robusta o sufi ciente para 
lidar com a ingestão, o processamento e a análise dos dados com 
efi ciência, uma sólida infraestrutura e capacidade de fornecer insights 
confi áveis que gerem valor real para o usuário fi nal. Pensando em 
um alto nível podemos considerar que a arquitetura típica do Big Data 
não difere muito de uma arquitetura de análise de dados tradicional, 
visto que considera as fases de: extração, integração, organização, 
análise e apresentação dos resultados. Contudo, as ferramentas, o 
armazenamento e o processamento, a infraestrutura, a segurança, o 
hardware, a computação paralela e as técnicas realçam a diferença 
entre os dois campos. De um modo geral, podemos dividir a arquitetura 
de Big Data em camadas.
Uma arquitetura de 
Big Data precisa 
ser robusta o 
sufi ciente para lidar 
com a ingestão, o 
processamento e a 
análise dos dados 
com efi ciência, uma 
sólida infraestrutura 
e capacidade de 
fornecer insights 
confi áveis que 
gerem valor real 
para o usuário fi nal.
Uma proposta de arquitetura interessante pode ser encontrada 
em: <https://docs.microsoft.com/en-us/azure/architecture/guide/
architecture-styles/big-data>. É um material adicional, porém, 
importante e que pode ser utilizado para complementar seu 
conhecimento. Mais que isso, a arquitetura proposta possui 
benefícios que podem auxiliá-lo em um projeto pessoal ou em um 
cenário real de negócio.
4.1.1 CAmADA DE EXTrAÇÃo E 
iNTEGrAÇÃo DE DADoS
Esta camada representa o primeiro contato que você terá com as fontes de 
dados, por isso, antes de mais nada, certifi que-se de perguntar: “com base nos 
requisitos de negócios coletados, onde devo buscar as informações que preciso?”. 
Este autoquestionamento lhe direcionará a ir em busca de informações a respeito 
da disponibilidade das fontes de dados. É importante também que você 
considere a confi abilidade das informações, especialmente em épocas de Fake 
News e robôs produzindo conteúdo. Por isso, considere sempre dar preferência 
37
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
para sistemas onde a empresa possua mais controle sobre os dados 
e, caso precise adicionar conteúdo externo, busque informações de 
empresas, entidades ou órgãos governamentais que assegurem a 
integridade, a confi abilidade e a qualidade dos dados que estão sendo 
fornecidos.
De posse das fontes, você precisa realizar a etapa de extração 
dos dados e então se perguntar: “os dados serão analisados em tempo 
real ou em batch?”. É importante que você se certifi que dessa questão 
para construir uma arquitetura apropriada de acordo com o objetivo 
da análise. Os dados podem vir de diferentes fontes, com tipos e 
formatos diversifi cados: dados de sensores, tweets, informações com 
características geoespaciais, sistemas ERP, entre outros, ou seja, existe 
um mix de fontes compostas de informações completamente diferentes 
e a arquitetura de Big Data precisa fornecer uma transparência para 
que essa extração exija esforço mínimo. Não é uma tarefa trivial, mas 
possuir uma arquitetura que possa enxergar toda essa diversidade 
de forma única tanto na fase de extração quanto na fase de integração, é algo 
extremamente útil. Isso porque todo processo de Big Data é iterativo e precisa de 
um acompanhamento contínuo. Assim, diante de um possível colapso ou mesmo 
algum reparo durante o processo de uma tarefa automatizada e transparente 
tenderia a agilizar bastante os ajustes que seriam realizados.
 
Esta etapa pode exceder consideravelmente o consumo de recursos 
previstos, mas isso dependerá da variabilidade e variedade dos dados entre as 
fontes. Quer dizer, fontes de diferentes naturezas podem consumir mais tempo 
do que àquelas que compartilham de dados mais homogêneos entre si. Ainda, 
fi ca a seu critério realizar algum tipo de tratamento e limpeza dos dados nesses 
estágios iniciais, mas não é uma regra. Novamente, tudo depende do domínio 
que você está lidando. Por exemplo, se estivermos trabalhando em um banco e 
desejamos extrair informações da Bolsa de Valores, provavelmente realizaremos 
transformação e limpeza de dados no que se refere a correções de valores e 
unidades na moeda (dólar para real, por exemplo). Na prática, a tarefa de 
transformação e limpeza dos dados na origem é algo comum pelo fato de não 
existir uma padronização em termos de armazenamento entre as fontes.
4.1.2 CAmADA DE ArmAZENAmENTo ou 
FLuXo DE DADoS
Uma vez que extraímos os dados podemos armazená-los em um destino, 
em uma arquitetura tradicional de BI. Após a extração dos dados na fonte, cria-
Considere sempre 
dar preferência para 
sistemas onde a 
empresa possua 
mais controle sobre 
os dados e, caso 
precise adicionar 
conteúdo externo, 
busque informações 
de empresas, 
entidades ou órgãos 
governamentais 
que assegurem 
a integridade, a 
confi abilidade e a 
qualidade dos dados 
que estão sendo 
fornecidos.
38
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
se uma base de dados intermediária denominada Staging Area, que constitui em 
uma “zona de repouso” para os dados, antes de serem carregados em uma fonte 
destino - como um Data Warehouse, ou Data Mart ou mesmo em uma ferramenta 
OLAP ( Online Analytical Processing). Entretanto, essa abordagem possui sérias 
limitações quando o volume de dados aumenta demasiadamente e lidamos com 
dados não estruturados. Por outro lado, podemos dispensar o uso de Stages se 
espalharmos todos os nossos dados em um Data Lake (“Lago de dados”). 
A Amazon (AWS, s.d.) defi ne um Data Lake como um repositório centralizado 
que possibilita o armazenamento de dados estruturados e não estruturados em 
suas formas brutas sem a necessidade de defi nir um esquema previamente, 
como ocorre em bases tradicionais. Você pode construir Data Lakes em um 
servidor físicoou utilizando a nuvem. Essa característica permitiu que o Data Lake 
emergisse em tempos de Big Data. James Dixon (2010), fundador do Pentaho, fez 
a seguinte analogia: você pode imaginar um Data Mart como uma loja de garrafas 
de água - limpa, embalada e estruturada para fácil consumo - o Data Lake é uma 
grande reserva de água em seu estado mais natural.
Essa analogia é bem pertinente. A Figura 9 retrata o funcionamento do 
Data Lake: os dados de diferentes fontes com formatos, estruturas e tamanhos 
diferentes chegam no reservatório (dataset) e vão sendo armazenados no seu 
estado bruto. O cientista de dados vai ao reservatório e seleciona apenas uma 
amostra de água (subset) que possa ser útil para sua análise. Ora, em uma 
análise ad-hoc, uma amostra pequena pode ser o sufi ciente para extrair insights 
em um determinado momento. Com isso em mente, o cientista analisa a amostra 
coletada e constrói visualizações que estarão prontas para serem consumidas 
pelos usuários fi nais. Microsoft e Amazon já oferecem soluções para construir 
Data Lakes. Data Lake é um lago que armazena dados de diferentes fontes, 
estruturas e tamanhos: é uma nova abordagem de armazenamento no processo 
de gestão de dados.
39
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
FIGURA 9 – MODELO DE DATA LAKE
FONTE: <https://canaltech.com.br/infra/EMC-oferece-solucao-de-
armazenamento-e-analise-de-Data-Lake/>. Acesso em: 15 nov. 2018.
Além disso, existem outras possibilidades de armazenamento que podem 
ser consideradas, tais como: Bancos de Dados não Relacionais, como HBase, ou 
mesmo no próprio Hadoop por meio do seu sistema de arquivo distribuído (HDFS) 
que detalharemos mais à frente.
A estratégia para persistência dos dados varia de acordo com o seu objetivo, 
por isso não existe uma maneira universal ou uma solução única para Big Data. 
Cabe também frisar que os dados não podem ser armazenados de qualquer 
modo, ao contrário, necessitam de mecanismos de controle e acesso.
Quando falamos de fl uxo de dados estamos nos referindo ao processo 
de conduzir os dados que estão chegando em tempo real. Nesta situação, o 
armazenamento precisa ser robusto o sufi ciente para resistir a seguidas leituras e 
gravações em grandes volumes de dados. Eventualmente ocorrem falhas e, nesse 
caso, é necessário implantar mecanismos que forneçam suporte de tolerância a 
falhas. Por exemplo, em casos de ambiente em lote, existem muitos frameworks 
que oferecem suporte necessário para lidar com fl uxo contínuo de dados, como 
frameworks da família Apache, Apache Kafka, Apache Spark, Apache Flume e 
Apache Storm. A Amazon também oferece uma solução para armazenamento de 
dados streaming, como o Amazon Kinesis Firehouse (AWS, s.d.). 
40
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
4.1.3 CAmADA DE ANáLiSE
A camada analítica consome os dados como foram armazenados na etapa 
anterior. Dessa maneira, os objetivos de análise precisam estar defi nidos, algo 
como:
• Você fará uma análise exploratória? 
• Está buscando identifi car padrões nos dados ou segmentar um grupo de 
clientes ou produtos de acordo com algum critério? 
• Precisa fazer uma análise rápida para aquele atual momento (análise ad-
hoc)? 
• Talvez precise de algo mais avançado, como prever comportamento de 
compra de um consumidor, com base nas suas últimas compras e/ou 
informações obtidas de conteúdo postado em seu blogue pessoal, ou até 
mesmo baseado em preferências de seus amigos mais próximos? 
Esses questionamentos são importantes para direcionar suas análises de 
Big Data. Técnicas de análise de dados tradicionais podem ser empregadas, 
contudo, precisam suportar o grande volume de dados ou o fl uxo em tempo real. 
Além disso, ferramentas, frameworks e técnicas avançadas voltados para Big 
Data podem ser utilizados para lidar com dados distribuídos. A etapa de análise 
de Big Data é fundamental para extrair valor para os negócios e precisa ser bem 
projetada, por essa razão, precisa dar conta de toda a demanda, fornecendo 
máxima transparência ao usuário fi nal e entregando informações consistentes à 
próxima camada.
Alguns desses valores são essenciais para maximizar o lucro das empresas 
e também aprimorar o conhecimento de seu próprio negócio e dos seus 
concorrentes. Com isso em mente, indústrias que trabalham com quaisquer 
segmentos de fabricação (automotiva, alimentação, hospitalar etc.) visam sempre 
à melhoria da sua efi ciência na cadeia de produção com a otimização de recursos 
e redução de lucros. Não somente isso, o conhecimento a respeito dos seus 
clientes, a busca pela sua fi delização e a defi nição de estratégias para captura 
de novos clientes são atividades que representam o âmago da existência dessas 
companhias.
4.1.4 CAmADA DE APrESENTAÇÃo
A camada de apresentação pode ser chamada de camada de consumo ou 
front-end, diz respeito a como publicar e apresentar os resultados obtidos pela 
análise. Por exemplo, na camada de armazenamento, é importante você defi nir 
41
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
 Capítulo 1 
controle de acesso aos dados que serão consumidos, certifi cando quais áreas 
ou pessoas da empresa podem interagir com os resultados e extrair os devidos 
insights. Os requisitos de negócios podem exigir que se construa uma API 
específi ca ou mesmo uma ferramenta de análise, um dashboard, um relatório ou 
mesmo um sistema de recomendação de produtos.
Além de usuários a camada de aplicação pode ser responsável por 
consumir aplicativos de diversos segmentos, como de marketing (Myrrix) ou de 
mídias (Bluefi n). Essa camada também pode alimentar processos de negócio, 
resolvendo rapidamente problemas e respondendo a mudanças inerentes a esses 
ambientes. A Figura 10 esquematiza a arquitetura de Big Data comentada nesta 
seção. A camada de extração e integração é onde tudo começa e a camada de 
apresentação tem a ver com o consumo dos resultados gerados pelas análises.
FIGURA 10 – UMA ARQUITETURA GENÉRICA PARA 
IMPLANTAÇÃO DE BIG DATA ANALYTICS
FONTE: O autor
42
 BiG DATA ANALYTiC E A TomADA DE DECiSÕES
1 Uma arquitetura típica para projetos de Big Data é formada por 
quais componentes?
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
2 Descreva um Data Lake.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
4.2 ECOSSISTEMA HADOOP
Uma arquitetura típica de Big Data precisa suportar o alto 
volume e a variedade de dados e processá-los em um tempo hábil. O 
Hadoop é um framework Open-Source que permite o processamento 
distribuído de grandes massas de dados por intermédio de clusters 
de computadores considerando modelos de programação simples. 
Esses clusters são máquinas ou nós que estão distribuídos oferecendo 
recursos de computação e armazenamento locais gerenciados por um 
servidor. Por intermédio do Apache Hadoop é possível gerenciar um 
grande volume de dados dos mais variados formatos. Mais do que 
isso, a biblioteca fornece mecanismos automatizados para detecção e 
correção de falhas e serviços com alta disponibilidade e escalabilidade. 
O Hadoop é um 
framework Open-
Source que permite 
o processamento 
distribuído de 
grandes massas 
de dados por 
intermédio de 
clusters de 
computadores 
considerando 
modelos de 
programação 
simples. Esses 
clusters são 
máquinas ou 
nós que estão 
distribuídos 
oferecendo recursos 
de computação e 
armazenamento 
locais gerenciados 
por um servidor.

Continue navegando