BIG_DATA_ANALYTIC_TOMADA_DECISÃO

•

Escola Adventista De Padre Miguel

Ariel de Jesus Moreira

31/01/2021

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Segurança e Auditoria de Sistemas de Informação

395 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

BIG DATA ANALYTIC E A
TOMADA DE DECISÕES
Programa de Pós-Graduação EAD
UNIASSELVI-PÓS
Autoria: Fernando Gama da Mata
CENTRO UNIVERSITÁRIO LEONARDO DA VINCI
Rodovia BR 470, Km 71, no 1.040, Bairro Benedito
Cx. P. 191 - 89.130-000 – INDAIAL/SC
Fone Fax: (47) 3281-9000/3281-9090
Reitor: Prof. Hermínio Kloch
Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol
Equipe Multidisciplinar da Pós-Graduação EAD:
Carlos Fabiano Fistarol
Ilana Gunilda Gerber Cavichioli
Jóice Gadotti Consatti
Norberto Siegel
Camila Roczanski
Julia dos Santos
Ariana Monique Dalri
Marcelo Bucci
Revisão Gramatical: Equipe Produção de Materiais
Diagramação e Capa:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Copyright © UNIASSELVI 2019
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
UNIASSELVI – Indaial.
M425b
Mata, Fernando Gama da
Big data analytic e a tomada de decisões. / Fernando Gama da
Mata. – Indaial: UNIASSELVI, 2019.
137 p.; il.
ISBN 978-85-7141-305-4
1. Big data analytic - Brasil. 2. Administração da produção – Brasil.
II. Centro Universitário Leonardo Da Vinci.
CDD 658.5
Impresso por:
Sumário
APRESENTAÇÃO ............................................................................5
CAPÍTULO 1
COMPREENDENDO A ANÁLISE DE
INFORMAÇÃO NO CONTEXTO DE BIG DATA ...............................7
CAPÍTULO 2
COMPREENDENDO E EXPLORANDO
TÉCNICAS PARA ANÁLISE DE BIG DATA ....................................49
CAPÍTULO 3
FUNDAMENTOS PARA INTEGRAÇÃO ANALÍTICA, TÓPICOS
AVANÇADOS E TENDÊNCIAS EM BIG DATA ANALYTICS ..........97
APRESENTAÇÃO
A dinâmica dos dados precisa ser compreendida para quem deseja trabalhar
com eles. Tudo começou com a transição Web, que permitiu novas formas de
armazenar conteúdo. Alinhado a isso, novas tecnologias surgiram. Custos de
hardware e software, fortalecimento da computação em nuvem, entre outros
fatores, permitiram que nos últimos anos houvesse uma explosão de dados. Além
do contexto histórico, mostraremos alguns exemplos para que você compreenda
como as novas tecnologias já estão sendo incorporadas em nosso cotidiano e
serão utilizadas como fontes de dados para nossas análises.
Na seção seguinte, exibiremos alguns exemplos de tipos de análise de
dados que podem ser aplicadas nos contextos de negócio. Neste sentido, você
compreenderá como diferenciar um tipo de análise de outro. A análise tradicional
será apresentada para que tenha condições de saber algumas limitações e
estabelecer algumas distinções com relação ao Big Data.
Por falar nisso, serão apresentados conceitos relacionados ao Big Data, bem
como citaremos alguns exemplos. Conceitos complementares e úteis também
serão mostrados, como dados estruturados, semiestruturados e não estruturados;
introdução a bancos de dados não relacionais e seus tipos: chave-valor, orientado
a documentos, orientado a colunas e aqueles baseados em grafos. Além disso,
apresentaremos uma importante diferença entre o processamento em batch (lote)
e processamento em tempo real.
Na parte final do capítulo será apresentada uma arquitetura típica de Big
Data composta pelas respectivas camadas: camada de extração de integração,
camada de armazenamento e fluxo de dados, camada de análise e camada de
apresentação. Será ainda conceituado o Hadoop e os componentes core, que
são fundamentais para o adequado funcionamento, assim como alguns módulos
complementares que podem ser utilizados de acordo com as necessidades do
projeto.
Neste capítulo abordaremos uma gama de técnicas voltadas especialmente
para as análises em cluster e mineração de texto. Você compreenderá o contexto
nos quais essas técnicas possuem a sua devida importância.
A primeira seção abordará os conceitos e os algoritmos para a análise de
cluster, técnicas tradicionais de particionamento e suas limitações, assim como
os algoritmos que podem ser empregados. Em seguida, serão apresentadas as
evoluções das técnicas que se adequaram às exigências de Big Data.
Já a segunda seção apresentará os principais conceitos voltados para um
subcampo da análise de rede - as redes socias. Você conhecerá as técnicas, as
métricas e as aplicações voltadas para esse amplo campo de estudo. Ao final
desta seção serão apresentadas algumas ferramentas que você poderá utilizar
nas suas análises.
Dando continuidade, a terceira seção abordará as técnicas voltadas à
mineração de texto. A contextualização do tema reforçará a complexidade
adicional de trabalhar com dados dessa natureza. Assim, é possível empregar
análises e utilizar métricas na tentativa de extrair insights interessantes mesmo
em grandes volumes de dados. Por fim, a quarta e última seção deste capítulo
encerrará tratando do Digital Analytics e suas implicações no mundo dos
negócios. Serão mostrados alguns conceitos relacionados a esse campo de
aplicação e como algumas empresas estão tirando proveito de métricas digitais
para impulsionar seus negócios.
Ao longo do capítulo procure experimentar ferramentas e pesquisar
adicionalmente alguns pontos que foram destacados.
Neste capítulo você terá um conteúdo um pouco mais voltado para a prática.
Antes, é necessário que você compreenda e consiga distinguir a relação entre um
ambiente de Extração-Transformação-Carga (ETL) de um ambiente de Extração-
Carga-Transformação. A diferença pode parecer sutil, mas na realidade revela
dois cenários distintos.
Em seguida você conhecerá o Apache Spark, como realizar a extração, a
transformação e a manipulação de dados. Além disso, conhecerá seus principais
componentes e características que os diferem. Destacaremos o principal
componente de sua estrutura - o RDD, na qual, inclusive, você será convidado a
implementar e assim consolidar seu aprendizado.
Na Seção 4 você aprenderá com mais profundidade a respeito dos conceitos
e aplicações de Internet das Coisas, bem como conhecerá algumas soluções já
disponíveis que podem ser utilizadas.
Na Seção 5 apresentaremos algumas tendências de Big Data para que
você esteja por dentro do que estará por vir e se antecipar para lidar com novos
problemas e soluções que virão.
Bons estudos!
CAPÍTULO 1
COMPREENDENDO A ANÁLISE DE
INFORMAÇÃO NO CONTEXTO
DE BIG DATA
A partir da perspectiva do saber-fazer, são apresentados os seguintes
objetivos de aprendizagem:
 Defi nir e esclarecer os principais conceitos relacionados ao Big Data.
 Apresentar componentes que compõem a arquitetura.
 Analisar e discutir, a partir dos conceitos e da compreensão dos componentes
que fazem parte da arquitetura de Big Data, a distinção entre o emprego da
análise de dados tradicional e o Big Data.
8
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
9
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
1 CONTEXTUALIZAÇÃO
No atual século, o surgimento de novas tecnologias tem contribuído
signifi cativamente para uma explosão de dados gerados. Não à toa, vivemos no
ápice de uma era conhecida como a Era da Informação. É conveniente pensar que
grande parte dos dados gerados podem ser consumidos para os mais diversos
fi ns.
Diante deste cenário, empresas e Institutos de Pesquisa e Desenvolvimento
(P&D) têm investido cada vez mais em infraestrutura, sejam físicas ou em nuvem,
para suportar análises de dados cada vez mais robustas. No âmbito de empresas,
em geral, o intuito sempre visa no mínimo, tentar manter ou elevar suas
capacidades analíticas e assim tomar decisões que impulsionem seus negócios.
No que diz respeito aos Institutos de Pesquisa e Desenvolvimento, implementar
soluções que atendam aos requisitos de alto desempenho computacional é um
grande desafi o: são vídeos, imagens, textos, vozes, sons e os mais variados tipos
e estruturas de dados que precisam ser analisados na tentativa de prover novas
soluções em inúmeras áreas da ciência.
Desta forma, estão ganhando destaque nas mídias: InteligênciaArtifi cial
(IA), Aprendizagem de Máquina (ou Machine Learning), Inteligência de Negócios
(ou Business Intelligence), Ciência de Dados e Big Data. O que há de comum
entre eles? O fato de que a essência para a existência destes são os dados.
Por exemplo, a Aprendizagem de Máquina pode ser compreendida como um
subcampo da IA, que tem como objetivo automatizar processos por meio da
construção de modelos analíticos que recebem como parâmetro um conjunto de
dados como entrada (input). Para isso, é fundamental que esse conjunto de dados
obedeça a uma série de requisitos para que a aprendizagem de fato ocorra.
O que acontece quando você tem um conjunto de dados bem amplo e
precisa extrair de fontes de diferentes naturezas e tipos de dados heterogêneos?
Concorda que a complexidade cresce proporcionalmente?
Diante desses questionamentos, é fundamental que a priori você refl ita sobre
o cenário informacional que vivemos e também mergulhe nos conceitos úteis
relacionados ao Big Data, como compreender os elementos que compõem a sua
arquitetura. Todas essas questões serão abordadas neste capítulo. Bons estudos!
10
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
2 CENÁRIO ATUAL E VISÃO GERAL
DO BIG DATA
Você consegue imaginar o quanto de informação tem sido gerada na internet
em apenas um minuto? Um relatório apresentado pelo grupo Domo (s.d.) destaca
que a população que utiliza a internet aumentou nos últimos anos. Em 2012, o
número de usuários girava em torno dos 2,5 bilhões enquanto que, em 2017,
47% da população mundial estava conectada, o que representa 3,8 bilhões de
usuários. O mesmo relatório aponta que a cada minuto são assistidos 4.333.560
vídeos no Youtube, 473.400 tweets são publicados no Twitter, 176.220 chamadas
são realizadas pelo Skype, 49.380 fotos são postadas no Instagram, entre outros
casos.
Observe a diversidade de dados que estão sendo produzidos e consumidos
pelos usuários constantemente: vídeos, fotos, textos, vozes e assim por diante.
Essa realidade está diretamente relacionada ao contexto histórico da Web,
abrangendo suas transições conhecidas como Web 1.0, Web 2.0 e a mais
recente Web 3.0. A Figura 1 exibe as fases da Web ao longo do tempo. É possível
constatar que as tecnologias evoluíram para atender à demanda de cada etapa.
Por exemplo, na Web 1.0, o HTML constituiu-se como uma tecnologia-chave
para o desenvolvimento de websites, enquanto que na etapa posterior, a Web
2.0, tecnologias dinâmicas, como a linguagem PHP, emergiram para atender uma
demanda de produção de conteúdo e interação com o usuário.
FIGURA 1 – EVOLUÇÃO DA WEB E SUAS FERRAMENTAS/TECNOLOGIAS
AO LONGO DO TEMPO NESSAS ETAPAS DE TRANSIÇÃO DA WEB
FONTE: O autor
11
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
Enfatiza-se também que, na Web 1.0, os sistemas Web eram estáticos, o
que signifi ca que o objetivo era apenas informar, produzir conteúdo dependia
diretamente do administrador do sistema, que alimentava o website e o resultado
era exibido para o usuário. Por outro lado, na Web 2.0, o papel do usuário não se
restringia ao mero consumo de conteúdo, mas também na produção deste, seja
através de blogues, como também de aplicações Web dinâmicas.
A transição da Web 2.0 para Web 3.0 foi impulsionada pelo uso crescente
de smartphones e tablets. Além disso, o acesso à Web foi facilitado com o
barateamento destes dispositivos e, assim, os usuários se tornaram mais
ativos na rede. Outro fator importante foi o surgimento das redes sociais, que
contribuíram para uma rápida explosão de conteúdos produzidos pelo usuário,
bem como o surgimento de novas tecnologias e o barateamento de software e
hardware. O advento da computação em nuvem também é considerado precursor
nesta importante transição.
A Web 3.0, também conhecida como Web Semântica, está relacionada a
uma nova forma de Web, que tem a ver com a compreensão do signifi cado do
seu uso e apresenta como característica o fato de que o entendimento sobre o
comportamento do usuário perante a rede permite, por exemplo, que campanhas
digitais publicitárias possam atingir um público-alvo desejado de maneira mais
assertiva. Atividades do usuário, como cliques no mouse, podem ser monitoradas
para diferentes propósitos. Uma outra maneira de reforçar a Web 3.0 é o aumento
da importância dos cookies. Quando você acessa pela primeira vez um website,
uma mensagem é exibida solicitando sua autorização para utilização de cookies.
Quando concedemos permissão estamos, na verdade, autorizando o site a enviar
cookies que armazenam informações do nosso comportamento de navegação.
Assim, websites de cunho jornalístico podem reordenar as notícias publicadas
conforme nossas preferências. No caso de lojas virtuais, você já notou que um
carrinho de compras continua cheio depois de você ter encerrado a sessão
e voltar naquele website? Naturalmente, para muitos, é vantajoso e prático ter
informações de login e senha armazenadas em um website.
Até que ponto podemos confi ar que nossas informações
confi denciais não estão sendo armazenadas ou quão seguro é este
armazenamento? Qual o limite da nossa privacidade neste atual
contexto?
12
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
Acesse <https://web.archive.org/>. Este site armazena um
conjunto de arquivos históricos de modifi cações salvas de mais de
300 bilhões de websites. Escolha um website de sua preferência
e experimente checar suas modifi cações ao longo do tempo. Você
consegue perceber algumas das diferenças que mencionamos aqui
e sentir essa transição de contextos web?
Além do mais, as transições da Web 1.0, 2.0 e 3.0 refl etem uma
realidade na qual vivemos - existindo uma sobrecarga de informação,
isto é, em uma excessiva quantidade de informação, o gerenciamento
depende da ação humana, mas de forma inviável. Como gerenciar
essas informações? De que maneira podemos extrair aquilo que é útil
para nós? Por exemplo, quando desejamos pesquisar algo na internet,
a primeira coisa que fazemos é realizar uma busca através de um site
de busca, como o Google. Por que fazemos isso? Porque ao digitar
palavras-chave no buscador, este nos retornará apenas um conjunto de
informações que é do nosso interesse.
Da mesma forma ocorre quando empresas buscam alternativas
para encontrar informações úteis e alavancarem seus negócios. Neste caso,
a ideia geral é fi ltrar informações que sejam relevantes, seja no âmbito interno
(entender e/ou otimizar seus processos), como também externos (por exemplo,
informações sobre a concorrência), com a fi nalidade de se tornarem cada vez
mais competitivas.
A revolução dos dados tem tornado o mundo “mais inteligente”, antes, apenas
conectado. A inteligência já faz parte dos dispositivos, como o celular, que há
alguns anos, possuía recursos limitados a SMS e voz (ligação) e, posteriormente,
conexão com a internet. Atualmente, existem aplicativos inteligentes que
monitoram o nosso dia a dia e, progressivamente, conhecem mais nossos
hábitos. O GPS ativo permite que aplicativos conheçam nossa rotina diária, tais
como perceber se praticamos exercícios físicos, se dormimos bem ou não nas
últimas noites, com qual contato da nossa agenda nos comunicamos mais e
assim por diante. Note que tudo isso já faz parte da nossa vida diária e estamos
mergulhados nesse mar de tecnologias, ou seja, a onipresença desses meios é
algo que retrata o atual momento em que vivemos.
Não é difícil imaginar que grande parte dessa onda de dados afetará, além de
Uuma realidade
na qual vivemos
- existindo uma
sobrecarga de
informação, isto é,
em uma excessiva
quantidade de
informação, o
gerenciamento
depende da ação
humana, mas de
forma inviável
13
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
outros segmentos, o esporte, a saúde, a nossa casa e até o relacionamento com
as pessoas e a nossa família.Marr (2015) destaca algumas dessas mudanças que
tornarão o mundo mais “inteligente”, no qual sistemas de GPS e microssensores
terão grande utilidade. A seguir, apresenta-se alguns segmentos que estarão (ou
já estão) diante desta revolução:
• Saúde: a capacidade de monitorar nossa própria saúde permitirá que
a medicina atue de forma preventiva com base nos dados disponíveis.
Apps de dispositivos móveis, como também pulseiras e relógios que se
conectam à Web, podem ser considerados mecanismos de coleta de
dados. É possível que, por exemplo, esses dados fi quem armazenados
em nuvem e sejam compartilhados com seu plano de saúde ou seu
médico em tempo real. Microssensores também podem ser úteis para
monitorar e/ou alertar pacientes que estão se medicando adequadamente
no horário correto e até avisar membros da sua família para lembrá-
lo sobre a medicação. Além disso, scanners com alta tecnologia estão
sendo utilizados para detectar lesões cerebrais e/ou tumores e assim
aumentar a precisão do diagnóstico.
• Casa: quando falamos de inteligência em lares é importante destacar
que isso está diretamente relacionado à autonomia de sistemas de
aquecimento, geladeiras e até objetos se tornarem capazes de “entender”
o ambiente que os cerca e tomar ações para lidar com as tarefas
rotineiras. Isso signifi ca chegarmos em casa com nosso carro equipado
com câmeras e sensores “inteligentes” capazes de detectar obstáculos,
medir temperatura ambiente, pressão barométrica, entre outros atributos,
que se comunicarão com a garagem da nossa casa por intermédio de
um portão equipado com sensores, detectando se estamos próximos
de casa e, assim, com base na distância e velocidade calculará o exato
momento para sua abertura. Ao mesmo tempo, nosso chuveiro elétrico
se ajustará, de acordo com a temperatura ambiente, a um banho quente,
frio ou moderado. Nossa geladeira, guiada por GPS, saberá exatamente
onde estamos, medirá a temperatura e ao acusar alta temperatura
externa aumentará sua potência e diminuirá a temperatura interna para
que, assim que chegarmos, nos ofereça uma água bem gelada. A TV da
nossa casa, por intermédio do uso de reconhecimento facial, nos dará
segurança como pais e garantirá que crianças não assistam conteúdo
inapropriado de acordo com sua faixa etária. Tudo isto retrata uma
realidade que, quase todo objeto que temos, se conectará à internet e
ganhará “vida”, tornando-se ainda mais útil para nossa rotina. Todo esse
ambiente de comunicação produzirá mais dados. É algo real e que,
progressivamente, será inserido em nossos ambientes.
14
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
• Amor mais inteligente: o relacionamento com as pessoas vem se
modifi cando ao longo dos anos. As pessoas estão se relacionando
bastante pela internet. Possuímos mais amigos virtuais do que reais e
parece que isso será uma tendência nos próximos anos, pelo menos
no que diz respeito a relacionamentos amorosos. Sites e aplicativos
de encontros combinam pessoas considerando como base variáveis
referentes aos comportamentos, às crenças, aos valores, aos traços
de personalidade e às habilidades sociais. Normalmente, esses dados
são coletados no momento do cadastro por meio de um questionário.
Os matches (ou correspondências) são traçados no momento em que o
modelo classifi ca um usuário como match potencial em relação a outro
usuário. Outro critério que pode ser utilizado é comparar os matches
em potencial com base em outros perfi s similares, defi nindo scores em
função de probabilidades que atribuem um valor para qualifi car um perfi l
como match ou não match.
O seguimento de relacionamento foi um dos mais afetados com
a difusão da tecnologia. Alguns aplicativos ganham destaque neste
ramo, com a promessa de fornecer um conjunto de pessoas que se
aproximam do nosso perfi l. Faça uma pesquisa e cite um case de
sucesso de aplicativos voltados para este fi m. Observe seu contexto
histórico, suas estratégias e os resultados que alcançou considerando
parâmetros, como número de usuários ativos, lucratividade e assim
por diante.
Em muitas empresas, o Big Data já vem sendo implementado. As empresas
de vendas e varejo estão interessadas em coletar informações sobre seus
clientes para compreender seus padrões de compra e assim conhecê-los mais a
fundo. Empresas de fabricação buscam reduzir custos de fabricação e maximizar
sua produção. Alguns exemplos apresentados por Marr (2015) mostram que, em
2013, uma gigante do ramo farmacêutico utilizou análise de dados para reduzir
drasticamente a quantidade de desperdício causada pela variação das condições
no ambiente de fabricação. Os dados obtidos permitiram que a empresa
descobrisse condições ótimas durante o processo de fermentação. Outro exemplo
são as empresas do ramo automotivo, que também têm explorado soluções de
Big Data, especialmente em processos de fabricação para avaliar a efi ciência de
cada máquina. Já na agricultura, a análise de dados tem auxiliado a indústria a
15
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
enfrentar os desafi os frente à crescente produção de alimentos no mundo, pois as
máquinas que operam nos campos estão equipadas com sensores que captam
diversas informações que são utilizadas para estabelecer condições ideais para
suas culturas. Em 2014, a Cisco anunciou um investimento de 150 milhões de
dólares para fi nanciar startups que trabalhem para melhorar a integração com o
mundo físico, com o intuito de controlar o estoque, mantendo elevada efi ciência e
reduzindo desperdícios.
Os exemplos citados reforçam apenas uma pequena parcela do total de
empresas com real interesse em fi nanciar ou investir na sua capacidade de
explorar dados ou as que têm proposto iniciativas em análise de dados. Contudo,
existem muitos outros cases espalhados pela internet que corroboram com o
avanço da análise dos dados, com a tendência que as empresas estão em busca
de insights valiosos que possam ser utilizados para melhorar sua cadeia de
produção, conhecer melhor seus clientes e assim tornarem-se mais competitivas.
2.1 ANÁLISE DE DADOS: POTENCIAIS
E LIMITAÇÕES
Os dados que antes eram apenas armazenados em planilhas eletrônicas ou
em Banco de Dados Relacionais para fi ns de consulta e/ou conformidade, hoje
estão prontos para uso com as mais diversas fi nalidades. Essa realidade permitiu
que áreas da ciência começassem a ganhar destaque, tais como a Computação,
a Estatística, a Matemática, o Processamento de Linguagem Natural e muitas
outras que abrangem o conhecimento. Além disso, novas tecnologias emergiram
a partir dessa nova realidade, em que muitas empresas investem recursos em
soluções de Análise de Dados (Data Analytics) cada vez mais robustas, sejam
proprietárias ou open-sources.
Com base nisso, a análise de dados tradicional tornou-se uma alternativa
importante para as empresas encontrarem valor em dados que fi cavam apenas
armazenados em seus sistemas legados. No entanto, para que isso aconteça,
é necessário seguir etapas importantes, como a aquisição e a exploração dos
dados, descrevê-los e minerá-los na tentativa de encontrar padrões que possam
conduzir a um entendimento maior do objeto de estudo que está sendo analisado.
Dessa forma, existe uma diversidade de conceitos, técnicas e algoritmos
que permitirão extrair o que há de melhor no conjunto de dados. Isso signifi ca
que nem sempre a tarefa é simples de ser realizada e, por isso, é necessário
que o profi ssional seja amplamente capacitado com um mix de conhecimentos,
16
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
tais como: habilidades para trabalhar com Bancos de Dados, especialmente
tarefas de Data Manipulation Language (DML), para realizar manipulação
de dados com comandos de leitura, inserção, alteração e deleção, também
habilidades estatísticas para compreensão de como os dados estão distribuídos
e relacionados entre si,testar ou refutar hipóteses, anexar novos conjuntos de
dados para enriquecer a análise, pelo menos alguma linguagem de programação
ou ferramenta para análise de dados e construção de visualizações para que o
dado seja transmitido de forma mais clara e objetiva aos tomadores de decisão.
Assim, é importante que você compreenda que a análise de dados é um
processo constituído por pelo menos quatro etapas bem defi nidas, conforme
mostrado na Figura 2, e que serão delineadas a seguir. Apesar de todas elas
estarem dispostas em sequência, isso não signifi ca necessariamente que todas
devam ser executadas. Isso porque tudo dependerá do escopo do projeto que você
trabalhará. Por outro lado, estas etapas são altamente dependentes, não sendo
recomendado, portanto, pular etapas e/ou ignorar importantes subprocessos
que as compõem. Por exemplo, começar diretamente a etapa preditiva sem
antes conhecer a fundo os dados - como eles estão distribuídos ou se algum
fenômeno causou discrepância em um intervalo de tempo. Faria algum sentido
desconsiderar isso? Se você não conhece seus dados, a máquina muito menos.
Em outras palavras, o mínimo que você fará é consultar e selecionar informações
que realmente possam ser relevantes para dar prosseguimento a sua análise.
Desse modo, considere sempre explorar com profundidade cada uma das etapas
anteriores. O processo de análise de dados pode ser defi nido em quatro etapas:
análise descritiva, diagnóstica, preditiva e prescritiva.
FIGURA 2 – ANÁLISE DESCRITIVA, DIAGNÓSTICA, PREDITIVA E PRESCRITIVA
FONTE: <http://arunkottolli.blogspot.com/2018/08/4-types-of-
data-analytics.html>. Acesso em: 15 nov. 2018.
17
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
2.1.1 ETAPA 1: ANáLiSE DESCriTiVA
A análise descritiva diz respeito à primeira etapa do processo de análise de
dados, é o momento em que estamos interessados em saber “o que aconteceu”
ou “o que está acontecendo”, ou seja, fatos do passado são utilizados para que
compreendamos o cenário e tomemos as decisões no presente. Dessa maneira,
essa etapa possui um alto grau de dependência humana para compreender e
avaliar as variáveis em questão na tentativa de encontrar inconsistências.
Normalmente, a utilização deste tipo de análise é feita em pequenos
projetos ou alguma análise ad-hoc, um tipo de análise que visa atender a um
determinado propósito em um intervalo de tempo específi co. Por exemplo, o
gestor da empresa está interessado em saber qual cliente mais comprou na loja
nos últimos dois meses. De posse dessa informação, ele poderá decidir os top-n
em um grupo seleto de clientes, que passarão a ter direito a descontos especiais
em lançamentos de produtos na loja. Dependendo da modelagem do sistema,
implementando medidas estatísticas básicas, como a moda, seria o sufi ciente para
solucionar esse problema ou uma contagem simples de ocorrência de compras.
Observe que situações que envolvam análises descritivas, técnicas ou medidas
básicas podem auxiliar gestores e o próprio analista de dados ou de negócios a
extrair insights úteis no dia a dia.
Assim, é comum que nessa etapa medidas como: médias, medianas,
variância, desvio padrão, frequência cumulativa, bem como visualizações que
utilizam gráfi cos em barras ou em linhas, gráfi cos de dispersão ou de pizza, não
resumidos a estes, sejam comumente exploradas.
2.1.2 ETAPA 2: ANáLiSE DiAGNÓSTiCA
A análise diagnóstica está interessada em saber o porquê das coisas, isto é,
o motivo pelo qual determinados eventos aconteceram na tentativa de encontrar
pistas que possam sinalizar tendências de ocorrência e assim tomar medidas
práticas para minimizar eventuais problemas que possam surgir. Da mesma
maneira que a etapa anterior, a análise diagnóstica está preocupada com dados
do passado para que ações sejam tomadas no presente.
Por exemplo, para alocar produtos na prateleira de um supermercado, o
analista aplica técnicas de mineração de dados para tentar encontrar padrões
de consumo, eleger os produtos mais consumidos e, com base nos resultados,
propor ao gerente a alocação de produtos em prateleiras mais acessíveis ao
consumidor.
18
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
Algoritmos de associação podem ser aplicados sobre os dados históricos
para identifi car regras e encontrar padrões associativos entre os elementos.
Além das técnicas de mineração de dados e ferramentas voltadas para atender
às demandas de negócio, também pode ser utilizada a análise multidimensional,
bem explorada em cenários de Business Intelligence. Essa análise permite que
gestores obtenham insights sob diferentes perspectivas e em altos (Drill Up) ou
baixos níveis de granularidade (Drill Down).
Adicionalmente, percebe-se que nessa etapa ocorre um gradual decréscimo
da ação humana e, consequentemente, os algoritmos passam a ter mais
independência para descrever o cenário da empresa com base nos dados.
2.1.3 ETAPA 3: ANáLiSE PrEDiTiVA
A análise preditiva representa um avanço signifi cativo no processo de análise
de dados. Nesse momento, o cientista de dados ganha destaque, especialmente
por ser o responsável por construir modelos preditivos que possam ter autonomia
para classifi car conjuntos de dados com base na aprendizagem obtida a respeito
destes. Quando trabalhamos com modelos preditivos, estamos interessados em
responder à pergunta: “o que (provavelmente) acontecerá?”. De fato, isso está
diretamente relacionado ao contexto de aprendizado de máquina, o que signifi ca
que a ação humana é cada vez menor e o algoritmo progressivamente vai se
aprimorando e aprendendo mais a respeito dos padrões históricos contidos nos
dados.
Por isso, é essencial que, antes de aplicar técnicas e algoritmos de Machine
Learning, sejam identifi cados os dados que servirão de input para o modelo que
será construído. Algumas técnicas de Machine Learning se destacam, como:
Árvores de Decisão, Florestas Aleatórias (Random Forest), Redes Neurais,
Support Vector Machines (SVM), K-Nearest Neighbor (KNN), entre outras.
Por exemplo, uma empresa de crédito talvez esteja interessada em saber
se houve alguma compra suspeita com o número do cartão de crédito de seus
clientes. O rastreio pode se dar em um nível no qual o resultado obtido seja um
alerta à empresa e ao cliente informando a respeito da atividade suspeita. Nesse
caso, a variável valor de compra pode ser utilizada para rastrear essa questão.
Por exemplo, se o valor de compra for extremamente maior em relação a outras
atividades de compra do consumidor. É lógico que esse é um modelo simplifi cado,
mas didaticamente viável. Por fi m, um modelo de classifi cação poderia discriminar
a atividade de compra como normal ou anômala.
19
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
2.1.4 ETAPA 4: ANáLiSE PrESCriTiVA
A etapa de análise prescritiva é a mais complexa, porém, a que acrescenta
mais valor para a organização e fornece suporte à decisão de forma automatizada.
Nesse momento, a máquina consegue aprender com as experiências nas
previsões e a ação humana é mínima ou nula. Técnicas analíticas avançadas
podem ser utilizadas para fi ns de otimização, sendo capazes de responder
à pergunta: “o que devo fazer?” e assim mostrar às organizações as ações
necessárias na tomada de decisão.
Obviamente que, para chegar até aqui, é necessário um elevado nível de
maturidade nos processos de análise anteriores, por isso que na maioria das
vezes ou quase sempre, a implementação desse tipo de análise é feita por
grandes corporações. Algumas técnicas que são utilizadas na etapa prescritiva
são: simulações, redes neurais convolucionais, heurísticas, processamento de
eventos complexos, entre outras.
Um exemplo que retrata a análise prescritiva são os carros ou os caminhões
autônomos (inteligentes). Modelos construídos para esse fi m apresentam um
alto nível de robustez eutilizam como referência dados históricos e previsões
anteriores para decidirem a melhor rota e assim aperfeiçoar suas tarefas com
base na experiência.
2.2 ANÁLISE AVANÇADA DE DADOS
O Grupo Gartner (2017) defi ne o conceito de Advanced Analytics como um
processo de observação autônomo ou semiautônomo de dados ou conteúdo por
intermédio de técnicas e ferramentas sofi sticadas, normalmente além daquelas de
Inteligência de Negócios (BI) tradicional para descobrir insights mais profundos,
realizar previsões ou gerar recomendações de produtos ou serviços. Além disso,
compreende técnicas analíticas avançadas, como mineração e dados/textos,
aprendizado de máquina, correspondência de padrões, virtualização, análise
semântica, de sentimento, de rede e em cluster, estatística multivariada, análise
de gráfi cos, simulação, processamento de eventos complexos e redes neurais.
Algumas dessas técnicas variam em complexidade e, consequentemente, em
tempo de implementação.
Modelos analíticos avançados apontam para um elevado nível de maturidade
e sugerem que a empresa já possua uma grande quantidade de dados. Mais do
que isso, pode ser que o desempenho das análises esteja sendo afetado, novas
20
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
estruturas de dados vêm sendo incorporadas e quando a infraestrutura básica,
anteriormente construída para atender à demanda da análise de dados, não
esteja mais suportando o fl uxo. A potencialização do seu uso está diretamente
relacionada ao advento do Big Data e das necessidades atuais de negócio.
1 Cite um exemplo de “casa inteligente” e explique como a análise
de dados pode melhorar nossa rotina automatizando tarefas
cotidianas.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
2 O processo de análise pode ser dividido em etapas. Cite e explique
cada uma delas.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
21
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
2.3 VISÃO GERAL DO BIG DATA
Nas seções anteriores, exploramos um contexto histórico e apresentamos os
tipos de análise de dados que estão sendo aplicados em diferentes segmentos
empresariais. Acontece que a abordagem tradicional de análise de dados possui
algumas limitações que merecem a nossa atenção. Antes de mais nada, é
importante frisar que o conceito de Big Data ainda não é bem defi nido. Entretanto,
existem algumas defi nições que fazem todo sentido, entre estas, cabe mencionar
que:
O Big Data pode ser introduzido como uma combinação
de tecnologias novas e antigas que ajudam empresas a
conseguirem ideias viáveis. Portanto, Big Data é a capacidade
de administrar um volume enorme de dados diferentes na
velocidade certa e dentro do prazo certo para permitir análises
e reações em tempo real (HURWITZ et al., 2016, p. 15-16).
Adicionalmente, Gartner (2018, s.p.) defi ne o Big Data como “um grande
volume de informações, com alta velocidade e/ou ativos de informações de
alta variedade que exige formas inovadoras e econômicas de processamento
de informações que permitem uma melhor percepção na tomada de decisão e
automação de processos”.
Notamos que, em ambos conceitos, existem termos em comum que
precisamos considerar: volume, velocidade e variedade. De fato, esses termos
podem ser utilizados para compreender melhor o que de fato é o Big Data.
Considere que você esteja trabalhando em um projeto de análise consolidado. Em
um determinado momento você nota que seja viável trabalhar com informações de
outros ambientes para enriquecer sua análise, tais como: informações de redes
sociais, ou blogues, ou informações não estruturadas armazenadas em arquivos
de texto, ou até de Bancos de Dados não Relacionais.
Diante disso, você extrai essas informações de diferentes fontes, mas
percebe que não tem hardware necessário para armazená-las, tampouco uma
infraestrutura que possa processar toda essa informação em tempo hábil. De fato,
estamos em uma realidade que foge do escopo da análise de dados tradicionais.
As questões relativas a desempenho até podiam ser consideradas anteriormente.
Entretanto, nesse atual momento, essa questão assume um papel central, ou
seja, para prosseguir com suas análises, você precisa, necessariamente, adquirir
um servidor ou um espaço de armazenamento em nuvem para suportar o volume
de dados ou considerar uma infraestrutura que suporte computação paralela.
Os sistemas tradicionais de análise de dados muitas vezes não suportam
estruturas de dados com formatos e tamanhos diversifi cados. Assim, você
22
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
precisará também garantir que a infraestrutura seja capaz de suportar
essa diversidade de dados. Por fi m, uma vez que você consiga
armazenar uma grande quantidade de dados de múltiplas fontes, é
fundamental que você se certifi que de que os dados estão sendo
processados em um adequado intervalo de tempo.
Observe que quando falávamos em análise de dados tradicional
não comentamos os pontos mencionados sobre os Vs de Big Data,
porque estamos exatamente em uma transição entre esse tipo de
análise e o Big Data. Assim, podemos concluir que estamos diante
do Big Data quando percebemos que as análises, tradicionalmente
aplicadas, não estão mais suportando o volume, a velocidade e a
variedade dos dados que estão chegando e, como consequência disso,
é necessário examinar novas estratégias para suportar esse “mar de
dados”, sem comprometer nossas análises. Obviamente, a análise
de dados tradicional e o Big Data estão longe de serem abordagens
antagônicas, pelo contrário, complementam-se e são fundamentais
para que as empresas mantenham elevado poder analítico e, como
consequência, sejam competitivas no mercado contemporâneo.
Erroneamente, algumas pessoas conceituam Big Data como
uma ferramenta. Entretanto, como mostramos, Big Data não se
resume apenas a uma ou mais ferramentas. Big Data é um conceito,
compreendido de forma simplifi cada. Em função dos 3Vs mencionados
- volume, velocidade e variedade -, existem abordagens que ampliam o
conceito para 4, 5, 6 e até 7Vs. Independentemente disso, é importante
que você compreenda que, nestes casos, não existe um conceito certo
ou errado. Lembre-se de que o conceito de Big Data ainda está em
formação. Desta maneira, para este livro optamos pela abordagem
baseada em 5Vs, conforme mostra a Figura 3. Essa abordagem é
amplamente utilizada e compreende: Volume, Velocidade, Variedade,
Veracidade e Valor. Vamos delinear cada uma dessas etapas.
Estamos diante do
Big Data quando
percebemos
que as análises,
tradicionalmente
aplicadas, não estão
mais suportando
o volume, a
velocidade e a
variedade dos
dados que estão
chegando e, como
consequência
disso, é necessário
examinar novas
estratégias para
suportar esse
“mar de dados”,
sem comprometer
nossas análises.
Obviamente, a
análise de dados
tradicional e o Big
Data estão longede
serem abordagens
antagônicas,
pelo contrário,
complementam-
se e são
fundamentais para
que as empresas
mantenham elevado
poder analítico e,
como consequência,
sejam competitivas
no mercado
contemporâneo.
23
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
FIGURA 3 – 5Vs: VOLUME, VELOCIDADE, VARIEDADE, VERACIDADE E VALOR
FONTE: <https://www.omnivex.com/company/blog/what-
is-big-data/>. Acesso em: 15 nov. 2018.
• Volume: diz respeito à quantidade de dados - com tamanhos na ordem
de peta, hepta ou exabytes sendo gerados e que, uma vez extraídos,
deverão ser suportados na arquitetura de Big Data. Isso quer dizer
que o quesito escalabilidade precisa ser pensado no início de uma
implementação do Big Data.
• Variedade: dados estruturados, semiestruturados ou não estruturados
estão espalhados no meio digital. Eventualmente, desejamos
incrementar em nossas análises informações obtidas de websites (neste
caso, certifi que-se de ser autorizado para fazer isso). A ferramenta de
coleta precisa “raspar” os dados (ou realizar Web Scrapping) que serão
obtidos em um formato de tags e texto. Talvez estejamos interessados
em informações de um Banco de Dados não transacional que armazena
as informações em formato JSON, ou dados de redes sociais, como
Twitter ou Facebook. Enfi m, a arquitetura de Big Data precisa ser robusta
o sufi ciente para lidar com essa diversidade de formatos e estruturas,
tendo como desafi o tornar a tarefa de integração e extração de dados o
mais transparente possível.
• Velocidade: está relacionada a questões de desempenho. O
processamento dos dados precisa ser efi ciente a ponto de não
24
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
causar altas taxas de latência no fl uxo de dados. O sucesso de uma
implementação do Big Data também está relacionado a entregar
respostas em tempo hábil e, por isso, estratégias (por exemplo, cache dos
dados) podem ser adotadas para otimizar o desempenho. É importante
considerar também qual o foco da análise, isto é, se o processamento
será em lote (batch) ou em tempo real, ou ambos (arquitetura Lambda).
Essa questão é um importante requisito de negócio, pois quando
lidamos com processamento em lote são alocados maiores recursos de
armazenamentos em detrimento ao processamento em tempo real.
• Veracidade: precisamos confi ar nos dados adquiridos e a veracidade
está relacionada à inconsistência, à ambiguidade e à incompletude
desses dados. Quando anexamos fontes de dados externas à nossa
arquitetura, precisamos ter um cuidado especial, uma vez que não temos
total controle desses dados, como teríamos se estivéssemos coletando
dados de sistemas legados da empresa. Por isso, devemos sempre
questionar os dados que adquirimos e garantir que a origem da nossa
arquitetura não seja comprometida com dados que possam enviesar ou
distorcer nossas análises. Assim, a veracidade desempenha um papel
importante dentro do Big Data.
• Valor: o verdadeiro sentido do Big Data é na geração de valor para a
organização. De nada adianta elevados investimentos em qualifi cações
dos profi ssionais, aquisição de soluções proprietárias, entre outros
recursos, se os resultados obtidos não agregam valor e a organização
apenas extrai informações desconexas que não agregam novos
conhecimentos. Essa frustação certamente poderia colocar em risco o
andamento de todo o processo de Big Data. Na verdade, a obtenção
do real valor pode trazer para a empresa uma consequência de todo o
processo de Big Data. Contudo, quando pensamos em termos-chave
para compor o conceito de Big Data, faz todo sentido acrescentar o valor
resultante que queremos obter em um processo de Big Data.
Além destes aspectos, algumas outras keywords também podem ser
incorporadas ao conceito de Big Data, como a Variabilidade e a Visualização. A
primeira está relacionada à rastreabilidade dos dados, ou seja, verifi car o quanto
o signifi cado dos dados vem se modifi cando ao longo do tempo, enquanto que
a segunda corresponde à etapa de apresentação dos dados em um formato
amigável para o usuário, ou seja, queremos nos certifi car que os resultados das
nossas análises de Big Data estão prontos para serem consumidos por usuários
com facilidade e transparência.

25
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
Antes de entrarmos em uma discussão mais profunda a respeito de Big Data,
é importante que você esteja habituado com alguns conceitos introdutórios, porém
relevantes, e que também servirão de base para todo o conteúdo deste livro. Por
essa razão, reservamos a próxima seção para discutirmos um pouco isso.
1 Descreva o conceito de Big Data.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
2 Análise de dados tradicional e análise em Big Data são a mesma
coisa? Justifi que sua resposta.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
3 BIG DATA: CONCEITOS ÚTEIS
Nesta seção, exploraremos alguns conceitos necessários para a
compreensão das etapas seguintes do ecossistema Big Data. Neste sentido, serão
apresentados conceitos e diferenças entre dados estruturados, semiestruturados
e não estruturados, bem como comentaremos tipos de Bancos de Dados não
Relacionais existentes, apresentando as ferramentas que os compõem e que
podem ser anexadas no seu projeto. Por fi m, encerraremos a seção comentando
diferenças entre processamento em lote (batch) e em tempo real, realçando suas
particularidades, vantagens e desvantagens.
26
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
3.1 DADOS ESTRUTURADOS,
SEMIESTRUTURADOS E NÃO
ESTRUTURADOS
Como vimos, a disseminação de dados refl ete em uma nova Era da
Informação na qual vivemos. Esses dados podem estar em um formato pronto para
análise, como é o caso dos dados estruturados contidos em planilha ou em um
Banco de Dados Relacional. Contudo, na prática não é algo que sempre acontece,
especialmente em tempos de Big Data. Por conseguinte, é imprescindível que
compreendamos as diferenças entre dados estruturados, semiestruturados e não
estruturados, tão presentes nos dias de hoje, conforme mostra a Figura 4. Lidar
com diferentes estruturas de dados é algo comum na era Big Data.
FIGURA 4 – ESTRUTURAS DE DADOS NA ERA BIG DATA
FONTE: <https://www.building-blocks.nl/blog/different-types-
of-data-sources>. Acesso em: 16 nov. 2018.
Os dados estruturados compreendem apenas uma pequena parcela dos
dados que estão sendo analisados no mundo. Esse formato é representado por
linhas e colunas e estão armazenados em Bancos de Dados Relacionais ou
planilhas eletrônicas, tais como: Oracle, Excel, MySQL, entre outros. Algumas
características dessas estruturas são a facilidade de acesso e manipulação, além
de um esquema de armazenamento e organização bem defi nido. Isso quer dizer
que podemos obter respostas rápidas para alguns tipos de perguntas ao realizar
uma simples consulta em um banco de dados. Para exemplifi car, podemos extrair
a média de idade dos alunos com sexo masculino do Ensino Médio considerando
uma determinada escola com um simples SQL e utilizando campos estruturados,
como idade, sexo, escolaridade e escola.

No que se refere a dados semiestruturados, estes normalmente estão
espalhados pela Web em arquivos HTML, XML ou em Banco de Dados não
27
COMPREENDENDOA ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
Relacionais, como o MongoDB, que possui uma estrutura semelhante a um
arquivo JSON. Se pensarmos em um arquivo XML ou HTML, perceberemos
que existe uma diferença nesses tipos de estruturas: a hierarquia ou a estrutura
em árvore. As tags ou elementos possuem uma certa organização e qualifi cam
os documentos. Os nós apresentam uma certa fl exibilidade e não contêm uma
representação fi xa ou rígida como em um modelo estruturado, ao contrário,
alguns campos (tags) podem conter descrições ou informações textuais, por
exemplo, páginas web (como HTML e CSS), campos de e-mail, informações de
redes sociais etc. Além disso, quando trabalhamos com projetos de Web Scraping,
normalmente nos deparamos com esse tipo de estrutura.

Cerca de 80% dos dados existentes que estão sendo difundidos não possuem
estrutura bem defi nida, ou seja, são não estruturados ou desestruturados. Por
exemplo: arquivos textuais, vídeos, imagens, dados de sensores, mensagens em
formulários ou em campos de e-mails, posts no Facebook ou Twitter, arquivos de
áudio e assim por diante. São infi nidades de fontes diferentes que contêm dados
não estruturados. Uma simples pesquisa no Google, uma conversa no WhatsApp,
uma chamada de vídeo pelo Skype. A verdade é que estamos mergulhados em
uma quantidade de informação desestruturada que poderia ser perfeitamente
analisada. Entretanto, há um aumento de complexidade para analisar esse tipo de
dado. Dados textuais estão sujeitos a problemas de erros sintáticos ou semânticos
provenientes da linguagem natural, isso poderia inviabilizar todo o processo de
análise. Felizmente, existem técnicas específi cas para esse fi m e, além de realizar
o tratamento adequado, podemos converter os dados não estruturados em um
formato estruturado e assim dar continuidade ao processo de análise a partir de
uma única visão sobre os dados.

Antigamente, incorporar informações não estruturadas ao processo de análise
era algo extremamente custoso ou muitas vezes inviável. Então, as empresas
direcionavam suas decisões apenas a uma pequena parcela das informações que
possuía. Todavia, essa fronteira para integração dos dados progressivamente foi
se rompendo ao longo do tempo, especialmente com o surgimento do Big Data.
Por isso, é imprescindível que compreendamos essas diferenças e não limitemos
nossas análises. O tipo de estrutura de dados que vamos manipular precisa ser
indiferente para nós, precisamos focar nas estratégias e posteriormente nas
análises para implementarmos com sucesso e extrairmos valor nas análises de
Big Data.
28
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
3.2 BANCOS DE DADOS NÃO
RELACIONAIS
Os Bancos de Dados não Relacionais surgiram no fi nal do século
passado, mas começaram a ganhar destaque também com o advento do Big
Data. Observe que mais uma tecnologia emergiu a partir do conceito de Big
Data. No passado, tarefas analíticas eram realizadas em cima de armazém de
dados (Data Warehouse) que era um banco, à parte de um SGBD (para não
concorrer recursos), que armazenava informações estruturadas em um formato
multidimensional para agilizar consultas. Outra alternativa mais simplifi cada
era baseada em cubos multidimensionais que permitiam aos gestores analisar
informações e extrair insights sob diferentes perspectivas.

Com o passar dos anos, diante do expressivo aumento no volume e
variedade dos dados, recursos computacionais mais robustos eram requeridos.
Neste caso, surgiam duas alternativas para resolver o problema: uma seria
alocar mais investimentos em infraestrutura física, outra seria utilizar um Banco
de Dados que pudesse armazenar dados em um formato adequado para rápida
consulta e análise. Não é de se admirar que muitas empresas optaram pelo uso
de Banco de Dados não Relacional. Afi nal, ele compreendia exatamente essas
vantagens mencionadas: agilidade na busca de respostas, elevada capacidade
de armazenamento e, mais além, capacidade de trabalhar com dados não
estruturados.

Os Bancos de Dados não Relacionais são também conhecidos como
NoSQL. Não caia na tentação de concluir pela nomenclatura de que esses
bancos surgiram como concorrentes da linguagem SQL ou não incentivam mais
o uso dessa linguagem. Ao contrário, NoSQL signifi ca (Not Only SQL)
ou não somente SQL, isto é, Bancos de Bados NoSQL surgiram como
uma alternativa para armazenamento de dados com a fi nalidade de
oferecer uma solução mais robusta e escalável para suportar grandes
volumes de dados.

No entanto, em Bancos de Dados não Relacionais não existe uma
maneira única de armazenar um conjunto de dados. Assim, eles podem
ser classifi cados em quatro tipos: banco de dados chave-valor (key-
value), orientado a documentos (document store), orientado a famílias
de colunas (column-family stores) e os que são baseados em grafos
(graph-databases). A Figura 5 ilustra os tipos de Bancos de Dados não
Relacionais e a seguir explicaremos cada um deles.
NoSQL surgiram
como uma
alternativa para
armazenamento
de dados com
a fi nalidade de
oferecer uma
solução mais
robusta e escalável
para suportar
grandes volumes de
dados.
29
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
FIGURA 5 – À ESQUERDA SÃO APRESENTADOS FORMATOS DOS
BANCOS DE DADOS RELACIONAIS BASEADOS EM SQL. À DIREITA
OS QUATRO TIPOS DE BANCOS DE DADOS NÃO RELACIONAIS
FONTE: <https://www.kdnuggets.com/2016/07/seven-steps-
understanding-nosql-databases.html>. Acesso em: 15 nov. 2018.
• Banco de dados chave-valor: você talvez já tenha tido algum contato
com esse tipo de estrutura quando programou em Java ou Python, por
exemplo. A compreensão é simples: para toda chave existe um valor
vinculado. Para ilustrar, talvez você tenha observado que na biblioteca,
há estantes numeradas que armazenam um conjunto de livros. Se você
precisar consultar alguma informação de um livro específi co, você abre a
gaveta ou o localiza na estante por meio de uma chave que o identifi ca
e captura a informação que deseja em um determinado capítulo do livro.
O conceito é simples, por isso a complexidade para manipular os dados
é baixa. Além disso, esses tipos de bancos possuem como característica
a alta escalabilidade, fl exibilidade e uma boa performance. Podemos
mencionar alguns exemplos de Bancos de Dados que se encaixam
nessa categoria, tais como: Redis, Riak, Oracle NoSQL. Observe um
exemplo genérico de um banco chave-valor:
30
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
“Gustavo”
“idade: 22; sexo: M; escolaridade: ensino médio completo;
fi lhos: não”
“Maria”
“idade: 27; sexo: F; escolaridade: ensino superior comple-
to”; fi lhos: não”
• Banco de dados orientado a documentos: são Bancos de Dados que
armazenam dados em forma de coleção de documentos. Cada documento é
único e pode conter diversas informações com dados aninhados, “tipados” como
strings, valores numéricos, listas. É um dos tipos de Bancos de Dados não
Relacionais mais utilizado e possui uma estrutura muito semelhante a objetos
JSON. Estes bancos possuem baixa complexidade e elevada performance e
escalabilidade, embora não possuam tanta fl exibilidade quanto os outros Bancos
não Relacionais. Alguns exemplos de bancos orientados a documentos são
MongoDB, Apache CouchDB, Azure Cosmos DB. Observe um exemplo a seguir:
{
“id”: 12,
“nome”: “UNIASSELVI”,
“unidades”: {
“SP”: “Bragança Paulista”,
“AC”: “Cruzeiro do Sul”,
“MA”: “Bacabal”,
“GO”: “Anápolis”,
“RS”: “Bagé”
}
}
• Banco de dados orientado a colunas: são úteis quando você deseja
recuperar informações com efi ciência de bases de dados com poucas colunas
e muitos registros, ou seja, em uma tabela você pode ter uma família de
colunas com número igual ou diferente de colunas. A estrutura desse tipo de
banco pode ser demonstrada no exemplo a seguir. Nós mostramos exemplos de
uma famíliae, nesse caso, existem três chaves, cada uma apontando para um
conjunto de registros que possuem tamanho de colunas diferentes. O ID = 1, por
exemplo, possui uma quantidade de colunas menor que os outros dois IDS. Essa
é uma característica importante desses tipos de Bancos de Dados. Além disso,
bancos colunares também possuem elevada performance, boa fl exibilidade e alta
escalabilidade. Evidentemente que isso pode variar de acordo com o domínio que
você está trabalhando. É possível obter registros de mídias sociais para serem
armazenados em um banco orientado a colunas. Os seguintes bancos podem ser
utilizados: Cassandra, HBase, Vertica etc.
31
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
“ID” = 1 Nome: Gustavo Idade: 21 Estado: Minas Gerais
“ID” = 2 Nome: Samanta Idade: 30 Estado: São Paulo Telefone: (11) 4310-0234
“ID” = 3 Nome: Maria Sexo: F Idade: 31 Estado: Paraná Telefone: (11) 4310-0234
• Banco de dados orientado a grafos: sugere um formato diferente de
armazenamento dos bancos anteriores, baseado na teoria dos gafos. Os nós
são dados que queremos armazenar e as arestas exibem o relacionamento entre
um conjunto de nós. O grafo dirigido e ponderado reforça a ideia de que, para
esse tipo de banco, há necessidade de uma forte ligação entre os dados. Por
esta razão, o Banco de Dados orientado a grafos é utilizado somente em alguns
casos específi cos. Apesar de possuir bastante fl exibilidade, sua performance e
escalabilidade variam de acordo com o domínio que está sendo trabalhado e sua
implementação não é trivial, podendo demandar tempo. O banco mais popular é o
Neo4JS, mas também é possível utilizar o OrientDB e o GraphBase. Um exemplo
deste modelo de banco pode ser mostrado através da Figura 6. Os nós centrais
são pessoas que estão conectadas às cidades que visitaram ou residiram. Por
exemplo, Jonas morou em Recife e João Pessoa e visitou Belo Horizonte.
FIGURA 6 – MODELO DE BANCO
FONTE: <https://www.researchgate.net/publication/268201466_NoSQL_no_
desenvolvimento_de_aplicacoes_Web_colaborativas>. Acesso em: 15 nov. 2018.
32
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
3.3 PROCESSAMENTO EM BATCH E
EM TEMPO REAL
Não devemos pensar em Big Data somente em função dos tipos e estruturas
de dados que manipularemos, ou mesmo se extrairemos ou manipularemos
informações de Bancos de Dados Relacionais ou não Relacionais. Outro ponto
que precisamos considerar diz respeito ao volume de dados serem processados
em batch (lote) ou em tempo real. Por isso, você precisa compreender e distinguir
ambos, é o que faremos nesta seção.
3.3.1 ProCESSAmENTo Em LoTE
O processamento em lote ou em batch refere-se à forma de processar
transações, tendo em vista um grupo de registros armazenados em um intervalo
de tempo. Quando desejamos obter os dados de vendas dos produtos em uma
grande loja de varejo considerando a última quinzena de vendas, nós já temos
um conjunto signifi cativo de informações armazenadas em lote dentro de
uma janela temporal de duas semanas, o que pode representar um volume de
petabytes de dados para processar. Por outro lado, talvez estejamos interessados
em analisar dados da próxima semana. Nesse caso, somente ao fi nal de sete dias,
quando a janela temporal de lote estiver completa ou cheia, podemos processar
todos esses dados. Isso representa uma característica importante desse tipo
de processamento: você primeiro armazena o dado em grandes lotes de dados
respeitando uma janela temporal, para posteriormente processá-los.
No entanto, trabalhar com esse tipo de processamento nem sempre é
adequado. Por exemplo, ao notarmos que precisamos trabalhar com uma
janela temporal mais curta, talvez uma semana, ao invés de duas semanas,
precisaríamos reprocessar todo aquele lote de dados novamente ou mesmo criar
códigos para lidar com essas variações. Cabe considerar que o processamento
em lote é utilizado há várias décadas, então, alguns consideram um modelo
ultrapassado, tendo em vista que a tomada de decisões atualmente está muito
mais dinâmica e com demandas de respostas cada vez mais ágeis.
Em compensação, você pode processar lotes de forma independente e
atemporal, o que torna este modelo mais fl exível, sendo ideal para processar
imensos conjuntos de dados de forma mais efi ciente. A Figura 7 ilustra o fl uxo de
dados em um ambiente de processamento em lotes.
33
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
FIGURA 7 – OS DADOS SÃO COLETADOS E ARMAZENADOS E LOGO
EM SEGUIDA PROCESSADOS PARA POSTERIOR ANÁLISE
FONTE: <http://www.irisidea.com/lambda-architecture-big-
data-processing/>. Acesso em: 15 nov. 2018.
3.3.2 ProCESSAmENTo Em TEmPo rEAL
Com o surgimento e a redução de custo de novos dispositivos físicos, como
câmeras de alta defi nição para áudio, vídeo e imagens, drones para mapear
informações geográfi cas, sensores para implantação na indústria ou na agricultura,
uma nova demanda de análise foi ganhando espaço - a análise em tempo
real. Diferentemente do processamento baseado em grandes lotes de dados,
o processamento em tempo real captura um microlote de dados e disponibiliza
de forma imediata para análise. Assim, você pode capturar informações em
tempo real do Twitter e de imediato aplicar um processo de tratamento (como
transformação e limpeza) e, em seguida, aplicar um modelo de Machine Learning
para realizar alguma previsão. Por exemplo, investidores estão interessados em
mitigar riscos de investimento em novos negócios, tomando como base a Bolsa de
Valores. Um sistema baseado em Machine Learning pode ser criado para mapear
fontes, coletar, tratar, analisar e prever riscos de investimento. Além disso, detectar
eventos anômalos de atividades de cartão de crédito baseados em microlotes de
dados também necessitam de uma arquitetura que suporte processamento em
tempo real.
Note que o foco não é o armazenamento e sim a análise, por este
motivo, frameworks de Big Data criados para esta fi nalidade não possuem
a mesma robustez em termos de armazenamento do que àqueles voltados ao
processamento em batch. Em uma eventual necessidade, combinações de
componentes de Big Data em uma única arquitetura, por exemplo, combinando
o Hadoop e o Spark, podem ser úteis para enfrentar situações nas quais você
precise processar e armazenar grandes volumes de dados em tempo real.
34
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
O Hadoop será apresentado a você na última seção deste
capítulo. Além disso, você conhecerá o Spark em mais detalhes no
Capítulo 3.
Podemos elencar algumas vantagens dessa forma de processamento, a
saber: respostas ágeis, informações atualizadas, identifi cação de padrões ou
detecção de eventos em tempo de execução de modo a oferecer a gestores
decisões mais ágeis e assertivas em um determinado momento. Por outro
lado, existe aumento de complexidade se comparado ao modelo tradicional em
lote. Como os dados, muitas vezes, são analisados e logo após descartados, o
processo de auditoria pode ser comprometido. A Figura 8 mostra um pipeline que
exemplifi ca o processamento em tempo real.
FIGURA 8 – OS DADOS SÃO COLETADOS, PROCESSADOS À CADA MICROLOTE,
EM SEGUIDA, ANALISADOS E POSTERIORMENTE DESCARTADOS
FONTE: <http://www.irisidea.com/lambda-architecture-big-
data-processing/>. Acesso em: 15 nov. 2018.
1 Explique as principais diferenças entre processamento de dados
estruturados, semiestruturados e não estruturados.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
35
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATACapítulo 1
____________________________________________________
2 Quais são os tipos de bancos de dados NoSQL existentes? Cite
uma ferramenta indicada para cada um dos tipos.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
3 Qual a principal diferença entre o processamento em lote e o
processamento em tempo real?
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
4 ARQUITETURA DE BIG DATA E
SEUS COMPONENTES
Agora que você possui conhecimento dos conceitos básicos, conseguirá
distinguir diferenças importantes no contexto de Big Data e assim generalizar seu
aprendizado. Nesta seção, apresentaremos a arquitetura tradicional de Big Data e
seus componentes. A partir destes conhecimentos será possível que você consiga
refl etir sobre as novas abordagens e enfrentar desafi os em cenários reais.
4.1 ARQUITETURA TRADICIONAL DE
BIG DATA
Em seções anteriores comentamos a respeito do valor que a análise de Big
Data pode trazer para as organizações. A construção de uma arquitetura que
possa atender a todas as demandas e expectativas de negócios desempenha
um papel central para que a implementação de Big Data realmente apresente
36
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
resultados e forneça insights valiosos para a organização, fazendo valer a
pena todo o investimento dispensado, tais como pessoas, recursos, dinheiro e
tempo. Tendo isso em mente, não podemos pular etapas sem antes pensar em
mecanismos que precisamos considerar ao implementar o Big Data.

Uma arquitetura de Big Data precisa ser robusta o sufi ciente para
lidar com a ingestão, o processamento e a análise dos dados com
efi ciência, uma sólida infraestrutura e capacidade de fornecer insights
confi áveis que gerem valor real para o usuário fi nal. Pensando em
um alto nível podemos considerar que a arquitetura típica do Big Data
não difere muito de uma arquitetura de análise de dados tradicional,
visto que considera as fases de: extração, integração, organização,
análise e apresentação dos resultados. Contudo, as ferramentas, o
armazenamento e o processamento, a infraestrutura, a segurança, o
hardware, a computação paralela e as técnicas realçam a diferença
entre os dois campos. De um modo geral, podemos dividir a arquitetura
de Big Data em camadas.
Uma arquitetura de
Big Data precisa
ser robusta o
sufi ciente para lidar
com a ingestão, o
processamento e a
análise dos dados
com efi ciência, uma
sólida infraestrutura
e capacidade de
fornecer insights
confi áveis que
gerem valor real
para o usuário fi nal.
Uma proposta de arquitetura interessante pode ser encontrada
em: <https://docs.microsoft.com/en-us/azure/architecture/guide/
architecture-styles/big-data>. É um material adicional, porém,
importante e que pode ser utilizado para complementar seu
conhecimento. Mais que isso, a arquitetura proposta possui
benefícios que podem auxiliá-lo em um projeto pessoal ou em um
cenário real de negócio.
4.1.1 CAmADA DE EXTrAÇÃo E
iNTEGrAÇÃo DE DADoS
Esta camada representa o primeiro contato que você terá com as fontes de
dados, por isso, antes de mais nada, certifi que-se de perguntar: “com base nos
requisitos de negócios coletados, onde devo buscar as informações que preciso?”.
Este autoquestionamento lhe direcionará a ir em busca de informações a respeito
da disponibilidade das fontes de dados. É importante também que você
considere a confi abilidade das informações, especialmente em épocas de Fake
News e robôs produzindo conteúdo. Por isso, considere sempre dar preferência
37
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
para sistemas onde a empresa possua mais controle sobre os dados
e, caso precise adicionar conteúdo externo, busque informações de
empresas, entidades ou órgãos governamentais que assegurem a
integridade, a confi abilidade e a qualidade dos dados que estão sendo
fornecidos.
De posse das fontes, você precisa realizar a etapa de extração
dos dados e então se perguntar: “os dados serão analisados em tempo
real ou em batch?”. É importante que você se certifi que dessa questão
para construir uma arquitetura apropriada de acordo com o objetivo
da análise. Os dados podem vir de diferentes fontes, com tipos e
formatos diversifi cados: dados de sensores, tweets, informações com
características geoespaciais, sistemas ERP, entre outros, ou seja, existe
um mix de fontes compostas de informações completamente diferentes
e a arquitetura de Big Data precisa fornecer uma transparência para
que essa extração exija esforço mínimo. Não é uma tarefa trivial, mas
possuir uma arquitetura que possa enxergar toda essa diversidade
de forma única tanto na fase de extração quanto na fase de integração, é algo
extremamente útil. Isso porque todo processo de Big Data é iterativo e precisa de
um acompanhamento contínuo. Assim, diante de um possível colapso ou mesmo
algum reparo durante o processo de uma tarefa automatizada e transparente
tenderia a agilizar bastante os ajustes que seriam realizados.

Esta etapa pode exceder consideravelmente o consumo de recursos
previstos, mas isso dependerá da variabilidade e variedade dos dados entre as
fontes. Quer dizer, fontes de diferentes naturezas podem consumir mais tempo
do que àquelas que compartilham de dados mais homogêneos entre si. Ainda,
fi ca a seu critério realizar algum tipo de tratamento e limpeza dos dados nesses
estágios iniciais, mas não é uma regra. Novamente, tudo depende do domínio
que você está lidando. Por exemplo, se estivermos trabalhando em um banco e
desejamos extrair informações da Bolsa de Valores, provavelmente realizaremos
transformação e limpeza de dados no que se refere a correções de valores e
unidades na moeda (dólar para real, por exemplo). Na prática, a tarefa de
transformação e limpeza dos dados na origem é algo comum pelo fato de não
existir uma padronização em termos de armazenamento entre as fontes.
4.1.2 CAmADA DE ArmAZENAmENTo ou
FLuXo DE DADoS
Uma vez que extraímos os dados podemos armazená-los em um destino,
em uma arquitetura tradicional de BI. Após a extração dos dados na fonte, cria-
Considere sempre
dar preferência para
sistemas onde a
empresa possua
mais controle sobre
os dados e, caso
precise adicionar
conteúdo externo,
busque informações
de empresas,
entidades ou órgãos
governamentais
que assegurem
a integridade, a
confi abilidade e a
qualidade dos dados
que estão sendo
fornecidos.
38
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
se uma base de dados intermediária denominada Staging Area, que constitui em
uma “zona de repouso” para os dados, antes de serem carregados em uma fonte
destino - como um Data Warehouse, ou Data Mart ou mesmo em uma ferramenta
OLAP ( Online Analytical Processing). Entretanto, essa abordagem possui sérias
limitações quando o volume de dados aumenta demasiadamente e lidamos com
dados não estruturados. Por outro lado, podemos dispensar o uso de Stages se
espalharmos todos os nossos dados em um Data Lake (“Lago de dados”).
A Amazon (AWS, s.d.) defi ne um Data Lake como um repositório centralizado
que possibilita o armazenamento de dados estruturados e não estruturados em
suas formas brutas sem a necessidade de defi nir um esquema previamente,
como ocorre em bases tradicionais. Você pode construir Data Lakes em um
servidor físicoou utilizando a nuvem. Essa característica permitiu que o Data Lake
emergisse em tempos de Big Data. James Dixon (2010), fundador do Pentaho, fez
a seguinte analogia: você pode imaginar um Data Mart como uma loja de garrafas
de água - limpa, embalada e estruturada para fácil consumo - o Data Lake é uma
grande reserva de água em seu estado mais natural.
Essa analogia é bem pertinente. A Figura 9 retrata o funcionamento do
Data Lake: os dados de diferentes fontes com formatos, estruturas e tamanhos
diferentes chegam no reservatório (dataset) e vão sendo armazenados no seu
estado bruto. O cientista de dados vai ao reservatório e seleciona apenas uma
amostra de água (subset) que possa ser útil para sua análise. Ora, em uma
análise ad-hoc, uma amostra pequena pode ser o sufi ciente para extrair insights
em um determinado momento. Com isso em mente, o cientista analisa a amostra
coletada e constrói visualizações que estarão prontas para serem consumidas
pelos usuários fi nais. Microsoft e Amazon já oferecem soluções para construir
Data Lakes. Data Lake é um lago que armazena dados de diferentes fontes,
estruturas e tamanhos: é uma nova abordagem de armazenamento no processo
de gestão de dados.
39
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
FIGURA 9 – MODELO DE DATA LAKE
FONTE: <https://canaltech.com.br/infra/EMC-oferece-solucao-de-
armazenamento-e-analise-de-Data-Lake/>. Acesso em: 15 nov. 2018.
Além disso, existem outras possibilidades de armazenamento que podem
ser consideradas, tais como: Bancos de Dados não Relacionais, como HBase, ou
mesmo no próprio Hadoop por meio do seu sistema de arquivo distribuído (HDFS)
que detalharemos mais à frente.
A estratégia para persistência dos dados varia de acordo com o seu objetivo,
por isso não existe uma maneira universal ou uma solução única para Big Data.
Cabe também frisar que os dados não podem ser armazenados de qualquer
modo, ao contrário, necessitam de mecanismos de controle e acesso.
Quando falamos de fl uxo de dados estamos nos referindo ao processo
de conduzir os dados que estão chegando em tempo real. Nesta situação, o
armazenamento precisa ser robusto o sufi ciente para resistir a seguidas leituras e
gravações em grandes volumes de dados. Eventualmente ocorrem falhas e, nesse
caso, é necessário implantar mecanismos que forneçam suporte de tolerância a
falhas. Por exemplo, em casos de ambiente em lote, existem muitos frameworks
que oferecem suporte necessário para lidar com fl uxo contínuo de dados, como
frameworks da família Apache, Apache Kafka, Apache Spark, Apache Flume e
Apache Storm. A Amazon também oferece uma solução para armazenamento de
dados streaming, como o Amazon Kinesis Firehouse (AWS, s.d.).
40
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
4.1.3 CAmADA DE ANáLiSE
A camada analítica consome os dados como foram armazenados na etapa
anterior. Dessa maneira, os objetivos de análise precisam estar defi nidos, algo
como:
• Você fará uma análise exploratória?
• Está buscando identifi car padrões nos dados ou segmentar um grupo de
clientes ou produtos de acordo com algum critério?
• Precisa fazer uma análise rápida para aquele atual momento (análise ad-
hoc)?
• Talvez precise de algo mais avançado, como prever comportamento de
compra de um consumidor, com base nas suas últimas compras e/ou
informações obtidas de conteúdo postado em seu blogue pessoal, ou até
mesmo baseado em preferências de seus amigos mais próximos?
Esses questionamentos são importantes para direcionar suas análises de
Big Data. Técnicas de análise de dados tradicionais podem ser empregadas,
contudo, precisam suportar o grande volume de dados ou o fl uxo em tempo real.
Além disso, ferramentas, frameworks e técnicas avançadas voltados para Big
Data podem ser utilizados para lidar com dados distribuídos. A etapa de análise
de Big Data é fundamental para extrair valor para os negócios e precisa ser bem
projetada, por essa razão, precisa dar conta de toda a demanda, fornecendo
máxima transparência ao usuário fi nal e entregando informações consistentes à
próxima camada.
Alguns desses valores são essenciais para maximizar o lucro das empresas
e também aprimorar o conhecimento de seu próprio negócio e dos seus
concorrentes. Com isso em mente, indústrias que trabalham com quaisquer
segmentos de fabricação (automotiva, alimentação, hospitalar etc.) visam sempre
à melhoria da sua efi ciência na cadeia de produção com a otimização de recursos
e redução de lucros. Não somente isso, o conhecimento a respeito dos seus
clientes, a busca pela sua fi delização e a defi nição de estratégias para captura
de novos clientes são atividades que representam o âmago da existência dessas
companhias.
4.1.4 CAmADA DE APrESENTAÇÃo
A camada de apresentação pode ser chamada de camada de consumo ou
front-end, diz respeito a como publicar e apresentar os resultados obtidos pela
análise. Por exemplo, na camada de armazenamento, é importante você defi nir
41
COMPREENDENDO A ANÁLISE DE INFORMAÇÃO
NO CONTEXTO DE BIG DATA
Capítulo 1
controle de acesso aos dados que serão consumidos, certifi cando quais áreas
ou pessoas da empresa podem interagir com os resultados e extrair os devidos
insights. Os requisitos de negócios podem exigir que se construa uma API
específi ca ou mesmo uma ferramenta de análise, um dashboard, um relatório ou
mesmo um sistema de recomendação de produtos.
Além de usuários a camada de aplicação pode ser responsável por
consumir aplicativos de diversos segmentos, como de marketing (Myrrix) ou de
mídias (Bluefi n). Essa camada também pode alimentar processos de negócio,
resolvendo rapidamente problemas e respondendo a mudanças inerentes a esses
ambientes. A Figura 10 esquematiza a arquitetura de Big Data comentada nesta
seção. A camada de extração e integração é onde tudo começa e a camada de
apresentação tem a ver com o consumo dos resultados gerados pelas análises.
FIGURA 10 – UMA ARQUITETURA GENÉRICA PARA
IMPLANTAÇÃO DE BIG DATA ANALYTICS
FONTE: O autor
42
BiG DATA ANALYTiC E A TomADA DE DECiSÕES
1 Uma arquitetura típica para projetos de Big Data é formada por
quais componentes?
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
2 Descreva um Data Lake.
R.: ____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
4.2 ECOSSISTEMA HADOOP
Uma arquitetura típica de Big Data precisa suportar o alto
volume e a variedade de dados e processá-los em um tempo hábil. O
Hadoop é um framework Open-Source que permite o processamento
distribuído de grandes massas de dados por intermédio de clusters
de computadores considerando modelos de programação simples.
Esses clusters são máquinas ou nós que estão distribuídos oferecendo
recursos de computação e armazenamento locais gerenciados por um
servidor. Por intermédio do Apache Hadoop é possível gerenciar um
grande volume de dados dos mais variados formatos. Mais do que
isso, a biblioteca fornece mecanismos automatizados para detecção e
correção de falhas e serviços com alta disponibilidade e escalabilidade.
O Hadoop é um
framework Open-
Source que permite
o processamento
distribuído de
grandes massas
de dados por
intermédio de
clusters de
computadores
considerando
modelos de
programação
simples. Esses
clusters são
máquinas ou
nós que estão
distribuídos
oferecendo recursos
de computação e
armazenamento
locais gerenciados
por um servidor.