Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

1 
 
 
2 
 
Sumário 
UNIDADE I – Fundamentos de Big Data ................................................................................ 4 
INTRODUÇÃO ........................................................................................................................ 5 
1. O QUE É BIG DATA? ...................................................................................................... 6 
1.1 Tipos de Big Data ....................................................................................................... 8 
1.2 A importância e o volume do big data ............................................................... 10 
2. OS 5 V’S DO BIG DATA................................................................................................ 12 
2.1 Razões para implantar um Big Data ................................................................... 16 
3. DESAFIOS PARA SE EXTRAIR O VALOR DO BIG DATA ................................... 20 
3.1 Áreas em potencial de aplicação do Big Data ................................................. 21 
4. CASES DE SUCESSO DE APLICAÇÃO DO BIG DATA ........................................ 24 
5. ARMAZENAMENTO DE DADOS COM O BIG DATA ............................................. 34 
5.1 O que é a computação na nuvem ........................................................................ 34 
5.1.1 Aplicações da Cloud Computing ................................................................. 35 
5.1.2. Exemplos de computação em nuvem: SaaS, PaaS e IaaS ................... 36 
Referências Bibliográficas ............................................................................................... 40 
UNIDADE II – Business Analytics .......................................................................................... 43 
INTRODUÇÃO ...................................................................................................................... 44 
1. O QUE É BUSINESS ANALYTICS.............................................................................. 45 
1.1. Introdução à Data Mining ..................................................................................... 46 
1.1.1. Linhagens do Data Mining ............................................................................ 48 
1.1.2. Aplicando Data Mining em um ambiente de negócio ............................ 50 
1.1.3 Principais características de Data Mining, BI e Big Data ...................... 51 
2. AS DIFERENTES METODOLOGIAS DE BUSINESS ANALYTICS ...................... 54 
2.1 Business Intelligence x Business Analytics .................................................... 57 
3. ÁREAS DE NEGÓCIOS PARA A APLICAÇÃO DE BUSINESS ANALYTICS .... 59 
3.1. Marketing Analytics ............................................................................................... 60 
3.2. RH Analytics ............................................................................................................ 61 
3.3. Financial Analytics ................................................................................................. 64 
3.4. Fraud Analytics (Análise para Detectação de Fraudes) ............................... 67 
3.5. Text Analytics .......................................................................................................... 70 
3.6. Social Network Analytics ...................................................................................... 72 
4. CERTIFICAÇÕES DE BUSINESS ANALYTICS ........................................................ 73 
Referências Bibliográficas ............................................................................................... 78 
UNIDADE III – Ferramentas de Data Analytics e Big Data ............................................... 81 
INTRODUÇÃO ...................................................................................................................... 82 
3 
 
1. O QUE É DATA ANALYTICS ........................................................................................ 83 
1.1 Cultura de Data Analytics ...................................................................................... 83 
1.2 Como funciona o Data Analytics? ....................................................................... 84 
2. INTRODUÇÃO AO APRENDIZADO DE MÁQUINA (MACHINE LEARNING) ..... 86 
2.1 O aprendizado de uma plataforma de Machine Learning ............................. 86 
2.2 Abordagens de Machine Learning ...................................................................... 87 
3. FRAMEWORK BIG DATA HADOOP ......................................................................... 88 
3.1 Componentes base do Hadoop ........................................................................... 90 
3.1.1 Hadoop 2.0 ......................................................................................................... 91 
3.1.2 Funcionamento da arquitetura básica ........................................................ 93 
3.1.3 Análise de dados ........................................................................................ 95 
3.1.4 Onde se aplica o Hadoop? ............................................................................. 97 
4. FERRAMENTAS DE BIG DATA E DATA ANALYTICS ........................................... 99 
Referências Bibliográfica ............................................................................................... 105 
UNIDADE IV – Alternativas em BD para BigData ............................................................. 107 
INTRODUÇÃO .................................................................................................................... 108 
1. O que são Banco de Dados NoSql .......................................................................... 109 
1.1 Por que usar um banco de dados NoSQL? .................................................... 109 
1.2 Estruturas ou Categorias de bancos de dados NoSQL .............................. 110 
1.3 Principais Banco de dados NoSQL ............................................................. 114 
1.4 Banco de dados SQL (relacional) x NoSQL(não relacional) ...................... 117 
2. In-Memory Databases ................................................................................................. 120 
2.1 Arquitetura do Banco de Dados In-Memory ................................................... 121 
2.2 Tecnologia de Banco de Dados In-Memory .................................................... 122 
3. ETAPAS PARA CRIAÇÃO DE UM PROJETO BIG DATA ................................ 124 
3.1 Definição do Business Case ............................................................................... 127 
3.2 Planejamento do Projeto ..................................................................................... 128 
3.3 Definição dos Requisitos Técnicos .................................................................. 128 
3.4 Criação de um “Total Business Value Assessment” ................................... 131 
Referência Bibliográficas/ Referências OnLine ....................................................... 133 
 
 
 
 
 
 
4 
 
UNIDADE I – Fundamentos de Big Data 
 
Objetivos: 
Demonstrar as características e o conceito de Big Data; 
Entender as razões para se implantar o Big Data; 
Apresentar cases de aplicação do Big Data. 
 
 
5 
 
 
INTRODUÇÃO 
 
Nesta unidade será demonstrado as características e o conceito de Big Data, 
que é utilizado para descrever dados que possuem alto volume, velocidade e 
variedade. O Big Data aprimora os processos de trabalho dos usuários, ao obter 
interpretações rápidas e valiosas sobre as tendências do mercado, 
comportamento de consumo e oportunidades potenciais. Veremos também que 
com o Big Data é possível saber exatamente o que os clientes querem, 
estudando seus hábitos de consumo. O conhecimento das necessidades do 
cliente faz com que possa ser oferecido instantaneamenteo que ele deseja. Com 
o Big Data ´pode-se prevenir possíveis riscos para o negócio através das 
análises em tempo real de distintas variáveis do mercado. O grande diferencial 
do Big Data é auxiliar as organizações no conhecimento profundo dos seus 
negócios e as fazer perceber como chegar à combinação ideal de dados e 
informações sobre o cliente e o mercado, dados que favorecem a estratégia, 
eficácia, aceitação da proposta de valor e faz com que as empresas alcancem 
avanços na realização dos objetivos estratégicos da empresa. 
 
 
 
 
 
6 
 
 
1. O QUE É BIG DATA? 
 
 
 
 
 
O conceito de BIG DATA está sendo muito difundido atualmente em 
função das demandas dos diferentes tipos de dados que temos que armazenar 
diariamente. Outra definição é que BIG DATA se refere a um conjunto muito 
grande de dados que nenhuma ferramenta convencional de gerenciamento de 
banco de dados ou gerenciamento de informações consegue armazenar os 
diferentes tipos de dados existentes como: 
 Texto; 
 Sensores; 
 Navegação Web; 
 Áudio; 
 Vídeo; 
 Arquivos de Log; 
 Centrais de ar condicionado entre outros. 
 
Agora imagine a quantidade imensa de dados que estamos gerando 
diariamente na internet, desde simples e-mail até infinitas mensagens em 
chats, tweets, curtidas, publicações de vídeos e imagens, posts em blogs e 
muito mais. Nossos smartphones também são fábricas de dados que 
produzem informações 24 horas por dia, e a Internet das Coisas (IoT) vai 
estender esse poder a todos os dispositivos que temos acesso. 
O objetivo do Big Data é extrair um grande volume de dados 
estruturados e não-estruturados, organizá-los e analisá-los a fim de se obter 
7 
 
insights para negócios e prever uma determinada situação. Pode-se dizer 
que os dados são extraídos de qualquer lugar. Abaixo estão listadas algumas 
origens: 
 Redes Sociais – Facebook, instagram, twitter etc; 
 Websites – Google, Portal de Notícias, Mapas etc; 
 Sistemas – ERP, CMS, etc; 
 Aplicativos – Posição Geográfica, Gosto Musical, Fotografia; 
 Banco de Dados – da internet (externos), de empresas 
(internos); 
 Pacote Office – Excel, Access, Word; 
 Máquinas e acessórios tecnológicos. 
As organizações necessitam de uma tecnologia de armazenamento para 
guardar uma quantidade massiva que vem de diferentes plataformas, por 
exemplo: mensagens que enviamos, vídeo que publicamos, informações sobre 
o tempo, sinais de GPS, registros transacionais de compras on-line. Esses tipos 
de dados não possuem uma estrutura padronizada. Com isso, a utilização de um 
data center comum não é recomendada para armazenar esse tipo de 
informação, sendo a melhor solução para essa situação a aplicação de um Big 
Data. Com o auxílio de um Big Data, a empresa pode utilizar todos os dados 
coletados para realização de análises específicas com a finalidade de extrair 
conhecimento relevante para subsidiar as tomadas de decisão estratégicas dos 
negócios. Assim, as soluções de Big Data “tratam” os dados brutos até que se 
transformem em insights poderosos para a tomada de decisão. Para isso, são 
desenvolvidas a partir de algoritmos que capturam e cruzam dados de várias 
naturezas. 
Desse modo, uma montanha de dados soltos pode se tornar uma fonte 
valiosa de informação e conhecimento. O que caracteriza a arquitetura 
tecnológica envolvida no Big Data é sua capacidade de captura, armazenamento 
e análise muito superior à dos softwares de bancos de dados comuns. Para 
construir essa arquitetura, é preciso unir a TI aos Cientistas de Dados para focar 
esforços na solução de problemas empresariais por meio dos dados. 
8 
 
Uma das tecnologias centrais nessa revolução é a computação em 
nuvem, pois somente esse tipo de infraestrutura pode dar suporte ao 
armazenamento e processamento do Big Data. 
1.1 Tipos de Big Data 
O Big Data pode ser encontrado em três formas: 
a. Estruturado 
b. Não estruturado 
c. Semi-estruturado 
 
a. Estruturado – Quaisquer dados que possam ser armazenados, 
acessados e processados na forma de formato fixo são denominados dados 
“estruturados”. 
Exemplo de dados estruturados: Tabela: Cliente 
Id_Cli Cpf_Cli Nome_Cli End_Cli Tel_Cli Cidade_Cli Limite_Cli 
001 072387747-31 Monica Silva Rua Franca, 
234 
(44)999767611 Maringá R$5000,00 
002 082387747-32 Arthur 
Fredagolli 
Rua Itália, 234 (44)988767612 Maringá R$1500,00 
002 092387747-33 Regina 
Bezerra 
Rua Espanha, 
234 
(44)995667613 Cascavel R$8000,00 
002 062387747-34 Augusto 
Santo 
Rua Inglaterra, 
234 
(44)888765614 Cascavel R$3000,00 
b. Não estruturado – Qualquer dado com forma ou estrutura 
desconhecida é classificado como não estruturado. Além do tamanho ser 
grande, os dados não estruturados apresentam vários desafios em termos de 
processamento para extrair valores deles. Um exemplo é uma fonte de dados 
heterogênea que contém uma combinação de arquivos de texto simples, 
imagens, vídeos e etc. Hoje em dia as organizações têm muitos dados 
disponíveis, mas infelizmente não sabem como extrair valor disso, pois esses 
dados estão em sua forma bruta ou formato não estruturado. 
9 
 
Exemplo de dados não estruturados: O retorno de uma pesquisa 
realizada em um navegador. 
 
c. Semiestruturado - Os dados semiestruturados são uma forma de 
dados estruturado que não está de acordo com a estrutura forma dos modelos 
de dados associados com banco de dados relacionais ou outras formas de 
tabelas de dados, mas que contem tags ou outros marcadores para separa 
elementos semânticos e impor hierarquias de registros e campos dentro dos 
dados. 
Exemplo de dados semiestruturados: Dados pessoais armazenados em 
um arquivo XML 
<rec> <name> João Lima </name> <sex> Masculino </sex> <age> 35 </age> </rec> 
<rec> <name> Sonia R. </name> <sex> Feminino </sex> <age> 41 </age> </rec> 
<rec> <name> Regina F. </name> <sex> Feminino </sex> <age> 29 </age> </rec> 
<rec> <name> Cristina L. </name> <sex> Feminino </sex> <age> 26 </age> </rec> 
<rec> <name> Cicero A. </name> <sex> Masculino </sex> <age> 35 </age> </rec> 
 
 
 
10 
 
1.2 A importância e o volume do big data 
De acordo com o Instituto Gartner até 2020 é possível que haja um total 
de 40 trilhões de gigabytes de dados no mundo. São surpreendentes 2,2 milhões 
de terabytes de novos dados gerados todos os dias. 
A quantidade de dados gerados e armazenados diariamente, não 
suporta mais uma estrutura centralizada de processamento de dados, 
principalmente nas grandes organizações. O uso do Big Data nas organizações 
tem por objetivo principal conhecer o comportamento do consumidor, e saber 
os motivos que levam o cliente a se comportar de tal forma. 
Sendo assim, podemos dizer que o Big Data é importante para ajudar as 
empresas a analisar os seus dados e utilizá-los na identificação de novas 
oportunidades. Podemos observar que com a aplicação do Big Data nas 
organizações existem alguns benefícios que independente do modelo de 
negócios, são aplicáveis a quaisquer empresas, são eles: economia de tempo, 
redução de custos, otimização de ofertas, fornecimento de novos produtos, 
maiores lucros, clientes mais satisfeitos e decisões mais eficientes. 
Imagine em todos os e-mails, mensagens de Twitter, fotos e vídeos que 
circulam na rede a cada instante. Não se utiliza mais, apenas unidade de 
informação Terabyte (1.000.000.000.000 (1012), e sim Zettabyte 
(1.000.000.000.000.000.000.000 (1021) e Brontobyte 
((1.000.000.000.000.000.000.000.000.000 (1027). 
Só no Facebook são 10 bilhões de mensagens, 4,5 bilhões de curtidas e 
350 milhões de fotos compartilhadas todos os dias. A tecnologia do Big Data 
11 
 
serve exatamente para lidar com esse volume de dados, guardando-os em 
diferentes localidades, e juntando-os através de software. 
Portanto, a sua importância não gira em torno apenas de como ou 
quanta informação chega até você e sua empresa, mas sim os insights e osvalores gerados após análises. Essas analises, se utilizam de técnicas que não 
eram empregadas em uma escala empresarial. Os resultados ajudam em 
diversas decisões estratégicas do negócio. 
“O que mais importa não é se você tem os dados, mas sim como vai usá-
los. […] A gente precisa entender que a pirâmide inverteu. As 
informações existem e precisamos saber interpretá-las rapidamente”. 
Fábio Sayeg, fundador e CEO da ZOLY. 
Para ter um resultado positivo, não basta apenas ter os dados, é 
necessário compreender todo o processo de gestão e análise dos mesmos 
(coleta, armazenamento, organização e análise, além de mantê-los sempre 
atualizados, transformado esses dados em informações relevantes para a 
organização. 
 
12 
 
2. OS 5 V’S DO BIG DATA 
O conceito Big Data então propõe formas de tratar os dados e retirar 
deles informações para serem utilizados estrategicamente e oferecer uma 
abordagem consistente no tratamento do constante crescimento e da 
complexidade dos dados. Para tanto, o conceito considera os 5 V´s do Big Data: 
o Volume, a Velocidade, a Variedade, a Veracidade e o Valor. 
o Volume, se o Big Data se refere aos dados que circulam todos os 
dias, entre as organizações, certamente estamos falando de uma 
grande quantidade de dados. Aqui trata-se do Volume de dados 
mantidos e analisados por ferramentas matemáticas corretas que 
podem contribuir com informações valiosas, como perfis, tendências 
e etc. Diariamente usamos aplicativos de pagamento, de compras, de 
redes sociais, GPS, relacionamento, buscadores, comparadores de 
preços, aplicativos de saúde e bem-estar, especializados em 
atividades físicas, músicas e etc, tudo isso gera dados e metadados 
que serão agrupados para formar o “BIG” volume de dados a 
disposição das análises. 
a Velocidade, o mercado atual demanda por velocidade o tempo 
todo, e o Big Data é um conceito que não pode funcionar se não 
houver agilidade. A análise de dados deve ser instantânea, caso 
contrário as informações obtidas podem não ser úteis para a 
organização. Este V se refere à velocidade com que os dados são 
criados. São mensagens de redes sociais se viralizando em 
segundos, transações de cartão de crédito sendo verificadas a cada 
instante ou os milissegundos necessários para calcular o valor de 
compra e venda de ações. Esta tarefa demanda de arquiteturas de 
computação específicas e também softwares especializados para 
garantir que haja processamento adequado de dados para extração 
das informações necessárias. 
a Variedade, uma das boas qualidades do Big Data é a variedade de 
dados obtidos por meio de diversos caminhos, como documentos 
eletrônicos, e-mails, transações, etc. No passado, a maior parte dos 
13 
 
dados era estruturada e podia ser colocada em tabelas e relações. 
Hoje, 90% dos dados do mundo não se comportam dessa forma. Com 
o Big Data, mensagens, fotos, vídeos e sons, que são dados não-
estruturados, podem ser administrados juntamente com dados 
tradicionais. Então o Big Data beneficia-se de dados originados em 
diferentes aplicações, de diferentes modelos, em mídias diferentes 
para compor efetivamente o seu volume de dados a ser aproveitado. 
Esta variedade é benéfica e desejável para o modelo, uma vez que 
nem sempre aplicações com estruturas de dados relacionais formais 
comportam tudo o que pode ser aproveitado para gerar 
conhecimento. 
a Veracidade, se o volume de dados disponíveis para análise é 
grande, certamente existe uma parcela da informação que não traz 
veracidade. Infelizmente, a confiabilidade dos dados, principalmente 
aqueles provenientes da rede, ainda não é 100% confiáveis. Um dos 
pontos mais importantes de qualquer informação é que ela seja 
verdadeira. Com o Big Data não é possível controlar cada hashtag do 
Twitter ou notícia falsa na internet, mas com análises e estatísticas de 
grandes volumes de dados é possível compensar as informações 
incorretas. A qualificação da fonte, a determinação de padrões, a 
confiabilidade do processo de captura e também, o processo de 
cruzamento de novos dados com outros existentes e sobretudo a 
compreensão dos dados capturados ajudam a definir a sua 
Veracidade é consequentemente o nível de confiabilidade da 
informação gerada. 
o Valor, o último V é o que torna Big Data relevante (o resultado do 
Big Data), de nada adianta um grande volume de dados, velocidade 
no processamento, fontes diferentes e dados verificados se estes não 
possuem, agregam valor ou justificam o esforço do processo de 
consegui-los. É importante que empresas entrem no negócio do Big 
Data, mas é sempre importante lembrar dos custos e benefícios e 
tentar agregar valor ao que se está fazendo. 
14 
 
 
 
 
Com o avanço de novos tipos de negócios, resultando em novos tipos 
de dados houve a necessidade de serem incluídos mais 2 V´s a Visualização e 
Variabilidade, no tratamento dos tipos de dados que possuem um Big Data. 
a Visualização, é fundamental no mundo atual, o uso de gráficos e 
tabelas para visualizar grandes quantidades de dados complexos é 
muito mais eficaz na transmissão de significados do que planilhas e 
relatórios repletos de números e fórmulas. 
a Variabilidade é diferente da variedade. Um café pode oferecer 6 
misturas diferentes de café, mas se você obter a mesma mistura todos 
os dias e o gosto for diferente a cada dia, isso é variabilidade. O 
mesmo acontece com os dados, se o significado estiver mudando 
constantemente, isso pode ter um impacto enorme na 
homogeneização de dados. 
15 
 
 
 
Um estudo feito pela “Universe of Opportunities and Challenges” aponta que até 
2020 o volume de dados gerados diariamente será de 40 trilhões de gigabyte. 
Especialistas estimam que um carro autônomo poderá gerar até 100 gigabytes 
por segundo. 
 
 
 
 
Á medida que o mundo vai ficando cada vez mais conectado com um 
número cada dia maior de dispositivos eletrônicos gerando, enviando e 
recebendo dados, esse número terá um aumento astronômico nos próximos 
anos. 
 
16 
 
2.1 Razões para implantar um Big Data 
 
 A produção de dados cresce exponencialmente no mundo todo. As 
empresas buscam alternativas para utilizar corretamente essas informações. 
Ter a capacidade de analisar e atuar sobre os dados é cada vez mais importante. 
O ritmo do mercado atual exige que elas possam reagir rapidamente às 
mudanças nas demandas dos clientes e condições ambientais, e apenas com 
dados é possível tomar tais decisões complexas com o máximo de precisão. 
Podemos apresentar no mínimo 3 vantagens gerais para a aplicação do Big 
Data são elas: 
 
 A primeira vantagem do Big Data é a capacidade de interpretar 
grande quantidade de dados de uma só vez. 
 A segunda é a capacidade de analisar dados não estruturados, 
esta capacidade de trabalhar dados não estruturados permite ao 
Big Data analisar informações de diferentes fontes, aumentando 
assim sua abrangência. 
 A terceira vantagem geral é a capacidade de interpretar 
tendências de eventos, auxiliando a visualização de situações 
futuras. Estas tendências podem ser de ordem econômica, de 
aceitação de produtos, ou até climáticas. 
O Big Data possui também vantagens específicas, Cordeiro (2017) apresenta 
as vantagens do Big Data em diferentes áreas de negócios: 
Serviços Financeiros por meio de análise de dados muitas instituições 
financeiras acompanham as manifestações emocionais 
dos clientes pelas mídias sociais, diagnosticando com 
antecedência as insatisfações e ganhando tempo para 
neutralizá-las antes da migração entre instituições, ou 
fechamento de contas, no caso dos bancos. 
Varejo por meio da coleta e análise de dados, empresas de varejo 
costumam identificar os hábitos e preferências de consumo de 
clientes e informações sociais e demográficas. Com isso, 
aumentam o número de vendas e elaboram programas de 
fidelidade mais atraentes. Outro exemplo é o levantamentode 
dados de antigos clientes e cruzamento com dados de produtos 
17 
 
preferidos por eles a partir disso, gera-se descontos em 
produtos específicos atraindo novamente o cliente. 
Saúde A geração de informações clinícas contribui para fortalecer a 
medicina de precisão, gerando diagnósticos mais exatos. Além 
disso, o Big Data pode auxiliar monitorando as manifestações 
de uma população em redes sociais e, dessa forma, prevendo 
possíveis casos de eclosão de epidemias e dando tempo às 
instituições de saúde se adequarem. 
Setor público com o cruzamento de dados de pessoas por meio de diferentes 
fontes, os gestores públicos podem identificar cenários de cri 
mes financeiros. Outra vantagem do Big Data é monitorar o 
nível de satisfação da população e gerar insights para 
implementação de novos projetos ou soluções para problemas 
detectados. 
Ensino análise de dados pode ajudar educadores a identificar alunos 
em risco e assegurar progressos dos alunos. 
Manufatura por meio da visão que o Big Data pode fornecer, os fabricantes 
podem aumentar a quantidade e qualidade da produção, 
minimizando o desperdício, criando valor e contribuindo para a 
lucratividade do negócio 
 
Outras atividades de negócios estão elecandas no artigo “O que é Big 
Data” publicado pela Oracle Big Data Solutions, são eles: 
Desenvolvimento de 
produtos 
Empresas como Netflix e Procter & Gamble usam big data para 
antecipar a demanda dos clientes. Eles criam modelos 
preditivos para novos produtos e serviços, classificando os 
principais atributos de produtos ou serviços passados e atuais 
e modelando a relação entre esses atributos e o sucesso 
comercial das ofertas. Além disso, a P&G utiliza dados e 
análises de grupos de foco mídias sociais, mercados de teste e 
lançamentos antecipados de lojas para planejar, produzir e 
lançar novos produtos. 
Manutenção Preditiva Fatores que podem prever falhas mecânicas podem estar 
profundamente relacionados a dados estruturados que 
abrangem milhões de entradas de log, dados de sensores, 
mensagens de erro e temperatura do motor. Ao analisar essas 
indicações de possíveis problemas antes que eles ocorram, as 
empresas podem implementar a manutenção de maneira mais 
econômica e maximizar o tempo de atividade de peças e 
equipamentos. 
Fraude e Conformidade Os cenários de segurança e requisitos de conformidade estão 
evoluindo constantemente. Big Data ajuda a identificar padrões 
em dados que indicam fraudes e agregar grandes volumes de 
informações para tornar os relatórios regulares muito mais 
rápidos. 
Machine Learning O machine learning é um dos assuntos mais comentados do 
momento. E os dados (especificamente, big data) são um dos 
18 
 
motivos para isso. Agora, somos capazes de ensinar Máquinas 
em vez de programa-las. A disponibilidade de big data para 
treinar modelos de machine learning permite que isso seja 
realidade. 
Eficiência Operacional A eficiência operacional nem sempre é notícia, mas é uma área 
em que o Big data está tendo o maior impacto. Com o Big data, 
você pode analisar e avaliar a produção, os comentários e as 
devoluções de cliente, assim como outros fatores para reduzir 
interrupções e antecipar demandas futuras. Big data também 
pode ser usado para melhorar a tomada de decisões de acordo 
com a demanda atual do mercado. 
Impulsione a Inovação O Big data pode ajudar a inovar, estudando interdependências 
entre seres humanos, instituições, entidades e processos e em, 
seguida, determinando novas maneiras de usar esses insights. 
Usando informações de dados para aprimorar as decisões 
sobre considerações financeiras e de planejamento. Examinar 
as tendências e o que os clientes desejam para oferecer novos 
produtos e serviços. Implementar um sistema de preços 
dinâmico. Existem infinitas possibilidades. 
 
 
Um estudo realizado pela consultoria McKinsey “ Big Data: The next 
frontier for innovation, Competition and productivity”, publicado na revista 
on line Cultura Analítica de 02/2018, mostra os potencias valores que são 
gerados a partir dos dados que serão coletados até 2020. 
No estudo os valores foram dividios em 5 formas: 
1- O Big Data pode gerar um valor significativo por tomar informações 
verdadeiras e úteis com muito mais frequência. 
2- As organizações criam e armazenam mais dados em forma digital, 
eles podem coletar informações de desempenho mais precisas e 
detalhadas sobre tudo, desde inventários de produtos até de 
doenças, portanto, expor a variabilidade e aumentar o desempenho. 
As principais empresas estão usando a coleta e análise de dados 
para realizar experimentos controlados para tomar melhores 
decisões de gerencimento; outros estão usando os dados para gerar 
previsões com o objetivo de ajustar suas estratégia de negócio em 
tempo de execução. 
3- Em terceiro lugar, o Big Data permite uma segmentação cada vez 
melhor dos clientes, portando produtos e serviços cada vez mais 
personalizados. 
4- As análises sofisticas podem trazer uma melhora significativa na 
toma de decisões e geração de insights. 
19 
 
5- Finalmente, o Big Data pode se usado para melhorar o 
desenvolvimento da próxima geração de produtos e serviços. Por 
exemplo, os fabricantes estão usando dados obtidos a partir de 
sensores incorporados em produtos para criar ofertas inovadoras de 
serviços pós-venda, como manutenção preventiva(medidas 
preventivas que ocorrem antes uma falha seja notada). 
 
 
 
20 
 
3. DESAFIOS PARA SE EXTRAIR O VALOR DO BIG DATA 
 
Conforme Brown (2019) no seu artigo, o Big Data está se tornando mais 
popular entre as empresas em todos os setores, mas a realização de um projeto 
de big data não é fácil. Ele descreve alguns desafios que as empresas enfrentam 
são eles: 
 
Gerenciar o crescimento de dados 
 
De acordo com o relatório “Digital Universe”, a IDC 
estima que a quantidade de informações 
armazenadas em sistemas de computação em todo o 
mundo dobre a cada dois anos, e a grande maioria 
dos dados não é estruturado. Para o gerenciamento e 
à análise, as empresas podem usar ferramentas 
como NoSQL, Hadoop, Spark e outros softwares 
analíticos de big data, bem como software de BI 
(Business Intelligence), Inteligência Artificial (IA) e 
aprendizado de máquina para obter as informações 
que precisam. 
Gerar insights rapidamente 
 
As empresas não querem apenas armazenar os 
dados que geram. Elas estão mais interessadas em 
usar big data para atingir seus objetivos tornando-as 
mais competitivas, mas para isso precisam obter 
insights e explorá-las rapidamente. As empresas já 
possuem a disposição ferramentas analíticas que os 
ajudarão a obter resultados em tempo real, 
respondendo as inovações do mercado o mais rápido 
possível. 
Recrutar talentos de Big Data 
 
Para desenvolver e gerenciar aplicativos que geram 
insights, as empresas precisam de profissionais com 
habilidades em big data. A demanda por especialistas 
em Big Data aumentou significativamente, juntamente 
com os salários oferecidos pelas empresas. 
Integrar fontes diversificadas de 
Big Data 
 
A grande variedade de dados faz da integração um 
dos maiores desafios da big data. De fato, os dados 
vêm de diferentes fontes: aplicativos de negócios, 
redes sociais, e-mails, documentos de funcionários e 
etc combinando todos esses dados harmoniosamente 
e usando-os para criar relatórios, e para esses 
usuários avançados, insights orientados por dados e 
21 
 
soluções de suporte à decisão empresarial podem ser 
muito difíceis. 
Validação do Dados 
 
A validação de dados também é um dos principais 
desafios do big data. Muitas empresas recebem 
dados semelhantes de sistemas diferentes, e esses 
dados às vezes são contraditórios. 
Proteger o Big Data 
 
A segurança também é uma preocupação importante 
no campo de big data. Dados de negócios podem ser 
atraentes para hackers, no entanto muitas empresas 
investem em medidas adicionaismais populares que 
incluem controle de acesso e identidade, criptografia 
e segregação de dados. 
Resistência Organizacional 
 
Além dos aspectos tecnológicos dos desafios de big 
data, os funcionários também podem representar um 
desafio de big data. Entre os principais desafios 
encontrados pelas empresas que tenham de lançar 
um projeto de big data, os três principais problemas 
são o alinhamento organizacional insuficiente, a falta 
de entendimento por parte dos gerentes, a falta de 
entendimento ou a resistência dos negócios. Para 
resolver esse desafio, é necessário, portanto, 
convencer os líderes de negócios da utilidade do Big 
Data e nomear um Diretor de Dados. 
 
3.1 Áreas em potencial de aplicação do Big Data 
 
Existem áreas para exemplificar como o Big Data tem sido explorado no 
Brasil diante da dinamicidade da transformação digital são elas: 
a. Medicina de precisão 
 
A fusão entre o tratamento de grandes dados e tecnologias como realidade 
virtual, Internet das Coisas e aprendizado de máquina já vem sendo trabalhada 
pela comunidade médica brasileira. Por aqui, tal conjunção entre Big Data e 
saúde trará, em breve, novos recursos aos dispositivos vestíveis (wearables) já 
existentes nos hospitais nacionais. Isso abrirá a possibilidade de geração de 
centenas de informações clínicas que contribuirão para a consolidação da 
medicina de precisão no país. 
22 
 
 b. Apólices de seguro 
 
A telemetria, é a tecnologia bastante usada na Fórmula 1 que permite a 
transmissão de informações detalhadas sobre o desempenho dos 
carros diretamente a uma central. Pois esse recurso, que é baseado em Big 
Data, já começa a ser usado por algumas seguradoras de veículos no Brasil. 
Esse uso do Big Data no Brasil ainda é incipiente, mas já há ao menos 
2 empresas do setor que adotam esse sistema de forma bastante simples. 
O segurado instala um rastreador em seu automóvel, permitindo que toda a sua 
performance seja monitorada — velocidade média, tempo de frenagem, 
frequência de uso do automóvel, entre outros dados. É a partir do processamento 
dessas informações que se define, de forma personalizada), o valor da apólice. 
c. Gestão de tráfego 
Desde novembro de 2016, a cidade paranaense de Ivaiporã, localizada a cerca 
de 380 quilômetros de Curitiba, instalou um sistema que coleta dados das ruas 
em caráter de teste. Tal recurso identifica padrões e fornece previsões para a 
organização do tráfego. Essa consciência digital do movimento urbano 
determinará, por exemplo, o tempo ideal de fechamento dos semáforos, além de 
notificar mais rapidamente os agentes de trânsito em caso de acidentes. 
d. Comportamento do consumidor 
Vivo, Renner, Claro e Itaú Unibanco: essas são apenas algumas das 
companhias que usam a análise de dados para entender o comportamento de 
consumo do público. 
e. Oportunidades de investimento 
 
Atualmente, a maioria das corretoras de valores e consultorias financeiras do 
país adota sistemas inteligentes para cruzar dados macroeconômicos, como 
23 
 
taxa de juros e câmbio, dados de mercado, como balanços e demonstrações 
financeiras das empresas, e dados do próprio perfil de cada investidor, a fim de 
entregar sugestões de investimentos com alto potencial de retorno. Os próprios 
robôs investidores seguem essa tendência de uso de Big Data no mercado 
financeiro. Compra de ações, composição de carteira, entradas e saídas de 
tradings (investimentos especulativos): tudo é feito com base na mineração de 
dados. 
Estas potenciais áreas saem na frente com o uso do Big Data, 
otimizando seus planos de negócios produzindo informações gerenciais que 
expliquem tendências, bem como objetos inteligentes que atuem nestas 
empresas substituindo a força de trabalho humana em diversas funções. 
 
24 
 
4. CASES DE SUCESSO DE APLICAÇÃO DO BIG DATA 
A tecnologia big data tem influenciado todos os setores e organizações. 
Ao entender como o Big Data funciona, compreende-se a extensão de como ele 
se adequa a uma sociedade voltada para uma renovada arquitetura de 
informação. É nesse contexto que, os cenários previstos dos setores serão 
baseados de acordo como cada organização lida com os dados e se os possui. 
(DAVENPORT, 2014). 
Ao verificar a maneira que as organizações operam seus dados, elas 
foram classificadas em 3 estilos. Em empresas líderes, onde seu desempenho 
excedem as expectativas. Um exemplo é a Netflix e a Amazon, são companhias 
que baseadas nas preferências de seus usuários, serviram para o 
processamento dados, convertidos em vários padrões de comportamento e se 
consagraram na previsão de oferta de serviços. (DAVENPORT, 2014). As 
empresas desprovidas de dados, as quais não os tinham ou não eram bem 
estruturados, como por exemplo, as organizações de saúde onde mesmo que 
as anotações dos históricos dos pacientes estivessem em prontuários online, o 
texto não estruturado tinha déficit de anotações relativo aos pacientes, 
atrapalhando o desenvolvimento da instituição. (DAVENPORT, 2014). E por fim, 
as empresas que não utilizavam os dados para seu próprio benefício e nem 
dos seus clientes. Instituições como bancos, que utilizavam os dados sobre a 
movimentação bancária de cada cliente apenas para interpretar e oferecer 
serviços de marketing. (DAVENPORT, 2014). 
A primeira atividade realizada em big data foi protagonizada por empresas 
de produtos e serviços de Internet, e em startups que atuam na Internet e em 
setores semelhantes. Parte dessas empresas que contribuem são essenciais 
para a consolidação da ciência de dados. Cada avanço tecnológico foi devido a 
essas várias empresas existentes. Há algumas delas que são de notório sucesso 
é que afetam diretamente a natureza do BD. (DAVENPORT, 2014). São 
entidades significativamente catalisadoras da nova ordem de dados. Instituições 
como IBM, Facebook, Google e Amazon, são modelos tanto de como o que era 
25 
 
o antigo transitou para a o atual; e como empresas que surgiram desses novos 
cenários conseguiram se estabelecer. 
Uma empresa focada na tecnologia, a IBM desde 1880, vem se estruturando 
para a nova ordem mundial de conhecimento. 
Com os avanços da tecnologia, ela foi 
determinando seu espaço e contribuindo para 
a formação de nova informação no mundo. 
(IBM, 2016). 
Com a Tabulating Machine Company de Hollerith, em 1896, a IBM 
alavancou como a empresa de desenvolvimento de base tecnológica que 
movimentou as formações dos computadores e informações e que, até hoje é 
referência de tecnologia no mundo. (IBM, 2016) 
(IBM, 2016) Por ser uma empresa que se intitula como “empresa de 
tecnologia da informação do mundo”, a IBM se adequa aos novos embates de 
globalização, de forma que suas tecnologias sejam agentes de novas propostas. 
Acontece que, com a liberação de software atual, como a Apache fez com o 
Hadoop, permitiu a IBM se alinhar e escrever seus próprios estilos de 
manuseamento de dados. Criando banco de dados relacionais e 
multiplataformas em servidores assegurados por cloud computing. A IBM é uma 
das principais referências em software para o controle de informações de uma 
empresa. (DAVENPORT, 2014). A IBM defende que com o Big Data pode-se 
fazer o que quiser da forma que quiser. As diferentes quantidades de dados 
coletados podem gerar visões e resultados incríveis porque enriquece as 
iniciativas de análise que estão ocorrendo nas empresas atualmente. 
(ZIKOPOULOS et al., 2015). A IBM explica que a melhor maneira de utilizar o 
Big Data e seus serviços de gerenciamento é entender a origem dos dados, 
como fazer para analisá-los e aproveitá-los de forma que gere resultados 
analíticos e que consequentemente resultem insights para dentro da empresa. É 
dessa forma, que a empresa afirma, vem se adequando as demandas 
informacionais reais e atuais. (ZIKOPOULOS et al., 2015). 
26 
 
Criada em 2004 por Mark Elliot Zuckerberg e 
cofundadoreso Facebook começou quando 
Mark ainda frequentava a Universidade de 
Havard. A ideia era criar uma conexão virtual 
entre as pessoas que conviviam pelo campus 
da universidade. Assim, as pessoas que ingressassem no “TheFacebook” 
(chamado antigamente, na época do lançamento) criariam um perfil online onde 
seria possível colocar todas as informações pessoais e profissionais como 
desejassem. O Facebook é uma empresa que gerencia milhões de dados e é 
elevada a quantidade de mídias manipuladas diariamente. O site suporta 
diferentes formatos como fotos, vídeos, links, gifs e textos entre outras formas e 
formatos caracterizados pela a rede social. O que consagrou o Facebook foi o 
fato de ir a favor da tecnologia juntamente com a interatividade pessoal. 
Conseguindo definir um padrão de pensamento, vontades e necessidades e 
saber da predileção de cada usuário no Facebook conseguiu desencadear um 
novo tipo de estreitamento de serviço tanto entre as marcas quanto entre as 
empresas e pessoas integradas. (DAVENPORT, 2014). 
A empresa traz questões de privacidade preservadas e faz questão de 
notificar o usuário quanto à pretensão do uso de dados. Mas a verdade é que 
não se sabe realmente como esses dados são/serão utilizados. Mesmo ao 
concordar com o fornecimento de dados. Não se sabe o grau de privacidade real 
está que sendo controlado. E nem se são usados com um propósito “inofensivo”. 
(DAVENPORT, 2014). 
Uma organização responsável por vender 
produtos via internet, como livros, aparatos 
tecnológicos, utensílios gerais entre outras 
coisas. A Amazon é considerada a revolução 
do mercado e marketing digital. Seu alcance a 
nível mundial a consagra como a melhor loja 
virtual de vendas, direcionada aos clientes online. (DAVENPORT, 2014). 
Acompanhado a revolução da Internet, Jeffrey Bezos teve a ideia de criar um site 
de vendas enquanto trabalhava em uma grande empresa. Imaginou um novo 
negócio em que se baseava em produtos oferecidos online. Então 1994, resolveu 
27 
 
fundar a Amazon, criando o conceito de mercado online para certos tipos de 
artigos. (FUNDABLE, 2017). 
Por ser uma organização criada dentro dos parâmetros de uma diferente 
modelagem de dados, ela consegue estruturar um serviço onde as tendências 
possam ser controladas e observadas pelas preferências coletadas de dados da 
própria navegação do usuário. Quando se observa, por exemplo, o que o usuário 
pesquisou e se comprou, a partir desse ponto, são analisadas outras variáveis 
de linhas sugestivas de uma nova possível compra, ou de recomendação que 
poderá ser sugerida no futuro. Isso demonstra como a quantidade de dados 
coletados foi transformada, nesse sistema, uma nova proposta de marketing. 
(DAVENPORT, 2014). 
A Amazon se consolida dando manutenção em seus negócios 
constantemente, devido à sua arquitetura única, baseado em cloud computing 
criando seu banco de dados sobre os produtos. Constrói seu domínio na 
apropriação desses recursos, de forma singular. A premissa dessas tecnologias, 
como elas são organizadas e elaboradas, casam com a medida de sucesso que 
a fundamentou. (DAVENPORT, 2014; VELTE; VELTE; ELSENPETER, 2013). 
O sistema de recomendação (também utilizado nas ferramentas da 
Google) demonstra como as análises de dados, no caso a pesquisa de produtos, 
funcionam muito bem a partir de variáveis inseridas pela predileção de uma 
pessoa. Mostrando assim como o princípio do Streaming Service, que até então 
era pouco comum, se torna ferramenta chave para a projeção de excelentes 
serviços de compra e de divulgação. (DAVENPORT, 2014; VELTE; VELTE; 
ELSENPETER, 2013). 
A abrangência de sua tecnologia engloba tanto a infraestrutura quanto o 
produto final. Por ser o serviço mais amplo de nuvem, ao integrar cada uma de 
suas aplicações, alavanca a melhor criação de complementos existentes que 
podem ser integrados. 
O Streaming Service e o Cloud Computing faz a comunicação ser intensa; 
a virtualização ser imediata, o armazenamento ser de grande amplitude e a 
estruturação e mapeamento de dados serem agilmente transferidos e fornecidos 
pela internet. (VELTE; VELTE; ELSENPETER, 2013). 
28 
 
A Amazon é uma empresa transnacional de comércio dos Estados Unidos. Hoje, é 
uma empresa que vende de tudo um pouco. Ela tem se destacado cada vez mais pelo 
uso inteligente de tecnologia e Big Data. Recentemente, se tornou a segunda empresa 
americana a alcançar o valor de mercado de US$ 1 trilhão, o que deixa claro sua força. 
E nada disso teria sido possível sem o uso dos dados. 
Os algoritmos criados pela Amazon possuem principalmente a função de levar as 
ofertas mais personalizadas possível para cada pessoa. Resultado: cliente satisfeito, 
empresa vendendo mais. 
Através de Machine Learning e do armazenamento em cloud computing, eles 
aprendem como cada consumidor se comporta. É possível até prever que tipo de 
mercadoria o cliente poderia se interessar. No futuro, o objetivo é entregar produtos 
ideias para os clientes sem que eles tenham sequer pedido! 
É interessante ressaltar que a Amazon tem investido também em disponibilizar a 
mesma tecnologia que usam para outros e-commerces. Dessa maneira, comprovam 
sua eficácia em diversos níveis e mostram ainda como expandir a oferta de serviços 
com o Big Data. 
 
Fundada em 1998, seus idealizadores Larry 
Page e Sergey Brin com a visão de organizar 
toda a informação disponível e torná-las úteis. 
A Google implementa o mais satisfatório 
serviço visto na atualidade. Sua criação foi 
revolucionária, agregou várias plataformas em um desenvolvedor só, e priorizou 
produtos de apoio crucial a usuários e empresas que depende dos serviços de 
informação. (GOOGLE, 2016). Com aplicação nas mais diversas áreas, a Google 
se legitima uma das melhores organizações no ambiente em que se estabelece. 
Cuidando de coordenar as diversas áreas de tecnologia da informação, ela 
trabalha diariamente com dados apurados dos diversos meios possíveis. 
Acreditando que haverá utilidade de alguma forma, a Google sempre coleta 
dados de todos que a circundam e a acessam. Pensando em como será benéfico 
que quanto mais dado somar melhor para fomentação do seu sistema. 
29 
 
(DAVENPORT, 2014). A preocupação com os dados não se limita em apenas 
agregá-los, mas também em como serão reaproveitados, afinal informação útil é 
aquela que informa algo. Entra então o Big Data de forma para gerenciar seus 
arquivos. Ele não só auxilia como é o novo tratamento dessas informações e 
consegue definir mais uma forma de sistematizar os mecanismos de trabalho. 
Fazendo-o repensar e aprimorar a estrutura da sua organização e otimizá-la. 
(TAURION, 2015). 
As essências da tecnologia da Google no primeiro momento 
concentraram-se na cloud computing. Seu servidor de email foi o primeiro a 
integralizar a ideia conjuntamente com a nuvem. 
Abaixo apresentamos outras empresas de destaque na utilização do Big 
Data no cenário nacional e internacional, retirados de diversas publicações: 
 
1. Monsanto 
 
A Monsanto aproveita a análise de dados para elaborar projetos 
otimizados de plantio. Eles usam os modelos matemáticos e estatísticos 
para planejar os melhores momentos e locais para cultivar plantas 
masculinas e femininas. 
 
Seu algoritmo de aprendizado de máquina atinge mais de 90 bilhões de 
pontos de dados em dias, em vez de semanas ou meses, com isso pode 
se reduzir e otimizar a extensão da área de plantio. 
 
 
 
2. Grupo Pão de Açúcar 
 
O grupo Pão de açúcar tem um sistema de relacionamento com o cliente 
chamado de Clube Extra, o objetivo é promover aproximação e 
fidelização dos clientes e também dos fornecedores. 
 
Operacionalmente o sistema com a tecnologia Big Data otimiza o 
estoque, visto que a empresa terá conhecimento prévio sobre o quanto 
se deve comprar de determinado produto, tendo em vista os custos de 
mantê-lo, e também nesse sistema ocliente pode acumular pontos por 
meio de compras online em lojas físicas. 
 
Os dados originados com essa plataforma são analisados para 
relacionar os clientes com os produtos, com as marcas favoritas e com 
os mais consumidos. 
 
3. Ministério da Justiça 
30 
 
 
As instituições governamentais também estão investindo no uso de Big 
Data. O Ministério da Justiça do Brasil usa um banco de dados imenso, 
com mais de 1 bilhão de registros. 
 
Para poder analisar todos os dados, o Ministério da Justiça conta com o 
auxílio da tecnologia Watson da IBM, desenvolvida para coletar e 
processar dados em milésimos de segundos. 
 
Ele ainda utiliza o Big Data para identificar ações ilícitas, especialmente 
relacionadas com lavagem de dinheiro. 
 
4. Zara 
 Antes que as portas se abram diariamente em cada um dos mais de 2.213 
estabelecimentos da Zara em todo o mundo, os funcionários e os 
gerentes compartilham detalhes dos artigos mais vendidos do dia 
anterior, peças devolvidas pelos clientes, feedback dos compradores, 
bem como tendências que a equipe tem percebido. 
 
Usando um sistema sofisticado orientado para a tecnologia, analistas 
divulgam as atualizações diárias e usam-nas para pintar uma imagem 
precisa do que exatamente os clientes da Zara estão exigindo. Essa 
informação é rapidamente traduzida por uma vasta equipe de mais de 
300 designers internos em projetos tangíveis que obedecem às 
tendências de moda, que são decentemente feitos e vendidos a preços 
acessíveis. 
 
A Zara está sempre preparada para dar aos consumidores o que eles 
querem ou, melhor ainda, o que eles nem sabem que precisam. E, ao 
que parece, esse é o segredo do seu sucesso. 
 
 
 
 
5. NASA 
 
Não chega a ser uma grande surpresa, mas a Agência Espacial Norte-
americana (NASA) tem diversos programas que contam com o uso de 
Big Data. 
 
Um exemplo é o projeto de pesquisa sobre mudanças climáticas, com 
análises de dados importantes coletados por meio de 16 satélites de 
ciências da terra da NASA para o programa de ciência climática, 
monitorando a qualidade do ar, os oceanos e os furacões, entre outros. 
 
Outro projeto é o supercomputador Pleiades — o supercomputador mais 
avançado do mundo para modelagem e simulação. Ele é um dos mais 
poderosos instalados no Centro de Pesquisa da NASA em Moffett Field, 
Califórnia, e apoia as missões da agência na exploração da ciência 
terrestre e espacial, aeronáutica, futuras viagens espaciais 
e explorações. 
31 
 
6. Nike 
 
A Nike é líder mundial em várias categorias de calçados e vestuários 
esportivos e está investindo pesadamente em aplicativos, wearables e 
Big Data. A Nike está olhando além dos produtos físicos e pretende criar 
marcas de estilo de vida que os atletas não querem correr sem. 
 
A empresa tem 13 linhas diferentes, em mais de 180 países. No 
entanto, a forma como ela segmenta e serve esses mercados é o seu 
diferencial real. Nike divide o mundo em empreendimentos esportivos 
em vez de apenas em geografia. A teoria é que as pessoas que jogam 
golfe, por exemplo, têm mais em comum do que as pessoas que 
simplesmente vivem próximas umas das outras. 
 
Essa estratégia de varejo e marketing é, em grande parte, impulsionada 
por Big Data. A Nike tem investido também em análise de dados 
demográfica para definir seus mercados de teste e impulsionar seus 
negócios. 
7.Target 
 
A Target é a segunda maior retail store dos Estados Unidos, ficando atrás 
apenas do Walmart. O case dessa marca ficou extremamente conhecido por 
ter realizado algo incrível: prever quais clientes estavam grávidas. 
Até hoje, há um grande debate sobre privacidade e até onde é correto utilizar 
as informações dos clientes para tal ações. Porém, é inegável a genialidade 
do uso do Big Data. 
A equipe de análise de dados da rede criou modelos para entender e conhecer 
a fundo os hábitos de compra de seus clientes. Dessa forma, foi possível criar 
perfis de comprador, baseando-se em suas compras e dados demográficos, 
idade e até a situação da vida pessoal da pessoa. 
Assim, a empresa poderia oferecer ofertas de produtos que cada perfil estava 
mais propenso a comprar. E foi assim que eles passaram a mapear quais 
clientes estavam grávidas, e até qual o mês da gestação, baseando-se nos 
hábitos de compra. 
Apesar de ter gerado muita polêmica, foi evidente o aumento da assertividade 
das ofertas e além disso, maior número de compras e fidelizações. 
8. American Express 
 
 
A American Express, mais conhecida como Amex, é uma das mais famosas 
empresa de serviços financeiros dos Estados Unidos. 
Pensando em como tirar proveito disso, a empresa passou a utilizar a análise 
de dados e o machine learning para tomar importantes decisões. Uma das 
soluções alcançadas foi detectar fraudes com muito mais facilidade. 
Com esse recurso, eles percebem padrões que correspondem a transações 
fraudulentas, pensando em detectar rapidamente para minimizar perdas. 
https://www.sas.com/pt_br/insights/analytics/machine-learning.html
32 
 
Assim, os algoritmos, através do machine learning, aprendem o padrão de 
consumo de cada usuário. Sempre que há algum tipo de transação que foge 
do usual, o usuário e a empresa são notificados. 
Com o Big Data, viram uma grande oportunidade de diversificar ainda mais os 
serviços oferecidos ao usuário, não se limitando ao crédito. 
Hoje, a empresa oferece um aplicativo que analisa os dados de compras 
anteriores e, em seguida, recomenda restaurantes na área que o usuário 
provavelmente desfrutará. Além disso, oferecem cupons e ofertas em outros 
estabelecimentos e produtos. 
9. Delta Airlines 
 
No ramo da aviação, muitas vezes é difícil encontrar pontos que façam uma 
empresa realmente se diferenciar da outra. Pensando em como ir além, a 
empresa Delta pensou em como resolver uma das maiores dores dos 
passageiros quando viajam: bagagem extraviada. 
Com uma solução simples, porém muito inteligente e eficaz, eles pensaram 
em um sistema que permite cada passageiro a acompanhar onde está sua 
bagagem. Além de deixar as pessoas mais tranquilas, ajudou a evitar 
grandes dores de cabeça para a empresa. 
Pode parecer simples, mas esse recurso é sim uma utilização muito 
inteligente do Big Data. São mais de 130 milhões de bagagens despachadas 
por ano, um grande volume de informações com cada uma delas. 
Isso mostra como o Big Data não está distante de nossa realidade: pode ser 
utilizado por qualquer tipo de empresa, sem gastar milhões de reais. Uma 
solução barata e que diferenciou a Delta como uma empresa centrada no 
consumidor. 
 
 
10. Shell 
 
Pra quem pensa que empresas que usam Big Data são apenas as mais 
novas ou muito ligadas ao digital, está muito enganado. A Shell, uma das 
maiores empresas petrolíferas do mundo passou a usar o Big Data 
para reduzir consideravelmente seus gastos de operação. 
Para perfurar um local para extração de petróleo, além de muito caro 
ocasiona em um grande impacto ambiental. Para minimizar os riscos e 
diminuir custos, é preciso estudar bem quais áreas estão propensas a 
entregarem melhor resultado. 
Assim, com a análise, a Shell monitora as ondas sísmicas de baixa 
freqüência abaixo da superfície da Terra. Essas ondas se registram de 
maneira diferente nos sensores enquanto viajam pela crosta terrestre. Dessa 
forma, podem prever o tamanho provável dos recursos de petróleo e gás. 
https://resultys.com.br/como-o-big-data-pode-ajudar-sua-empresa/
33 
 
 
11. Maplink 
 
A Maplink é uma empresa brasileira especializada na digitalização de 
mapas. Nos últimos anos, ela passou a utilizar um software de 
rastreamento por satélite para cruzar os dados oriundos de mais de 400 
mil carros de São Paulo. E o que é melhor: tudo em tempo real. 
Esse trabalho permitiu à empresa realizar um diagnóstico com precisão 
apurada do trânsito da cidade, apontando os pontos de lentidão, alémde 
possíveis alternativas e rotas de fuga. 
12. Precifica 
 
De fato, o consumo por e-commerce no Brasil aumentou. E diante este 
cenário, permitiu à Precifica, empresa de precificação inteligente, criar 
uma solução para os donos de lojas online. O objetivo é alterar os preços 
dos seus produtos automaticamente, de acordo com as oscilações no 
mercado. 
Isso tudo por meio da coleta de dados de compras dos consumidores. 
Principalmente pela internet nos mais variados segmentos de mercado. 
Além disso, a Precifica também monitora o valor dos fretes, para auxiliar 
as lojas virtuais a determinar a melhor política de remessas. 
14.Telebras 
 
A Telebras, a maior empresa pública de telecom do Brasil, também 
adotou o Big Data. O objetivo é melhorar a utilização das suas redes de 
telecomunicações por meio do mapeamento das demandas existentes 
em tempo real. 
Assim, a empresa consegue enxergar onde é necessário a construção 
de novas redes. E, então, enviar para os dispositivos móveis dos seus 
vendedores os dados de leads altamente qualificados, otimizando o 
processo de venda. 
 
Agora que já conhecemos alguns casos de sucesso do uso de Big Data 
no Brasil, é possível enxergar que, seja qual for o segmento, sem dúvidas o uso 
dessa ferramenta é urgente para qualquer empresa que queira se destacar 
nesse novo mercado. 
 
 
 
34 
 
5. ARMAZENAMENTO DE DADOS COM O BIG DATA 
 
A tecnologia do armazenamento vem evoluindo a passos largos para 
acompanhar a demanda por espaço e o crescimento na complexidade e 
tamanho dos arquivos. Cada vez que a resolução de um arquivo de vídeo é 
melhorada, por exemplo, o espaço ocupado por esses arquivos cresce 
vertiginosamente. 
Ter um sistema de computação em nuvem é condição para se trabalhar 
bem com um grande volume de dados, uma vez que isso envolve coleta, 
armazenamento e compartilhamento de um número gigantesco de informações. 
Além disso, a constante necessidade de conhecer o resultado das ações 
de um negócio, muitas vezes, imediatamente, torna essa relação entre cloud 
computing e Big Data extremamente necessária. 
5.1 O que é a computação na nuvem 
 
O conceito da computação em nuvem (cloud computing) tem como 
objetivo facilitar o acesso a dados e a execução de programas utilizando a 
internet. Desse modo, o usuário tem a possibilidade de usar serviços e 
aplicativos sem a necessidade de uma instalação, já que tudo (ou quase tudo) 
será executado em servidores. Além disso, o acesso a dados é possível a partir 
de quaisquer dispositivos, desde que estejam conectados à internet e tenham a 
permissão do devido responsável. 
A Cloud Computing (computação em nuvem) vem causando 
muitas transformações digitais e já tem um lugar de destaque no mundo 
corporativo. Embora atualmente seja algo bastante usual, esse é um assunto 
grande e complexo, que possui vários subtemas, como os modelos de nuvem. É 
35 
 
comum vermos as siglas IaaS, PaaS e SaaS, além de ouvirmos falar sobre os 
serviços públicos, privados e híbridos. No entanto, o assunto ainda gera 
dúvidas até mesmo para os profissionais de tecnologia e, principalmente, para 
pessoas que não estão acostumadas com o mundo da TI. 
5.1.1 Aplicações da Cloud Computing 
A Cloud Computing parte do princípio de que a computação não é um produto, 
mas um serviço. Sua empresa não precisa possuir uma licença, um servidor ou 
uma plataforma de desenvolvimento. O que ela deve é ter acesso às 
funcionalidades e à infraestrutura desses softwares e hardwares. Com esse 
pensamento, a Cloud Computing permite que um negócio execute soluções de 
TI que estão armazenadas e disponibilizadas em servidores remotos. Algumas 
funcionalidades possíveis: 
 Servidores virtuais - Em vez de investir na compra de servidores e no 
espaço físico para eles, pode-se contratar um servidor em nuvem. 
 Armazenamento - Arquivos e dados podem ser armazenados 
remotamente, de maneira que fiquem disponíveis para acesso a partir de 
qualquer dispositivo conectado à internet. 
 Softwares - Em vez de comprar licenças de softwares que, muitas vezes, 
ficam ligadas a uma estação de trabalho, com a nuvem, é possível pagar 
apenas pelos serviços utilizados em cada sistema e acessá-los de 
qualquer computador. 
 Desenvolvimento de softwares - Uma plataforma de desenvolvimento 
segura, robusta e confiável pode ser encontrada no modelo PaaS. Além 
disso, também é possível contar com sistemas de gestão 
e compartilhamento de informações entre áreas do negócio. 
36 
 
Como as possibilidades da computação em nuvem são amplas, os profissionais 
de tecnologia costumam dividir os serviços prestados em 3 categorias: IaaS, 
PaaS e SaaS. 
5.1.2. Exemplos de computação em nuvem: SaaS, PaaS e IaaS 
a. IaaS — Infrastructure as a Service (Infraestrutura como Serviço) 
 
Nesse primeiro exemplo dos modelos 
de nuvem, a empresa contrata uma 
capacidade de hardware que 
corresponde a memória, 
armazenamento, processamento etc. 
Podem entrar nesse pacote de 
contratações os servidores, 
roteadores, racks, entre outros. Dependendo do fornecedor e do modelo 
escolhido, a sua empresa pode ser tarifada, por exemplo, pelo número de 
servidores utilizados e pela quantidade de dados armazenados ou trafegados. 
Em geral, tudo é fornecido por meio de um data center com servidores virtuais, 
em que você paga somente por aquilo que usar. 
O uso do IaaS é recomendado para pequenas e médias empresas que estão 
crescendo tão rapidamente que a infraestrutura não seria capaz de acompanhar, 
além daquelas que tenham demandas voláteis, como lojas virtuais. No entanto, 
ele não é recomendado quando há um limite de desempenho ou restrições 
relativas à legislação do armazenamento ou terceirização dos dados. Exemplos 
desse tipo de serviço são o Amazon Web Services (AWS), o Google Compute 
Engine e o Microsoft Azure. 
b. PaaS — Platform as a Service (Plataforma como Serviço) 
http://aws.amazon.com/pt/
https://cloud.google.com/compute/
https://cloud.google.com/compute/
http://azure.microsoft.com/pt-br/
37 
 
O PaaS é uma plataforma que pode criar, 
hospedar e gerir aplicativos. Nesse 
modelo de nuvem, contrata-se um 
ambiente completo de desenvolvimento, 
no qual é possível criar, modificar e 
otimizar softwares e aplicações. Tudo isso é feito utilizando a infraestrutura na 
nuvem. Ou seja, o time de desenvolvimento tem uma infraestrutura completa e 
moderna à disposição, sem que sejam necessários altos investimentos. 
As equipes de desenvolvimento só precisam se preocupar com a programação 
do software, pois o gerenciamento, manutenção e atualização da infraestrutura 
ficam a cargo do fornecedor. Além disso, outro ponto a favor desse modelo de 
nuvem é que várias ferramentas de desenvolvimento de software são oferecidas 
na plataforma. 
Dessa maneira, ela se torna completa, robusta e totalmente disponível em uma 
nuvem pública ou privada, podendo ser acessada pela internet. No entanto, a 
PaaS não é indicada quando o desempenho geral do software pede algum 
hardware ou outros aplicativos específicos. Exemplos deste serviço são: Google 
App Engine e Heroku, outro exemplo de PaaS é o Microsoft Azure Cloud 
Services. 
c. SaaS — Software as a Service (Software como Serviço) 
Por fim, qualquer pessoa conhece o 
SaaS, mesmo que não saiba. Nesse 
terceiro modelo de nuvem, você pode 
ter acesso ao software sem comprar a 
sua licença, utilizando-o a partir da 
Cloud Computing, muitas vezes com 
recursos limitados. 
https://cloud.google.com/appengine/
https://cloud.google.com/appengine/
https://www.heroku.com/
http://azure.microsoft.com/pt-br/services/cloud-services/
http://azure.microsoft.com/pt-br/services/cloud-services/
38 
 
No entanto, também existem planos de pagamento nos quais é cobrada uma 
taxa fixa ou um valor que varia de acordo com o uso. Muitos CRMs ou ERPs 
trabalham no sistema SaaS. Assim, o acesso a esses softwares é feito usando 
ainternet. Os dados, contatos e demais informações podem ser acessados de 
qualquer dispositivo, dando mais mobilidade à equipe. 
Falamos que qualquer um conhece o SaaS porque sites como o Facebook e o 
Twitter ou aplicativos como o Skype, OneDrive, Google Docs e o Office 365 
funcionam dessa maneira. Neles, tudo é disponibilizado na nuvem, para que 
muitos usuários consigam ter acesso ao serviço pelo browser ou por um 
software. 
Para a utilização do SAAS, existe uma grande vantagem da escalabilidade e da 
praticidade. Afinal, todos os processos relativos aos custos da compra do 
software e do servidor — além da implementação — são eliminados, visto que o 
serviço está disponível a um clique de distância. 
O SaaS é bastante recomendado para: 
 pequenas empresas, que não podem gastar com a compra de 
licenças; 
 trabalhos que durem apenas um curto período de tempo; 
 necessidades de acesso remoto aos aplicativos, como no caso de 
softwares de CRM ou de gestão de redes sociais. 
Porém, ele não é muito bom para instituições que precisem de um 
processamento de dados rápido ou para aquelas que seguem normas de 
legislação contrárias à hospedagem de dados em ambiente externos. 
A computação em nuvem pode trazer diversas vantagens competitivas para os 
negócios. 
39 
 
 Redução de custos 
 Praticidade 
 Acesso às inovações 
 Segurança 
Existe um mito de que a nuvem reduz a segurança dos dados da empresa. É 
verdade que os arquivos na nuvem pública podem estar sujeitos a acessos 
inapropriados. Porém, com o fornecedor certo, é possível garantir 
a segurança dos arquivos e proteger as informações da sua empresa, por 
exemplo, por meio da encriptação. 
 
 
 
 
40 
 
Referências Bibliográficas 
 
DAVENPORT, Thomas. Big data no trabalho: Derrubando mitos e 
descobrindo oportunidades. Tradução: Cristina Yamagami. Rio de Janeiro: 
Elsevier, 2014. 
MAYER SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big data: como extrair 
volume, variedade, velocidade e valor da avalanche de informação 
cotidiana. Tradução: Paulo Polznoff Junior. Rio de Janeiro: Elsevier, 2013. 
TAURION, Cezar. Big data. Rio de Janeiro: Brasfort, 2015.170 p. 
VELTE, Anthony T.; VELTE, Toby J.; ELSENPETER, Robert. Computação em 
nuvem: uma abordagem prática. Rio de Janeiro: Alta Books, 2013. 
ZIKOPOULOS, Paul et al. Big Data Beyond the Hype: A Guide to 
Conversations for Today’s Data Center. : Mc Graw Hilleducation, 2015. 
Disponível em: Acesso em: 20 de dezembro de 2016. 
 
Referências online 
Abel, C: Análise de dados: conheça as 8 principais ferramentas de Big Data 
para usar nos negócios artigo publicado pela MindMiners/ 2018. Disponível 
em: <https://mindminers.com/blog/ferramentas-de-big-data/> acesso em 
10/07/2019. 
Brown, C: 7 desafios que as organizações enfrentam para extrair valor do 
big data artigo publicado pela CIO from IDG/2019. Disponível em: 
<https://cio.com.br/7-desafios-que-organizacoes-enfrentam-para-extrair-valor-
do-big-data/ > acesso em 08/07/2019. 
Camargo. G: 5 motivos para transformar seu negócio em business 
analytics: Disponível em: https://computerworld.com.br/2018/05/08/5-motivos-
para-transformar-seu-negocio-em-business-analytics/> acesso em 15/06/2019. 
Cordeiro, C.: Vantagens gerais e específicas do Big Data – artigo publicado 
pelo neomind / 2017. Disponível em: <http://www.neomind.com.br:81/blog/big-
data-quais-as-vantagens-gerais-e-especificas/> acesso em 10/07/2019. 
Entenda como o big data e uma grande vantagem competitiva. Disponível 
em: https://www.santodigital.com.br/entenda-como-o-big-data-e-uma-grande-
vantagem-competitiva/ . acesso em 13/06/2019. 
Por que business analytics está crescendo. Disponível em: 
http://dataexperience.com.br/por-que-business-analytics-esta -crescendo/> 
acesso em 15/06/2019. 
FUNDABLE. Amazon Startup Story. 2017. Disponível em: 
https://www.fundable.com/learn/startup-stories/amazon. Acesso em: 11 de 
janeiro de 2020. 
GOOGLE. Google Empresa. Disponível em: https://about.google/ . Acesso em: 
10 de janeiro de 2020. 
https://www.fundable.com/learn/startup-stories/amazon
https://about.google/
41 
 
IBM. História: Um pouco de história. Disponível em: https://ibm.com . Acesso 
em: 12 janeiro 2020. 
https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-
deveria-saber/ 
https://culturaanalitica.com.br/os-5-vs-big-data 
https://sgatecnologia.com.br/4-cases-do-uso-de-big-data-no-brasil/ 
https://www.oracle.com/br/big-data/guide/what-is-big-data.html 
https://blog.sonda.com/big-data-no-brasil/ 
https://resultys.com.br/cases-de-empresas-que-usam-big-data/ 
https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-
como-se-relacionam/ 
Sugestão de Leitura 
 
por Kenneth Cukier (Autor), Viktor Mayer-Sch Nberger (Autor) 
Editora: Elsevier; Edição: 1ª (24 de julho de 2013) 
 
https://ibm.com/
https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-deveria-saber/
https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-deveria-saber/
https://culturaanalitica.com.br/os-5-vs-big-data
https://sgatecnologia.com.br/4-cases-do-uso-de-big-data-no-brasil/
https://www.oracle.com/br/big-data/guide/what-is-big-data.html
https://blog.sonda.com/big-data-no-brasil/
https://resultys.com.br/cases-de-empresas-que-usam-big-data/
https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-como-se-relacionam/
https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-como-se-relacionam/
https://www.amazon.com.br/s/ref=dp_byline_sr_book_1?ie=UTF8&field-author=Kenneth+Cukier&search-alias=books
https://www.amazon.com.br/s/ref=dp_byline_sr_book_2?ie=UTF8&field-author=Viktor+Mayer-Sch+Nberger&search-alias=books
42 
 
Editora: BRASPORT; Edição: 1 (5 de junho de 2013) 
 
43 
 
UNIDADE II – Business Analytics 
 
Objetivos: 
Apresentar e aplicar conceitos, métodos e técnicas de análise de dados no 
contexto de negócios, mercados e ambientes; 
Apresentar os diferentes métodos usados em uma estratégia de Business 
Analytics; 
Elencar a áreas de negócios para a aplicação de Business Analytics; 
Conhecer certificações Business Analytics. 
44 
 
INTRODUÇÃO 
 
Nesta unidade serão apresentados os conceitos de Business Analytics, que 
utiliza dados selecionados para realizar a previsão de resultados, indicando 
possibilidades de melhorias nos processos das empresas, isso ocorre através 
do uso de algoritmos analíticos avançados. Será apresentado como, explorar os 
dados por meio de análises diagnósticas: Descritivas, Diagnóstica, Preditivas e 
Prescritiva e conhecer as análises de dados aplicadas em diferentes áreas de 
negócios. E elencar algumas certificações de Business Analytics. 
 
 
 
 
 
 
 
45 
 
 
1. O QUE É BUSINESS ANALYTICS 
 
Conhecimento de negócio é uma das principais habilidades do Cientista 
de Dados, que irá aplicar seus conhecimentos em análise de dados, em 
diferentes áreas de negócio como: Marketing Analytics, RH Analytics, Financial 
Analytics, Social Network Analytics e Text Mining. 
 
Business Analytics é muito amplo: 
contempla mineração de dados, 
big data, data Science, 
procedimentos de descoberta de 
conhecimento e, o envolvimento 
da área de negócio. Business 
Analytics trabalha em conjunto 
com outras ferramentas, como as do Bussiness Intelligence(BI). O conceito de 
Business Analytics ainda se confunde bastante com o Bussiness Intelligence. A 
diferença é que o Business Intelligence (BI) tem um olhar para o passado, faz 
leitura de um conjunto de dados em um data warehouse, extrai informação útil 
e elabora um dashboard para apoiar os dirigentes das empresas que precisam 
empregar a sua expertise para realização das tarefas. 
O conceito de Analytics ou Business Analytics é o uso extensivo dos 
dados, análise estatística e quantitativa, modelos explicativos e preditivos e 
gerenciamento baseados em fatos para conduzir decisões e ações (Davenport 
&Harris, 2007). 
Business Analytics conta com mais recursos de estatísticas 
preditivas do que o BI, oferecendo maior agilidade e segurança e na 
disponibilização das informações que são extraídas a partir de dados disponíveis 
em sistemas internos das empresas e/ou encontrados na internet, através de 
algoritmos analíticos avançados. Assim o Business Analytics possibilita a 
formação das melhores estratégias de negócio de forma eficiente e precisa. 
 
 
 
46 
 
1.1. Introdução à Data Mining 
 
Data Mining, ou mineração de dados, é a prática de examinar dados que 
já foram coletados utilizando diversos tipos de algoritmos, normalmente de forma 
automática, a fim de gerar novas informações e encontrar padrões. 
Considerando que minerar dados é um processo de transformar dados em 
informações úteis, para atingir esse objetivo, alguns passos são realizados, 
como: encontrar padrões, associações e anomalias gerais nos dados. Em Data 
Mining não importa a forma como os dados foram coletados, se via banco de 
dados, web scraping, API´s, e etc. 
O conceito de Data Mining, mineração de dados em português, é mais 
simples do que parece. É basicamente uma forma de analisar e processar uma 
quantidade de dados sob diferentes perspectivas. Esses dados são então 
transformados em informação, que serão úteis nas mais diversas áreas 
estratégicas. Uma forma interessante de se pensar em Data Mining é pensar em 
seu propósito. Todo o tipo de dado precisa de alguém que identifique os padrões, 
consistências e relacionamentos com outros dados, de forma a transformar isso 
em conhecimento para ser usado em decisões estratégicas. 
O processo do Data Mining se utiliza de aplicações matemáticas e 
métodos estatísticos, que vão desde o uso de uma regressão logística (é uma 
técnica estatística que tem como objetivo produzir, a partir de um conjunto de 
observações, um modelo que permita a predição de valores tomados por uma 
variável categórica, frequentemente binária, a partir de uma série de variáveis 
explicativas contínuas e/ou binárias), até redes neurais, deep learning - 
aprendizagem profunda(a aprendizagem profunda, do inglês Deep Learning é 
um ramo de aprendizado de máquina baseado em um conjunto de algoritmos 
47 
 
que tentam modelar abstrações de alto nível de dados usando um grafo profundo 
com várias camadas de processamento, compostas de várias transformações 
lineares e não lineares), análise de clustering (agrupamentos) e classificações 
automáticas. 
 
 
Também conhecido como Mineração de Dados, o Data Mining é o 
processo de explorar grandes quantidades de dados à procura de padrões 
consistentes. Ele é formado por um conjunto de ferramentas e técnicas que 
através do uso de algoritmos de aprendizagem ou classificação, baseados em 
redes neurais e estatística que são capazes de explorar um conjunto de dados, 
extraindo ou ajudando a evidenciar padrões e auxiliando na descoberta de 
conhecimento. 
Rocha (2003) explica que Data Mining: 
“é uma técnica composta por um conjunto de ferramentas, que através do 
uso de algoritmos de aprendizado ou baseada em redes neurais e 
estatísticas, permite buscar em uma grande base de dados as informações 
que aparentemente estão escondidas, possibilitando, assim agilidade nas 
tomadas de decisões “. 
 
Souza (2009) define que: 
“Data Mining é o processo de análise de conjunto de dados que por objetivo 
a descoberta de padrões interessantes e que possam representar 
informações úteis. Um padrão pode ser definido como sendo uma afirmação 
baseada em uma distribuição probabilística. Estes padrões podem ser 
expressos principalmente na forma de regras, fórmulas e funções, entre 
outras.” 
Em outras palavras, as ferramentas de Data Mining analisam os dados, 
descobrem problemas ou oportunidades escondidas nos relacionamentos dos 
dados, e então diagnosticam o comportamento dos negócios, requerendo a 
mínima intervenção do usuário. Assim, ele se dedicará somente a ir em busca 
do conhecimento, ajudando aos analistas de negócio agregar mais vantagens 
competitivas e maximizar seus lucros. 
 
48 
 
O conhecimento em Data Mining pode ser apresentado por diversas 
formas de ferramentas, que são denominadas de ferramentas de Análise de 
agrupamento, ou clustering, é o nome dado para o grupo de técnicas 
computacionais cujo propósito consiste em separar objetos em grupos, 
baseando-se nas características que estes objetos possuem. A idéia básica 
consiste em colocar em um mesmo grupo objetos que sejam similares de acordo 
com algum critério pré-determinado. As ferramentas que podemos utilizar nestas 
técnicas são: 
 agrupamentos; 
 hipóteses (testes de hipóteses é um 
procedimento estatístico que permite tomar uma decisão); 
 regras; 
 árvores de decisão (são modelos estatísticos que utilizam um 
treinamento supervisionado para a classificação e previsão de 
dados); 
 grafos ou dendrogramas (é um ramo da matemática que estuda 
as relações entre os objetos de um determinado conjunto). 
Diariamente as empresas acumulam grande volume de dados em seus 
aplicativos. Um Business Intelligence (BI), são os dados brutos que dizem quem 
comprou o quê, onde, quando e ao final do dia reporta esta baixa aos estoques 
detectando tendências de compra. Agora se analisarmos os dados com 
estatística de modo mais refinado, à procura de padrões de vinculações entre 
variáveis registradas, então estaremos fazendo Data Mining (DM), ou seja, 
busca subsidiar a empresa com conhecimento novo e útil acerca do seu meio 
ambiente. O BI atua no plano tático, e o DM atua no plano estratégico. 
 
1.1.1. Linhagens do Data Mining 
O Data Mining descende fundamentalmente de 3 linhagens: 
49 
 
 Estatística: A mais antiga delas é a 
estatística clássica. Sem a estatística 
não seria possível termos o DM, visto 
que a mesma é a base da maioria das 
tecnologias a partir das quais o DM é 
construído. A Estatística Clássica 
envolve conceitos como distribuição 
normal, variância, análise de regressão, desvio simples, análise de conjuntos, 
análises de discriminantes e intervalos de confiança, todos usados para estudar 
dados e os relacionamentos entre eles. Esses são as pedras fundamentais onde 
as mais avançadas análises estatísticas se apoiam. E sem dúvida, no coração 
das atuais ferramentas e técnicas de DM, a análise estatística clássica 
desempenha um papel fundamental. 
 Inteligência Artificial: A segunda 
linhagem do DM é a Inteligência 
Artificial, ou IA. Essa disciplina, que é 
construída a partir dos fundamentos da 
heurística, em oposto à estatística, 
tenta imitar a maneira como o homem 
pensa na resolução dos problemas 
estatísticos. Em função desse “approach”, ela requer um impressionante poder 
de processamento, que era impraticável até os anos 80, quando os 
computadores começaram a oferecer um bom poder de processamento a preços 
mais acessíveis. A IA desenvolveu algumas aplicações para o alto escalão do 
governo / cientistas americanos, sendo que os altos preços não permitiram que 
ela ficasse ao alcance de todos. As notáveis exceções foram certamente alguns 
conceitos de IA adotados por alguns produtos de ponta, como módulos de 
otimização de consultas para SGBDs. 
50 
 
Machine Learning: E a terceira e última 
linhagem do DM é a chamada machine 
learning, que pode ser melhor descrita 
como o casamento entre a estatística e 
a IA. Enquanto a IA não se transformava 
em sucesso comercial, suas técnicas 
foram sendo largamente cooptadas pela 
machine learning, que foi capaz de se valer das sempre crescentes taxas de 
preço / performance oferecidas pelos computadores nos anos 80 e 90, 
conseguindo mais e mais aplicações devido às suas combinações entre 
heurística e análise estatística. A machine learning tenta fazer com que os 
programas de computador “aprendam” com os dados que eles estudam, tal que 
esses programas tomem decisões diferentesbaseadas nas características dos 
dados estudados, usando a estatística para os conceitos fundamentais, e 
adicionando mais heurística avançada da IA e algoritmos para alcançar os seus 
objetivos. De muitas formas, o DM é fundamentalmente a adaptação das 
técnicas da Machine Learning para as aplicações de negócios. Desse modo, 
podemos descrevê-lo como a união dos históricos e dos recentes 
desenvolvimentos em estatística, em IA e Machine Learning. Essas técnicas são 
usadas juntas para estudar os dados e achar tendências e padrões nos mesmos. 
Hoje, o DM tem experimentado uma crescente aceitação nas ciências e nos 
negócios que precisam analisar grandes volumes de dados e achar tendências 
que eles não poderiam achar de outra forma. 
 
1.1.2. Aplicando Data Mining em um ambiente de negócio 
Na mineração de dados, o que gera valor de fato é o conjunto de 
ações que são tomadas as decisões a partir dos processamentos dos dados. 
Para isso, é preciso saber onde aplicar as técnicas e quais ferramentas de 
mineração são mais adequadas para cada caso, dando vida a um novo perfil de 
profissionais chamada Cientista de Dados. 
Conforme Prates (2018) em seu artigo “O que é Data Mining”, usa-se a 
mineração de dados no momento em que as alternativas iniciais de análise foram 
esgotadas, como análises a “olho nú”, com planilhas dinâmicas ou ainda com o 
51 
 
uso de estatística descritiva, entre outros. Em seu artigo ele destaca a seguinte 
lista de exemplos práticos da aplicação da mineração de dados em ambientes 
de negócio: 
 
a. Dados gerados internamente nas organizações; 
b. Dados sociais; 
c. Área da saúde; 
d. Obras públicas; 
e. Capital de risco em empresas de base tecnológica. 
1.1.3 Principais características de Data Mining, BI e Big Data 
 
Em seu artigo publicado pela Aquare.la, Joni Hoppen apresenta as 7 
características para se diferenciar Data Mining, Big Data e BI 
Características Data Mining Big Data BI (Business 
Intelligence) 
Virtude da 
solução 
Metodologia 
científica e 
algoritmos. 
Descobrir 
padrões de 
comportamento 
de dados. 
Detecção de 
pontos cegos 
da gestão. 
Análise 
estatística 
intensa e 
pontual. 
Data mining em 
grande escala. 
Geração de 
conhecimento de 
gestão, apoiado 
por inteligência e 
capacidade 
computacional. 
Análise estatística 
intensa e 
contínua 
Volumetria – Monitorar o 
desempenho dos 
indicadores das 
operações 
Tipos de dados Dados 
estruturados 
em planilhas, 
Dados 
estruturados, 
semiestruturados 
Dados estruturados em 
planilhas, banco de 
##Você Sabia ## 
Uma das primeiras soluções focadas em data mining, para fins de 
exemplificação, foi o Software Weka. O Weka, criado em 1993 e mantido até 
os dias atuais, é uma rica coleção de algoritmos de machine learning e data 
mining. O propósito do software em sua concepção foi permitir que o usuário 
não precisasse conhecer linguagens de programação para fazer o pré-
processamento dos dados (organizá-los) e assim aplicar diversos algoritmos 
prontos em seus próprios dados. 
https://www.cs.waikato.ac.nz/ml/weka/
52 
 
banco de dados 
relacionais e 
dimensionais, 
etc. 
e não 
estruturados em 
bancos de dados 
NoSQL ou 
TripleStores 
dados relacionais e 
dimensionais, etc. 
Estilo de análise Permite fazer a 
predição e 
descoberta de 
fatores 
relevantes ao 
negócio em 
pequena escala 
usando 
inteligência 
computacional. 
Necessita de 
profissionais da 
gestão 
trabalhando em 
colaboração 
com cientistas 
da informação. 
Permite fazer a 
predição e 
descoberta de 
fatores relevantes 
ao negócio em 
grande escala 
usando 
inteligência 
computacional. 
Necessita de 
profissionais da 
gestão 
trabalhando em 
colaboração com 
cientistas da 
informação. 
Reflete apenas o 
passado dos dados em 
pequena ou grande 
escala. Não há 
inteligência no sistema, 
sendo necessário 
profissionais da gestão 
para interpretar as 
informações e tomada de 
decisão. 
Resultados 
Esperados 
Relatório de 
recomendação 
Painéis de 
controle com 
indicadores 
preditivos e 
recomendações 
estratégicas. 
Diversas visualizações 
de gráficos consolidadas 
em painéis de controle 
conhecidos como 
dashboards 
Foco Identificar 
padrões de 
comportamento 
dos dados, 
criando novos 
indicadores de 
análise para o 
BI 
Extração do 
conhecimento de 
grandes massas 
de dados com 
fontes e tipos 
variados 
Monitorar indicadores 
tais como preço, valor, 
temperatura, custo total, 
etc. 
Comercialização Valor do 
projeto, 
envolvendo o 
custo da 
produção do 
relatório 
Custo de 
implantação, 
integração do 
sistema e/ou 
comissionamento 
sobre o resultado 
do faturamento. 
Custo de 
implementação, 
integração do sistema e 
mensalidade por usuário 
Volume de 
dados 
Baixo, trabalho 
por 
amostragem 
(pequenas 
parcelas) de 
dados com alto 
custo de 
processamento 
Alto, com 
estruturas 
distribuídas e 
grande demanda 
de 
processamento. 
Alto, porém limitado ao 
processamento dos 
bancos de dados 
relacionais/dimensionais 
53 
 
Apesar da análise se restringir a apenas 7 características, os resultados mostram 
que existem diferenças importantes entre Data Mining, Big Data e BI, algumas 
delas pode-se citar: 
 Empresas que possuem uma solução de BI já consolidada tem 
mais maturidade para embarcar em projetos extensivos de Data mining 
e Advanced Analytics. 
 O Big Data só faz sentido em grandes volumes de dados e a melhor 
opção para o seu negócio depende de quais perguntas estão sendo 
feitas e quais os dados disponíveis. Todas as soluções são dependentes 
do dado de entrada. Consequentemente se a qualidade das fontes de 
informação for ruim, há grande chance de que a reposta seja ruim como 
frisa a expressão em inglês “garbage in, garbage out” Lixo entra, lixo saí. 
 Enquanto os painéis do BI podem ajudar a fazer sentido de seus 
dados de maneira bastante visual e facilitada, não é possível fazer 
análises muito ricas com ele. Para isso é necessário soluções mais 
complexas, capazes de enriquecer a sua percepção da realidade do 
negócio, ajudando a encontrar correlações, novos segmentos de 
mercado (classificação, predição), fazer previsões, controlar variáveis e 
seus efeitos em com relação as diversas outras por meio das análises 
multivariadas. 
 O BI é fortemente dependente de dados estruturados que são os 
mais utilizados atualmente, porém a tendência é de crescimento em 
dados não estruturados. Também, não demanda profissionais 
especialistas em estatística e ou engenharia do conhecimento. 
 O Big Data estende a possibilidade de análise sobre não 
estruturados. Ex: posts de redes sociais, imagens, vídeos, músicas e etc. 
Porém o grau de complexidade e exigência de conhecimento do 
operador é maior, bem como o alinhamento com os profissionais da 
gestão. 
 Para evitar frustrações é importante levar em consideração as 
diferenças nas virtudes (proposta de valor) e resultados de cada solução. 
Por exemplo, não esperar por descoberta de padrões e insights de 
negócio da própria ferramenta de BI, este é o papel do operador do BI. 
 O Big Data pode ser considerado em parte, a junção do BI e Data 
Mining. O BI com seus dados estruturados em conjunção com a gama 
54 
 
de algoritmos e técnicas do Data Mining empoderado pelas novas 
tecnologias de grande processamento, armazenamento e memória; tudo 
processado de forma paralela e distribuída sobre uma gama gigantesca 
de fontes de informação heterogêneas. 
 Podemos observar que os resultados dos três geram inteligência 
para o negócio, da mesma forma como o bom uso de uma 
simples planilha também pode gerar inteligência, mas é importante 
avaliar se isso é suficiente para atender as ambições ou dilemas do seu 
negócio. 
 Vemos que o potencial do Big Data ainda não está sendo 
plenamente reconhecido, porém as empresas mais avançadas em 
termos de tecnologia, hoje, o têm como ponto chave de suas estratégias 
oferecendo gratuitamente seus serviços para alimentarsuas bases com 
dados estruturados e não estruturados. Ex. Gmail, Facebook, Twitter e 
OLX. 
A tendência é que o crescimento do volume dos dados e sua variedade continue 
cada vez de forma menos estruturada. 
 
2. AS DIFERENTES METODOLOGIAS DE BUSINESS ANALYTICS 
 
Como já foi apresentado neste material as diferenças de BI e BA, já 
podemos prosseguir conferindo os diferentes métodos usados em uma 
estratégia de Business Analytics. A MJV Technology & Innovation apresenta em 
seu e-book os diferentes métodos usados em uma estratégia de Business 
Analytics, são eles: 
 
a. Análise descritiva 
A análise descritiva é um estágio preliminar do processamento de dados 
que cria um resumo de dados históricos para gerar informações úteis e, 
possivelmente, preparar os dados para análise posterior. Nessa etapa, 
técnicas de mineração de dados são empregadas para organizar as 
informações e identificar padrões e relacionamentos que de outra forma 
não seriam visíveis. Consultas, relatórios e técnicas de visualização de 
dados também podem ser aplicados para gerar mais insights. Às vezes, 
55 
 
a análise descritiva fornece informações sobre o histórico dos 
acontecimentos de um negócio. Você pode ver, por exemplo, um 
aumento nos seguidores do Twitter após um tweet em particular. 
b. Análise diagnóstica 
 A análise diagnóstica (ou de diagnóstico) é uma forma de análise 
avançada que examina dados ou conteúdos para responder à pergunta: 
“por que isso aconteceu?”. É caracterizada por técnicas como: 1. 
Detalhamento 2. Descoberta 3. Mineração 4. Correlações de dados 
Business Analytics. Também bastante empregada em estratégias de 
Business Intelligence, a análise de diagnóstico analisa os dados com mais 
profundidade para tentar entender as causas dos eventos e 
comportamentos. A análise de diagnóstico permite entender os dados 
mais rapidamente para responder a perguntas críticas sobre a força de 
trabalho. Nela, ferramentas interativas de visualização de dados são 
empregadas para que, por exemplo, os gerentes pesquisem, filtrem e 
comparem facilmente as pessoas, centralizando as informações de todo 
o conjunto de gerenciamento de talentos unificados. 
c. Análise preditiva 
A análise preditiva é uma forma de análise avançada que usa dados 
novos e históricos para prever atividade, comportamento e tendências. 
Envolve da aplicação de técnicas de análise estatística, consultas 
analíticas e algoritmos automatizados de aprendizado de máquina a 
conjuntos de dados para criar modelos preditivos que colocam um valor 
numérico ou pontuação na probabilidade de um determinado evento 
acontecer. Os softwares de análise preditiva usam variáveis que podem 
ser medidas e analisadas para prever o provável comportamento de 
indivíduos, máquinas ou outras entidades. Por exemplo, uma companhia 
de seguros provavelmente levará em conta possíveis variáveis de 
segurança de direção, como: idade, sexo, localização, tipo de veículo e 
histórico de condução, para melhor precificar e emitir apólices de seguro 
de automóvel. Múltiplas variáveis são combinadas em um modelo 
preditivo capaz de avaliar probabilidades futuras com um nível aceitável 
de confiabilidade. Assim, o sistema baseia-se fortemente em algoritmos e 
metodologias avançadas, como modelos de regressão logística, análise 
56 
 
de séries temporais e árvores de decisão. A análise preditiva cresceu em 
destaque junto com o surgimento de sistemas de Big Data. À medida que 
empresas acumularam conjuntos de dados maiores e mais amplos nos 
clusters do Hadoop e em outras plataformas de Big Data, elas criaram 
maiores oportunidades de mineração de dados para obter insights 
preditivos. O aumento do desenvolvimento e a comercialização de 
ferramentas de aprendizado de máquina pelos fornecedores de TI 
também ajudaram a expandir os recursos de análise preditiva. Empresas 
de marketing, serviços financeiros e seguradoras têm sido notáveis na 
adoção de análises preditivas, assim como grandes provedores de 
serviços de busca e serviços online. A análise preditiva também é 
comumente usada em setores como saúde, varejo e manutenção. 
Os aplicativos de negócios para análise preditiva incluem: 
c.1. Análise do comportamento do cliente para determinar 
padrões de compra, como a sinalização de transações financeiras 
potencialmente fraudulentas; 
 c.2. Segmentação de anúncios online, por exemplo através de 
identificação de pacientes em risco de desenvolver determinadas 
condições médicas; 
c.3. Detecção de falhas de peças iminentes em equipamentos 
industriais antes que ocorram. 
d. Análise prescritiva 
A análise prescritiva é a área de Business Analytics dedicada a encontrar o 
melhor curso de ação para uma determinada situação. Ela está relacionada à 
análise descritiva e preditiva. Embora a análise descritiva tenha como objetivo 
fornecer informações sobre o que aconteceu e a análise preditiva ajude a 
modelar e prever o que pode acontecer, a análise prescritiva procura determinar 
a melhor solução ou resultado entre várias opções, dados os parâmetros 
conhecidos. A análise prescritiva também pode sugerir opções de decisão sobre 
como aproveitar uma oportunidade futura ou atenuar um risco futuro e ilustrar as 
implicações de cada opção de decisão. Na prática, a análise prescritiva pode 
processar de forma contínua e automática novos dados para melhorar a precisão 
das previsões e fornecer melhores opções de decisão. Uma tarefa de processo 
intensivo, a abordagem prescritiva analisa as decisões potenciais, as interações 
57 
 
entre as decisões, as influências que incidem sobre essas decisões e o impacto 
de tudo o que foi dito em um resultado para, em última instância, prescrever um 
curso ideal de ação em tempo real. 
 
 
 
 
 
 
 
 
 
 
2.1 Business Intelligence x Business Analytics 
 
O Business Intelligence, ou BI é uma técnica 
para auxiliar o gestor no planejamento 
estratégico. Ele é uma forma de coleta e análise 
de conjunto amplo de dados de uma empresa 
para entender a sua performance e, a partir daí, 
planejar o futuro de forma mais eficiente. 
Permite identificar os acertos e aquilo que não 
deu muito certo para auxiliar nas próximas 
decisões. Os dados do BI são disponibilizados 
em métricas estabelecidas e planilhas relativamente complexas, é aí que o 
Business Analytics, ganha espaço. O BA tem uma análise de dados mais 
eficiente, vai mais fundo e permite uma compreensão dos dados que vai além 
dos fatos concretos, ele mostra o que aconteceu, como aconteceu e quando 
aconteceu, o BA ajuda a responder questões relativas às razões pelas quais 
determinados acontecimentos ocorrem. Assim como o BI, o BA faz uso da 
tecnologia e da estatística para a tradução das informações, mas permite uma 
investigação mais aprofundada e contínua do negócio. 
##Saiba Mais## 
ENTENDENDO O ANALYTICS 
Inteligência analítica (em inglês, analytics), 
é um campo abrangente e multidimensional 
que se utiliza de técnicas matemáticas, 
estatísticas de modelagem preditiva e 
machine learning para encontrar padrões e 
conhecimento significativos em dados. 
58 
 
Camargo (2018) em seu artigo indica 5 passos para a aplicação de 
Business Analytics nas empresas: 
Passo 1: Defina claramente o problema – Com essa definição é 
possível determinar quais ferramentas e técnicas serão utilizadas, os modelos 
que serão aplicados, dados que serão imprescindíveis e quais os procedimentos 
serão tomados durante as fases de pré-processamento, mineração e pós-
processamento para criação do modelo preditivo. 
Passo 2: Selecione seus dados – A qualidade dos dados de entrada 
determinará a qualidade do modelo na saída. Essa é a etapa de coleta e 
organização dos dados. 
Passo 3: Minere seus dados – Mineração de dados é o processo de 
exploração de grandes quantidades de dados com o objetivo de encontrar 
anomalias, padrões e correlações para suportar a tomadade decisões e 
proporcionar vantagens estratégicas. Nesta etapa são aplicadas técnicas 
estatísticas e algoritmos computacionais para construção dos modelos de 
predição ou classificação, segmentação de clientes e identificação de perfis. 
Passo 4: Defina seu ambiente de processamento – Outro aspecto 
importante é saber em qual arquitetura sua modelagem será processada. 
Algoritmos mais avançados aplicados a grandes conjuntos de dados podem 
levar dias ou semanas concluírem seu processamento. 
Passo 5: Gere bons dashboards – Ter um bom dashboard garante não 
apenas visualizar as previsões por diversos ângulos, mas ajuda a compreender 
outro grande problema que é o overfitting (Sobreajuste é um termo usado em 
estatística para descrever quando um modelo estatístico se ajusta muito bem ao 
conjunto de dados anteriormente observado, mas se mostra ineficaz para prever 
novos resultados). Um modelo com esse problema não consegue detectar os 
relacionamentos entre os dados e, por consequência, não consegue fazer as 
previsões com novos dados de produção. 
59 
 
 
Acessar novas fontes de dados e conseguir determinar o que é valioso 
e o que é apenas boato não é tarefa fácil. Sem tempo ou sem tecnologias 
adequadas para que os negócios cresçam, o que resta para as empresas é 
apenas continuar fazendo as tarefas comuns, e não investindo em inovações. 
Por este motivo a pratica de Business Analytics e todos os seus complementos 
são necessários. 
 
 
## Você sabia ##. 
Estatística Descritiva é o tipo mais antigo de analytics. O Suecos em 1749, 
tabularam a contagem da população, essa foi a primeira investida de análise 
descritiva. Hoje ainda existem diversas análises descritivas, desde quantos 
cliques uma página recebe à razão entre quantas unidades são produzidas 
sobre os números de unidades vendidas, entre outras. 
 
60 
 
3. ÁREAS DE NEGÓCIOS PARA A APLICAÇÃO DE BUSINESS ANALYTICS 
 
3.1. Marketing Analytics 
 
 
 
 Marketing Analytics compreende os processos e tecnologias que 
permitem que profissionais de marketing avaliem o sucesso de suas iniciativas 
ao mensurarem o desempenho delas (por exemplo, comparando blogs com 
mídias sociais ou canas de comunicação), através de métricas importante de 
negócios, como ROI, atribuição de marketing e efetividade geral de marketing. 
O Marketing Analytics informa como e quais as campanhas que estão 
performando de verdade. Ele reúne e consolida dados de diversos canais em 
uma visão comum. 
No que se refere ao conceito de Marketing Analytics, ainda são 
apresentadas abordagens diferentes; umas específicas (Rackley, 2015; Spais 
& Veloutsou, 2005) com o foco na prestação de contas das atividades de 
marketing e outras mais abrangentes em que o conceito é tratado de forma 
mais ampla, abarcando não somente a prestação de contas, mas também o 
processo de coleta e análise de grandes massas de dados para gerar 
informações relevantes para o direcionamento das decisões de marketing 
(Banasiewicz, 2013). Wedel e Kana(2016) definiram Marketing Analytics como 
coleta, gerenciamento e análise de dados, descritivos, preditivos e prescritivos, 
para obter insights sobre o desempenho do marketing, para maximizar a eficácia 
dos instrumentos de controle de marketing e para otimizar o retorno sobre os 
investimentos das empresas. 
 
61 
 
3.1.1. A importância do Marketing Analytics 
Ao longo dos anos, conforme empresas empreendiam em novas 
categorias de marketing, novas tecnologias foram adotadas para suportá-las. 
Como cada nova tecnologia costumava ser implantada isoladamente, o 
resultado foi mistura de ambientes de dados desconectados. 
Consequentemente, profissionais de marketing acabam tomando decisões 
baseadas em dados de canais individuais (métricas de sites, por exemplo), sem 
considerar todo o panorama do marketing. Dados de mídias socias sozinhos não 
são suficientes. Dados de web analytics sozinhos não são suficientes. E 
ferramentas que olham apenas para um instante no tempo em um único canal 
são totalmente inadequados. Marketing Analytics, por outro lado, considera 
todos os esforços de marketing entre todos os canais por um período de tempo 
determinado, o que é essencial para tomar decisões sólidas e executar 
programas eficientes. 
3.2. RH Analytics 
 
 
 
A gestão de pessoas trata-se da mobilização, da orientação, do 
direcionamento e da administração no ambiente organizacional do fator 
humano, que é dotado de personalidades, normas, valores e atitudes que 
existem sob um padrão complexo e multidimensional. 
Nesse contexto emerge a necessidade do uso do Human Resources 
Analytics(RH Analytics), que segundo Bersin(2015), pode ser chamado também 
de Talent Analytics ou People Analytics, o qual começou nos anos de 1800 com 
Frederick Taylor e seus estudos sobre análise de dados na profissão de RH. Fitz-
62 
 
Enz(2010) afirma que o RH Analytics esteve no mundo dos negócios desde a 
década de 60 com o lançamento do sistema de reservas Sabre da American 
Airlines. 
People Analytics nada mais é do que um novo termo para a mesma ideia 
de cruzar dados de fontes diversas, porém agora aplicado para sustentar 
decisões estratégicas sobre pessoas, ou seja é uma análise de dados aplicada 
à gestão de pessoas. People Analytics não é uma ferramenta, mas o uso de uma 
metodologia para a guiar e ajudar na análise dos dados sobre pessoas. É a 
prática de tomar decisões baseadas em dados sobre funcionários e pessoas. 
Esse termo foi primeiro introduzido pela Google, o conceito é novo, só 
chamou a atenção do público pela primeira vez em 2013, mas continua passando 
por mudanças transformacionais. Apesar de ser completamente orientado por 
dados, o People Analytics tem o poder de resolver problemas intrinsecamente 
humanos, como insatisfação no local de trabalho, frustação pela má gestão e 
fraca cultura empresarial. O People Analytics auxilia também no processo de 
recrutamento, e pode reduzir muito os erros humanos e impedir decisões 
tomadas com base em tendências pessoais. Ele ajuda os departamentos de RH 
a cumprir as normas legais. As normas atuais cada vez mais enfatizam a 
contratação não discriminatória. Ao aplicar processos baseados em dados para 
encontrar novos candidatos, o People Analytics impede a violação da lei. 
3.2.1. Principais componentes do People Analytics 
a. Avaliação de Desempenho – A avaliação de desempenho é um 
componente essencial do People Analytics. O desempenho pode ser medido de 
muitas maneiras diferentes, mas a forma como a medição do desempenho é 
realizada hoje em dia em muitas empresas implica que o resultado é mais 
valorizado do que o processo. Esse é um fator humano que frequentemente se 
interpõe em avaliação correta do desempenho. O People Analytics ajuda a 
eliminar esse fator. A avaliação de desempenho é baseada em quatro 
componentes principais: regressão à média, tamanho da amostra, 
63 
 
independência do sinal e processo versus resultado. Com o People Analytics, os 
profissionais de RH podem separa a sorte da competência real. 
b. Recrutamento – Uma das funções mais importantes do RH é recrutar. 
Na área de recursos humanos, o People Analytics lida com três componentes: 
contratação, progressão na carreira e o Burnout, ou exaustão ocupacional. O 
People Analytics também pode melhorar a felicidade dos funcionários, à medida 
que você se torna mais informado sobre as atitudes e o humor dos funcionários. 
c. Colaboração - Existem uma infinidade de dados usados para 
descrever e avaliar a eficácia da colaboração, o People Analytics permite criar 
um mapa organizacional de colaboração, que mostre os padrões que as pessoas 
seguem quando trabalham juntas em um projeto ou tarefa. 
d. Gestão de Talentos – Com a melhoria da avaliação de desempenho, 
a equipe e a colaboração, a organização se torna mais enxuta e estável. O 
próximo passo é ajudar as pessoas a se desenvolverem dentro daempresa em 
apoiar e promover seus próprios funcionários – gerenciamento de talentos. O 
People Analytics auxilia o gerenciamento de talentos de muitas maneiras 
diferentes: revela os padrões de comportamento dos funcionários dentro da 
empresa, acompanha o desenvolvimento dos funcionários dentro da empresa e 
identifica os pontos altos e baixos no engajamento dos funcionários. 
e. Previsões para o futuro – Atualmente muitas empresas veem o 
People Analytics como um instrumento de negócios que pode ser aplicado em 
todos os níveis da organização. 
As empresas estão constantemente expandindo os tipos de dados que 
analisam. Isso é parcialmente ditado pela maior quantidade de dados disponíveis 
à medida que os funcionários usam ativamente vários canais de comunicação e 
mídias sociais, mas também as empresas expressam grande interesse em tomar 
decisões baseadas em dados. 
Outra tendência que afeta o desenvolvimento de People Analytics é a IA 
e Aprendizado de Máquina. Um exemplo de IA usado no People Analytics pode 
ser um algoritmo de aprendizado de máquina que identifique o comportamento 
64 
 
dos melhores vendedores e depois usa os dados coletados para treinar novas 
pessoas. Junto com as oportunidades, o People Analytics levanta muitas 
preocupações. A capacidade da ferramenta para fornecer recomendações 
altamente personalizadas pode sair do controle, à medida que cada vez mais 
funcionários se tornam defensores ativos da privacidade pessoal. 
O People Analytics requer um conjunto específico de habilidades 
necessárias incluem habilidades técnicas, analíticas e as de comunicação, o que 
é uma mistura curiosa e difícil de encontrar. 
Existe uma solução gratuita a Bitrix24 com mais de 25 ferramentas de 
RH, como rede social privada, gráfico de ausências, agendas compartilhadas, 
gerenciamento de documentos, armazenamento de currículos, portal de 
funcionários, solicitações de licenças, planejamento de carga de trabalho, tarefas 
e gerenciamento de projetos, entre outros. 
 
3.3. Financial Analytics 
 
O Financial Analytics surgiu a partir da necessidade de áreas de finanças 
nas empresas de visualizar e analisar dados para responder questões dos 
65 
 
negócios, bem como simular e prever possíveis cenários futuros, com o objetivo 
de auxiliar na tomada de decisão. 
De acordo com Felipe Pena, consultor da empresa Visagio, quando se 
analisa iniciativas de analytics em uma empresa, faz-se necessário avaliar as 
áreas em 3 principais aspectos: Cultura e Organização, Informações e 
Ferramentas, Habilidades e Competências. 
 
 
 
 
Cultura e Organização – A importância do incentivo a 
grupos focados em analytics. 
 
Para garantir que a organização possua uma área de 
finanças com alta maturidade em relação a iniciativas de analytics, é 
fundamental que haja valorização de uma cultura analítica, com área 
estruturada de uma maneira de fomentar o desenvolvimento e 
implantação de novas soluções no tema. Com a evolução da cultura 
analítica nas empresas, é fundamental que as organizações criem 
mecanismos de incentivo às discussões no tema, e, consequentemente, 
haverá um direcionamento eficiente, com um ambiente propício para o 
desenvolvimento e implantação de soluções em analytics para finanças. 
 
http://visagio.com/pt/wp-content/uploads/2017/12/3-img1-financial-analytcis.png
http://visagio.com/pt/wp-content/uploads/2017/12/3-img2-financial-analytics.png
66 
 
Informações e Ferramentas – A baixa democratização de 
acesso a ferramentas e dados 
 
Na grande maioria das empresas em relação à disponibilidade de ferramentas 
analytics, muitos colaboradores não possuem fácil acesso a essas ferramentas. 
Outro ponto é que as empresas não utilizam todo o potencial das soluções de 
analytics é a dificuldade de acesso e manipulação aos dados. No que se refere 
a disponibilização de ferramentas de TI para viabilizar as iniciativas analytics, 
deve-se observar os seguintes pontos: 
 Se existe uma coordenação nas ferramentas de análise 
disponíveis na organização? 
 Se as ferramentas de análise e conjunto de serviços de 
tecnologias comuns disponíveis na organização estão 
estabelecidas; 
 Se a qualidade dos dados é elevada e os modelos de dados e 
taxonomia são comuns; 
 Se os dados de alta qualidade estão disponíveis; 
 Se os sistemas não integrados e baixa disponibilidade de dados 
são confiáveis; 
 Entre outras. 
Para que iniciativas em analytics sejam implantadas com sucesso e 
recorrência nas organizações, a democratização de informações e ferramentas 
torna-se fundamental, uma vez que, com a evolução da tecnologia e aumento da 
quantidade de dados, ferramentas e dados precisam estar facilmente acessíveis 
para os colaboradores possam experimentar, criar novas soluções e implantar 
de maneira ágil. 
 
Habilidades e Competências – O Foco na visualização de 
dados na estruturação de relatórios. 
http://visagio.com/pt/wp-content/uploads/2017/12/3-img6-financial-analytics.png
http://visagio.com/pt/wp-content/uploads/2017/12/3-img6-financial-analytics.png
http://visagio.com/pt/wp-content/uploads/2017/12/3-martelinho.png
http://visagio.com/pt/wp-content/uploads/2017/12/3-img7-financial-analytics.png
67 
 
A habilidade de visualização de dados e estruturação de relatórios é a 
competência mais importante de Financial Analytics. Para a maioria das 
empresas os dashboards de performance financeira é a principal aplicação. Com 
o aumento da disponibilidade e redução de custos das ferramentas de 
armazenamento e processamento de dados, habilidades relacionadas ao 
desenvolvimento de soluções que utilizam data mining e machine learning 
tornam-se cada vez mais frequentes, possibilitanto análises robustas, utilizando 
os milhões de dados transacionais que uma empresa pode gerar, como modelos 
estatísticos para análise de crédito e detecção de fraude. 
O sucesso para o desenvolvimento de uma área de finanças com a 
cultura analítica baseia-se em três principais pilares: 
 o primeiro reflete como a organização e a área de finanças 
valoriza o analytics; 
 o segundo pilar é garantir que informações e ferramentas sejam 
facilmentes acessíveis aos colaboradores; 
 o terceiro pilar, que é o desenvolvimento e implantação de 
iniciativas através de pessoas com habilidades e competências 
necessárias. 
 
3.4. Fraud Analytics (Análise para Detectação de Fraudes) 
 
 
3.4.1. Definição de Fraude 
Do latim fraus, uma fraude é uma ação que é contrária àquilo que é 
verdade que é correto e honesto. A fraude é cometida com vista a prejudicar uma 
pessoa ou uma organização (como o Estado ou uma empresa). 
68 
 
Para o direito, uma fraude é um delito cometido pela pessoa incumbida 
de supervisionar a execução de contratos, sejam estes públicos ou privados, 
para representar interesses opostos. A fraude é, por conseguinte, penalizada 
judicialmente. 
3.4.2 A Análise de Fraude 
A análise de fraude pode ser definida como um campo multidisciplinar 
que combina várias ciências quantitativas, é um termo genérico que abrange 
muitas tecnologias, as duas principais são: 
 
a. Business Intelligence 
No espaço de gerenciamento de fraudes, o BI pode ser considerado um repórter 
de desempenho descritivo. Ele resume os dados disponíveis para fornecer 
painéis de negócios e insights aos líderes empresariais e gerentes de fraude, 
para que eles possam tomar decisões mais informadas. Isso pode envolver, por 
exemplo, a análise do desempenho das regras da estratégia de fraude. 
Para que o BI faça seu trabalho, é necessária uma arquitetura robusta de data 
warehousing, para que os dados possam ser acessados facilmente para fins de 
informações de gerenciamento (Management Information - MI). O MI refere-se à 
criação de painéis executivos, visualização de dados, narração de dados e 
quaisquer outros métodos de relatório. 
b. Data Science 
A ciência de dados está relacionada a um conjunto de tecnologiasmais 
sofisticadas para executar análises preditivas e prescritivas. A análise preditiva 
está focada em fazer previsões sobre o futuro de eventos desconhecidos (ou, no 
caso de fraude, resultados de eventos atuais). A análise prescritiva refere-se à 
escolha do curso de ação ideal com base no resultado dessas previsões. 
Uma vez no armazenamento de Big Data, os analistas podem trabalhar com os 
dados e desenvolver um entendimento dos recursos preditivos ao detectar 
fraudes. 
69 
 
3.4.3. Inteligência Artificial e Machine Learning 
Indiscutivelmente, as tecnologias mais empolgantes da análise de 
fraudes atualmente são inteligência artificial (IA), aprendizado de máquina e 
aprendizado profundo. 
 A IA refere-se à implementação por computador dos processos de 
pensamento humano de maneira computadorizada e eficiente. 
 O aprendizado de máquina é um subconjunto de IA 
relacionado à ciência dos algoritmos. O aprendizado de máquina é um 
conjunto de inúmeras técnicas algorítmicas que podem ser usadas para 
extrair relacionamentos complexos em dados que um ser humano não 
conseguiu encontrar. O aprendizado profundo é uma classe de 
algoritmos de aprendizado de máquina focados especificamente na 
construção de redes neurais "profundas" (multicamadas), uma forma de 
IA amplamente usada na detecção de fraudes. 
No caso do aprendizado supervisionado, ele ainda não é aplicável ao 
sistema bancário aberto porque os dados históricos ainda não estão 
disponíveis e a evolução do sistema bancário aberto em termos de 
adoção ainda não é clara. Portanto, o aprendizado de máquina não 
supervisionado fornece uma alternativa valiosa para aqueles que não 
possuem grandes armazenamentos de dados de transações fraudulentas 
e não fraudulentas. Eles podem construir conjuntos de dados que devem 
simular o próximo ambiente de banco aberto ou se beneficiar de 
lançamentos anteriores de banco aberto. 
 
 
 
 
 
 
 
 
 
70 
 
3.5. Text Analytics 
 
A Análise de texto é o processo de extrair o significado da comunicação 
escrita. Em um contexto de experiência do cliente, análise de texto significa 
examinar o texto que foi escrito por ou sobre os clientes. Você encontra padrões 
e tópicos de interesse e executa ações práticas com base no que aprendeu. 
A Análise de texto pode ser realizada manualmente, mas é um processo 
ineficiente. Portanto, foi criado um software de análise de texto que usa 
mineração de texto e algoritmos de processamento de linguagem natural para 
encontrar significado em grandes quantidades de texto. 
3.5.1. Onde o Text Analytics é usado? 
E-mails, análises on line, tweets, notas de agentes de call center, 
resultados de pesquisas e outros tipos de feedback por escrito oferecem 
informações sobre seus clientes. Também há muitas informações nas interações 
gravadas que podem ser facilmente transformadas em texto. 
A análise de texto é a maneira de desbloquear o significado de todo esse 
texto não estruturado. Permite descobrir padrões e temas, para que você saiba 
o que os clientes estão pensando. Revela seus desejos e necessidades. Além 
disso, o software de análise de texto pode fornecer um alerta precoce de 
problemas, porque mostra do que os clientes estão reclamando. O uso de 
ferramentas de análise de texto fornece informações valiosas de dados que não 
são facilmente quantificados de qualquer outra maneira. Transforma os 
pensamentos não estruturados dos clientes em dados estruturados que podem 
ser usados pelos negócios. 
3.5.2. API Azure 
71 
 
A API de Análise de Texto é um serviço baseado em nuvem que fornece 
um processamento de idioma natural avançado sobre texto bruto e inclui quatro 
funções principais: análise de sentimento, extração de frases-chave, detecção 
de idioma e reconhecimento de entidade. 
A API faz parte dos Serviços Cognitivos do Azure, uma coleção de 
algoritmos de IA e aprendizado de máquina na nuvem para seus projetos de 
desenvolvimento. Análise de texto pode significar coisas diferentes, mas, em 
Serviços Cognitivos, a API de Análise de Texto oferece quatro tipos de análise: 
Análise de Sentimento 
Análise de Sentimento pode ser usada para descobrir o que os clientes pensam 
da marca ou tópico, analisando texto bruto em busca de pistas sobre sentimentos 
positivos ou negativos. Essa API retorna uma pontuação de sentimento entre 0 
e 1 para cada documento, em que 1 é a mais positiva. 
Os modelos de análise são pré-treinados usando um amplo corpo de texto e 
tecnologias de idioma natural da Microsoft. Para idiomas selecionados, a API 
pode analisar e pontuar qualquer texto bruto que você forneça, retornando 
diretamente os resultados ao aplicativo responsável pela chamada. 
Extração de Frases-Chave 
Extraia frases-chave automaticamente para identificar rapidamente os principais 
pontos. Por exemplo, para o texto de entrada "A comida estava deliciosa e a 
equipe era maravilhosa", a API retorna os principais pontos de discussão: 
"comida" e "equipe maravilhosa". 
Detecção de Idioma 
Você pode detectar em qual idioma o texto de entrada está escrito e relatar um 
código de idioma único para cada documento enviado na solicitação em uma 
ampla variedade de idiomas, variantes, dialetos e alguns idiomas 
regionais/culturais. O código de idioma é emparelhado com uma pontuação que 
indica a intensidade da pontuação. 
https://docs.microsoft.com/azure/cognitive-services/
https://docs.microsoft.com/pt-br/azure/cognitive-services/text-analytics/how-tos/text-analytics-how-to-keyword-extraction
https://docs.microsoft.com/pt-br/azure/cognitive-services/text-analytics/how-tos/text-analytics-how-to-language-detection
72 
 
Reconhecimento de Entidade Nomeada 
Identifique e categorize entidades em seu texto como pessoas, locais, 
organizações, data/hora, quantidades, percentuais, moedas e muito 
mais. Entidades conhecidas também são reconhecidas e vinculadas a mais 
informações na Web. 
3.6. Social Network Analytics 
 
 
 
O advento das redes sociais online tem sido um dos eventos mais 
emocionantes da década. Muitas redes sociais online com Twitter, Instagram, 
LinkedIn e Facebook tornaram-se cada vez mais populares. Além disso, várias 
redes de multimídia, como o Flickr, também viram um nível crescente de 
popularidade nos últimos anos. Muitas dessas redes sociais são extremamente 
ricas em conteúdo e geralmente contêm uma quantidade enorme de conteúdo e 
vínculo que podem ser aproveitados para análise. Os dados de ligação são 
essencialmente a estrutura gráfica da rede social e as comunicações entre 
entidades. 
Este conjunto de ferramentas avalia e quantifica as interações dos 
indivíduos nos ambientes sociais. As técnicas de SNA(Social Network Analytics) 
fornecem novas métricas que podem gerar informações mais detalhadas sobre 
os usuários, como qual ator de rede (nó na terminologia do SNA) tem mais 
influência, para ajustar a estratégia de marketing, descobrir padrões de 
comunicação ou entender como o cliente se comporta. As redes e suas 
interações tendem a ser mostradas como representações visuais. 
Eles baseiam-se na ideia de que os seres humanos, quando interagem 
entre si, desenvolvem diferentes tipos de relacionamentos, desde amizade a 
73 
 
trocas comerciais, e esses laços sociais são como uma rede porque conectam 
indivíduos. Ao coletar sistematicamente dados sobre essas relações entre os 
atores, é possível investigar mais profundamente o comportamento dos sujeitos 
de acordo com sua posição na rede e entender, por exemplo, por que um 
conteúdo é compartilhado de forma viral, enquanto outro não. 
Em teoria, essa disciplina é baseada na sociometria, que deriva da 
sociologia e da teoria matemática dos gráficos. Não deve ser confundido com a 
análise das mídias sociais , que podem fazer parte do SNA, mas não é a única 
parte. 
A riqueza dessa rede oferece oportunidades sem precedentes para 
análise de dados no contexto das redessociais 
 
4. CERTIFICAÇÕES DE BUSINESS ANALYTICS 
 
As certificações para Analytics ainda estão surgindo, mas já existem 
algumas organizações que oferecem exames para certificar as habilidades 
características desses profissionais. 
Os Business Analytics ajudam as organizações a aproveitar ao máximo os dados 
coletados ao encontrar tendências, padrões e erros que, de outra forma, 
poderiam passar despercebidos. Profissionais bem-sucedidos na área têm as 
habilidades para trabalhar com dados, a perspicácia para entender o lado 
A análise de mídia social é o processo de coleta e 
análise de dados de redes sociais virtuais como 
Facebook, Instagram e Twitter. É comumente usada 
pelos profissionais de marketing para rastrear 
conversas online sobre produtos e empresas, 
empregando técnicas e coletas de dados como 
métricas e big data. Wikipédia 
 
https://www.zorraquino.com/en/dictionary/digital-marketing/what-is-viral.html
https://www.zorraquino.com/en/dictionary/internet/what-are-social-networks.html
https://pt.wikipedia.org/wiki/An%C3%A1lise_de_m%C3%ADdia_social
74 
 
comercial da organização e a capacidade de comunicar essas informações a 
pessoas de fora da TI. 
Deluca (2018) em sua publicação na revista on line CIO, apresenta sete 
certificações de BA reconhecidas mundialmente: 
1 - IIBA Entry Certificate in Business Analysis (ECBA) 
O ECBA é o primeiro nível de certificação do Instituto Internacional de Análise 
de Negócios (IIBA), projetado para Business analysts (analistas de negócio) 
menos experientes e iniciantes. Não há necessidade de renovação da 
certificação ECBA, mas é aconselhável passar para o segundo ou terceiro nível 
de certificação. 
 
2 - IIBA Certification of Competency in Business Analysis (CCBA) 
O segundo nível da certificação IIBA, a certificação CCBA, requer um mínimo de 
3.750 horas de trabalho com Business Analytics alinhado com o guia IIBA’s 
Business Analysis Book of Knowledge (BABOK), que é um conjunto de melhores 
práticas em análise de negócios, ter 900 horas em duas das seis áreas de 
conhecimento BABOK ou 500 horas em quatro das seis áreas de conhecimento 
do BABOK. A certificação também exige um mínimo de 21 horas de treinamento 
em desenvolvimento profissional nos últimos quatro anos e duas referências 
profissionais. 
O exame CCBA consiste em 130 questões de múltipla escolha baseadas em 
cenários e que exigem algumas análises. Abrange fundamentos, competências 
subjacentes, conceitos-chave, técnicas e todas as seis áreas de conhecimento 
cobertas no BABOK. 
 
3 - IIBA Certified Business Analysis Professional (CBAP) 
O CBAP é o terceiro nível de certificação do IIBA e é projetado para “indivíduos 
com ampla experiência em Business Analytics”. Para se qualificar para esta 
certificação, o profissional precisará de um mínimo de 7.500 horas de 
experiência de trabalho como analista de negócios nos últimos 10 anos, 900 
horas de experiência de trabalho em quatro das seis áreas de conhecimento do 
75 
 
BABOK, pelo menos 35 horas de desenvolvimento profissional nos últimos 
quatro anos e referências profissionais. 
O exame CBAP tem duração de 3,5 horas e inclui 120 perguntas de múltipla 
escolha baseadas em estudos de caso. Depois de passar, o 
profissional precisará informar pelo menos 60 horas de unidades de 
desenvolvimento contínuo a cada três anos. 
 
4 - IIBA Agile Analysis Certification (IIBA-AAC) 
O exame AAC foi projetado para abordar esse conjunto de habilidades da BA e 
para certificar profissionais da BA que trabalham em ambientes ágeis, que 
exigem rápida adaptação e rápida mudança. O exame foi desenvolvido usando 
o Agile Extension para o guia BABOK e foi lançado em maio de 2018. É uma 
certificação independente e é separada das outras certificações de do IIBA, que 
são empilhadas umas sobre as outras. 
O exame é oferecido através de supervisão remota online - consiste em 85 
perguntas de múltipla escolha baseadas em cenários e deve ser concluído em 2 
horas. Quatro temas principais são abordados no exame, incluindo a 
mentalidade ágil (30%), horizonte de estratégia (10%), horizonte de iniciativa 
(25%) e horizonte de entrega (35%). A certificação tem duração de três anos, ao 
fim dos quais precisará ser renovada. Não há nenhum requisito de elegibilidade 
para fazer o exame, mas o IIBA recomenda pelo menos dois a cinco anos de 
experiência relacionada à metodologia Agile. 
 
5 - IQBBA Certified Foundation Level Business Analyst (CFLBA) 
O IQBBA oferece o CFLBA como uma certificação de nível básico, que 
qualifica o profissional para ganhar níveis mais altos de certificação. Ele é 
projetado para “pessoas envolvidas na análise de processos de negócios dentro 
de uma organização, modelagem de negócios e melhoria de processos.” O nível 
básico abrange análise corporativa, planejamento de processos de Business 
Analytics, levantamento de requisitos, análise de requisitos, validação de 
soluções, ferramentas e técnicas, inovação e design. 
76 
 
Depois de concluir o exame de nível de entrada, o profissional pode continuar 
nas certificações Certified Advanced Level Business Analyst (CALBA) e Certified 
Expert Level Business Analyst (CELBA). Atualmente, os centros de treinamento 
e exame credenciados nos Estados Unidos são limitados, com centros em 
Chicago, Maryland, Oklahoma, Flórida e Texas. No entanto, existem opções 
para realizar cursos de treinamento e exames online. 
 
6 - IREB Certified Professional for Requirements Engineering (CPRE) 
A certificação CPRE é projetada para aqueles que trabalham em engenharia de 
requisitos (RE) e é oferecida em três níveis. O nível de fundação é o primeiro, 
onde o profissional será certificado nos fundamentos do RE. O nível Avançado 
é o próximo, onde você pode escolher entre três caminhos, incluindo Elicitation 
e Consolidation, Requirements Modeling e Requirements Management - mas o 
profissional precisará aguardar 12 meses após concluir o primeiro exame para 
fazer o exame de nível Avançado. O nível de Especialista certifica o profissional 
no “nível mais alto de conhecimento especializado”, que inclui tanto sua 
experiência prática quanto seu conhecimento e habilidades adquiridos por meio 
de certificações anteriores. 
Sua certificação não expirará e o profissional não precisará renová-la. O IREB 
afirma que o CPRE é “baseado nos métodos e abordagens fundamentais da 
Engenharia de Requisitos, e estes só se alteram lentamente”, então, neste 
momento, eles não vêem necessidade de renovação. 
 
7 - PMI-Professional in Business Analysis (PBA) Certification 
A certificação PMI-PBA é projetada para profissionais de BA que trabalham com 
projetos ou programas, ou gerentes de projetos e programas que trabalham com 
análises. É oferecido através do Project Management Institute, especializado em 
certificações de gerenciamento de projetos amplamente reconhecidas. A 
certificação se concentra em treinamento de Business Analytics através de 
projetos práticos e testes em princípios de análise de negócios, ferramentas e 
fundamentos. 
77 
 
Ceo profissional já obteve um diploma de bacharel, precisará de pelo menos três 
anos de experiência, ou 4.500 horas, em análise de negócios consecutivamente 
nos últimos oito anos para obter essa certificação. Sem um diploma de bacharel, 
o profissional precisará de cinco anos ou 7.500 horas de experiência. 
O profissional será solicitado a ganhar 60 unidades de desenvolvimento 
profissional dentro de três anos após concluir a certificação para manter seu 
status de renovação. Se deixar sua renovação expirar, suas credenciais serão 
suspensas por um ano até que atenda aos requisitos. Depois disso, ela será 
encerrada e o profissional precisará se inscrever novamente. 
Exame atualizado lançado em junho de 2018 para melhor alinhamento com a 
terminologia usada no PMI Guide to Business Analysis. 
 
O papel de um profissional de BA ou analista de negóciosestá em 
constante evolução e mudança, especialmente porque as empresas confiam 
mais em dados para assessorar as operações de negócios. 
Cada empresa tem diferentes problemas que um analista de negócios 
pode abordar, seja lidando com sistemas legados desatualizados, tecnologias 
em transformação, processos quebrados, baixa satisfação do cliente ou grandes 
organizações isoladas. 
 
 
 
78 
 
Referências Bibliográficas 
 
BANASIEWICZ, A.D. (2013). Marketing database analytics: Transforming data for 
competitive advatage. Routledge. 
 
DAVENPORT, T., & Harris, J. (2007). Competing on analytics: The new Science of 
winning. Harvard Business Press. 
 
FITZ-ENZ, Jac.(2001). Retorno do investimento em capital humano: medindo o 
valor econômico do desempenho dos funcionários. São Paulo: Makron Books, 
2001. 
 
FITZ-ENZ, Jac. The New HR Analytics: Predicting the Economic Value of Your 
Company's Human Capital Investments. Amacom Div American Mgmt Assn. 
Copyright., 2010. 
 
RACKLEY, J. (2015). Marketing Analytics Roadmap. New York City: Apress. 
 
ROCHA, Armando. Conceitos Básicos sobre Data Mining, Salvador, 2003. 
Cientifico. Ano III, Volume 2. 
 
SPAIS, G., & Veloutsou, C. (2005). Marketing analytics: managing incomplete 
information in cosumer markets and the contribution of mathematics to the 
accountability of marketing decisions. South European Review of Business Finance 
and Accountin3(1), pp, 127-150. 
 
SOUZA, Michel. Data Mining. São Paulo: 2003. 
 
WEDEL, M. & KANNAN, P.K. (2016). Marketing Analytics for data-rich 
environments. Journal of Marketing, 80(6), pp. 97-121. 
 
 
Referências online 
 
ABEL, C: Análise de dados: conheça as 8 principais ferramentas de Big Data para 
usar nos negócios artigo publicado pela MindMiners/ 2018. Disponível em: 
https://mindminers.com/blog/ferramentas-de-big-data/ acesso em :10/07/2019. 
 
BERSIN, Josh. The Geeks Arrive In HR: People Analytics Is Here. 2015. Disponível 
em: https://www.forbes.com/sites/joshbersin/2015/02/01/geeks-arrive-in-hr-people-
analytics-is-here/#4181debe73b4. Acesso em: 21 nov. 2019. 
 
BROWN, C: 7 desafios que as organizações enfrentam para extrair valor do big 
data artigo publicado pela CIO from IDG/2019. https://cio.com.br/7-desafios-que-
organizacoes-enfrentam-para-extrair-valor-do-big-data/ Disponível em 08/07/2019. 
 
Camargo. G: 5 motivos para transformar seu negócio em business analytics. 
Disponível em: https://computerworld.com.br/2018/05/08/5-motivos-para-transformar-
seu-negocio-em-business-analytics/ acesso em 15/06/2019. 
 
Cordeiro, C.: Vantagens gerais e específicas do Big Data – artigo publicado pelo 
neomind / 2017. Disponível em: https://blog.neomind.com.br/big-data-quais-as-
vantagens-gerais-e-especificas/ acesso em : 10/07/2019. 
https://mindminers.com/blog/ferramentas-de-big-data/
https://www.forbes.com/sites/joshbersin/2015/02/01/geeks-arrive-in-hr-people-analytics-is-here/#4181debe73b4
https://www.forbes.com/sites/joshbersin/2015/02/01/geeks-arrive-in-hr-people-analytics-is-here/#4181debe73b4
https://cio.com.br/7-desafios-que-organizacoes-enfrentam-para-extrair-valor-do-big-data/
https://cio.com.br/7-desafios-que-organizacoes-enfrentam-para-extrair-valor-do-big-data/
https://computerworld.com.br/2018/05/08/5-motivos-para-transformar-seu-negocio-em-business-analytics/
https://computerworld.com.br/2018/05/08/5-motivos-para-transformar-seu-negocio-em-business-analytics/
https://blog.neomind.com.br/big-data-quais-as-vantagens-gerais-e-especificas/
https://blog.neomind.com.br/big-data-quais-as-vantagens-gerais-e-especificas/
79 
 
Deluca, C. 7 certificações de Business Analytics para melhorar sua carreira 
analítica. 2018 Disponível em:https://cio.com.br/7-certificacoes-de-business-analytics-
para-melhorar-sua-carreira-analitica/ acesso em 10/01/2020 
 
 
Mathias, L.: Ferramentas de BI: conheça as 8 melhores para utilizar na sua empresa 
artigo publicado pela MindMiners/2018. Disponível em 
https://mindminers.com/blog/ferramentas-de-bi/ acesso em :15/07/2019. 
 
Pena, F.: Financial Analytics: Impulsionando a saúde financeira das organizações. 
Disponível em: https://visagio.com/pt/insights/financial-analytics-impulsionando-saude-
financeira-das-organizacoes acesso em 20/10/2019. 
Prates, W. R.: O que é Data Mining? - artigo publicado pela Revista Aquare.la/ 
02/2018. Disponível em https://www.aquare.la/o-que-e-data-mining-mineracao-de-
dados/ acesso em 11/09/2019. 
 
Analytics – que é e qual a sua importância. Disponível em: 
https://www.sas.com/pt_br/insights/analytics/analytics.html acesso em 
:20/06/2019. 
 
Business Analytics a era dos Dados já começou. Disponível em : 
https://conteudo.mjv.com.br/obrigado/business-analytics-a-era-dos-
dados?submissionGuid=8b3a70e3-e2c9-44c1-86da-73d7d5bec946 acesso em 
:21/08/2019. 
Entenda como o big data e uma grande vantagem competitiva. Disponível em: 
https://www.santodigital.com.br/entenda-como-o-big-data-e-uma-grande-vantagem-
competitiva/ acesso em 13/06/2019. 
Fraud Analytics Using Descriptive, Prescritive and Social Network Techniques 
Disponível em: https://www.dataminingapps.com/wp-
content/uploads/2015/08/68614_excerpt-1.pdf acesso em 22/01/2020 
O que é a API de Análise de texto? Disponível : https://docs.microsoft.com/pt-
br/azure/cognitive-services/text-analytics/overview acesso 22/01/2020 
 
O que é People Analytics: Principais tendências de RH que todo gerente deve saber. 
Disponível em :https://www.bitrix24.com.br/blogs/comunicaco/o-que-e-people-
analytics-principais-tendencias-de-rh-que-todo-gerente-
dev.php?gclid=Cj0KCQiAmZDxBRDIARIsABnkbYSaqEERnUGKer2Ib2s0iJxl2y_EGX6i
ohtObRFXtYkB3VviVvBv3rwaAkmfEALw_wcB acesso em :20/09/2019 
 
Por que business analytics está crescendo. Disponível em 
http://dataexperience.com.br/por-que-business-analytics-esta -crescendo/ acesso em : 
15/06/2019. 
What is Text Analytics. Disponível : https://www.clarabridge.com/customer-
experience-dictionary/text-analytics acesso em 20/01/2020. 
 
 
 
https://cio.com.br/7-certificacoes-de-business-analytics-para-melhorar-sua-carreira-analitica/
https://cio.com.br/7-certificacoes-de-business-analytics-para-melhorar-sua-carreira-analitica/
https://cio.com.br/7-certificacoes-de-business-analytics-para-melhorar-sua-carreira-analitica/
https://mindminers.com/blog/ferramentas-de-bi/
https://visagio.com/pt/insights/financial-analytics-impulsionando-saude-financeira-das-organizacoes
https://visagio.com/pt/insights/financial-analytics-impulsionando-saude-financeira-das-organizacoes
https://www.aquare.la/o-que-e-data-mining-mineracao-de-dados/
https://www.aquare.la/o-que-e-data-mining-mineracao-de-dados/
https://www.sas.com/pt_br/insights/analytics/analytics.html
https://conteudo.mjv.com.br/obrigado/business-analytics-a-era-dos-dados?submissionGuid=8b3a70e3-e2c9-44c1-86da-73d7d5bec946
https://conteudo.mjv.com.br/obrigado/business-analytics-a-era-dos-dados?submissionGuid=8b3a70e3-e2c9-44c1-86da-73d7d5bec946
https://www.santodigital.com.br/entenda-como-o-big-data-e-uma-grande-vantagem-competitiva/
https://www.santodigital.com.br/entenda-como-o-big-data-e-uma-grande-vantagem-competitiva/
https://www.dataminingapps.com/wp-content/uploads/2015/08/68614_excerpt-1.pdf%20acesso%20em%2022/01/2020
https://www.dataminingapps.com/wp-content/uploads/2015/08/68614_excerpt-1.pdf%20acesso%20em%2022/01/2020
https://docs.microsoft.com/pt-br/azure/cognitive-services/text-analytics/overview
https://docs.microsoft.com/pt-br/azure/cognitive-services/text-analytics/overview
https://www.bitrix24.com.br/blogs/comunicaco/o-que-e-people-analytics-principais-tendencias-de-rh-que-todo-gerente-dev.php?gclid=Cj0KCQiAmZDxBRDIARIsABnkbYSaqEERnUGKer2Ib2s0iJxl2y_EGX6iohtObRFXtYkB3VviVvBv3rwaAkmfEALw_wcB
https://www.bitrix24.com.br/blogs/comunicaco/o-que-e-people-analytics-principais-tendencias-de-rh-que-todo-gerente-dev.php?gclid=Cj0KCQiAmZDxBRDIARIsABnkbYSaqEERnUGKer2Ib2s0iJxl2y_EGX6iohtObRFXtYkB3VviVvBv3rwaAkmfEALw_wcB
https://www.bitrix24.com.br/blogs/comunicaco/o-que-e-people-analytics-principais-tendencias-de-rh-que-todo-gerente-dev.php?gclid=Cj0KCQiAmZDxBRDIARIsABnkbYSaqEERnUGKer2Ib2s0iJxl2y_EGX6iohtObRFXtYkB3VviVvBv3rwaAkmfEALw_wcBhttps://www.bitrix24.com.br/blogs/comunicaco/o-que-e-people-analytics-principais-tendencias-de-rh-que-todo-gerente-dev.php?gclid=Cj0KCQiAmZDxBRDIARIsABnkbYSaqEERnUGKer2Ib2s0iJxl2y_EGX6iohtObRFXtYkB3VviVvBv3rwaAkmfEALw_wcB
http://dataexperience.com.br/por-que-business-analytics-esta%20-crescendo/
https://www.clarabridge.com/customer-experience-dictionary/text-analytics
https://www.clarabridge.com/customer-experience-dictionary/text-analytics
80 
 
 
 
 
 
 
Sugestão de Leitura: 
Data Mining: Concepts and Techniques (The Morgan Kaufmann Series 
in Data Management Systems) 3rd Edition – Amazon 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
81 
 
UNIDADE III – Ferramentas de Data Analytics e Big Data 
 
Objetivos: 
 Conceituar Data Analytics; 
 Entender sobre Aprendizado de Máquina; 
 Conhecer o Framework Hadoop; 
 Apresentar as ferramentas de Data Analytics e Big 
Data. 
 
 
82 
 
INTRODUÇÃO 
 
Nesta unidade, será apresentada o conceito Data Analytics que é o processo de 
analisar informações (dados) com um propósito específico. Será exposto uma 
introdução a Machine Learning, o estudo de reconhecimento de padrões e da 
teoria do aprendizado computacional em inteligência artificial. Será apresentado 
também o Hadoop uma estrutura de software open-source que serve para 
armazenar dados e executar aplicações em clusters de hardwares comuns. O 
Hadoop fornece armazenamento massivo para qualquer tipo de dado, tem 
grande poder de processamento e capacidade de lidar quase ilimitadamente 
com tarefas e trabalhos ocorrendo ao mesmo tempo. Também serão 
apresentadas ferramentas de Data Analytics e Big Data para captação, 
tratamento e análise de grandes massas de dados. 
 
 
83 
 
1. O QUE É DATA ANALYTICS 
 
Para conhecermos sobre o Data Analytics, será necessário citar alguns 
termos como: Big Data, Business Inteligente, Business Analtytics e o próprio 
Data Analytics. 
O Data Analytics e o Big Data são processos diferentes, mas 
frequentemente confundidos. Embora seja possível se especializar em Big Data, 
o termo refere-se apenas ao aglomerado de informações acumulados on e 
offline. O termo Data Analytics se refere a uma porção de aplicações, como as 
ferramentas de BI. 
O Data Analytics tem um foco mais amplo, podendo ser utilizado também 
em pesquisas acadêmicas, por exemplo, já o Business Analytics é focado no uso 
de dados dentro dos negócios. 
Podemos verificar nas aulas anteriores que o principal benefício do Big 
Data é que ele permite uma visão completa sobre os principais desafios 
enfrentados. Administrar um empreendimento e seus vários processos envolve 
responder muitas perguntas, como “o que o cliente busca em nossos produtos?” 
e “por que alguém escolhe uma marca e não outra?”. Todas essas perguntas 
são mais fáceis de se responder com o auxílio de dados detalhados, já que a 
tecnologia permite lidar com informações originadas de diversas fontes (como 
um CRM ou até um mapa), ajudando a obter respostas precisas. Sozinho, o Big 
Data não é uma estratégia eficiente para visualizar as 
respostas das questões citadas anteriormente. É o Data Analytics que 
consegue organizar e colocar todos esses dados em uma perspectiva. 
Podemos concluir que o Data Analytics lida com ferramentas de 
visualização, como dashboards intuitivos com respostas em tempo real, esses 
recursos são o que permite que uma empresa tome decisões embasadas. 
1.1 Cultura de Data Analytics 
Com o tempo, notamos que mesmo coisas simples podem gerar 
dificuldades nas análises de dados. Assim, para que os indicadores possam ser 
coletados de forma adequada e as análises possam ocorrer com o maior número 
https://blog.academiain1.com.br/como-escolher-um-curso-de-especializacao-em-big-data/
https://blog.academiain1.com.br/afinal-o-big-data-e-realmente-eficaz-na-analise-de-dados/
https://blog.academiain1.com.br/afinal-o-big-data-e-realmente-eficaz-na-analise-de-dados/
84 
 
de pessoas (de forma a se replicar dentro dos diversos setores), é fundamental 
níveis elevados de cultura de Data Analytics, como definido no Diagrama abaixo. 
 
 
Fonte: https://www.aquare.la/o-que-e-data-analytics/ 
1.2 Como funciona o Data Analytics? 
Data Analytics geralmente contempla três categorias de dados: 
 Social Data – são dados que contém perfis e comportamento das 
pessoas, por exemplo as redes sociais; 
 Enterprise Data – são dados gerados especialmente por 
empresas, dados como operações e financeiros; 
 Personal Data – é a novidade, tem como base a integração entre 
os dispositivos por meio da internet, tem como base a integração 
https://www.aquare.la/o-que-e-data-analytics/
85 
 
entre os dispositivos por meio da internet, termo usado em 
segurança da informação, referem-se a informações que podem 
ser usadas para identificar, contactar ou localizar uma única 
pessoa, o principal exemplo são os smartphones. 
O processo de análise de dados é capaz de explorar os dados, a fim de 
criar princípios para otimizar o entendimento de cenários e padrões. Tudo isso é 
consequência de uma análise cautelosa e exata. Todos esses padrões são 
elaborados com o objetivo de filtrar e levar aos interessados todas as 
informações úteis. Por detrás disso, tem todo um ciclo que começa com extração 
dos dados, organização, tratamento e compreensão. 
86 
 
2. INTRODUÇÃO AO APRENDIZADO DE MÁQUINA (MACHINE 
LEARNING) 
Machine Learning é uma tecnologia onde os computadores tem a 
capacidade de aprender de acordo com as respostas esperadas por meio 
associações de diferentes dados, os quais podem ser imagens, números e tudo 
que essa tecnologia possa identificar. 
Quando se desenvolve um sistema de aprendizado de máquina, a 
estrutura utilizada na programação é diferente da programação de software 
tradicional. No método tradicional se cria um conjunto de regras para gerar uma 
resposta a partir do processamento dos dados introduzidos. 
Os algoritmos de Machine Learning são criados a partir dos dados que 
serão analisados e as repostas (ou resultados) que se esperam dessa análise, 
no final do processo o sistema cria as próprias regras ou perguntas. 
 
2.1 O aprendizado de uma plataforma de Machine Learning 
 
A tecnologia Machine Learning permite que os modelos sejam treinados 
em conjuntos de dados antes de serem implementados. Um aplicativo ou 
software com Machine Learning é um tipo de programa que melhora 
automaticamente e gradualmente com o número de experiências em que ele é 
colocado para treinar. Nessa primeira etapa o treinamento é assistido. O 
processo iterativo leva à uma melhoria nos tipos de associações feitas entre 
elementos e dados, os quais são apresentados em uma grande quantidade. 
Devido a essa grande quantidade de dados que serão analisados, os padrões e 
associações feitas somente por observação humana poderiam ser ineficientes, 
em caso de que sejam feitas sem um suporte das tecnologias Machine Learning. 
Após o treinamento inicial de um aplicativo ou software de Machine 
Learning ele poderá ser usado em tempo real para aprender sozinho com 
os dados apresentando com maior precisão nos resultados no passar do 
tempo. 
 
Para trabalhar com o sistema de aprendizado de máquina é necessário utilizar 
um certo conjunto de dados. O Big Data permite que os dados sejam 
virtualizados para que possam ser armazenados da maneira mais eficiente e 
87 
 
econômica, seja on premises (instalados localmente) ou na cloud. Além da 
eficiência o Big Data também auxilia na melhoria da velocidade e confiabilidade 
da rede, removendo outras limitações físicas associadas ao gerenciamento de 
dados em grande quantidade. Apesar das vantagens oferecidas no processo, 
uma empresa não necessita ter Big Data para trabalhar com Machine Learning. 
 
2.2 Abordagens de Machine Learning 
 
Técnicas de machine learning são necessárias para melhorar a 
precisão dos modelos preditivos. Dependendo da naturezado problema dos 
negócios em questão, existem diferentes abordagens com base no tipo e no 
volume dos dados. As categorias de machine learning são: 
 
Deep learning (ML / DL) 
 
Deep learning é um método específico de aprendizado de máquina que incorpora 
redes neurais em camadas sucessivas para aprender com os dados de uma 
maneira iterativa.Deep learning é especialmente útil quando você está tentando 
aprender padrões de dados não estruturados. Redes neurais complexas de 
Deep learning são projetadas para emular como o cérebro humano funciona, 
para que os computadores possam ser treinados para lidar com abstrações e 
problemas mal definidos. A criança com cinco anos de idade pode reconhecer 
facilmente a diferença entre o rosto do professor e o rosto do guarda de trânsito. 
Em contraste, o computador deve trabalhar muito para descobrir quem é quem. 
Redes neurais e deep learning são frequentemente usados em aplicativos de 
reconhecimento de imagem, fala e visão computacional. 
 
Aprendizado por reforço 
 
O aprendizado por reforço é um modelo de aprendizado comportamental. 
O algoritmo recebe feedback da análise de dados, orientando o usuário 
para o melhor resultado. O aprendizado de reforço difere de outros tipos de 
aprendizado supervisionado, porque o sistema não é treinado com o 
conjunto de dados de amostra. Em vez disso, o sistema aprende por meio 
88 
 
de tentativa e erro. Portanto, uma sequência de decisões bem-sucedidas 
resultará no processo que deve ser reforçado, para melhor resolução do 
problema em questão. 
 
Aprendizado de máquina supervisionado 
 
O aprendizado supervisionado geralmente começa com um conjunto 
estabelecido de dados e um certo entendimento de como esses dados são 
classificados. O aprendizado supervisionado destina-se a encontrar 
padrões em dados que possam ser aplicados em um processo analítico. 
Esses dados rotulam recursos que definem o seu significado. Por exemplo, é 
possível criar um aplicativo de machine learning que faça a melhor distinção 
entre milhões de animais, com base em imagens e suas descrições. 
 
Aprendizado de máquina não supervisionado 
 
O aprendizado não supervisionado é usado quando o problema requer uma 
grande quantia de dados não rotulados. Por exemplo, aplicativos de mídia social, 
como Twitter, Instagram e Snapchat, têm grandes quantias de dados não 
rotulados. Entender o significado por trás desses dados requer algoritmos que 
classificam os dados com base nos padrões ou clusters encontrados. 
O aprendizado não supervisionado conduz a um processo iterativo, que analisa 
os dados sem intervenção humana. Ele é usado com tecnologia de detecção de 
spam por e-mail. Existem muitas variáveis em e-mails legítimos e de spam para 
que um analista possa marcar um e-mail, em massa que não foi solicitado. Em 
vez disso, os classificadores de machine learning, baseados em cluster e 
associação, são aplicados para identificar e-mails indesejados. 
 
3. FRAMEWORK BIG DATA HADOOP 
Na internet, uma infinidade de dados é gerada diariamente e de forma 
massiva, cerca de 40 mil pesquisas são feitas por segundo no Google. Existem 
diversas soluções de frameworks de Big Data, para que as empresas possam 
89 
 
analisar esses dados e convertê-los em informações relevantes para os 
negócios. Nesta secção estaremos apresentando o framework Apache Hadoop. 
 
Apache Hadoop 
O Hadoop é um framework Open-
source desenvolvido pela Apache e 
baseado na linguagem Java que 
tem como principal objetivo 
processar uma grande quantidade 
de dados de forma mais eficientes 
possível. Hadoop permite executar 
aplicações em sistemas distribuídos através de diversos computadores(nodes), 
envolvendo petabytes de dados. Esse aplicativo funciona em ambientes de 
computação distribuída, nos quais são utilizados clusters. Ele foi projetado para 
realizar a expansão de um servidor único para milhares de outras máquinas, 
cada uma disponibilizando computação local e armazenamento. O Hadoop é 
uma implementação do Map-reduce, paradigma de programação introduzido 
pelo Google com o objetivo de processar e analisar uma quantidade massiva de 
informações. Ele é baseado no Google File System (GFS). 
 
Figura: Google File System 
Fonte: http://hbelbase.com/ 
Quase todos os grandes nomes on-line o utilizam o Hadoop, e como ele 
é um software livre, cada um pode alterá-lo para seus propósitos. As 
http://hbelbase.com/
90 
 
modificações feitas no software por engenheiros da Amazon e Google, por 
exemplo, são realimentadas à comunidade de desenvolvimento. 
3.1 Componentes base do Hadoop 
Figura: Hadoop versão 1.0 
 
 
 
 
 
O Framework do Hadoop é composto por dois módulos principais: o 
módulo de armazenamento e o de processamento. O HDFS (Hadoop 
Distributed File System), gerencia o armazenamento de grandes conjuntos de 
dados, também de forma distribuída. O MapReduce é a implementação de um 
algoritmo responsável por gerir toda a parte do processamento do framework. 
O MapReduce, define uma arquitetura para a realização do 
processamento de conjuntos de dados em paralelo. De modo que possam 
ser executados em vários servidores. A razão para a escalabilidade desse 
paradigma é a natureza intrinsecamente distribuída do funcionamento da 
solução. Uma tarefa complexa é dividida em várias tarefas menores. Elas são 
executadas em máquinas diferentes e posteriormente combinadas para gerar a 
91 
 
solução da tarefa mais complexa. Um exemplo comum de uso do Hadoop é a 
análise de padrões dos usuários em sites de e-commerce. Isso permite que 
novos produtos sejam sugeridos ao usuário. 
3.1.1 Hadoop 2.0 
Os componentes chaves do Hadoop são o modelo de programação 
MapReduce e o sistema de arquivos distribuídos HDFS, versão 1.0. Entretanto 
em meio a sua evolução, novos subprojetos, foram incorporados como 
componentes à arquitetura Hadoop, completando assim uma infraestrutura do 
framework para resolver problemas específicos. 
Podemos dividir em componentes principais e componentes adicionais. 
 
 
Figura: Hadoop versão 2. 
Componentes Principais: 
a. Hadoop Common: aqui são incluídas as bibliotecas Java e demais 
utilitários exigidos para o funcionamento dos outros módulos do 
framework. São essas bibliotecas que fornecem uma abstração do 
sistema de arquivos e do sistema operacional para iniciar o Hadoop; 
b. Hadoop Distributed File System (HDFS)Sistema de arquivos 
distribuídos: um sistema de arquivos distribuídos nativo do Hadoop. 
92 
 
Permite o armazenamento e transmissão de grandes conjuntos de 
dados em máquinas de baixo custo. Possui mecanismos que o 
caracteriza como um sistema altamente tolerante a falhas; 
c. Hadoop MapReduce: implementa um modelo de programação na 
forma de uma biblioteca de classes especializadas no processamento 
de conjuntos de dados distribuídos em um aglomerado computacional. 
Abstrai toda a computação paralela em apenas duas funções Map e 
Reduce; 
d. Hadoop YARN: Significa Yet Another Resource Negotiator é a 
tecnologia de gerenciamento de recursos e agendamento de tarefas 
para vários aplicativos em execução em um cluster Haddop e agendar 
tarefas a serem executadas em diferentes nós do cluster. 
Componentes adicionais 
Aqui são apresentados outros projetos na comunidade Apache que 
adicionam funcionalidades ao Hadoop, como: 
a. Ambari: ferramenta baseada na Web para o suporte, 
gerenciamento e monitoramento de outros módulos Hadoop, como 
HDFS, MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig e 
Sqoop; 
b. Avro: sistema de serialização de dados; 
c. Cassandra: banco de dados escalável, com tolerância a falhas; 
d. Flume e Chukwa: sistemas que tratam da coleta de ocorrências 
(logs) para o monitoramento do Hadoop; 
e. HBase: banco de dados escalável e distribuído que suporta o 
armazenamento de dados estruturados para grandes tabelas; 
f. Hive: infraestrutura de data warehouse que fornecesumarização 
de dados e consultas adhoc; 
g. Mahout: sistema para desenvolvimento de aplicações de 
aprendizagem de máquina e biblioteca com funções de mineração de 
dados; 
93 
 
h. Pig: fornece uma linguagem de consulta de alto nível (PigLatin) 
orientada a fluxo de dados, e uma estrutura de execução para 
computação paralela; 
i. ZooKeeper: serviço de coordenação de alto desempenho para 
aplicações distribuídas. 
j. OOzie - O Apache Oozie é um sistema de agendamento de fluxo de 
trabalho baseado em servidor para gerenciar tarefas do Hadoop. Os fluxos de 
trabalho no Oozie são definidos como uma coleção de nós de controle e fluxo 
de ação em um gráfico acíclico direcionado 
Figura: Hadoop Ecossistema e seus componentes 
Fonte: https://data-flair.training/ 
3.1.2 Funcionamento da arquitetura básica 
https://data-flair.training/
94 
 
 
HDFS 
A arquitetura do HDFS é estruturada em master-slave (mestre-escravo), 
com dois processos principais, que são: 
 Namenode: responsável por gerenciar os dados (arquivos) 
armazenados no HDFS, registrando as informações sobre 
quais datanodes são responsáveis por quais blocos de dados de cada 
arquivo, organizando todas essas informações em uma tabela de 
metadados. Suas funções incluem mapear a localização, realizar a 
divisão dos arquivos em blocos, encaminhar os blocos aos nós escravos, 
obter os metadados dos arquivos e controlar a localização de suas 
réplicas. Como o NameNode é constantemente acessado, por questões 
de desempenho, ele mantém todas as suas informações em memória. 
Ele integra o sistema HDFS e fica localizado no nó mestre da aplicação, 
juntamente com o JobTracker; 
 Datanode: responsável pelo armazenamento do conteúdo dos arquivos 
nos computadores escravos. Como o HDFS é um sistema de arquivos 
distribuído, é comum a existência de diversas instâncias de DataNode 
em uma aplicação Hadoop, permitindo que os arquivos sejam 
particionados em blocos e então replicados em máquinas diferentes. Um 
DataNode poderá armazenar múltiplos blocos, inclusive de diferentes 
arquivos, entretanto, eles precisam se reportar constantemente ao 
95 
 
NameNode, informando-o sobre as operações que estão sendo 
realizadas nos blocos. 
MapReduce 
A arquitetura do MapReduce segue o mesmo princípio master-slave, 
necessitando de três processos que darão suporte à execução das 
funções map e reduce do usuário, a saber: 
 JobTracker: recebe a aplicação MapReduce e programa as tarefas 
map e reduce para execução, coordenando as atividades nos 
TaskTrackers. Sua função então é designar diferentes nós para 
processar as tarefas de uma aplicação e monitorá-las enquanto 
estiverem em execução. Um dos objetivos do monitoramento é, em caso 
de falha, identificar e reiniciar uma tarefa no mesmo nó, ou, em caso de 
necessidade, em um nó diferente; 
 TaskTracker: processo responsável por executar as tarefas de 
map e reduce e informar o progresso das atividades. Assim como os 
DataNodes, uma aplicação Hadoop é composta por diversas instâncias 
de TaskTrackers, cada uma em um nó escravo. Um TaskTracker 
executa uma tarefa map ou uma tarefa reduce designada a ele. Como 
os TaskTrackers rodam sobre máquinas virtuais, é possível criar várias 
máquinas virtuais em uma mesma máquina física, de forma a explorar 
melhor os recursos computacionais; 
 SecondaryNameNode: utilizado para auxiliar o NameNode a 
manter seu serviço, e ser uma alternativa de recuperação no caso de 
uma falha do NameNode. Sua única função é realizar pontos de 
checagem (checkpointing) do NameNode em intervalos pré-definidos, 
de modo a garantir a sua recuperação e atenuar o seu tempo de 
reinicialização. 
3.1.3 Análise de dados 
O Hadoop busca simplificar o processamento paralelo. Ele permite os 
Cientistas de Dados se preocupar com a forma em que os dados devem ser 
96 
 
processados e facilita para que os desenvolvedores não se preocupem com 
problemas relativos ao processamento paralelo. A versão estável do Hadoop 
é a 3.03(31/05/2018). A instalação e configuração do ecossistema do Hadoop 
não é simples, então faz-se necessário a criação de uma plataforma para análise 
de dados com o Hadoop 3, Hive 3 e Spark 2.4. E não é necessário ter um grande 
datacenter, ou seja, é possível em máquinas mais simples como notebooks e 
desktops para estudo, provas de conceito ou demonstração. Na verdade, é 
possível rodas um cluster completo em uma única máquina (com Linux). 
A análise de dados é uma atividade cada vez mais importante para 
empresas e o Hadoop se tornou sinônimo de software para o big data. Neste 
sentido, o ecossistema do Hadoop tem evoluído com a inclusão de novas 
ferramentas para análises, sendo que a primeira dessas ferramentas foi o Hive, 
uma ferramenta de data warehouse. Em seguida, o Spark surgiu como uma 
alternativa mais performática para processamento in-memory, no lugar do 
processamento batch do Hadoop. Estas 3 ferramentas (Hadoop, Hive e Spark) 
estão integradas para entregar uma solução bastante satisfatória para análise 
de dados. 
Apache Hive 
O Apache Hive é um data warehouse para o 
Hadoop e permite a execução de comandos 
SQL. Esta técnica de integração entre Hadoop 
e SQL, conhecida como SQL-on-Hadoop, tem 
se popularizado. O Hive permite escrever o 
ETL (extract, transform and load) para os dados 
corporativos, assim temos a integração do Hive 
com ferramentas de relatório de BI tradicionais. O Hive é uma ferramenta útil 
para conversão de formatos, ou seja, podemos trabalhar com arquivos XML e 
JSON, formatos comuns para a transferência de dados. 
97 
 
Apache Spark 
O Apache Spark é um sistema para 
computação distribuída de alto 
desempenho. Por padrão, o Hive usa 
MapReduce para execução das 
consultas, mas este modelo tem 
performance bastante ruim e não é 
recomendado. O Spark é um mecanismo para processamento de dados de 
propósito geral e pode ser usado em diversas situações. Ele é a base para outras 
soluções como machine learning, grafos, SQL, processamento em tempo real, 
integração de dados e análise interativa. Ele suporta as linguagens de 
programação Java, Python, Scala e a linguagem R. 
 Muito mais do que apenas um mecanismo de execução, o Spark é uma 
das ferramentas mais importantes para os sistemas de big data. 
 
3.1.4 Onde se aplica o Hadoop? 
 
 
Hoje em dia existem diversas aplicações para o Hadoop, abaixo serão 
apresentadas as principais: 
a. Análise e sugestão de produtos – Dentro de um e-commerce, o 
Hadoop pode ser utilizado para verificar, analisar e identificar quais são 
as preferências de um determinado cliente, sugerindo alguns produtos 
que poderiam atender as suas demandas. 
b. Análise de sequência de cliques – Outra aplicação interessante 
para o Hadoop é na análise de sequência de cliques realizados pelo 
usuário, identificando quais são seus maiores interesses. 
c. Processamento de logs – Processar uma quantidade enorme de 
logs de um sistema quando se conta com milhares de usuários pode ser 
98 
 
um grande problema e o framework Hadoop se apresenta como solução. 
É possível utilizá-lo para processar e estruturar uma série de dados 
recebidos de forma não estruturada, facilitando assim a sua análise e 
compreensão por parte da equipe responsável. 
Uma das vantagens do Hadoop é que com ele não é preciso contar com 
um hardware específico para prevenir falhas, pois a própria biblioteca da 
aplicação já realiza o tratamento de possíveis erros. Outra vantagem é que todos 
os servidores que fazem parte do cluster podem ser retirados a qualquer 
momento e o Hadoop se reorganiza e continua a operar normalmente. Seu 
grande diferencial também é o fato de ser Open-Source e não exigir um 
investimento para aquisição do sistema. 
 
99 
 
4. FERRAMENTAS DE BIG DATA E DATA ANALYTICS 
 Ferramentas de BIG DATA 
Abel (2018) em seu artigo elenca as seguintes ferramentas de Big Data: 
a.Import.io – é uma plataforma que serve para 
extrair dados open source, sem precisar digitar 
nenhum tipo de código de acesso. Isso significa 
que todo o ambiente web é visto como um grande banco de dados. Os 
dados coletados serão armazenados na nuvem dos servidores do 
Import.io, podendo ser exportados nos formatos de Excel, CSV, JSON ou 
acessados via Interface de Programação de Aplicações (API). 
b. Oracle Data Mining (ODM) – A mineração de 
dados é uma das etapas da análise de Big Data 
que consiste em “peneirar” as informações mais 
relevantes em meio a todo aquele volume 
coletado. Esta ferramenta fornece poderosos 
algoritmos de mineração de dados que permitem 
aos analistas obterem insights, fazer previsões e alavancar investimentos. 
Com o ODM, é possível criar e aplicar modelos preditivos e fazer 
projeções sobre o comportamento do cliente, desenvolver perfis, 
identificar oportunidades de vendas e detectar possíveis anomalias e 
fraudes. 
c. Statwing – é uma ferramenta muito útil para 
análise estatística. Para utilizá-lo, basta importar 
uma planilha para essa plataforma e os dados serão 
verificados automaticamente. Por meio do Statwing, é possível construir 
relações entre diferentes dados e chegar a conclusões bem 
fundamentadas. A ferramenta também gera tabelas e gráficos 
automaticamente. 
 
100 
 
d. Chartio – permite que seja combinado os 
diferentes dados coletados e crie relatórios 
diretamente no seu navegador. Os arquivos, então, 
poderão ser convertidos em formato PDF e 
enviados por e-mail. Esta ferramenta está 
disponível em versões gratuitas e versões pagas. 
 
e. Pentaho – é uma ferramenta que permite a 
integração das informações com diferentes 
plataformas e softwares. Com o Pentaho é possível 
conectar o Tableau com redes sociais da sua empresa e, a partir disso, 
ser mais eficiente no uso dessas informações. 
f. Pesquisas automatizadas – Contar com todas essas ferramentas ajuda 
a filtrar, selecionar e visualizar dados. Mas, muitas vezes, é necessário 
fazer pesquisas específicas para responder perguntas que ficaram ainda 
sem resposta clara para as peculiaridades do seu negócio. 
 
101 
 
Ferramentas de Data Analytics 
A análise de dados é cada vez mais importante para empresas que 
buscam descobrir insights que possam estar ocultos em um vasto mar de 
dados. As organizações podem obter uma perspectiva tremendamente valiosa 
sobre seus clientes e objetivos comerciais usando ferramentas projetadas para 
organizar, categorizar e inferir conclusões estatísticas de várias fontes de dados. 
As empresas têm muitas ponderações e escolhas a serem feitas ao 
avaliar as ferramentas de análise de dados, mas encontrar o aplicativo correto e 
usar seus recursos com eficácia pode levar a uma transformação radical. 
Matt Kapko, em sua publicação pela revista CIO de 17/03/2019, 
examinou dezenas de fornecedores para identificar os melhores softwares 
gratuitos de análise de dados disponíveis. Depois de avaliar seus pontos fortes 
e limitações, estudar as análises de líderes do setor e analisar classificações de 
várias empresas de pesquisa, selecionou 7(sete) ferramentas a seguir: 
 
a. DataMelt 
O DataMelt, também conhecida como DMelt, é uma plataforma 
computacional para análise estatística de Big Data e visualização 
científica. O programa é usado com mais frequência em ciências 
naturais, engenharia e modelagem e análise de mercados financeiros. A 
plataforma suporta muitas linguagens de programação, incluindo Python, 
BeanShell, Groovy, Ruby, Java e outras. 
As organizações podem acessar vastas bibliotecas por meio de scripts 
dinâmicos, incluindo mais de 40 mil classes Java para computação e 
visualização e 500 módulos Python. Recursos mais avançados exigem uma 
licença de desenvolvedor ou comercial, mas a edição gratuita da DataMelt inclui 
muitos dos principais recursos necessários para explorar, analisar e visualizar 
dados. 
http://jwork.org/dmelt/ 
http://jwork.org/dmelt/
102 
 
 b. KNIME Analytics Platform 
A Plataforma KNIME Analytics foi projetada para ajudar as 
organizações a manipular, analisar e modelar dados por meio de 
programação visual. O software inclui mais de 1 mil módulos, 
centenas de exemplos prontos para uso e uma variedade de ferramentas 
integradas para ajudar os usuários a descobrir possíveis insights ocultos em 
seus dados e prever futuros com o auxílio do aprendizado de máquina. 
Em vez de escrever código, o KNIME permite que as organizações arrastem e 
soltem os pontos de conexão entre as atividades. A ferramenta de análise de 
dados também oferece suporte à combinação de dados entre arquivos de texto 
simples, bancos de dados, documentos, imagens, redes e dados baseados no 
Hadoop em um único fluxo de trabalho visual. A KNIME Analytics Platform é de 
código aberto e atualizada com novos lançamentos em uma base semestral. 
https://www.knime.com/knime-analytics-platform 
 
 c. OpenRefine 
O OpenRefine, antigo Google Refine, ajuda as organizações a 
lidar com dados confusos. O Google deixou de apoiar o projeto 
em 2012, mas o aplicativo ainda está disponível e é atualizado regularmente por 
voluntários. O OpenRefine pode executar várias tarefas em dados, incluindo 
limpeza, transformação e formatação de dados para torná-los mais adequados 
para análise e exploração. A ferramenta também permite que os usuários 
recuperem dados de serviços da Web externos para reconciliar e correlacionar 
dados de várias origens. 
O OpenRefine não é a melhor ferramenta para grandes bancos de dados, mas 
continua sendo uma opção importante e bem vista por muitas organizações, 
devido à quantidade significativa de tempo que os analistas gastam na limpeza 
de dados para modelagem preditiva. 
http://openrefine.org/ 
https://www.knime.com/knime-analytics-platform
http://openrefine.org/
103 
 
 
 d.Orange 
Orange é uma ferramenta de análise e visualização de 
dados de código aberto desenvolvida na Universidade de 
Ljubljana, na Eslovênia. Os usuários podem extrair dados via programação 
visual ou scripts Python em uma janela de terminal; explorar estatísticas, box 
plots ou scatter plots; e aprofundar seus dados com árvores de decisão, 
agrupamento hierárquico, heatmaps e projeções lineares. 
A interface gráfica do usuário da Orange permite que os usuários se concentrem 
na análise exploratória de dados, em vez de codificação. A ferramenta também 
possui componentes para Machine Learning e complementos que estendem a 
funcionalidade de mineração de dados de fontes externas para execução de 
processamento de linguagem natural, mineração de texto, bioinformática, 
análise de rede e mineração de regras de associação. 
https://orange.biolab.si 
 
 e. Linguagem de Programação - R 
A linguagem de programação R é amplamente utilizada para 
pesquisa em metodologia estatística. As organizações também 
podem aproveitar um conjunto integrado de software para manipulação de 
dados, cálculo e exibição gráfica. As principais características estatísticas 
incluem modelagem linear e não linear, testes estatísticos clássicos, análise de 
séries temporais, classificação e agrupamento. 
https://www.r-project.org/ 
 
 f.Tableau Public 
O Tableau Public é um aplicativo de análise e visualização 
de dados que permite aos usuários publicar dados 
interativos na web. A versão gratuita do Tableau é limitada a 1 GB de 
armazenamento de dados e 1 milhão de linhas de dados. A simplicidade e a 
https://orange.biolab.si/
https://www.r-project.org/
104 
 
intuição do Tableau Public tornaram-no uma das ferramentas de análise de 
dados mais populares. 
O Tableau Public pode extrair dados do Planilhas Google, do Microsoft Excel, 
arquivos CSV, arquivos JSON, arquivos estatísticos, arquivos espaciais, 
conectores de dados da Web e OData. Os usuários podem gerar gráficos 
interativos, gráficos e mapas para serem compartilhados em mídias sociais ou 
incorporadosem sites para disponibilidade pública. 
https://public.tableau.com/pt-br/s/download 
 
g. Trifacta Wrangler 
O Trifacta Wrangler é outro aplicativo projetado para ajudar 
os analistas de dados a limpar e preparar dados confusos 
de diversas fontes. Depois que os conjuntos de dados são importados para o 
Trifacta Wrangler, o aplicativo organizará e estruturará os dados 
automaticamente. Algoritmos de aprendizado de máquina ajudam a preparar 
dados para análises mais detalhadas, sugerindo transformações e agregações 
comuns. 
O Trifacta Wrangler pode importar dados do Microsoft Excel, arquivos JSON e 
arquivos CSV brutos. A ferramenta também faz o perfil dos dados para indicar a 
porcentagem de linhas com valores ausentes, incompatíveis ou inconsistentes e 
categoriza visualmente os dados por tipo, como a data ou hora, a string ou o 
endereço IP associado a cada ponto de dados. 
https://www.trifacta.com/products/wrangler 
 
https://public.tableau.com/en-us/s/download
https://www.trifacta.com/products/wrangler/
105 
 
 
Referências Bibliográfica 
INTEL. Guia de Planejamento: saiba mais sobre Big Data. 2013. 
Disponível em em: 
https://www.intel.com.br/content/dam/www/public/lar/br/pt/documents/articles/90
318386-1-por.pdf. Acesso em:10/01/2020. 
LIMA JUNIOR, W.T. Jornalismo Computacional em função da Era do Big 
Data. SBPJor – Associação Brasileira de Pesquisadores em Jornalismo. In: 
9º. Encontro Nacional de Pesquisadores em Jornalismo. Rio de Janeiro, 
Universidade Federal do Rio de Janeiro, 3 a 5 nov.2011. 
Referências on Line 
Big Data Analytics: você sabe o que é e como funciona? Disponível em: 
https://www.voitto.com.br/blog/artigo/big-data-analytics. Acesso em :12/01/2020 
O que é o framework hadoop Disponível em : https://gaea.com.br/o-que-e-o-
framework-hadoop-nos-te-ensinamos/ . Acesso em: 06/06/2019. 
Plataforma de Big Data para análise de dados com o Hadoop. Disponível em: 
http://blog.marcoreis.net/plataforma-de-big-data-para-analise-de-dados-com-
hadoop-3-hive-3-e-spaprk-2-4/ . Acesso em 08/01/2020. 
What is Big Data. Disponível em : https://www.guru99.com/what-is-big-
data.html#1. Acesso em 08/12/2019. 
Machine Learning. Disponível em : https://www.ibm.com/br-
pt/analytics/machine-learning. Acesso em 12/01/2020. 
7 ferramentas gratuitas de análise de dados. Diponível em : 
https://cio.com.br/7-ferramentas-gratuitas-de-analise-de-dados-que-voce-deve-
conhecer/. Acesso em 12/01/2020. 
 
 
 
 
https://www.intel.com.br/content/dam/www/public/lar/br/pt/documents/articles/90318386-1-por.pdf
https://www.intel.com.br/content/dam/www/public/lar/br/pt/documents/articles/90318386-1-por.pdf
https://www.voitto.com.br/blog/artigo/big-data-analytics.%20Acesso%20em%20:12/01/2020
https://gaea.com.br/o-que-e-o-framework-hadoop-nos-te-ensinamos/
https://gaea.com.br/o-que-e-o-framework-hadoop-nos-te-ensinamos/
http://blog.marcoreis.net/plataforma-de-big-data-para-analise-de-dados-com-hadoop-3-hive-3-e-spaprk-2-4/
http://blog.marcoreis.net/plataforma-de-big-data-para-analise-de-dados-com-hadoop-3-hive-3-e-spaprk-2-4/
https://www.guru99.com/what-is-big-data.html#1
https://www.guru99.com/what-is-big-data.html#1
https://www.ibm.com/br-pt/analytics/machine-learning.%20Acesso%20em%2012/01/2020
https://www.ibm.com/br-pt/analytics/machine-learning.%20Acesso%20em%2012/01/2020
https://cio.com.br/7-ferramentas-gratuitas-de-analise-de-dados-que-voce-deve-conhecer/
https://cio.com.br/7-ferramentas-gratuitas-de-analise-de-dados-que-voce-deve-conhecer/
106 
 
 
 
 
 
Sugestão de Leitura: 
 
 
 
https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-
Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-
%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7
=1031803&cm_mmca8=aud-311016886972:kwd-
26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXO
HiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=
b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nC
mgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds 
 
https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds
https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds
https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds
https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds
https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds
https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds
https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds
https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds107 
 
UNIDADE IV – Alternativas em BD para BigData 
 
Objetivos: 
 
Apresentar uma visão do modelo de Banco de Dados NoSQL, suas vantagens 
enfatizando as características de cada tipo de estrutura; 
Entender a aplicação do Banco de Dados In - Memory, sua arquitetura, 
tecnologias, a persistência dos dados; 
Definir como iniciar um projeto de BigData, o Business Case, realizar o 
planejamento, definir os requisitos técnicos, e realizar uma avaliação do valor 
total do negócio. 
 
 
108 
 
INTRODUÇÃO 
 
Nesta unidade, estaremos verificando que com o surgimento da Web 2.0 e o 
crescimento do volume de dados, o modelo de banco de dados, conhecido como 
NoSQL, tem se destacado no mercado, propondo alto desempenho, e 
processamento de grandes volumes de dados não-estruturados. Os bancos de 
dados NoSQL possuem características particulares em relação a recuperação 
de dados ou formas de consulta: de uma maneira geral, os comandos são 
semelhantes à sintaxe tradicional do SQL, porém não há um padrão da 
linguagem entre as famílias NoSQL e, o nível de conhecimento exigido dos 
usuários para escrever simples consultas é mais avançado do que nos SGBD 
relacionais. Também será abordado os conceitos de os Bancos de Dados In-
Memory, sua arquitetura e tecnologias. Um banco de dados em memória (IMDB), 
é um sistema de gerenciamento de banco de dados que basicamente depende 
da memória principal para armazenamento de dados de computador. Nas etapas 
para a criação de um projeto de Big Data bem-sucedido é necessária uma 
profunda compreensão dos problemas de negócios que se desejar resolver e do 
valor que se deseja obter. 
 
109 
 
1. O que são Banco de Dados NoSql 
 
NoSQL (originalmente se referindo a "no SQL": "não SQL" ou "não 
relacional", posteriormente estendido para Not Only SQL - Não Somente SQL) 
é um termo genérico que representa os bancos de dados não relacionais. 
Cerca de 80% do Big Data são dados não estruturados. Armazenar e 
processar esses dados em bancos relacionais não é uma tarefa viável, 
considerando principalmente que eles não foram concebidos com esse objetivo. 
Exatamente aí os bancos de dados NoSQL estão senso usados cada vez mais, 
para atender aplicações analíticas criadas na era do Big Data. 
Desenvolvedores e especialistas analisam a dificuldade, às vezes a 
impossibilidade, de utilizar modelos relacionais para armazenar todos esses 
dados mantendo uma escalabilidade dinâmica e a performance necessária com 
o aumento dos dados. 
Para utilizarmos todos esses dados que geramos a todo momento, e 
extrair informações, é necessário ferramentas especiais. Dentre todas 
as ferramentas, desde ferramentas para armazenamento, extração, análise, 
formatação, etc. Começamos pela forma como armazenamos essa grande 
quantidade de dados. É aí que entra o NoSQL. 
1.1 Por que usar um banco de dados NoSQL? 
 
Os bancos de dados NoSQL são ideais para muitos aplicativos 
modernos, como dispositivos móveis, Web e jogos, que exigem bancos de dados 
flexíveis, escaláveis, de alta performance e altamente funcionais para 
110 
 
proporcionar ótimas experiências aos usuários. As vantagens para a utilização 
de um banco de dados NoSQL são: 
 Flexibilidade: os bancos de dados NoSQL geralmente fornecem 
esquemas flexíveis que permitem um desenvolvimento mais rápido e iterativo. 
O modelo de dados flexível torna os bancos de dados NoSQL ideais para dados 
semiestruturados e não estruturados. 
 Escalabilidade: os bancos de dados NoSQL geralmente são 
projetados para serem escalados horizontalmente usando clusters distribuídos 
de hardware, em vez de escalá-los verticalmente adicionando servidores caros 
e robustos. Alguns provedores de nuvem lidam com essas operações nos 
bastidores como um serviço totalmente gerenciado. 
 Alta performance: o banco de dados NoSQL é otimizado para 
modelos de dados específicos (como documento, chave-valor e gráfico) e 
padrões de acesso que permitem maior performance do que quando se tenta 
realizar uma funcionalidade semelhante com bancos de dados relacionais. 
 Altamente funcional: os bancos de dados NoSQL fornecem APIs e 
tipos de dados altamente funcionais criados especificamente para cada um de 
seus respectivos modelos de dados. 
1.2 Estruturas ou Categorias de bancos de dados NoSQL 
 
Os bancos de dados NoSQL usam diversos modelos/estruturas para 
acessar e gerenciar dados, como documento, gráfico, chave-valor, em memória 
e pesquisa. Esses tipos de banco de dados são otimizados especificamente para 
aplicativos que exigem modelos de grande volume de dados, baixa latência e 
flexibilidade. Esses requisitos são atendidos mediante o relaxamento de algumas 
restrições de consistência de dados dos outros bancos. 
111 
 
 
Abaixo a descrição de cada estrutura, publicada no site da Micreiros.com 
Chave-valor: consiste em uma modelagem que indexa os dados a 
uma chave. Ao se armazenar os dados, sua forma de procura se dá 
por uma base similar a um dicionário, onde estes possuem uma 
chave. Esta forma de armazenamento é livre de “schema”, permite a inserção de 
dados em tempo de execução, sem conflitar o banco e não influenciando na 
disponibilidade, pois seus valores são isolados e independentes entre si. Nesta 
categoria, os dados são armazenados no formato key-value (chave-valor) e os 
valores (dados) são identificados pelas chaves. É possível armazenar bilhões de 
registros de forma eficiente e o processo de escrita é bem rápido. Os dados 
podem ser então pesquisados através das chaves associadas. Alguns exemplos 
são: Oracle NoSQL, Riak, Azure Table Storage, BerkeleyDB e Redis. Figura 1. 
 
Documento: consiste em uma estrutura baseada em uma coleção 
de documentos, sendo um documento um objeto que contém um 
código único com um conjunto de informações, podendo ser strings, 
documentos aninhados ou ainda listas. Inicialmente pode ser semelhante ao 
modelo de chave-valor (Key-value), no entanto, diferencia-se por ter um conjunto 
de documentos e cada um destes receber um identificador único, assim como 
as chaves, dentro da coleção. Ao se armazenar os dados em JSON, o 
desenvolvimento é facilitado, pois há suporte a vários tipos de dados. Esta 
categoria de Bancos de Dados NoSQL permite o armazenamento de milhões de 
112 
 
documentos. Por exemplo, você pode armazenar detalhes sobre um empregado, 
junto com o currículo dele (como um documento) e então pesquisar sobre 
potenciais candidatos a uma vaga, usando um campo específico, como telefone 
ou conhecimento em uma tecnologia. 
Exemplos destes são o MongoDB e CouchBase. Figura 2 
Grafos: Este modelo de armazenamento utiliza três componentes 
básicos: um grafo para representar um dado, arrestas ou ligações 
para representar a associação entre os grafos e os atributos (ou 
propriedades) dos nós e relacionamentos. Esta categoria de Bancos de Dados 
NoSQL, geralmente é aderente a cenários de rede social online, onde os nós 
representam as entidades e os laços representam as interconexões entre eles. 
Desta forma, é possível atravessar o grafo seguindo as relações. Esta categoria 
tem sido usada para lidar com problemas relacionados a sistemas de 
recomendação e listas de controle de acesso, fazendo uso de sua capacidade 
de lidar com dados altamente interligados. Alguns exemplos são: Neo4J, 
OrientedDB, GraphBase e InfiniteGraph. Figura 3 
 Colunas: Este modelo foi inicialmente desenvolvido baseado no 
Big Table do Google (é o armazenamento nas nuvens que é utilizado por 
diversas aplicações do Google). De todos os modelos de armazenamento 
NoSQL, provavelmente o orientado a colunas seja o mais complexo. Esse 
modelo também é considerado uma extensão do armazenamento orientado a 
chave-valor e possui conceitos similares ao do modelo relacional, como a criação 
de linhas e colunas. Neste modelo, as entidades são representadas por tabelas 
e os dados gravados em disco. São bancos dedados indicados para mídias 
sociais e problemas que envolvem consultas complexas. Também chamados 
bancos de dados orientados a coluna, os dados são organizados em grupos de 
colunas e tanto o armazenamento, quanto as pesquisas de dados são baseados 
em chaves. São exemplos de bancos orientados a coluna o HBase e o 
Cassandra. Figura 4 
 
 
 
113 
 
Figura 1 – Exemplo de organização de um banco de dados NoSQL chave-valor. 
 
Figura 2 – Exemplo de organização de um banco de dados NoSQL documento. 
 
Figura 3 – Exemplo de organização de um banco de dados NoSQL grafos. 
 
Figura 4 – Exemplo de organização de um banco de dados NoSQL colunas. 
114 
 
 
Fonte: http://nosql-database.org/ 
 
 
 
1.3 Principais Banco de dados NoSQL 
De acordo com o levantamento, feito em fevereiro de 2018, pela revista 
on line Ciencia e Dados, aponta como principais mecanismos de banco de dados 
NoSQL: MongoDB, Redis, Cassandra, HBase, Amazon DynamoDB e Neo4j. 
115 
 
 
1. MongoDB 
O MongoDB é um document store e o atual líder no segmento de banco de dados 
NoSQL. Como é o requisito para os engines NoSQL, o MongoDB não usa um 
esquema relacional, em vez disso, usa “documentos” semelhantes ao formato 
JSON (Java Script Object Notation), para armazenar dados. O documento é 
semelhante a um registro, com campos e valores. O MongoDB suporta 
esquemas dinâmicos, é um software livre e de código aberto. 
2. Cassandra 
Originalmente desenvolvido no Facebook, Cassandra é um mecanismo de 
banco de dados descentralizado, distribuído e orientado a coluna. É otimizado 
para clusters, especialmente aqueles em vários datacenters, e graças à sua 
atualização assíncrona e design sem mestre (master), o Cassandra fornece 
acesso de baixa latência a clientes. Como o MongoDB, também é gratuito e de 
código aberto. Cassandra é um banco de dados orientado por coluna, o que 
significa que suas linhas realmente contêm o que geralmente pensamos como 
dados verticais, ou o que é tradicionalmente realizado em colunas relacionais. A 
vantagem do design de banco de dados orientado por coluna é que alguns tipos 
de pesquisas de dados podem se tornar muito rápidos, uma vez que os dados 
desejados podem ser armazenados consecutivamente em uma única linha. 
https://www.mongodb.com/
http://cassandra.apache.org/
116 
 
3. Redis 
O Redis é a implementação key-value store mais popular e amplamente 
utilizado. O que é um key-value store? É um paradigma simples: onde se atribui 
valores às chaves para facilitar o acesso e o armazenamento desses valores, 
que sempre são encontrados através das suas chaves. O Redis mantém seus 
pares de valores-chave na memória, tornando seu acesso rápido. Se a 
durabilidade dos dados pode ser sacrificada principalmente com dados não 
críticos, ou em situações de somente leitura. 
4. HBase 
Outro banco de dados orientado a coluna, o HBase é uma implementação 
gratuita e aberta do BigTable do Google. Embora a HBase seja um legítimo 
software por direito próprio, sua popularidade e seu uso generalizado, sem 
dúvida, vem da sua estreita associação com o Hadoop, pois faz parte do projeto 
Apache. Isso facilita a busca eficiente de dados dispersos e distribuídos, que é 
um dos seus pontos mais fortes. O HBase possui uma série de implementações 
em gigantes da internet, incluindo LinkedIn, Facebook e Spotify. 
5. Amazon DynamoDB 
O Amazon DynamoDB é um serviço de banco de dados NoSQL em nuvem 
oferecido pela AWS (Amazon Web Service). O DynamoDB é rápido e flexível 
para todas as aplicações que precisam de latência constante abaixo de 10 
milissegundos em qualquer escala. O serviço é um banco de dados em nuvem 
totalmente gerenciado e é compatível com os modelos de armazenamento de 
documentos e de chave-valor. 
6. Neo4j 
Neo4j é o sistema de gerenciamento de banco de dados baseado em grafos 
(ou Graph Database), sendo o sistema mais popular desta categoria em uso 
atualmente. Um Graph Database é baseado em arestas que atuam como 
relacionamentos entre os vértices (ou nodes), relacionando diretamente 
https://redis.io/
https://hbase.apache.org/
http://www.cienciaedados.com/processamento-de-dados-com-hadoop/
https://aws.amazon.com/pt/dynamodb/
https://neo4j.com/
117 
 
instâncias de dados umas com as outras. Como outros na lista, o Neo4j também 
possui uma implementação de código aberto. Os bancos de dados baseados 
em grafos (e o Neo4j) têm vantagens em alguns casos de uso, incluindo 
determinados cenários de mineração de dados e reconhecimento de padrões, 
uma vez que as associações entre instâncias de dados são explicitamente 
declaradas. 
1.4 Banco de dados SQL (relacional) x NoSQL(não relacional) 
 
Com a crescente popularização da internet, diversos novos dados foram 
surgindo e tratá-los foi se tornando gradualmente mais complexo e sua 
manutenção cada vez mais cara. Embora existam muitos tipos de bancos de 
dados NoSQL com recursos variados, a tabela a seguir, disponibilizada pela 
AWS mostra algumas das diferenças entre os bancos de dados SQL (relacional) 
e NoSQL (não relacional). 
 
 
Na tabela abaixo é possível verificar algumas das características de um 
Banco de Dados SQL e um de um Banco de Dados NoSQL. 
SQL NoSQL 
SQL é um Banco de Dados 
Relacional 
NoSQL não é um Banco de dados 
Relacional 
118 
 
SQL é baseado em tabelas NoSQL é baseado em Documento 
É predefinido esquemas para a 
estrutura de dados 
É dinamico os esquemas para a 
estrutura de dados 
SQL é verticalmente escalavel NoSQL é horizontalmente escalável 
SQL não é adequado para trabalho 
hierarquico 
NoSQL é o mais adequado para 
trabalho hierárquico. 
 
 
 
 
 
 
 
 
 
119 
 
 
Fonte: https://aws.amazon.com/pt/nosql/ 
 
A cada dia, o tema do Big Data vem crescendo no contexto das 
aplicações web, no qual o volume, variedade e velocidade de informações tem-
se tornado uma preocupação para as organizações. O aumento contínuo de 
dispositivos conectados à internet é surpreendente. A Internet das Coisas já é 
realidade, onde tudo pode estar conectado à rede. E a quantidade de dados 
gerados a todo momento é algo gigantesco. Em todos os setores, imagina a 
quantidade de transações que acontecem o tempo inteiro em bancos de dados 
do mundo inteiro. Nesse contexto, surgiram os SGBDs NoSQL com o objetivo 
de prover uma modelagem de dados simplificada, possibilitando ganhos de 
desempenho, maior grau de escalabilidade, flexibilidade e disponibilidade. Por 
outro lado, os SGBDs NoSQL não são uma novidade simples de ser adotada. 
Por essa razão, identificar critérios para seleção de SGBDs NoSQL se mostra 
importante, até porque para se desenvolver um software que vai crescer 
(escalar) MUITO, a melhor alternativa é um NoSQL. 
 
https://aws.amazon.com/pt/nosql/
120 
 
2. In-Memory Databases 
Bancos de dados em memória principal são sistemas computacionais de 
gerência de bancos de dados onde toda a massa de dados está armazenada em 
memória principal, ao invés de estar em discos rígidos como ocorre na maior 
parte dos casos. 
Para ser capaz de processar grandes volumes de dados no ritmo 
imposto pela Internet of Things (IoT), um Database Of Things (DoT) usa sistema 
de armazenamento In-Memory em vez do tradicional armazenamento em disco 
atualmente usado. O principal propósito do Banco de Dados In-Memory é o 
“alocamento” na memória principal feito justamente para facilitar o acesso de 
aplicações que precisam de informações em tempo real. 
 
Nos sistemas de armazenamento In-Memory (IMDS), os dados são 
armazenados em formato compacto e não relacional na memória principal. Por 
isso, um IMDS gerencia grandes volumes de informação com muito mais 
agilidade e eficiência que os bancos de armazenamento em disco. Os 
bancos de dados In-Memory geralmente demandam menos da memória da 
CPU, propiciando o processamento e a consulta de informações com um curto 
tempo de resposta. Justamente por issoé que os sistemas IMDS vêm sendo 
121 
 
usados como DoT por organizações, permitindo a análise de dados para auxiliar 
na tomada de decisões. 
De acordo com David Matos em sua publicação na revista eletrônica Data 
Science for professional, trabalhar com dados na memória é muito mais rápido 
do que escrever e ler a partir de um sistema de arquivos, e IMDSs podem 
executar funções de gerenciamento de dados das aplicações em uma ordem de 
magnitude muito maior. O design é tipicamente mais simples do que a de 
bases de dados em disco e IMDSs também podem impor requisitos de 
memória e CPU significativamente mais baixos. IMDS fornece tempos de 
resposta de consulta extremamente rápidos, In-Memory databases podem 
reduzir ou eliminar a necessidade de indexação de dados, armazenamento de 
dados pré-agregados em cubos OLAP ou tabelas agregadas. Esta capacidade 
reduz os custos de TI e permite uma implementação mais rápida de aplicações 
Analytics e Business Intelligence. 
 
2.1 Arquitetura do Banco de Dados In-Memory 
 
O Banco de Dados In-Memory possui alguns pontos que o diferencia dos 
bancos convencionais, sendo: 
 O armazenamento é feito diretamente na memória principal, ou seja, 
memória RAM; 
 Seus algoritmos e mecanismos são mais simples; 
 É mais simples se comparado aos SGBDs comuns; 
 
De acordo com o artigo “Banco de dados In-Memory”, publicado por João Mello 
Correia, da revista on line Micreiros: “Os bancos de dados em memória irão 
sim utilizar o disco rígido ou memórias flash, para a persistência de dados. É 
como se um backup estivesse nessa memória permanente porém o processo e 
execução dos dados ocorre diretamente na RAM. Aí está o ganho de 
performasse sem correr o risco de perder informação. Dessa forma a utilização 
dos dados sempre presentes na memória otimiza a performance eliminando o 
122 
 
tempo duplo gasto na transferência dos arquivos do banco de dados para o 
buffer e vice-versa.” 
 
 
2.2 Tecnologia de Banco de Dados In-Memory 
A agilidade trazida por Banco de Dados In-Memory é fundamental para 
realizar a análise de informações em tempo real, o que assegura uma resposta 
mais rápida ao mercado, garantindo inovação ao seu negócio para o 
aproveitamento das oportunidades. A tecnologia ainda contribui para a redução 
de custos com TI, já que ela diminui a necessidade de investimento em 
hardwares e manutenção de banco de dados. 
A Forrester (uma empresa de pesquisa americana), divulgou um 
relatório com os principais bancos de dados em memória que estão sendo 
usados como Database of Things. Algumas das soluções mais significantes 
atualmente: 
123 
 
 Aerospike 
 Altibase 
 DataStax 
 IBM DB2 com BLU acceleration e dashDB 
 Kognitio 
 MemSQL 
 Microsoft SQL Server 2014 
 Oracle TimesTen e Oracle 12c In-Memory 
 Pivotal 
 SAP Hana 
 Teradata Intelligent Memory 
 VoltDB 
Dentre as diversas soluções de Banco de Dados In-Memory a empresa 
ArtSoft Sistemas publicou em seu blog a respeito da tecnologia SAP HANA. 
Em testes realizados, o SAP HANA (SAP High Performance Analytic 
Appliance) trouxe resultado 1000 vezes maior para o processamento de dados 
que os bancos de dados convencionais. Um resultado e tanto para considerar a 
aplicação em sua empresa e obter acesso às informações de forma mais ágil. 
Esta ferramenta de computação In-Memory da SAP transfere a análise de dados 
em grande volume dos discos rígidos para a memória principal dos servidores. 
Isso significa que todas as aplicações do produto SAP são combinadas com a 
tecnologia para uma maior velocidade e precisão no processamento dos dados 
de sua empresa, influenciando na agilidade de decisões para o aproveitamento 
das oportunidades de negócio em seu mercado de atuação. O principal fator 
disso é que, com o SAP HANA, não mais haverá necessidade de depender de 
um DBA para o acesso a estas informações, o que propicia análises em tempo 
real. 
Fazer rápido é essencial. E fazer certo é fundamental, aqui 
acompanhamos ferramentas que de fato influenciam na velocidade e 
performance para trabalhar as informações. Deve-se sempre analisar sempre a 
situação, e verificar qual é a solução ideal para sua empresa. 
http://www.aerospike.com/
http://altibase.com/
http://www.datastax.com/
https://www-01.ibm.com/software/data/db2/linux-unix-windows/db2-blu-acceleration/
http://kognitio.com/
http://www.memsql.com/
http://www.oracle.com/technetwork/products/timesten/faq-091526.html
http://pivotal.io/
http://hana.sap.com/abouthana.html
http://www.teradata.com/Resources/White-Papers/Teradata-Intelligent-Memory/?LangType=1033&LangSelect=true
https://voltdb.com/
124 
 
3. ETAPAS PARA CRIAÇÃO DE UM PROJETO BIG DATA 
 
A empresa Analitycs10 em seu blog destaca que: 
“Os sistemas disruptivos estão transformando os modelos de 
negócio. O uso de ferramentas analíticas já está consolidando nos 
mais diferentes nichos de mercado. A era do Big Data obrigou as 
corporações a procurar meios de se atualizar e seguir adiante com 
esta nova realidade de mercado. Na verdade, a maioria das 
organizações já entendeu que devem promover a integração de 
plataformas. Sejam elas ERP (Sistema Integrado de Gestão 
Empresarial) ou CRM (Gerenciamento de Relacionamento com o 
Cliente). E mesmo sistemas customizados próprios, RH (Recursos 
Humanos), WMS (Warehouse Management System), arquivos em 
excel ou txt ou dados das redes sociais.” 
Para que seja possível realizar esta integração de plataformas, faz-se 
necessário a elaboração de um Projeto Big Data. Vamos apresentar aqui uma 
versão fundamentada academicamente nas fases do processo de análise 
sugerido pelo Big Data, e algumas etapas/dicas que foram coletadas de um 
apanhado de publicações. 
 Conforme ZHENG et all (2013), o Big Data Analytics explora grandes 
quantidades de dados estruturados e não estruturados para fornecer resultados 
inteligentes e em tempo real, permitindo que os usuários executem 
provisionamento, análise e colaboração de autoatendimento. O Big Data 
Analytics é tipicamente hospedado na Web, multi-tenancy (é a capacidade da 
aplicação suportar a execução de diversos usuários ou grupos de usuários que 
possuem alguma ligação e precisam do funcionamento dela de uma forma 
específica) e usa o Hadoop, noSQL e uma variedade de tecnologias de 
descoberta de padrões e aprendizado de máquina. Os usuários normalmente 
executavam scripts e consultas que cientistas e programadores de dados 
desenvolveram para gerar relatórios e visualizações. Várias abordagens de 
análise de big data podem ser implementadas e encapsuladas em 
serviços. Dessa maneira, os usuários poderão interagir facilmente com os 
125 
 
serviços de análise baseados na Web, sem se preocupar com os procedimentos 
subjacentes de armazenamento, gerenciamento e análise de dados. 
Para que as empresas tenham sucesso na implementação de Big Data é 
necessário seguir as seguintes fases do processo, representado na figura 1. 
 
Figura 1. The Big Data Analysis Pipeline 
Fonte: https://cra.org/ccc/wp-content/uploads/sites/2/2015/05/bigdatawhitepaper.pdf 
A coleta de dados ou aquisição e agravação é a primeira fase do 
processo de Big Data. Nesse momento devem ser analisados o volume e a 
variedade dos dados que serão coletados. É necessário que se faça uma 
limpeza, formatação e validação dos dados coletados, para que sejam 
eliminados erros, dados incompletos e incoerentes, evitando assim contaminar 
análises futuras. 
Depois disso vem a fase de integração, agregação e representação dos 
dados obtidos, pois diferentes tipos e formatos de dados devem receber 
tratamentos específicos. Nesta fase é importante definir categorias de dados e 
critérios de validação e aceitação, também critérios de segurança variam de 
acordo com as fontes de dados. 
https://cra.org/ccc/wp-content/uploads/sites/2/2015/05/bigdatawhitepaper.pdf
126 
 
Em seguida encontra-se a fase de análise emodelagem dos dados. Como se 
trata de dados de diversas fontes para serem analisados, requer conhecimento 
elevado por parte dos usuários. Aqui entra o, “datascientist” um profissional com 
habilidades em ciência da computação, matemática, estatística e conhecimento 
de negócio. Esta fase também requer investimentos em pesquisas de novas 
formas de visualização, que ajudam na melhor interpretação dos dados, que 
se trata da última fase do pipeline. 
De acordo com a equipe da DSA (Data Science Academy) em sua 
publicação de 28/07/2018, o Big Data está transformando os negócios e as 
decisões e aplicações em dados que criam vantagem competitiva para as 
empresas, utilizando fontes de dados para descobrir, apresentar e 
operacionalizar importantes insights empresariais. Não é mais uma questão de 
usar ou não Big Data na tomada de decisões, mas sim como o Big Data deve 
ser utilizado de forma eficiente. 
Um projeto de Big Data irá variar dependendo do caso de uso específico 
e perfil da empresa, existem 4 etapas principais para implementar com sucesso 
um projeto de Big Data: 
a. Definição do Business Case – com objetivos claramente definidos que 
geram valor comercial para o negócio da empresa. 
b. Planejamento do Projeto – um plano e um escopo bem geridos levarão ao 
sucesso. 
c. Definição dos Requisitos Técnicos – os requisitos detalhados assegurarão 
que você construa o que precisa para alcançar seus objetivos. 
d. Criação de um “Total Business Value Assessment” – uma visão holística 
que deve desconsiderar decisões políticas e emocionais. 
 
É importante ressaltar que um projeto de Big Data Analytics deve ser 
uma decisão de negócio, não uma decisão do departamento de TI, cujo papel 
deve ser o suporte para que a solução seja implementada de maneira eficiente, 
profissional e com baixo custo. 
 
127 
 
3.1 Definição do Business Case 
 
À medida que as empresas exploram Big Data, os requisitos de negócios variam 
amplamente do crescimento da receita para a diferenciação do mercado. As 
empresas percebem os benefícios mais significativos dos projetos de Big Data 
quando começam com um inventário de desafios e metas de negócio e 
rapidamente os reduzem para aqueles que esperam fornecer o maior retorno. 
Para explorar as expectativas da organização em projetos de Big Data, é 
recomendado responder estas perguntas primeiro: 
• Qual é o objetivo do projeto? 
• Em que direção o negócio está indo? 
• Quais são os obstáculos para chegar lá? 
• Quem são os principais interessados e quais são seus papéis? 
• Qual é o caso de uso de Big Data mais importante determinado pelas 
principais partes interessadas? 
Outras questões mais específicas, podem ser aplicadas. 
• Determinar os objetivos de alto nível da empresa e como Big Data pode 
suportar esses objetivos. 
• Identificar a área problemática, como marketing, atendimento ao cliente 
ou desenvolvimento de negócios, e as motivações por trás do projeto. 
• Descrever o problema e os obstáculos em termos não-técnicos. 
• Fazer um inventário de quaisquer soluções e ferramentas usadas 
atualmente para solucionar o problema comercial. 
• Considerar as vantagens e desvantagens das soluções atuais. 
• Navegar no processo para iniciar novos projetos e implementar 
soluções. 
• Identificar as partes interessadas que se beneficiarão do projeto de Big 
Data. 
• Entrevistar as partes interessadas individualmente para determinar os 
objetivos e preocupações do projeto. 
• Documentar os objetivos comerciais decididos pelos principais 
tomadores de decisão. 
• Atribuir prioridades aos objetivos de negócio. 
• Criar o Business Case, detalhando todos os itens anteriores. 
128 
 
 
3.2 Planejamento do Projeto 
Esta etapa pretende construir um objetivo concreto e específico acordado pelas 
partes interessadas do projeto. É nesta será necessário: 
• Especificar metas esperadas em termos comerciais mensuráveis. 
• Identificar todas as questões comerciais com a maior precisão possível. 
• Determinar quaisquer outros requisitos de negócio quantificáveis. 
• Definir como seria uma implementação bem-sucedida de Big Data. 
É importante definir critérios de sucesso e objetivos específicos. E ao determinar 
os critérios de sucesso, é importante escolher critérios mensuráveis, como uma 
métrica de desempenho chave específica. 
As tarefas seguintes são considerações que poderá ser utilizada para garantir 
que se tenha capturado corretamente os critérios de sucesso: 
• Com a maior precisão possível, documentar os critérios de sucesso 
para este projeto. 
• Certificar de que cada objetivo comercial identificado tenha um critério 
mensurável que determinará se esse objetivo foi cumprido com sucesso. 
• Compartilhar e obter aprovação de seus critérios de sucesso entre os 
principais interessados. 
• Determinar o escopo adequado, especificamente o que está incluído e 
o que não está incluído. 
•Desenvolver um orçamento aproximado. 
• Definir uma linha de tempo e marcos de sucesso em 3 meses, 6 meses 
e um ano. 
 
3.3 Definição dos Requisitos Técnicos 
A fase de requisitos técnicos envolve uma análise mais detalhada dos dados 
disponíveis para o projeto de Big Data. Esta etapa permitirá que se determine a 
qualidade de seus dados e descreva os resultados dessas etapas na 
documentação do projeto. É importante entender quais ferramentas são usadas 
e a arquitetura em que são usadas, como se encontra sua infraestrutura atual e 
o inventário de todas as ferramentas usadas atualmente. Isso é importante pois 
o projeto de Big Data não será algo isolado, mas sim integrado à infraestrutura 
atual da empresa. 
129 
 
Considerar quais fontes de dados serão aproveitadas: 
• Fontes de dados existentes. Isso inclui uma grande variedade de 
dados, como dados transacionais, dados de pesquisa, logs de 
servidores, dados de redes sociais, arquivos pdf, etc. Considerar se as 
fontes de dados existentes são suficientes para atender às 
necessidades. 
• Comprar fontes de dados. Se organização usar dados suplementares, 
como dados demográficos, pode ser relevante para o processo de 
análise e complementação dos dados existentes. 
• Fontes de dados adicionais. Se as fontes acima não atenderem às 
necessidades, talvez seja necessário realizar pesquisas ou iniciar o 
rastreamento adicional para complementar os dados existentes. 
Ao examinar as fontes de dados, deve-se perguntar: 
• Quais atributos do (s) banco (s) de dados parecem mais promissores? 
• Quais atributos parecem irrelevantes e podem ser excluídos? 
• Há dados suficientes para tirar conclusões generalizáveis ou fazer 
previsões precisas? 
• Existem muitos atributos para o seu método analítico escolhido? 
• Está mesclando várias fontes de dados? Em caso afirmativo, existem 
áreas que podem representar um problema na fusão? 
• Já considerou como os valores em falta (missing data) são tratados em 
cada uma das suas fontes de dados? 
• Será usado Streaming de Dados? Como esses dados serão coletados 
e armazenados? 
Há muitas maneiras de descrever os dados, mas a maioria das descrições se 
concentra na quantidade e qualidade dos dados. Abaixo são apresentadas 
algumas características-chave para descrever os dados: 
 Volume de dados. Para a maioria das técnicas analíticas, existem trade-
offs associados ao tamanho dos dados. Grandes conjuntos de dados 
podem produzir modelos mais precisos, mas também podem aumentar o 
tempo de processamento. 
 Velocidade dos dados. Há também trade-offs associados com os dados 
em repouso ou em movimento (estático ou em tempo real). A velocidade 
130 
 
se traduz em quão rápido os dados são criados dentro de um 
determinado período de tempo. 
 Variedade de dados. Os dados podem ter uma variedade de formatos, 
como numérico, categórico (string) ou Booleano (verdadeiro / falso). 
Prestar atenção ao tipo de dado pode evitar problemas durante análises 
posteriores. Frequentemente,os valores no banco de dados são 
representações de características como gênero ou tipo de produto. Por 
exemplo, um conjunto de dados pode usar M e F para representar 
masculino e feminino, enquanto outro pode usar os valores numéricos 1 
e 2. Observe qualquer esquema conflitante nos dados. 
 Tempo para a ação. Os dados podem ser usados para tomar medidas 
imediatas, além de serem armazenados para futuras análises sem tempo 
crítico. É importante identificar quais dados provavelmente serão usados 
para ações em tempo real (<150ms), ações próximas em tempo real 
(segundos) ou ações críticas sem tempo (minutos a horas). 
Considerar quais interfaces e ferramentas são necessárias para que sua 
empresa trabalhe com suas fontes de dados. Além da implementação da 
infraestrutura, o projeto de Big Data deve oferecer a capacidade de criar 
aplicativos e análises personalizadas usando API e ferramentas nativas como 
parte do Hadoop, bancos de dados e processamento de fluxo – além de 
interfaces abstraídas e unificadas para melhorar a experiência do usuário. Os 
usuários devem ter a capacidade de produzir tabelas, gráficos e outros 
elementos de visualização usando ferramentas de BI, como: Business Objects, 
Microstrategy, Cognos, Tableau, Datameer ou outras ferramentas similares. Tais 
análises visuais podem ajudar a abordar os objetivos do projeto de Big Data 
definidos durante a fase de compreensão do negócio. Outras vezes, é mais 
apropriado utilizar ferramentas que suportem análises estatísticas e construção 
de modelos de Machine Learning: R, Python, Java, Scala, SAS, Matlab, etc. E 
oferecer suporte a aplicações de Inteligência Artificial. 
Isso tudo leva a mais um grupo de questões que devem ser respondidas: 
• Quem precisa trabalhar com os dados? 
• Quais são suas habilidades técnicas? 
• Treinamento será necessário? 
• Quais ferramentas que a empresa possui e que gostaria de aproveitar? 
131 
 
• Essas ferramentas possuem conectores de Big Data ou métodos de 
interface? 
• Quais novas ferramentas podem ajudar com a mineração de dados, 
análise, visualização, relatórios, etc.? 
• Como e onde os dados serão armazenados? 
• Serão utilizados Data Lakes? Em nuvem ou on-premises? 
• Arquiteturas de Enterprise Data Hubs serão consideradas? 
• Quais são as ferramentas de relatórios e visualização necessárias para 
alcançar o sucesso aos olhos dos usuários finais? 
3.4 Criação de um “Total Business Value Assessment” 
Avaliar as opções com um “Total Business Value Assessment”, significa que será 
realizada pelo menos uma análise de custo total de propriedade de 3 anos, e 
incluir itens como o “time-to-business value”, facilidade de uso, 
escalabilidade, base em padrões e o nível de maturidade da empresa. 
Um Projeto de Big Data, exige muito trabalho, e o ambiente da 
organização deve estar propício ao desenvolvimento do projeto. Trata-se da 
disseminação da cultura orientada a dados, mudar o mindset do “eu acho” para 
“eu tenho certeza”. Esclarecer a todos, que os dados possuem valor, promover 
a sinergia e comunicação transparente, para que isso não seja entrave à 
execução de projetos futuros. 
As etapas de Big Data podem variar de acordo com as características 
do negócio e os objetivos que estão sendo perseguidos. Contudo, pontos como 
o estabelecimento de metas, o garimpo e validação das informações e a 
integração de dados são elementares em qualquer abordagem. Seguindo esses 
passos, será possível a geração de insights que possibilitam decisões mais 
efetivas e o sucesso do negócio. 
 
132 
 
 
 
 
 
 
 
 
 
 
# VOCÊ SABIA # 
# Segundo levantamento realizado pelo Gartner, em 
2020 75% das organizações já vão, ou pretendem 
investir em Big Data 
# A previsão do IDC é de que em 2020 sejam 
gerados 35 trilhões de gigabytes. 
https://www.gartner.com/en
https://www.idc.com/
133 
 
Referência Bibliográficas/ Referências OnLine 
 
Challenges and opportunities with big data, leading researchers across the 
United States, Tech. Rep., 2011. 
Machine Learning with Big Data: Challenges and Approaches in IEEE 
Access PP(99):1-1 · April 2017 with 4,829 Reads DOI: 
10.1109/ACCESS.2017.2696365 
Pereira, R.C.: Banco de dados em memória principal, um estudo de caso: 
Oracle Timesten solução de alto desempenho. Dissertação de mestrado 
profissionalizante submetida ao departamento de Engenharia Elétrica da 
Faculdade de Tecnologia da Universidade de Brasília. 2010 
 
ZHENG, Z.; ZHU, J. and LYU, M.R. Service-generated Big Data and Big Data-
as-a-Service: An Overview. 2nd IEEE International Congress on Big Data, 
Santa Clara Marriott, CA, USA, June 27-July 2, 2013. 
 
6 passos de como implementar Big Data. Disponível: 
https://www.siteware.com.br/gestao-estrategica/como-implementar-big-data/ 
6 dicas para implementar o Big Data na sua empresa. Disponível em: 
https://eleflow.com.br/2016/12/19/6-dicas-para-implementar-o-big-data-na-sua-
empresa-2/. Acesso em: 12/01/2020 
Bando de Dados In Memory. Disponível em: http://micreiros.com/bando-de-
dados-In-Memory/. Acesso em 30/11/2019. 
 
Como iniciar um projeto de Big Data Analytics? Disponível em: 
http://datascienceacademy.com.br/blog/como-iniciar-um-projeto-de-big-data-
analytics/. Acesso em: 12/01/2020 
 
Entenda como o In Memory computing é essescial para aproveitar as 
oportunidades do mercado. Disponível em: 
https://www.artsoftsistemas.com.br/blog/entenda-como-o-In-Memory-
computing-e-essencial-para-aproveitar-as-oportunidades-do-mercado. Acesso 
em 20/10/2019. 
 
Entenda quais são as principais etapas de Big Data. Disponível: 
https://blog.leucotron.com.br/etapas-de-big-data/. Acesso em:10/01/2020 
 
Fases do processo de análise sugerido pelo Big Data. Disponível: 
https://www.devmedia.com.br/big-data-tutorial/30918. Acesso em: 12/01/2020 
 
 
ORACLE. Extreme Performance Using Oracle TimesTen In-Memory 
Database. Disponível em: 
https://www.oracle.com/technology/products/timesten/pdf/wp/wp_timesten_tech
.pdf,2009. Acesso em:10/10/2019. 
 
https://www.researchgate.net/journal/2169-3536_IEEE_Access
https://www.researchgate.net/journal/2169-3536_IEEE_Access
https://www.siteware.com.br/gestao-estrategica/como-implementar-big-data/
https://eleflow.com.br/2016/12/19/6-dicas-para-implementar-o-big-data-na-sua-empresa-2/
https://eleflow.com.br/2016/12/19/6-dicas-para-implementar-o-big-data-na-sua-empresa-2/
http://micreiros.com/bando-de-dados-In-Memory/
http://micreiros.com/bando-de-dados-In-Memory/
http://datascienceacademy.com.br/blog/como-iniciar-um-projeto-de-big-data-analytics/
http://datascienceacademy.com.br/blog/como-iniciar-um-projeto-de-big-data-analytics/
https://www.artsoftsistemas.com.br/blog/entenda-como-o-In-Memory-computing-e-essencial-para-aproveitar-as-oportunidades-do-mercado.%20Acesso%20em%2020/10/2019
https://www.artsoftsistemas.com.br/blog/entenda-como-o-In-Memory-computing-e-essencial-para-aproveitar-as-oportunidades-do-mercado.%20Acesso%20em%2020/10/2019
https://www.artsoftsistemas.com.br/blog/entenda-como-o-In-Memory-computing-e-essencial-para-aproveitar-as-oportunidades-do-mercado.%20Acesso%20em%2020/10/2019
https://blog.leucotron.com.br/etapas-de-big-data/
https://www.devmedia.com.br/big-data-tutorial/30918
https://www.oracle.com/technology/products/timesten/pdf/wp/wp_timesten_tech.pdf,2009
https://www.oracle.com/technology/products/timesten/pdf/wp/wp_timesten_tech.pdf,2009
134 
 
Quando e como implementar Big Data? Disponível: 
https://blog.geekhunter.com.br/quando-e-como-implementar-big-
data/#A_base_para_um_projeto_de_Big_Data. Acesso em: 10/01/2020 
Top 6 NoSQL Database. Disponível em : http://www.cienciaedados.com/top-6-
nosql-databases/ 
https://dicasdeprogramacao.com.br/6-motivos-para-usar-bancos-de-dados-
nosql/. Acesso em 25/11/2019 
 
Why Big Data project fail and to make – 2017. Disponível em: 
https://www.networkworld.com/article/3170137/why-big-data-projects-fail-and-
how-to-make-2017-different.html. Acesso em: 15/01/2020. 
 
How to starta Big Data Analytics Project. Disponível em: 
https://www.javacodegeeks.com/2014/02/how-to-start-a-big-data-analytics-
project.html. Acesso em 15/01/2020 
http://www.agiledata.org 
https://www.gartner.com/en/newsroom 
https://www.mongodb.com/agile-development 
https://nosql-database.org/ 
 
Sugestão de Leitura: 
 
 
https://blog.geekhunter.com.br/quando-e-como-implementar-big-data/#A_base_para_um_projeto_de_Big_Data
https://blog.geekhunter.com.br/quando-e-como-implementar-big-data/#A_base_para_um_projeto_de_Big_Data
http://www.cienciaedados.com/top-6-nosql-databases/
http://www.cienciaedados.com/top-6-nosql-databases/
https://dicasdeprogramacao.com.br/6-motivos-para-usar-bancos-de-dados-nosql/
https://dicasdeprogramacao.com.br/6-motivos-para-usar-bancos-de-dados-nosql/
https://www.networkworld.com/article/3170137/why-big-data-projects-fail-and-how-to-make-2017-different.html
https://www.networkworld.com/article/3170137/why-big-data-projects-fail-and-how-to-make-2017-different.html
https://www.javacodegeeks.com/2014/02/how-to-start-a-big-data-analytics-project.html
https://www.javacodegeeks.com/2014/02/how-to-start-a-big-data-analytics-project.html
http://www.agiledata.org/
https://www.gartner.com/en/newsroom
https://www.mongodb.com/agile-development
https://nosql-database.org/

Mais conteúdos dessa disciplina