Buscar

Fundamentos-de-Big-Data---eBook

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 134 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 134 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 134 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
 
 
2 
 
Sumário 
UNIDADE I – Fundamentos de Big Data ................................................................................ 4 
INTRODUÇÃO ........................................................................................................................ 5 
1. O QUE É BIG DATA? ...................................................................................................... 6 
1.1 Tipos de Big Data ....................................................................................................... 8 
1.2 A importância e o volume do big data ............................................................... 10 
2. OS 5 V’S DO BIG DATA................................................................................................ 12 
2.1 Razões para implantar um Big Data ................................................................... 16 
3. DESAFIOS PARA SE EXTRAIR O VALOR DO BIG DATA ................................... 20 
3.1 Áreas em potencial de aplicação do Big Data ................................................. 21 
4. CASES DE SUCESSO DE APLICAÇÃO DO BIG DATA ........................................ 24 
5. ARMAZENAMENTO DE DADOS COM O BIG DATA ............................................. 34 
5.1 O que é a computação na nuvem ........................................................................ 34 
5.1.1 Aplicações da Cloud Computing ................................................................. 35 
5.1.2. Exemplos de computação em nuvem: SaaS, PaaS e IaaS ................... 36 
Referências Bibliográficas ............................................................................................... 40 
UNIDADE II – Business Analytics .......................................................................................... 43 
INTRODUÇÃO ...................................................................................................................... 44 
1. O QUE É BUSINESS ANALYTICS.............................................................................. 45 
1.1. Introdução à Data Mining ..................................................................................... 46 
1.1.1. Linhagens do Data Mining ............................................................................ 48 
1.1.2. Aplicando Data Mining em um ambiente de negócio ............................ 50 
1.1.3 Principais características de Data Mining, BI e Big Data ...................... 51 
2. AS DIFERENTES METODOLOGIAS DE BUSINESS ANALYTICS ...................... 54 
2.1 Business Intelligence x Business Analytics .................................................... 57 
3. ÁREAS DE NEGÓCIOS PARA A APLICAÇÃO DE BUSINESS ANALYTICS .... 59 
3.1. Marketing Analytics ............................................................................................... 60 
3.2. RH Analytics ............................................................................................................ 61 
3.3. Financial Analytics ................................................................................................. 64 
3.4. Fraud Analytics (Análise para Detectação de Fraudes) ............................... 67 
3.5. Text Analytics .......................................................................................................... 70 
3.6. Social Network Analytics ...................................................................................... 72 
4. CERTIFICAÇÕES DE BUSINESS ANALYTICS ........................................................ 73 
Referências Bibliográficas ............................................................................................... 78 
UNIDADE III – Ferramentas de Data Analytics e Big Data ............................................... 81 
INTRODUÇÃO ...................................................................................................................... 82 
3 
 
1. O QUE É DATA ANALYTICS ........................................................................................ 83 
1.1 Cultura de Data Analytics ...................................................................................... 83 
1.2 Como funciona o Data Analytics? ....................................................................... 84 
2. INTRODUÇÃO AO APRENDIZADO DE MÁQUINA (MACHINE LEARNING) ..... 86 
2.1 O aprendizado de uma plataforma de Machine Learning ............................. 86 
2.2 Abordagens de Machine Learning ...................................................................... 87 
3. FRAMEWORK BIG DATA HADOOP ......................................................................... 88 
3.1 Componentes base do Hadoop ........................................................................... 90 
3.1.1 Hadoop 2.0 ......................................................................................................... 91 
3.1.2 Funcionamento da arquitetura básica ........................................................ 93 
3.1.3 Análise de dados ........................................................................................ 95 
3.1.4 Onde se aplica o Hadoop? ............................................................................. 97 
4. FERRAMENTAS DE BIG DATA E DATA ANALYTICS ........................................... 99 
Referências Bibliográfica ............................................................................................... 105 
UNIDADE IV – Alternativas em BD para BigData ............................................................. 107 
INTRODUÇÃO .................................................................................................................... 108 
1. O que são Banco de Dados NoSql .......................................................................... 109 
1.1 Por que usar um banco de dados NoSQL? .................................................... 109 
1.2 Estruturas ou Categorias de bancos de dados NoSQL .............................. 110 
1.3 Principais Banco de dados NoSQL ............................................................. 114 
1.4 Banco de dados SQL (relacional) x NoSQL(não relacional) ...................... 117 
2. In-Memory Databases ................................................................................................. 120 
2.1 Arquitetura do Banco de Dados In-Memory ................................................... 121 
2.2 Tecnologia de Banco de Dados In-Memory .................................................... 122 
3. ETAPAS PARA CRIAÇÃO DE UM PROJETO BIG DATA ................................ 124 
3.1 Definição do Business Case ............................................................................... 127 
3.2 Planejamento do Projeto ..................................................................................... 128 
3.3 Definição dos Requisitos Técnicos .................................................................. 128 
3.4 Criação de um “Total Business Value Assessment” ................................... 131 
Referência Bibliográficas/ Referências OnLine ....................................................... 133 
 
 
 
 
 
 
4 
 
UNIDADE I – Fundamentos de Big Data 
 
Objetivos: 
Demonstrar as características e o conceito de Big Data; 
Entender as razões para se implantar o Big Data; 
Apresentar cases de aplicação do Big Data. 
 
 
5 
 
 
INTRODUÇÃO 
 
Nesta unidade será demonstrado as características e o conceito de Big Data, 
que é utilizado para descrever dados que possuem alto volume, velocidade e 
variedade. O Big Data aprimora os processos de trabalho dos usuários, ao obter 
interpretações rápidas e valiosas sobre as tendências do mercado, 
comportamento de consumo e oportunidades potenciais. Veremos também que 
com o Big Data é possível saber exatamente o que os clientes querem, 
estudando seus hábitos de consumo. O conhecimento das necessidades do 
cliente faz com que possa ser oferecido instantaneamenteo que ele deseja. Com 
o Big Data ´pode-se prevenir possíveis riscos para o negócio através das 
análises em tempo real de distintas variáveis do mercado. O grande diferencial 
do Big Data é auxiliar as organizações no conhecimento profundo dos seus 
negócios e as fazer perceber como chegar à combinação ideal de dados e 
informações sobre o cliente e o mercado, dados que favorecem a estratégia, 
eficácia, aceitação da proposta de valor e faz com que as empresas alcancem 
avanços na realização dos objetivos estratégicos da empresa. 
 
 
 
 
 
6 
 
 
1. O QUE É BIG DATA? 
 
 
 
 
 
O conceito de BIG DATA está sendo muito difundido atualmente em 
função das demandas dos diferentes tipos de dados que temos que armazenar 
diariamente. Outra definição é que BIG DATA se refere a um conjunto muito 
grande de dados que nenhuma ferramenta convencional de gerenciamento de 
banco de dados ou gerenciamento de informações consegue armazenar os 
diferentes tipos de dados existentes como: 
 Texto; 
 Sensores; 
 Navegação Web; 
 Áudio; 
 Vídeo; 
 Arquivos de Log; 
 Centrais de ar condicionado entre outros. 
 
Agora imagine a quantidade imensa de dados que estamos gerando 
diariamente na internet, desde simples e-mail até infinitas mensagens em 
chats, tweets, curtidas, publicações de vídeos e imagens, posts em blogs e 
muito mais. Nossos smartphones também são fábricas de dados que 
produzem informações 24 horas por dia, e a Internet das Coisas (IoT) vai 
estender esse poder a todos os dispositivos que temos acesso. 
O objetivo do Big Data é extrair um grande volume de dados 
estruturados e não-estruturados, organizá-los e analisá-los a fim de se obter 
7 
 
insights para negócios e prever uma determinada situação. Pode-se dizer 
que os dados são extraídos de qualquer lugar. Abaixo estão listadas algumas 
origens: 
 Redes Sociais – Facebook, instagram, twitter etc; 
 Websites – Google, Portal de Notícias, Mapas etc; 
 Sistemas – ERP, CMS, etc; 
 Aplicativos – Posição Geográfica, Gosto Musical, Fotografia; 
 Banco de Dados – da internet (externos), de empresas 
(internos); 
 Pacote Office – Excel, Access, Word; 
 Máquinas e acessórios tecnológicos. 
As organizações necessitam de uma tecnologia de armazenamento para 
guardar uma quantidade massiva que vem de diferentes plataformas, por 
exemplo: mensagens que enviamos, vídeo que publicamos, informações sobre 
o tempo, sinais de GPS, registros transacionais de compras on-line. Esses tipos 
de dados não possuem uma estrutura padronizada. Com isso, a utilização de um 
data center comum não é recomendada para armazenar esse tipo de 
informação, sendo a melhor solução para essa situação a aplicação de um Big 
Data. Com o auxílio de um Big Data, a empresa pode utilizar todos os dados 
coletados para realização de análises específicas com a finalidade de extrair 
conhecimento relevante para subsidiar as tomadas de decisão estratégicas dos 
negócios. Assim, as soluções de Big Data “tratam” os dados brutos até que se 
transformem em insights poderosos para a tomada de decisão. Para isso, são 
desenvolvidas a partir de algoritmos que capturam e cruzam dados de várias 
naturezas. 
Desse modo, uma montanha de dados soltos pode se tornar uma fonte 
valiosa de informação e conhecimento. O que caracteriza a arquitetura 
tecnológica envolvida no Big Data é sua capacidade de captura, armazenamento 
e análise muito superior à dos softwares de bancos de dados comuns. Para 
construir essa arquitetura, é preciso unir a TI aos Cientistas de Dados para focar 
esforços na solução de problemas empresariais por meio dos dados. 
8 
 
Uma das tecnologias centrais nessa revolução é a computação em 
nuvem, pois somente esse tipo de infraestrutura pode dar suporte ao 
armazenamento e processamento do Big Data. 
1.1 Tipos de Big Data 
O Big Data pode ser encontrado em três formas: 
a. Estruturado 
b. Não estruturado 
c. Semi-estruturado 
 
a. Estruturado – Quaisquer dados que possam ser armazenados, 
acessados e processados na forma de formato fixo são denominados dados 
“estruturados”. 
Exemplo de dados estruturados: Tabela: Cliente 
Id_Cli Cpf_Cli Nome_Cli End_Cli Tel_Cli Cidade_Cli Limite_Cli 
001 072387747-31 Monica Silva Rua Franca, 
234 
(44)999767611 Maringá R$5000,00 
002 082387747-32 Arthur 
Fredagolli 
Rua Itália, 234 (44)988767612 Maringá R$1500,00 
002 092387747-33 Regina 
Bezerra 
Rua Espanha, 
234 
(44)995667613 Cascavel R$8000,00 
002 062387747-34 Augusto 
Santo 
Rua Inglaterra, 
234 
(44)888765614 Cascavel R$3000,00 
b. Não estruturado – Qualquer dado com forma ou estrutura 
desconhecida é classificado como não estruturado. Além do tamanho ser 
grande, os dados não estruturados apresentam vários desafios em termos de 
processamento para extrair valores deles. Um exemplo é uma fonte de dados 
heterogênea que contém uma combinação de arquivos de texto simples, 
imagens, vídeos e etc. Hoje em dia as organizações têm muitos dados 
disponíveis, mas infelizmente não sabem como extrair valor disso, pois esses 
dados estão em sua forma bruta ou formato não estruturado. 
9 
 
Exemplo de dados não estruturados: O retorno de uma pesquisa 
realizada em um navegador. 
 
c. Semiestruturado - Os dados semiestruturados são uma forma de 
dados estruturado que não está de acordo com a estrutura forma dos modelos 
de dados associados com banco de dados relacionais ou outras formas de 
tabelas de dados, mas que contem tags ou outros marcadores para separa 
elementos semânticos e impor hierarquias de registros e campos dentro dos 
dados. 
Exemplo de dados semiestruturados: Dados pessoais armazenados em 
um arquivo XML 
<rec> <name> João Lima </name> <sex> Masculino </sex> <age> 35 </age> </rec> 
<rec> <name> Sonia R. </name> <sex> Feminino </sex> <age> 41 </age> </rec> 
<rec> <name> Regina F. </name> <sex> Feminino </sex> <age> 29 </age> </rec> 
<rec> <name> Cristina L. </name> <sex> Feminino </sex> <age> 26 </age> </rec> 
<rec> <name> Cicero A. </name> <sex> Masculino </sex> <age> 35 </age> </rec> 
 
 
 
10 
 
1.2 A importância e o volume do big data 
De acordo com o Instituto Gartner até 2020 é possível que haja um total 
de 40 trilhões de gigabytes de dados no mundo. São surpreendentes 2,2 milhões 
de terabytes de novos dados gerados todos os dias. 
A quantidade de dados gerados e armazenados diariamente, não 
suporta mais uma estrutura centralizada de processamento de dados, 
principalmente nas grandes organizações. O uso do Big Data nas organizações 
tem por objetivo principal conhecer o comportamento do consumidor, e saber 
os motivos que levam o cliente a se comportar de tal forma. 
Sendo assim, podemos dizer que o Big Data é importante para ajudar as 
empresas a analisar os seus dados e utilizá-los na identificação de novas 
oportunidades. Podemos observar que com a aplicação do Big Data nas 
organizações existem alguns benefícios que independente do modelo de 
negócios, são aplicáveis a quaisquer empresas, são eles: economia de tempo, 
redução de custos, otimização de ofertas, fornecimento de novos produtos, 
maiores lucros, clientes mais satisfeitos e decisões mais eficientes. 
Imagine em todos os e-mails, mensagens de Twitter, fotos e vídeos que 
circulam na rede a cada instante. Não se utiliza mais, apenas unidade de 
informação Terabyte (1.000.000.000.000 (1012), e sim Zettabyte 
(1.000.000.000.000.000.000.000 (1021) e Brontobyte 
((1.000.000.000.000.000.000.000.000.000 (1027). 
Só no Facebook são 10 bilhões de mensagens, 4,5 bilhões de curtidas e 
350 milhões de fotos compartilhadas todos os dias. A tecnologia do Big Data 
11 
 
serve exatamente para lidar com esse volume de dados, guardando-os em 
diferentes localidades, e juntando-os através de software. 
Portanto, a sua importância não gira em torno apenas de como ou 
quanta informação chega até você e sua empresa, mas sim os insights e osvalores gerados após análises. Essas analises, se utilizam de técnicas que não 
eram empregadas em uma escala empresarial. Os resultados ajudam em 
diversas decisões estratégicas do negócio. 
“O que mais importa não é se você tem os dados, mas sim como vai usá-
los. […] A gente precisa entender que a pirâmide inverteu. As 
informações existem e precisamos saber interpretá-las rapidamente”. 
Fábio Sayeg, fundador e CEO da ZOLY. 
Para ter um resultado positivo, não basta apenas ter os dados, é 
necessário compreender todo o processo de gestão e análise dos mesmos 
(coleta, armazenamento, organização e análise, além de mantê-los sempre 
atualizados, transformado esses dados em informações relevantes para a 
organização. 
 
12 
 
2. OS 5 V’S DO BIG DATA 
O conceito Big Data então propõe formas de tratar os dados e retirar 
deles informações para serem utilizados estrategicamente e oferecer uma 
abordagem consistente no tratamento do constante crescimento e da 
complexidade dos dados. Para tanto, o conceito considera os 5 V´s do Big Data: 
o Volume, a Velocidade, a Variedade, a Veracidade e o Valor. 
o Volume, se o Big Data se refere aos dados que circulam todos os 
dias, entre as organizações, certamente estamos falando de uma 
grande quantidade de dados. Aqui trata-se do Volume de dados 
mantidos e analisados por ferramentas matemáticas corretas que 
podem contribuir com informações valiosas, como perfis, tendências 
e etc. Diariamente usamos aplicativos de pagamento, de compras, de 
redes sociais, GPS, relacionamento, buscadores, comparadores de 
preços, aplicativos de saúde e bem-estar, especializados em 
atividades físicas, músicas e etc, tudo isso gera dados e metadados 
que serão agrupados para formar o “BIG” volume de dados a 
disposição das análises. 
a Velocidade, o mercado atual demanda por velocidade o tempo 
todo, e o Big Data é um conceito que não pode funcionar se não 
houver agilidade. A análise de dados deve ser instantânea, caso 
contrário as informações obtidas podem não ser úteis para a 
organização. Este V se refere à velocidade com que os dados são 
criados. São mensagens de redes sociais se viralizando em 
segundos, transações de cartão de crédito sendo verificadas a cada 
instante ou os milissegundos necessários para calcular o valor de 
compra e venda de ações. Esta tarefa demanda de arquiteturas de 
computação específicas e também softwares especializados para 
garantir que haja processamento adequado de dados para extração 
das informações necessárias. 
a Variedade, uma das boas qualidades do Big Data é a variedade de 
dados obtidos por meio de diversos caminhos, como documentos 
eletrônicos, e-mails, transações, etc. No passado, a maior parte dos 
13 
 
dados era estruturada e podia ser colocada em tabelas e relações. 
Hoje, 90% dos dados do mundo não se comportam dessa forma. Com 
o Big Data, mensagens, fotos, vídeos e sons, que são dados não-
estruturados, podem ser administrados juntamente com dados 
tradicionais. Então o Big Data beneficia-se de dados originados em 
diferentes aplicações, de diferentes modelos, em mídias diferentes 
para compor efetivamente o seu volume de dados a ser aproveitado. 
Esta variedade é benéfica e desejável para o modelo, uma vez que 
nem sempre aplicações com estruturas de dados relacionais formais 
comportam tudo o que pode ser aproveitado para gerar 
conhecimento. 
a Veracidade, se o volume de dados disponíveis para análise é 
grande, certamente existe uma parcela da informação que não traz 
veracidade. Infelizmente, a confiabilidade dos dados, principalmente 
aqueles provenientes da rede, ainda não é 100% confiáveis. Um dos 
pontos mais importantes de qualquer informação é que ela seja 
verdadeira. Com o Big Data não é possível controlar cada hashtag do 
Twitter ou notícia falsa na internet, mas com análises e estatísticas de 
grandes volumes de dados é possível compensar as informações 
incorretas. A qualificação da fonte, a determinação de padrões, a 
confiabilidade do processo de captura e também, o processo de 
cruzamento de novos dados com outros existentes e sobretudo a 
compreensão dos dados capturados ajudam a definir a sua 
Veracidade é consequentemente o nível de confiabilidade da 
informação gerada. 
o Valor, o último V é o que torna Big Data relevante (o resultado do 
Big Data), de nada adianta um grande volume de dados, velocidade 
no processamento, fontes diferentes e dados verificados se estes não 
possuem, agregam valor ou justificam o esforço do processo de 
consegui-los. É importante que empresas entrem no negócio do Big 
Data, mas é sempre importante lembrar dos custos e benefícios e 
tentar agregar valor ao que se está fazendo. 
14 
 
 
 
 
Com o avanço de novos tipos de negócios, resultando em novos tipos 
de dados houve a necessidade de serem incluídos mais 2 V´s a Visualização e 
Variabilidade, no tratamento dos tipos de dados que possuem um Big Data. 
a Visualização, é fundamental no mundo atual, o uso de gráficos e 
tabelas para visualizar grandes quantidades de dados complexos é 
muito mais eficaz na transmissão de significados do que planilhas e 
relatórios repletos de números e fórmulas. 
a Variabilidade é diferente da variedade. Um café pode oferecer 6 
misturas diferentes de café, mas se você obter a mesma mistura todos 
os dias e o gosto for diferente a cada dia, isso é variabilidade. O 
mesmo acontece com os dados, se o significado estiver mudando 
constantemente, isso pode ter um impacto enorme na 
homogeneização de dados. 
15 
 
 
 
Um estudo feito pela “Universe of Opportunities and Challenges” aponta que até 
2020 o volume de dados gerados diariamente será de 40 trilhões de gigabyte. 
Especialistas estimam que um carro autônomo poderá gerar até 100 gigabytes 
por segundo. 
 
 
 
 
Á medida que o mundo vai ficando cada vez mais conectado com um 
número cada dia maior de dispositivos eletrônicos gerando, enviando e 
recebendo dados, esse número terá um aumento astronômico nos próximos 
anos. 
 
16 
 
2.1 Razões para implantar um Big Data 
 
 A produção de dados cresce exponencialmente no mundo todo. As 
empresas buscam alternativas para utilizar corretamente essas informações. 
Ter a capacidade de analisar e atuar sobre os dados é cada vez mais importante. 
O ritmo do mercado atual exige que elas possam reagir rapidamente às 
mudanças nas demandas dos clientes e condições ambientais, e apenas com 
dados é possível tomar tais decisões complexas com o máximo de precisão. 
Podemos apresentar no mínimo 3 vantagens gerais para a aplicação do Big 
Data são elas: 
 
 A primeira vantagem do Big Data é a capacidade de interpretar 
grande quantidade de dados de uma só vez. 
 A segunda é a capacidade de analisar dados não estruturados, 
esta capacidade de trabalhar dados não estruturados permite ao 
Big Data analisar informações de diferentes fontes, aumentando 
assim sua abrangência. 
 A terceira vantagem geral é a capacidade de interpretar 
tendências de eventos, auxiliando a visualização de situações 
futuras. Estas tendências podem ser de ordem econômica, de 
aceitação de produtos, ou até climáticas. 
O Big Data possui também vantagens específicas, Cordeiro (2017) apresenta 
as vantagens do Big Data em diferentes áreas de negócios: 
Serviços Financeiros por meio de análise de dados muitas instituições 
financeiras acompanham as manifestações emocionais 
dos clientes pelas mídias sociais, diagnosticando com 
antecedência as insatisfações e ganhando tempo para 
neutralizá-las antes da migração entre instituições, ou 
fechamento de contas, no caso dos bancos. 
Varejo por meio da coleta e análise de dados, empresas de varejo 
costumam identificar os hábitos e preferências de consumo de 
clientes e informações sociais e demográficas. Com isso, 
aumentam o número de vendas e elaboram programas de 
fidelidade mais atraentes. Outro exemplo é o levantamentode 
dados de antigos clientes e cruzamento com dados de produtos 
17 
 
preferidos por eles a partir disso, gera-se descontos em 
produtos específicos atraindo novamente o cliente. 
Saúde A geração de informações clinícas contribui para fortalecer a 
medicina de precisão, gerando diagnósticos mais exatos. Além 
disso, o Big Data pode auxiliar monitorando as manifestações 
de uma população em redes sociais e, dessa forma, prevendo 
possíveis casos de eclosão de epidemias e dando tempo às 
instituições de saúde se adequarem. 
Setor público com o cruzamento de dados de pessoas por meio de diferentes 
fontes, os gestores públicos podem identificar cenários de cri 
mes financeiros. Outra vantagem do Big Data é monitorar o 
nível de satisfação da população e gerar insights para 
implementação de novos projetos ou soluções para problemas 
detectados. 
Ensino análise de dados pode ajudar educadores a identificar alunos 
em risco e assegurar progressos dos alunos. 
Manufatura por meio da visão que o Big Data pode fornecer, os fabricantes 
podem aumentar a quantidade e qualidade da produção, 
minimizando o desperdício, criando valor e contribuindo para a 
lucratividade do negócio 
 
Outras atividades de negócios estão elecandas no artigo “O que é Big 
Data” publicado pela Oracle Big Data Solutions, são eles: 
Desenvolvimento de 
produtos 
Empresas como Netflix e Procter & Gamble usam big data para 
antecipar a demanda dos clientes. Eles criam modelos 
preditivos para novos produtos e serviços, classificando os 
principais atributos de produtos ou serviços passados e atuais 
e modelando a relação entre esses atributos e o sucesso 
comercial das ofertas. Além disso, a P&G utiliza dados e 
análises de grupos de foco mídias sociais, mercados de teste e 
lançamentos antecipados de lojas para planejar, produzir e 
lançar novos produtos. 
Manutenção Preditiva Fatores que podem prever falhas mecânicas podem estar 
profundamente relacionados a dados estruturados que 
abrangem milhões de entradas de log, dados de sensores, 
mensagens de erro e temperatura do motor. Ao analisar essas 
indicações de possíveis problemas antes que eles ocorram, as 
empresas podem implementar a manutenção de maneira mais 
econômica e maximizar o tempo de atividade de peças e 
equipamentos. 
Fraude e Conformidade Os cenários de segurança e requisitos de conformidade estão 
evoluindo constantemente. Big Data ajuda a identificar padrões 
em dados que indicam fraudes e agregar grandes volumes de 
informações para tornar os relatórios regulares muito mais 
rápidos. 
Machine Learning O machine learning é um dos assuntos mais comentados do 
momento. E os dados (especificamente, big data) são um dos 
18 
 
motivos para isso. Agora, somos capazes de ensinar Máquinas 
em vez de programa-las. A disponibilidade de big data para 
treinar modelos de machine learning permite que isso seja 
realidade. 
Eficiência Operacional A eficiência operacional nem sempre é notícia, mas é uma área 
em que o Big data está tendo o maior impacto. Com o Big data, 
você pode analisar e avaliar a produção, os comentários e as 
devoluções de cliente, assim como outros fatores para reduzir 
interrupções e antecipar demandas futuras. Big data também 
pode ser usado para melhorar a tomada de decisões de acordo 
com a demanda atual do mercado. 
Impulsione a Inovação O Big data pode ajudar a inovar, estudando interdependências 
entre seres humanos, instituições, entidades e processos e em, 
seguida, determinando novas maneiras de usar esses insights. 
Usando informações de dados para aprimorar as decisões 
sobre considerações financeiras e de planejamento. Examinar 
as tendências e o que os clientes desejam para oferecer novos 
produtos e serviços. Implementar um sistema de preços 
dinâmico. Existem infinitas possibilidades. 
 
 
Um estudo realizado pela consultoria McKinsey “ Big Data: The next 
frontier for innovation, Competition and productivity”, publicado na revista 
on line Cultura Analítica de 02/2018, mostra os potencias valores que são 
gerados a partir dos dados que serão coletados até 2020. 
No estudo os valores foram dividios em 5 formas: 
1- O Big Data pode gerar um valor significativo por tomar informações 
verdadeiras e úteis com muito mais frequência. 
2- As organizações criam e armazenam mais dados em forma digital, 
eles podem coletar informações de desempenho mais precisas e 
detalhadas sobre tudo, desde inventários de produtos até de 
doenças, portanto, expor a variabilidade e aumentar o desempenho. 
As principais empresas estão usando a coleta e análise de dados 
para realizar experimentos controlados para tomar melhores 
decisões de gerencimento; outros estão usando os dados para gerar 
previsões com o objetivo de ajustar suas estratégia de negócio em 
tempo de execução. 
3- Em terceiro lugar, o Big Data permite uma segmentação cada vez 
melhor dos clientes, portando produtos e serviços cada vez mais 
personalizados. 
4- As análises sofisticas podem trazer uma melhora significativa na 
toma de decisões e geração de insights. 
19 
 
5- Finalmente, o Big Data pode se usado para melhorar o 
desenvolvimento da próxima geração de produtos e serviços. Por 
exemplo, os fabricantes estão usando dados obtidos a partir de 
sensores incorporados em produtos para criar ofertas inovadoras de 
serviços pós-venda, como manutenção preventiva(medidas 
preventivas que ocorrem antes uma falha seja notada). 
 
 
 
20 
 
3. DESAFIOS PARA SE EXTRAIR O VALOR DO BIG DATA 
 
Conforme Brown (2019) no seu artigo, o Big Data está se tornando mais 
popular entre as empresas em todos os setores, mas a realização de um projeto 
de big data não é fácil. Ele descreve alguns desafios que as empresas enfrentam 
são eles: 
 
Gerenciar o crescimento de dados 
 
De acordo com o relatório “Digital Universe”, a IDC 
estima que a quantidade de informações 
armazenadas em sistemas de computação em todo o 
mundo dobre a cada dois anos, e a grande maioria 
dos dados não é estruturado. Para o gerenciamento e 
à análise, as empresas podem usar ferramentas 
como NoSQL, Hadoop, Spark e outros softwares 
analíticos de big data, bem como software de BI 
(Business Intelligence), Inteligência Artificial (IA) e 
aprendizado de máquina para obter as informações 
que precisam. 
Gerar insights rapidamente 
 
As empresas não querem apenas armazenar os 
dados que geram. Elas estão mais interessadas em 
usar big data para atingir seus objetivos tornando-as 
mais competitivas, mas para isso precisam obter 
insights e explorá-las rapidamente. As empresas já 
possuem a disposição ferramentas analíticas que os 
ajudarão a obter resultados em tempo real, 
respondendo as inovações do mercado o mais rápido 
possível. 
Recrutar talentos de Big Data 
 
Para desenvolver e gerenciar aplicativos que geram 
insights, as empresas precisam de profissionais com 
habilidades em big data. A demanda por especialistas 
em Big Data aumentou significativamente, juntamente 
com os salários oferecidos pelas empresas. 
Integrar fontes diversificadas de 
Big Data 
 
A grande variedade de dados faz da integração um 
dos maiores desafios da big data. De fato, os dados 
vêm de diferentes fontes: aplicativos de negócios, 
redes sociais, e-mails, documentos de funcionários e 
etc combinando todos esses dados harmoniosamente 
e usando-os para criar relatórios, e para esses 
usuários avançados, insights orientados por dados e 
21 
 
soluções de suporte à decisão empresarial podem ser 
muito difíceis. 
Validação do Dados 
 
A validação de dados também é um dos principais 
desafios do big data. Muitas empresas recebem 
dados semelhantes de sistemas diferentes, e esses 
dados às vezes são contraditórios. 
Proteger o Big Data 
 
A segurança também é uma preocupação importante 
no campo de big data. Dados de negócios podem ser 
atraentes para hackers, no entanto muitas empresas 
investem em medidas adicionaismais populares que 
incluem controle de acesso e identidade, criptografia 
e segregação de dados. 
Resistência Organizacional 
 
Além dos aspectos tecnológicos dos desafios de big 
data, os funcionários também podem representar um 
desafio de big data. Entre os principais desafios 
encontrados pelas empresas que tenham de lançar 
um projeto de big data, os três principais problemas 
são o alinhamento organizacional insuficiente, a falta 
de entendimento por parte dos gerentes, a falta de 
entendimento ou a resistência dos negócios. Para 
resolver esse desafio, é necessário, portanto, 
convencer os líderes de negócios da utilidade do Big 
Data e nomear um Diretor de Dados. 
 
3.1 Áreas em potencial de aplicação do Big Data 
 
Existem áreas para exemplificar como o Big Data tem sido explorado no 
Brasil diante da dinamicidade da transformação digital são elas: 
a. Medicina de precisão 
 
A fusão entre o tratamento de grandes dados e tecnologias como realidade 
virtual, Internet das Coisas e aprendizado de máquina já vem sendo trabalhada 
pela comunidade médica brasileira. Por aqui, tal conjunção entre Big Data e 
saúde trará, em breve, novos recursos aos dispositivos vestíveis (wearables) já 
existentes nos hospitais nacionais. Isso abrirá a possibilidade de geração de 
centenas de informações clínicas que contribuirão para a consolidação da 
medicina de precisão no país. 
22 
 
 b. Apólices de seguro 
 
A telemetria, é a tecnologia bastante usada na Fórmula 1 que permite a 
transmissão de informações detalhadas sobre o desempenho dos 
carros diretamente a uma central. Pois esse recurso, que é baseado em Big 
Data, já começa a ser usado por algumas seguradoras de veículos no Brasil. 
Esse uso do Big Data no Brasil ainda é incipiente, mas já há ao menos 
2 empresas do setor que adotam esse sistema de forma bastante simples. 
O segurado instala um rastreador em seu automóvel, permitindo que toda a sua 
performance seja monitorada — velocidade média, tempo de frenagem, 
frequência de uso do automóvel, entre outros dados. É a partir do processamento 
dessas informações que se define, de forma personalizada), o valor da apólice. 
c. Gestão de tráfego 
Desde novembro de 2016, a cidade paranaense de Ivaiporã, localizada a cerca 
de 380 quilômetros de Curitiba, instalou um sistema que coleta dados das ruas 
em caráter de teste. Tal recurso identifica padrões e fornece previsões para a 
organização do tráfego. Essa consciência digital do movimento urbano 
determinará, por exemplo, o tempo ideal de fechamento dos semáforos, além de 
notificar mais rapidamente os agentes de trânsito em caso de acidentes. 
d. Comportamento do consumidor 
Vivo, Renner, Claro e Itaú Unibanco: essas são apenas algumas das 
companhias que usam a análise de dados para entender o comportamento de 
consumo do público. 
e. Oportunidades de investimento 
 
Atualmente, a maioria das corretoras de valores e consultorias financeiras do 
país adota sistemas inteligentes para cruzar dados macroeconômicos, como 
23 
 
taxa de juros e câmbio, dados de mercado, como balanços e demonstrações 
financeiras das empresas, e dados do próprio perfil de cada investidor, a fim de 
entregar sugestões de investimentos com alto potencial de retorno. Os próprios 
robôs investidores seguem essa tendência de uso de Big Data no mercado 
financeiro. Compra de ações, composição de carteira, entradas e saídas de 
tradings (investimentos especulativos): tudo é feito com base na mineração de 
dados. 
Estas potenciais áreas saem na frente com o uso do Big Data, 
otimizando seus planos de negócios produzindo informações gerenciais que 
expliquem tendências, bem como objetos inteligentes que atuem nestas 
empresas substituindo a força de trabalho humana em diversas funções. 
 
24 
 
4. CASES DE SUCESSO DE APLICAÇÃO DO BIG DATA 
A tecnologia big data tem influenciado todos os setores e organizações. 
Ao entender como o Big Data funciona, compreende-se a extensão de como ele 
se adequa a uma sociedade voltada para uma renovada arquitetura de 
informação. É nesse contexto que, os cenários previstos dos setores serão 
baseados de acordo como cada organização lida com os dados e se os possui. 
(DAVENPORT, 2014). 
Ao verificar a maneira que as organizações operam seus dados, elas 
foram classificadas em 3 estilos. Em empresas líderes, onde seu desempenho 
excedem as expectativas. Um exemplo é a Netflix e a Amazon, são companhias 
que baseadas nas preferências de seus usuários, serviram para o 
processamento dados, convertidos em vários padrões de comportamento e se 
consagraram na previsão de oferta de serviços. (DAVENPORT, 2014). As 
empresas desprovidas de dados, as quais não os tinham ou não eram bem 
estruturados, como por exemplo, as organizações de saúde onde mesmo que 
as anotações dos históricos dos pacientes estivessem em prontuários online, o 
texto não estruturado tinha déficit de anotações relativo aos pacientes, 
atrapalhando o desenvolvimento da instituição. (DAVENPORT, 2014). E por fim, 
as empresas que não utilizavam os dados para seu próprio benefício e nem 
dos seus clientes. Instituições como bancos, que utilizavam os dados sobre a 
movimentação bancária de cada cliente apenas para interpretar e oferecer 
serviços de marketing. (DAVENPORT, 2014). 
A primeira atividade realizada em big data foi protagonizada por empresas 
de produtos e serviços de Internet, e em startups que atuam na Internet e em 
setores semelhantes. Parte dessas empresas que contribuem são essenciais 
para a consolidação da ciência de dados. Cada avanço tecnológico foi devido a 
essas várias empresas existentes. Há algumas delas que são de notório sucesso 
é que afetam diretamente a natureza do BD. (DAVENPORT, 2014). São 
entidades significativamente catalisadoras da nova ordem de dados. Instituições 
como IBM, Facebook, Google e Amazon, são modelos tanto de como o que era 
25 
 
o antigo transitou para a o atual; e como empresas que surgiram desses novos 
cenários conseguiram se estabelecer. 
Uma empresa focada na tecnologia, a IBM desde 1880, vem se estruturando 
para a nova ordem mundial de conhecimento. 
Com os avanços da tecnologia, ela foi 
determinando seu espaço e contribuindo para 
a formação de nova informação no mundo. 
(IBM, 2016). 
Com a Tabulating Machine Company de Hollerith, em 1896, a IBM 
alavancou como a empresa de desenvolvimento de base tecnológica que 
movimentou as formações dos computadores e informações e que, até hoje é 
referência de tecnologia no mundo. (IBM, 2016) 
(IBM, 2016) Por ser uma empresa que se intitula como “empresa de 
tecnologia da informação do mundo”, a IBM se adequa aos novos embates de 
globalização, de forma que suas tecnologias sejam agentes de novas propostas. 
Acontece que, com a liberação de software atual, como a Apache fez com o 
Hadoop, permitiu a IBM se alinhar e escrever seus próprios estilos de 
manuseamento de dados. Criando banco de dados relacionais e 
multiplataformas em servidores assegurados por cloud computing. A IBM é uma 
das principais referências em software para o controle de informações de uma 
empresa. (DAVENPORT, 2014). A IBM defende que com o Big Data pode-se 
fazer o que quiser da forma que quiser. As diferentes quantidades de dados 
coletados podem gerar visões e resultados incríveis porque enriquece as 
iniciativas de análise que estão ocorrendo nas empresas atualmente. 
(ZIKOPOULOS et al., 2015). A IBM explica que a melhor maneira de utilizar o 
Big Data e seus serviços de gerenciamento é entender a origem dos dados, 
como fazer para analisá-los e aproveitá-los de forma que gere resultados 
analíticos e que consequentemente resultem insights para dentro da empresa. É 
dessa forma, que a empresa afirma, vem se adequando as demandas 
informacionais reais e atuais. (ZIKOPOULOS et al., 2015). 
26 
 
Criada em 2004 por Mark Elliot Zuckerberg e 
cofundadoreso Facebook começou quando 
Mark ainda frequentava a Universidade de 
Havard. A ideia era criar uma conexão virtual 
entre as pessoas que conviviam pelo campus 
da universidade. Assim, as pessoas que ingressassem no “TheFacebook” 
(chamado antigamente, na época do lançamento) criariam um perfil online onde 
seria possível colocar todas as informações pessoais e profissionais como 
desejassem. O Facebook é uma empresa que gerencia milhões de dados e é 
elevada a quantidade de mídias manipuladas diariamente. O site suporta 
diferentes formatos como fotos, vídeos, links, gifs e textos entre outras formas e 
formatos caracterizados pela a rede social. O que consagrou o Facebook foi o 
fato de ir a favor da tecnologia juntamente com a interatividade pessoal. 
Conseguindo definir um padrão de pensamento, vontades e necessidades e 
saber da predileção de cada usuário no Facebook conseguiu desencadear um 
novo tipo de estreitamento de serviço tanto entre as marcas quanto entre as 
empresas e pessoas integradas. (DAVENPORT, 2014). 
A empresa traz questões de privacidade preservadas e faz questão de 
notificar o usuário quanto à pretensão do uso de dados. Mas a verdade é que 
não se sabe realmente como esses dados são/serão utilizados. Mesmo ao 
concordar com o fornecimento de dados. Não se sabe o grau de privacidade real 
está que sendo controlado. E nem se são usados com um propósito “inofensivo”. 
(DAVENPORT, 2014). 
Uma organização responsável por vender 
produtos via internet, como livros, aparatos 
tecnológicos, utensílios gerais entre outras 
coisas. A Amazon é considerada a revolução 
do mercado e marketing digital. Seu alcance a 
nível mundial a consagra como a melhor loja 
virtual de vendas, direcionada aos clientes online. (DAVENPORT, 2014). 
Acompanhado a revolução da Internet, Jeffrey Bezos teve a ideia de criar um site 
de vendas enquanto trabalhava em uma grande empresa. Imaginou um novo 
negócio em que se baseava em produtos oferecidos online. Então 1994, resolveu 
27 
 
fundar a Amazon, criando o conceito de mercado online para certos tipos de 
artigos. (FUNDABLE, 2017). 
Por ser uma organização criada dentro dos parâmetros de uma diferente 
modelagem de dados, ela consegue estruturar um serviço onde as tendências 
possam ser controladas e observadas pelas preferências coletadas de dados da 
própria navegação do usuário. Quando se observa, por exemplo, o que o usuário 
pesquisou e se comprou, a partir desse ponto, são analisadas outras variáveis 
de linhas sugestivas de uma nova possível compra, ou de recomendação que 
poderá ser sugerida no futuro. Isso demonstra como a quantidade de dados 
coletados foi transformada, nesse sistema, uma nova proposta de marketing. 
(DAVENPORT, 2014). 
A Amazon se consolida dando manutenção em seus negócios 
constantemente, devido à sua arquitetura única, baseado em cloud computing 
criando seu banco de dados sobre os produtos. Constrói seu domínio na 
apropriação desses recursos, de forma singular. A premissa dessas tecnologias, 
como elas são organizadas e elaboradas, casam com a medida de sucesso que 
a fundamentou. (DAVENPORT, 2014; VELTE; VELTE; ELSENPETER, 2013). 
O sistema de recomendação (também utilizado nas ferramentas da 
Google) demonstra como as análises de dados, no caso a pesquisa de produtos, 
funcionam muito bem a partir de variáveis inseridas pela predileção de uma 
pessoa. Mostrando assim como o princípio do Streaming Service, que até então 
era pouco comum, se torna ferramenta chave para a projeção de excelentes 
serviços de compra e de divulgação. (DAVENPORT, 2014; VELTE; VELTE; 
ELSENPETER, 2013). 
A abrangência de sua tecnologia engloba tanto a infraestrutura quanto o 
produto final. Por ser o serviço mais amplo de nuvem, ao integrar cada uma de 
suas aplicações, alavanca a melhor criação de complementos existentes que 
podem ser integrados. 
O Streaming Service e o Cloud Computing faz a comunicação ser intensa; 
a virtualização ser imediata, o armazenamento ser de grande amplitude e a 
estruturação e mapeamento de dados serem agilmente transferidos e fornecidos 
pela internet. (VELTE; VELTE; ELSENPETER, 2013). 
28 
 
A Amazon é uma empresa transnacional de comércio dos Estados Unidos. Hoje, é 
uma empresa que vende de tudo um pouco. Ela tem se destacado cada vez mais pelo 
uso inteligente de tecnologia e Big Data. Recentemente, se tornou a segunda empresa 
americana a alcançar o valor de mercado de US$ 1 trilhão, o que deixa claro sua força. 
E nada disso teria sido possível sem o uso dos dados. 
Os algoritmos criados pela Amazon possuem principalmente a função de levar as 
ofertas mais personalizadas possível para cada pessoa. Resultado: cliente satisfeito, 
empresa vendendo mais. 
Através de Machine Learning e do armazenamento em cloud computing, eles 
aprendem como cada consumidor se comporta. É possível até prever que tipo de 
mercadoria o cliente poderia se interessar. No futuro, o objetivo é entregar produtos 
ideias para os clientes sem que eles tenham sequer pedido! 
É interessante ressaltar que a Amazon tem investido também em disponibilizar a 
mesma tecnologia que usam para outros e-commerces. Dessa maneira, comprovam 
sua eficácia em diversos níveis e mostram ainda como expandir a oferta de serviços 
com o Big Data. 
 
Fundada em 1998, seus idealizadores Larry 
Page e Sergey Brin com a visão de organizar 
toda a informação disponível e torná-las úteis. 
A Google implementa o mais satisfatório 
serviço visto na atualidade. Sua criação foi 
revolucionária, agregou várias plataformas em um desenvolvedor só, e priorizou 
produtos de apoio crucial a usuários e empresas que depende dos serviços de 
informação. (GOOGLE, 2016). Com aplicação nas mais diversas áreas, a Google 
se legitima uma das melhores organizações no ambiente em que se estabelece. 
Cuidando de coordenar as diversas áreas de tecnologia da informação, ela 
trabalha diariamente com dados apurados dos diversos meios possíveis. 
Acreditando que haverá utilidade de alguma forma, a Google sempre coleta 
dados de todos que a circundam e a acessam. Pensando em como será benéfico 
que quanto mais dado somar melhor para fomentação do seu sistema. 
29 
 
(DAVENPORT, 2014). A preocupação com os dados não se limita em apenas 
agregá-los, mas também em como serão reaproveitados, afinal informação útil é 
aquela que informa algo. Entra então o Big Data de forma para gerenciar seus 
arquivos. Ele não só auxilia como é o novo tratamento dessas informações e 
consegue definir mais uma forma de sistematizar os mecanismos de trabalho. 
Fazendo-o repensar e aprimorar a estrutura da sua organização e otimizá-la. 
(TAURION, 2015). 
As essências da tecnologia da Google no primeiro momento 
concentraram-se na cloud computing. Seu servidor de email foi o primeiro a 
integralizar a ideia conjuntamente com a nuvem. 
Abaixo apresentamos outras empresas de destaque na utilização do Big 
Data no cenário nacional e internacional, retirados de diversas publicações: 
 
1. Monsanto 
 
A Monsanto aproveita a análise de dados para elaborar projetos 
otimizados de plantio. Eles usam os modelos matemáticos e estatísticos 
para planejar os melhores momentos e locais para cultivar plantas 
masculinas e femininas. 
 
Seu algoritmo de aprendizado de máquina atinge mais de 90 bilhões de 
pontos de dados em dias, em vez de semanas ou meses, com isso pode 
se reduzir e otimizar a extensão da área de plantio. 
 
 
 
2. Grupo Pão de Açúcar 
 
O grupo Pão de açúcar tem um sistema de relacionamento com o cliente 
chamado de Clube Extra, o objetivo é promover aproximação e 
fidelização dos clientes e também dos fornecedores. 
 
Operacionalmente o sistema com a tecnologia Big Data otimiza o 
estoque, visto que a empresa terá conhecimento prévio sobre o quanto 
se deve comprar de determinado produto, tendo em vista os custos de 
mantê-lo, e também nesse sistema ocliente pode acumular pontos por 
meio de compras online em lojas físicas. 
 
Os dados originados com essa plataforma são analisados para 
relacionar os clientes com os produtos, com as marcas favoritas e com 
os mais consumidos. 
 
3. Ministério da Justiça 
30 
 
 
As instituições governamentais também estão investindo no uso de Big 
Data. O Ministério da Justiça do Brasil usa um banco de dados imenso, 
com mais de 1 bilhão de registros. 
 
Para poder analisar todos os dados, o Ministério da Justiça conta com o 
auxílio da tecnologia Watson da IBM, desenvolvida para coletar e 
processar dados em milésimos de segundos. 
 
Ele ainda utiliza o Big Data para identificar ações ilícitas, especialmente 
relacionadas com lavagem de dinheiro. 
 
4. Zara 
 Antes que as portas se abram diariamente em cada um dos mais de 2.213 
estabelecimentos da Zara em todo o mundo, os funcionários e os 
gerentes compartilham detalhes dos artigos mais vendidos do dia 
anterior, peças devolvidas pelos clientes, feedback dos compradores, 
bem como tendências que a equipe tem percebido. 
 
Usando um sistema sofisticado orientado para a tecnologia, analistas 
divulgam as atualizações diárias e usam-nas para pintar uma imagem 
precisa do que exatamente os clientes da Zara estão exigindo. Essa 
informação é rapidamente traduzida por uma vasta equipe de mais de 
300 designers internos em projetos tangíveis que obedecem às 
tendências de moda, que são decentemente feitos e vendidos a preços 
acessíveis. 
 
A Zara está sempre preparada para dar aos consumidores o que eles 
querem ou, melhor ainda, o que eles nem sabem que precisam. E, ao 
que parece, esse é o segredo do seu sucesso. 
 
 
 
 
5. NASA 
 
Não chega a ser uma grande surpresa, mas a Agência Espacial Norte-
americana (NASA) tem diversos programas que contam com o uso de 
Big Data. 
 
Um exemplo é o projeto de pesquisa sobre mudanças climáticas, com 
análises de dados importantes coletados por meio de 16 satélites de 
ciências da terra da NASA para o programa de ciência climática, 
monitorando a qualidade do ar, os oceanos e os furacões, entre outros. 
 
Outro projeto é o supercomputador Pleiades — o supercomputador mais 
avançado do mundo para modelagem e simulação. Ele é um dos mais 
poderosos instalados no Centro de Pesquisa da NASA em Moffett Field, 
Califórnia, e apoia as missões da agência na exploração da ciência 
terrestre e espacial, aeronáutica, futuras viagens espaciais 
e explorações. 
31 
 
6. Nike 
 
A Nike é líder mundial em várias categorias de calçados e vestuários 
esportivos e está investindo pesadamente em aplicativos, wearables e 
Big Data. A Nike está olhando além dos produtos físicos e pretende criar 
marcas de estilo de vida que os atletas não querem correr sem. 
 
A empresa tem 13 linhas diferentes, em mais de 180 países. No 
entanto, a forma como ela segmenta e serve esses mercados é o seu 
diferencial real. Nike divide o mundo em empreendimentos esportivos 
em vez de apenas em geografia. A teoria é que as pessoas que jogam 
golfe, por exemplo, têm mais em comum do que as pessoas que 
simplesmente vivem próximas umas das outras. 
 
Essa estratégia de varejo e marketing é, em grande parte, impulsionada 
por Big Data. A Nike tem investido também em análise de dados 
demográfica para definir seus mercados de teste e impulsionar seus 
negócios. 
7.Target 
 
A Target é a segunda maior retail store dos Estados Unidos, ficando atrás 
apenas do Walmart. O case dessa marca ficou extremamente conhecido por 
ter realizado algo incrível: prever quais clientes estavam grávidas. 
Até hoje, há um grande debate sobre privacidade e até onde é correto utilizar 
as informações dos clientes para tal ações. Porém, é inegável a genialidade 
do uso do Big Data. 
A equipe de análise de dados da rede criou modelos para entender e conhecer 
a fundo os hábitos de compra de seus clientes. Dessa forma, foi possível criar 
perfis de comprador, baseando-se em suas compras e dados demográficos, 
idade e até a situação da vida pessoal da pessoa. 
Assim, a empresa poderia oferecer ofertas de produtos que cada perfil estava 
mais propenso a comprar. E foi assim que eles passaram a mapear quais 
clientes estavam grávidas, e até qual o mês da gestação, baseando-se nos 
hábitos de compra. 
Apesar de ter gerado muita polêmica, foi evidente o aumento da assertividade 
das ofertas e além disso, maior número de compras e fidelizações. 
8. American Express 
 
 
A American Express, mais conhecida como Amex, é uma das mais famosas 
empresa de serviços financeiros dos Estados Unidos. 
Pensando em como tirar proveito disso, a empresa passou a utilizar a análise 
de dados e o machine learning para tomar importantes decisões. Uma das 
soluções alcançadas foi detectar fraudes com muito mais facilidade. 
Com esse recurso, eles percebem padrões que correspondem a transações 
fraudulentas, pensando em detectar rapidamente para minimizar perdas. 
https://www.sas.com/pt_br/insights/analytics/machine-learning.html
32 
 
Assim, os algoritmos, através do machine learning, aprendem o padrão de 
consumo de cada usuário. Sempre que há algum tipo de transação que foge 
do usual, o usuário e a empresa são notificados. 
Com o Big Data, viram uma grande oportunidade de diversificar ainda mais os 
serviços oferecidos ao usuário, não se limitando ao crédito. 
Hoje, a empresa oferece um aplicativo que analisa os dados de compras 
anteriores e, em seguida, recomenda restaurantes na área que o usuário 
provavelmente desfrutará. Além disso, oferecem cupons e ofertas em outros 
estabelecimentos e produtos. 
9. Delta Airlines 
 
No ramo da aviação, muitas vezes é difícil encontrar pontos que façam uma 
empresa realmente se diferenciar da outra. Pensando em como ir além, a 
empresa Delta pensou em como resolver uma das maiores dores dos 
passageiros quando viajam: bagagem extraviada. 
Com uma solução simples, porém muito inteligente e eficaz, eles pensaram 
em um sistema que permite cada passageiro a acompanhar onde está sua 
bagagem. Além de deixar as pessoas mais tranquilas, ajudou a evitar 
grandes dores de cabeça para a empresa. 
Pode parecer simples, mas esse recurso é sim uma utilização muito 
inteligente do Big Data. São mais de 130 milhões de bagagens despachadas 
por ano, um grande volume de informações com cada uma delas. 
Isso mostra como o Big Data não está distante de nossa realidade: pode ser 
utilizado por qualquer tipo de empresa, sem gastar milhões de reais. Uma 
solução barata e que diferenciou a Delta como uma empresa centrada no 
consumidor. 
 
 
10. Shell 
 
Pra quem pensa que empresas que usam Big Data são apenas as mais 
novas ou muito ligadas ao digital, está muito enganado. A Shell, uma das 
maiores empresas petrolíferas do mundo passou a usar o Big Data 
para reduzir consideravelmente seus gastos de operação. 
Para perfurar um local para extração de petróleo, além de muito caro 
ocasiona em um grande impacto ambiental. Para minimizar os riscos e 
diminuir custos, é preciso estudar bem quais áreas estão propensas a 
entregarem melhor resultado. 
Assim, com a análise, a Shell monitora as ondas sísmicas de baixa 
freqüência abaixo da superfície da Terra. Essas ondas se registram de 
maneira diferente nos sensores enquanto viajam pela crosta terrestre. Dessa 
forma, podem prever o tamanho provável dos recursos de petróleo e gás. 
https://resultys.com.br/como-o-big-data-pode-ajudar-sua-empresa/
33 
 
 
11. Maplink 
 
A Maplink é uma empresa brasileira especializada na digitalização de 
mapas. Nos últimos anos, ela passou a utilizar um software de 
rastreamento por satélite para cruzar os dados oriundos de mais de 400 
mil carros de São Paulo. E o que é melhor: tudo em tempo real. 
Esse trabalho permitiu à empresa realizar um diagnóstico com precisão 
apurada do trânsito da cidade, apontando os pontos de lentidão, alémde 
possíveis alternativas e rotas de fuga. 
12. Precifica 
 
De fato, o consumo por e-commerce no Brasil aumentou. E diante este 
cenário, permitiu à Precifica, empresa de precificação inteligente, criar 
uma solução para os donos de lojas online. O objetivo é alterar os preços 
dos seus produtos automaticamente, de acordo com as oscilações no 
mercado. 
Isso tudo por meio da coleta de dados de compras dos consumidores. 
Principalmente pela internet nos mais variados segmentos de mercado. 
Além disso, a Precifica também monitora o valor dos fretes, para auxiliar 
as lojas virtuais a determinar a melhor política de remessas. 
14.Telebras 
 
A Telebras, a maior empresa pública de telecom do Brasil, também 
adotou o Big Data. O objetivo é melhorar a utilização das suas redes de 
telecomunicações por meio do mapeamento das demandas existentes 
em tempo real. 
Assim, a empresa consegue enxergar onde é necessário a construção 
de novas redes. E, então, enviar para os dispositivos móveis dos seus 
vendedores os dados de leads altamente qualificados, otimizando o 
processo de venda. 
 
Agora que já conhecemos alguns casos de sucesso do uso de Big Data 
no Brasil, é possível enxergar que, seja qual for o segmento, sem dúvidas o uso 
dessa ferramenta é urgente para qualquer empresa que queira se destacar 
nesse novo mercado. 
 
 
 
34 
 
5. ARMAZENAMENTO DE DADOS COM O BIG DATA 
 
A tecnologia do armazenamento vem evoluindo a passos largos para 
acompanhar a demanda por espaço e o crescimento na complexidade e 
tamanho dos arquivos. Cada vez que a resolução de um arquivo de vídeo é 
melhorada, por exemplo, o espaço ocupado por esses arquivos cresce 
vertiginosamente. 
Ter um sistema de computação em nuvem é condição para se trabalhar 
bem com um grande volume de dados, uma vez que isso envolve coleta, 
armazenamento e compartilhamento de um número gigantesco de informações. 
Além disso, a constante necessidade de conhecer o resultado das ações 
de um negócio, muitas vezes, imediatamente, torna essa relação entre cloud 
computing e Big Data extremamente necessária. 
5.1 O que é a computação na nuvem 
 
O conceito da computação em nuvem (cloud computing) tem como 
objetivo facilitar o acesso a dados e a execução de programas utilizando a 
internet. Desse modo, o usuário tem a possibilidade de usar serviços e 
aplicativos sem a necessidade de uma instalação, já que tudo (ou quase tudo) 
será executado em servidores. Além disso, o acesso a dados é possível a partir 
de quaisquer dispositivos, desde que estejam conectados à internet e tenham a 
permissão do devido responsável. 
A Cloud Computing (computação em nuvem) vem causando 
muitas transformações digitais e já tem um lugar de destaque no mundo 
corporativo. Embora atualmente seja algo bastante usual, esse é um assunto 
grande e complexo, que possui vários subtemas, como os modelos de nuvem. É 
35 
 
comum vermos as siglas IaaS, PaaS e SaaS, além de ouvirmos falar sobre os 
serviços públicos, privados e híbridos. No entanto, o assunto ainda gera 
dúvidas até mesmo para os profissionais de tecnologia e, principalmente, para 
pessoas que não estão acostumadas com o mundo da TI. 
5.1.1 Aplicações da Cloud Computing 
A Cloud Computing parte do princípio de que a computação não é um produto, 
mas um serviço. Sua empresa não precisa possuir uma licença, um servidor ou 
uma plataforma de desenvolvimento. O que ela deve é ter acesso às 
funcionalidades e à infraestrutura desses softwares e hardwares. Com esse 
pensamento, a Cloud Computing permite que um negócio execute soluções de 
TI que estão armazenadas e disponibilizadas em servidores remotos. Algumas 
funcionalidades possíveis: 
 Servidores virtuais - Em vez de investir na compra de servidores e no 
espaço físico para eles, pode-se contratar um servidor em nuvem. 
 Armazenamento - Arquivos e dados podem ser armazenados 
remotamente, de maneira que fiquem disponíveis para acesso a partir de 
qualquer dispositivo conectado à internet. 
 Softwares - Em vez de comprar licenças de softwares que, muitas vezes, 
ficam ligadas a uma estação de trabalho, com a nuvem, é possível pagar 
apenas pelos serviços utilizados em cada sistema e acessá-los de 
qualquer computador. 
 Desenvolvimento de softwares - Uma plataforma de desenvolvimento 
segura, robusta e confiável pode ser encontrada no modelo PaaS. Além 
disso, também é possível contar com sistemas de gestão 
e compartilhamento de informações entre áreas do negócio. 
36 
 
Como as possibilidades da computação em nuvem são amplas, os profissionais 
de tecnologia costumam dividir os serviços prestados em 3 categorias: IaaS, 
PaaS e SaaS. 
5.1.2. Exemplos de computação em nuvem: SaaS, PaaS e IaaS 
a. IaaS — Infrastructure as a Service (Infraestrutura como Serviço) 
 
Nesse primeiro exemplo dos modelos 
de nuvem, a empresa contrata uma 
capacidade de hardware que 
corresponde a memória, 
armazenamento, processamento etc. 
Podem entrar nesse pacote de 
contratações os servidores, 
roteadores, racks, entre outros. Dependendo do fornecedor e do modelo 
escolhido, a sua empresa pode ser tarifada, por exemplo, pelo número de 
servidores utilizados e pela quantidade de dados armazenados ou trafegados. 
Em geral, tudo é fornecido por meio de um data center com servidores virtuais, 
em que você paga somente por aquilo que usar. 
O uso do IaaS é recomendado para pequenas e médias empresas que estão 
crescendo tão rapidamente que a infraestrutura não seria capaz de acompanhar, 
além daquelas que tenham demandas voláteis, como lojas virtuais. No entanto, 
ele não é recomendado quando há um limite de desempenho ou restrições 
relativas à legislação do armazenamento ou terceirização dos dados. Exemplos 
desse tipo de serviço são o Amazon Web Services (AWS), o Google Compute 
Engine e o Microsoft Azure. 
b. PaaS — Platform as a Service (Plataforma como Serviço) 
http://aws.amazon.com/pt/
https://cloud.google.com/compute/
https://cloud.google.com/compute/
http://azure.microsoft.com/pt-br/
37 
 
O PaaS é uma plataforma que pode criar, 
hospedar e gerir aplicativos. Nesse 
modelo de nuvem, contrata-se um 
ambiente completo de desenvolvimento, 
no qual é possível criar, modificar e 
otimizar softwares e aplicações. Tudo isso é feito utilizando a infraestrutura na 
nuvem. Ou seja, o time de desenvolvimento tem uma infraestrutura completa e 
moderna à disposição, sem que sejam necessários altos investimentos. 
As equipes de desenvolvimento só precisam se preocupar com a programação 
do software, pois o gerenciamento, manutenção e atualização da infraestrutura 
ficam a cargo do fornecedor. Além disso, outro ponto a favor desse modelo de 
nuvem é que várias ferramentas de desenvolvimento de software são oferecidas 
na plataforma. 
Dessa maneira, ela se torna completa, robusta e totalmente disponível em uma 
nuvem pública ou privada, podendo ser acessada pela internet. No entanto, a 
PaaS não é indicada quando o desempenho geral do software pede algum 
hardware ou outros aplicativos específicos. Exemplos deste serviço são: Google 
App Engine e Heroku, outro exemplo de PaaS é o Microsoft Azure Cloud 
Services. 
c. SaaS — Software as a Service (Software como Serviço) 
Por fim, qualquer pessoa conhece o 
SaaS, mesmo que não saiba. Nesse 
terceiro modelo de nuvem, você pode 
ter acesso ao software sem comprar a 
sua licença, utilizando-o a partir da 
Cloud Computing, muitas vezes com 
recursos limitados. 
https://cloud.google.com/appengine/
https://cloud.google.com/appengine/
https://www.heroku.com/
http://azure.microsoft.com/pt-br/services/cloud-services/
http://azure.microsoft.com/pt-br/services/cloud-services/
38 
 
No entanto, também existem planos de pagamento nos quais é cobrada uma 
taxa fixa ou um valor que varia de acordo com o uso. Muitos CRMs ou ERPs 
trabalham no sistema SaaS. Assim, o acesso a esses softwares é feito usando 
ainternet. Os dados, contatos e demais informações podem ser acessados de 
qualquer dispositivo, dando mais mobilidade à equipe. 
Falamos que qualquer um conhece o SaaS porque sites como o Facebook e o 
Twitter ou aplicativos como o Skype, OneDrive, Google Docs e o Office 365 
funcionam dessa maneira. Neles, tudo é disponibilizado na nuvem, para que 
muitos usuários consigam ter acesso ao serviço pelo browser ou por um 
software. 
Para a utilização do SAAS, existe uma grande vantagem da escalabilidade e da 
praticidade. Afinal, todos os processos relativos aos custos da compra do 
software e do servidor — além da implementação — são eliminados, visto que o 
serviço está disponível a um clique de distância. 
O SaaS é bastante recomendado para: 
 pequenas empresas, que não podem gastar com a compra de 
licenças; 
 trabalhos que durem apenas um curto período de tempo; 
 necessidades de acesso remoto aos aplicativos, como no caso de 
softwares de CRM ou de gestão de redes sociais. 
Porém, ele não é muito bom para instituições que precisem de um 
processamento de dados rápido ou para aquelas que seguem normas de 
legislação contrárias à hospedagem de dados em ambiente externos. 
A computação em nuvem pode trazer diversas vantagens competitivas para os 
negócios. 
39 
 
 Redução de custos 
 Praticidade 
 Acesso às inovações 
 Segurança 
Existe um mito de que a nuvem reduz a segurança dos dados da empresa. É 
verdade que os arquivos na nuvem pública podem estar sujeitos a acessos 
inapropriados. Porém, com o fornecedor certo, é possível garantir 
a segurança dos arquivos e proteger as informações da sua empresa, por 
exemplo, por meio da encriptação. 
 
 
 
 
40 
 
Referências Bibliográficas 
 
DAVENPORT, Thomas. Big data no trabalho: Derrubando mitos e 
descobrindo oportunidades. Tradução: Cristina Yamagami. Rio de Janeiro: 
Elsevier, 2014. 
MAYER SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big data: como extrair 
volume, variedade, velocidade e valor da avalanche de informação 
cotidiana. Tradução: Paulo Polznoff Junior. Rio de Janeiro: Elsevier, 2013. 
TAURION, Cezar. Big data. Rio de Janeiro: Brasfort, 2015.170 p. 
VELTE, Anthony T.; VELTE, Toby J.; ELSENPETER, Robert. Computação em 
nuvem: uma abordagem prática. Rio de Janeiro: Alta Books, 2013. 
ZIKOPOULOS, Paul et al. Big Data Beyond the Hype: A Guide to 
Conversations for Today’s Data Center. : Mc Graw Hilleducation, 2015. 
Disponível em: Acesso em: 20 de dezembro de 2016. 
 
Referências online 
Abel, C: Análise de dados: conheça as 8 principais ferramentas de Big Data 
para usar nos negócios artigo publicado pela MindMiners/ 2018. Disponível 
em: <https://mindminers.com/blog/ferramentas-de-big-data/> acesso em 
10/07/2019. 
Brown, C: 7 desafios que as organizações enfrentam para extrair valor do 
big data artigo publicado pela CIO from IDG/2019. Disponível em: 
<https://cio.com.br/7-desafios-que-organizacoes-enfrentam-para-extrair-valor-
do-big-data/ > acesso em 08/07/2019. 
Camargo. G: 5 motivos para transformar seu negócio em business 
analytics: Disponível em: https://computerworld.com.br/2018/05/08/5-motivos-
para-transformar-seu-negocio-em-business-analytics/> acesso em 15/06/2019. 
Cordeiro, C.: Vantagens gerais e específicas do Big Data – artigo publicado 
pelo neomind / 2017. Disponível em: <http://www.neomind.com.br:81/blog/big-
data-quais-as-vantagens-gerais-e-especificas/> acesso em 10/07/2019. 
Entenda como o big data e uma grande vantagem competitiva. Disponível 
em: https://www.santodigital.com.br/entenda-como-o-big-data-e-uma-grande-
vantagem-competitiva/ . acesso em 13/06/2019. 
Por que business analytics está crescendo. Disponível em: 
http://dataexperience.com.br/por-que-business-analytics-esta -crescendo/> 
acesso em 15/06/2019. 
FUNDABLE. Amazon Startup Story. 2017. Disponível em: 
https://www.fundable.com/learn/startup-stories/amazon. Acesso em: 11 de 
janeiro de 2020. 
GOOGLE. Google Empresa. Disponível em: https://about.google/ . Acesso em: 
10 de janeiro de 2020. 
https://www.fundable.com/learn/startup-stories/amazon
https://about.google/
41 
 
IBM. História: Um pouco de história. Disponível em: https://ibm.com . Acesso 
em: 12 janeiro 2020. 
https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-
deveria-saber/ 
https://culturaanalitica.com.br/os-5-vs-big-data 
https://sgatecnologia.com.br/4-cases-do-uso-de-big-data-no-brasil/ 
https://www.oracle.com/br/big-data/guide/what-is-big-data.html 
https://blog.sonda.com/big-data-no-brasil/ 
https://resultys.com.br/cases-de-empresas-que-usam-big-data/ 
https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-
como-se-relacionam/ 
Sugestão de Leitura 
 
por Kenneth Cukier (Autor), Viktor Mayer-Sch Nberger (Autor) 
Editora: Elsevier; Edição: 1ª (24 de julho de 2013) 
 
https://ibm.com/
https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-deveria-saber/
https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-deveria-saber/
https://culturaanalitica.com.br/os-5-vs-big-data
https://sgatecnologia.com.br/4-cases-do-uso-de-big-data-no-brasil/
https://www.oracle.com/br/big-data/guide/what-is-big-data.html
https://blog.sonda.com/big-data-no-brasil/
https://resultys.com.br/cases-de-empresas-que-usam-big-data/
https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-como-se-relacionam/
https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-como-se-relacionam/
https://www.amazon.com.br/s/ref=dp_byline_sr_book_1?ie=UTF8&field-author=Kenneth+Cukier&search-alias=books
https://www.amazon.com.br/s/ref=dp_byline_sr_book_2?ie=UTF8&field-author=Viktor+Mayer-Sch+Nberger&search-alias=books
42 
 
Editora: BRASPORT; Edição: 1 (5 de junho de 2013) 
 
43 
 
UNIDADE II – Business Analytics 
 
Objetivos: 
Apresentar e aplicar conceitos, métodos e técnicas de análise de dados no 
contexto de negócios, mercados e ambientes; 
Apresentar os diferentes métodos usados em uma estratégia de Business 
Analytics; 
Elencar a áreas de negócios para a aplicação de Business Analytics; 
Conhecer certificações Business Analytics. 
44 
 
INTRODUÇÃO 
 
Nesta unidade serão apresentados os conceitos de Business Analytics, que 
utiliza dados selecionados para realizar a previsão de resultados, indicando 
possibilidades de melhorias nos processos das empresas, isso ocorre através 
do uso de algoritmos analíticos avançados. Será apresentado como, explorar os 
dados por meio de análises diagnósticas: Descritivas, Diagnóstica, Preditivas e 
Prescritiva e conhecer as análises de dados aplicadas em diferentes áreas de 
negócios. E elencar algumas certificações de Business Analytics. 
 
 
 
 
 
 
 
45 
 
 
1. O QUE É BUSINESS ANALYTICS 
 
Conhecimento de negócio é uma das principais habilidades do Cientista 
de Dados, que irá aplicar seus conhecimentos em análise de dados, em 
diferentes áreas de negócio como: Marketing Analytics, RH Analytics, Financial 
Analytics, Social Network Analytics e Text Mining. 
 
Business Analytics é muito amplo: 
contempla mineração de dados, 
big data, data Science, 
procedimentos de descoberta de 
conhecimento e, o envolvimento 
da área de negócio. Business 
Analytics trabalha em conjunto 
com outras ferramentas, como as do Bussiness Intelligence(BI). O conceito de 
Business Analytics ainda se confunde bastante com o Bussiness Intelligence. A 
diferença é que o Business Intelligence (BI) tem um olhar para o passado, faz 
leitura de um conjunto de dados em um data warehouse, extrai informação útil 
e elabora um dashboard para apoiar os dirigentes das empresas que precisam 
empregar a sua expertise para realização das tarefas. 
O conceito de Analytics ou Business Analytics é o uso extensivo dos 
dados, análise estatística e quantitativa, modelos explicativos e preditivos e 
gerenciamento baseados em fatos para conduzir decisões e ações (Davenport 
&Harris, 2007). 
Business Analytics conta com mais recursos de estatísticas 
preditivas do que o BI, oferecendo maior agilidade e segurança e na 
disponibilização das informações que são extraídas a partir de dados disponíveis 
em sistemas internos das empresas e/ou encontrados na internet, através de 
algoritmos analíticos avançados. Assim o Business Analytics possibilita a 
formação das melhores estratégias de negócio de forma eficiente e precisa. 
 
 
 
46 
 
1.1. Introdução à Data Mining 
 
Data Mining, ou mineração de dados, é a prática de examinar dados que 
já foram coletados utilizando diversos tipos de algoritmos, normalmente de forma 
automática, a fim de gerar novas informações e encontrar padrões. 
Considerando que minerar dados é um processo de transformar dados em 
informações úteis, para atingir esse objetivo, alguns passos são realizados, 
como: encontrar padrões, associações e anomalias gerais nos dados. Em Data 
Mining não importa a forma como os dados foram coletados, se via banco de 
dados, web scraping, API´s, e etc. 
O conceito de Data Mining, mineração de dados em português, é mais 
simples do que parece. É basicamente uma forma de analisar e processar uma 
quantidade de dados sob diferentes perspectivas. Esses dados são então 
transformados em informação, que serão úteis nas mais diversas áreas 
estratégicas. Uma forma interessante de se pensar em Data Mining é pensar em 
seu propósito. Todo o tipo de dado precisa de alguém que identifique os padrões, 
consistências e relacionamentos com outros dados, de forma a transformar isso 
em conhecimento para ser usado em decisões estratégicas. 
O processo do Data Mining se utiliza de aplicações matemáticas e 
métodos estatísticos, que vão desde o uso de uma regressão logística (é uma 
técnica estatística que tem como objetivo produzir, a partir de um conjunto de 
observações, um modelo que permita a predição de valores tomados por uma 
variável categórica, frequentemente binária, a partir de uma série de variáveis 
explicativas contínuas e/ou binárias), até redes neurais, deep learning - 
aprendizagem profunda(a aprendizagem profunda, do inglês Deep Learning é 
um ramo de aprendizado de máquina baseado em um conjunto de algoritmos 
47 
 
que tentam modelar abstrações de alto nível de dados usando um grafo profundo 
com várias camadas de processamento, compostas de várias transformações 
lineares e não lineares), análise de clustering (agrupamentos) e classificações 
automáticas. 
 
 
Também conhecido como Mineração de Dados, o Data Mining é o 
processo de explorar grandes quantidades de dados à procura de padrões 
consistentes. Ele é formado por um conjunto de ferramentas e técnicas que 
através do uso de algoritmos de aprendizagem ou classificação, baseados em 
redes neurais e estatística que são capazes de explorar um conjunto de dados, 
extraindo ou ajudando a evidenciar padrões e auxiliando na descoberta de 
conhecimento. 
Rocha (2003) explica que Data Mining: 
“é uma técnica composta por um conjunto de ferramentas, que através do 
uso de algoritmos de aprendizado ou baseada em redes neurais e 
estatísticas, permite buscar em uma grande base de dados as informações 
que aparentemente estão escondidas, possibilitando, assim agilidade nas 
tomadas de decisões “. 
 
Souza (2009) define que: 
“Data Mining é o processo de análise de conjunto de dados que por objetivo 
a descoberta de padrões interessantes e que possam representar 
informações úteis. Um padrão pode ser definido como sendo uma afirmação 
baseada em uma distribuição probabilística. Estes padrões podem ser 
expressos principalmente na forma de regras, fórmulas e funções, entre 
outras.” 
Em outras palavras, as ferramentas de Data Mining analisam os dados, 
descobrem problemas ou oportunidades escondidas nos relacionamentos dos 
dados, e então diagnosticam o comportamento dos negócios, requerendo a 
mínima intervenção do usuário. Assim, ele se dedicará somente a ir em busca 
do conhecimento, ajudando aos analistas de negócio agregar mais vantagens 
competitivas e maximizar seus lucros. 
 
48 
 
O conhecimento em Data Mining pode ser apresentado por diversas 
formas de ferramentas, que são denominadas de ferramentas de Análise de 
agrupamento, ou clustering, é o nome dado para o grupo de técnicas 
computacionais cujo propósito consiste em separar objetos em grupos, 
baseando-se nas características que estes objetos possuem. A idéia básica 
consiste em colocar em um mesmo grupo objetos que sejam similares de acordo 
com algum critério pré-determinado. As ferramentas que podemos utilizar nestas 
técnicas são: 
 agrupamentos; 
 hipóteses (testes de hipóteses é um 
procedimento estatístico que permite tomar uma decisão); 
 regras; 
 árvores de decisão (são modelos estatísticos que utilizam um 
treinamento supervisionado para a classificação e previsão de 
dados); 
 grafos ou dendrogramas (é um ramo da matemática que estuda 
as relações entre os objetos de um determinado conjunto). 
Diariamente as empresas acumulam grande volume de dados em seus 
aplicativos. Um Business Intelligence (BI), são os dados brutos que dizem quem 
comprou o quê, onde, quando e ao final do dia reporta esta baixa aos estoques 
detectando tendências de compra. Agora se analisarmos os dados com 
estatística de modo mais refinado, à procura de padrões de vinculações entre 
variáveis registradas, então estaremos fazendo Data Mining (DM), ou seja, 
busca subsidiar a empresa com conhecimento novo e útil acerca do seu meio 
ambiente. O BI atua no plano tático, e o DM atua no plano estratégico. 
 
1.1.1. Linhagens do Data Mining 
O Data Mining descende fundamentalmente de 3 linhagens: 
49 
 
 Estatística: A mais antiga delas é a 
estatística clássica. Sem a estatística 
não seria possível termos o DM, visto 
que a mesma é a base da maioria das 
tecnologias a partir das quais o DM é 
construído. A Estatística Clássica 
envolve conceitos como distribuição 
normal, variância, análise de regressão, desvio simples, análise de conjuntos, 
análises de discriminantes e intervalos de confiança, todos usados para estudar 
dados e os relacionamentos entre eles. Esses são as pedras fundamentais onde 
as mais avançadas análises estatísticas se apoiam. E sem dúvida, no coração 
das atuais ferramentas e técnicas de DM, a análise estatística clássica 
desempenha um papel fundamental. 
 Inteligência Artificial: A segunda 
linhagem do DM é a Inteligência 
Artificial, ou IA. Essa disciplina, que é 
construída a partir dos fundamentos da 
heurística, em oposto à estatística, 
tenta imitar a maneira como o homem 
pensa na resolução dos problemas 
estatísticos. Em função desse “approach”, ela requer um impressionante poder 
de processamento, que era impraticável até os anos 80, quando os 
computadores começaram a oferecer um bom poder de processamento a preços 
mais acessíveis. A IA desenvolveu algumas aplicações para o alto escalão do 
governo / cientistas americanos, sendo que os altos preços não permitiram que 
ela ficasse ao alcance de todos. As notáveis exceções foram certamente alguns 
conceitos de IA adotados por alguns produtos de ponta, como módulos de 
otimização de consultas para SGBDs. 
50 
 
Machine Learning: E a terceira e última 
linhagem do DM é a chamada machine 
learning, que pode ser melhor descrita 
como o casamento entre a estatística e 
a IA. Enquanto a IA não se transformava 
em sucesso comercial, suas técnicas 
foram sendo largamente cooptadas pela 
machine learning, que foi capaz de se valer das sempre crescentes taxas de 
preço / performance oferecidas pelos computadores nos anos 80 e 90, 
conseguindo mais e mais aplicações devido às suas combinações entre 
heurística e análise estatística. A machine learning tenta fazer com que os 
programas de computador “aprendam” com os dados que eles estudam, tal que 
esses programas tomem decisões diferentes

Continue navegando