Fundamentos-de-Big-Data---eBook

•

ESTÁCIO EAD

Wellington Souza

27/02/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 134 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 134 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 134 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.791 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Sumário
UNIDADE I – Fundamentos de Big Data ................................................................................ 4
INTRODUÇÃO ........................................................................................................................ 5
1. O QUE É BIG DATA? ...................................................................................................... 6
1.1 Tipos de Big Data ....................................................................................................... 8
1.2 A importância e o volume do big data ............................................................... 10
2. OS 5 V’S DO BIG DATA................................................................................................ 12
2.1 Razões para implantar um Big Data ................................................................... 16
3. DESAFIOS PARA SE EXTRAIR O VALOR DO BIG DATA ................................... 20
3.1 Áreas em potencial de aplicação do Big Data ................................................. 21
4. CASES DE SUCESSO DE APLICAÇÃO DO BIG DATA ........................................ 24
5. ARMAZENAMENTO DE DADOS COM O BIG DATA ............................................. 34
5.1 O que é a computação na nuvem ........................................................................ 34
5.1.1 Aplicações da Cloud Computing ................................................................. 35
5.1.2. Exemplos de computação em nuvem: SaaS, PaaS e IaaS ................... 36
Referências Bibliográficas ............................................................................................... 40
UNIDADE II – Business Analytics .......................................................................................... 43
INTRODUÇÃO ...................................................................................................................... 44
1. O QUE É BUSINESS ANALYTICS.............................................................................. 45
1.1. Introdução à Data Mining ..................................................................................... 46
1.1.1. Linhagens do Data Mining ............................................................................ 48
1.1.2. Aplicando Data Mining em um ambiente de negócio ............................ 50
1.1.3 Principais características de Data Mining, BI e Big Data ...................... 51
2. AS DIFERENTES METODOLOGIAS DE BUSINESS ANALYTICS ...................... 54
2.1 Business Intelligence x Business Analytics .................................................... 57
3. ÁREAS DE NEGÓCIOS PARA A APLICAÇÃO DE BUSINESS ANALYTICS .... 59
3.1. Marketing Analytics ............................................................................................... 60
3.2. RH Analytics ............................................................................................................ 61
3.3. Financial Analytics ................................................................................................. 64
3.4. Fraud Analytics (Análise para Detectação de Fraudes) ............................... 67
3.5. Text Analytics .......................................................................................................... 70
3.6. Social Network Analytics ...................................................................................... 72
4. CERTIFICAÇÕES DE BUSINESS ANALYTICS ........................................................ 73
Referências Bibliográficas ............................................................................................... 78
UNIDADE III – Ferramentas de Data Analytics e Big Data ............................................... 81
INTRODUÇÃO ...................................................................................................................... 82
3

1. O QUE É DATA ANALYTICS ........................................................................................ 83
1.1 Cultura de Data Analytics ...................................................................................... 83
1.2 Como funciona o Data Analytics? ....................................................................... 84
2. INTRODUÇÃO AO APRENDIZADO DE MÁQUINA (MACHINE LEARNING) ..... 86
2.1 O aprendizado de uma plataforma de Machine Learning ............................. 86
2.2 Abordagens de Machine Learning ...................................................................... 87
3. FRAMEWORK BIG DATA HADOOP ......................................................................... 88
3.1 Componentes base do Hadoop ........................................................................... 90
3.1.1 Hadoop 2.0 ......................................................................................................... 91
3.1.2 Funcionamento da arquitetura básica ........................................................ 93
3.1.3 Análise de dados ........................................................................................ 95
3.1.4 Onde se aplica o Hadoop? ............................................................................. 97
4. FERRAMENTAS DE BIG DATA E DATA ANALYTICS ........................................... 99
Referências Bibliográfica ............................................................................................... 105
UNIDADE IV – Alternativas em BD para BigData ............................................................. 107
INTRODUÇÃO .................................................................................................................... 108
1. O que são Banco de Dados NoSql .......................................................................... 109
1.1 Por que usar um banco de dados NoSQL? .................................................... 109
1.2 Estruturas ou Categorias de bancos de dados NoSQL .............................. 110
1.3 Principais Banco de dados NoSQL ............................................................. 114
1.4 Banco de dados SQL (relacional) x NoSQL(não relacional) ...................... 117
2. In-Memory Databases ................................................................................................. 120
2.1 Arquitetura do Banco de Dados In-Memory ................................................... 121
2.2 Tecnologia de Banco de Dados In-Memory .................................................... 122
3. ETAPAS PARA CRIAÇÃO DE UM PROJETO BIG DATA ................................ 124
3.1 Definição do Business Case ............................................................................... 127
3.2 Planejamento do Projeto ..................................................................................... 128
3.3 Definição dos Requisitos Técnicos .................................................................. 128
3.4 Criação de um “Total Business Value Assessment” ................................... 131
Referência Bibliográficas/ Referências OnLine ....................................................... 133

UNIDADE I – Fundamentos de Big Data

Objetivos:
Demonstrar as características e o conceito de Big Data;
Entender as razões para se implantar o Big Data;
Apresentar cases de aplicação do Big Data.

INTRODUÇÃO

Nesta unidade será demonstrado as características e o conceito de Big Data,
que é utilizado para descrever dados que possuem alto volume, velocidade e
variedade. O Big Data aprimora os processos de trabalho dos usuários, ao obter
interpretações rápidas e valiosas sobre as tendências do mercado,
comportamento de consumo e oportunidades potenciais. Veremos também que
com o Big Data é possível saber exatamente o que os clientes querem,
estudando seus hábitos de consumo. O conhecimento das necessidades do
cliente faz com que possa ser oferecido instantaneamenteo que ele deseja. Com
o Big Data ´pode-se prevenir possíveis riscos para o negócio através das
análises em tempo real de distintas variáveis do mercado. O grande diferencial
do Big Data é auxiliar as organizações no conhecimento profundo dos seus
negócios e as fazer perceber como chegar à combinação ideal de dados e
informações sobre o cliente e o mercado, dados que favorecem a estratégia,
eficácia, aceitação da proposta de valor e faz com que as empresas alcancem
avanços na realização dos objetivos estratégicos da empresa.

1. O QUE É BIG DATA?

O conceito de BIG DATA está sendo muito difundido atualmente em
função das demandas dos diferentes tipos de dados que temos que armazenar
diariamente. Outra definição é que BIG DATA se refere a um conjunto muito
grande de dados que nenhuma ferramenta convencional de gerenciamento de
banco de dados ou gerenciamento de informações consegue armazenar os
diferentes tipos de dados existentes como:
 Texto;
 Sensores;
 Navegação Web;
 Áudio;
 Vídeo;
 Arquivos de Log;
 Centrais de ar condicionado entre outros.

Agora imagine a quantidade imensa de dados que estamos gerando
diariamente na internet, desde simples e-mail até infinitas mensagens em
chats, tweets, curtidas, publicações de vídeos e imagens, posts em blogs e
muito mais. Nossos smartphones também são fábricas de dados que
produzem informações 24 horas por dia, e a Internet das Coisas (IoT) vai
estender esse poder a todos os dispositivos que temos acesso.
O objetivo do Big Data é extrair um grande volume de dados
estruturados e não-estruturados, organizá-los e analisá-los a fim de se obter
7

insights para negócios e prever uma determinada situação. Pode-se dizer
que os dados são extraídos de qualquer lugar. Abaixo estão listadas algumas
origens:
 Redes Sociais – Facebook, instagram, twitter etc;
 Websites – Google, Portal de Notícias, Mapas etc;
 Sistemas – ERP, CMS, etc;
 Aplicativos – Posição Geográfica, Gosto Musical, Fotografia;
 Banco de Dados – da internet (externos), de empresas
(internos);
 Pacote Office – Excel, Access, Word;
 Máquinas e acessórios tecnológicos.
As organizações necessitam de uma tecnologia de armazenamento para
guardar uma quantidade massiva que vem de diferentes plataformas, por
exemplo: mensagens que enviamos, vídeo que publicamos, informações sobre
o tempo, sinais de GPS, registros transacionais de compras on-line. Esses tipos
de dados não possuem uma estrutura padronizada. Com isso, a utilização de um
data center comum não é recomendada para armazenar esse tipo de
informação, sendo a melhor solução para essa situação a aplicação de um Big
Data. Com o auxílio de um Big Data, a empresa pode utilizar todos os dados
coletados para realização de análises específicas com a finalidade de extrair
conhecimento relevante para subsidiar as tomadas de decisão estratégicas dos
negócios. Assim, as soluções de Big Data “tratam” os dados brutos até que se
transformem em insights poderosos para a tomada de decisão. Para isso, são
desenvolvidas a partir de algoritmos que capturam e cruzam dados de várias
naturezas.
Desse modo, uma montanha de dados soltos pode se tornar uma fonte
valiosa de informação e conhecimento. O que caracteriza a arquitetura
tecnológica envolvida no Big Data é sua capacidade de captura, armazenamento
e análise muito superior à dos softwares de bancos de dados comuns. Para
construir essa arquitetura, é preciso unir a TI aos Cientistas de Dados para focar
esforços na solução de problemas empresariais por meio dos dados.
8

Uma das tecnologias centrais nessa revolução é a computação em
nuvem, pois somente esse tipo de infraestrutura pode dar suporte ao
armazenamento e processamento do Big Data.
1.1 Tipos de Big Data
O Big Data pode ser encontrado em três formas:
a. Estruturado
b. Não estruturado
c. Semi-estruturado

a. Estruturado – Quaisquer dados que possam ser armazenados,
acessados e processados na forma de formato fixo são denominados dados
“estruturados”.
Exemplo de dados estruturados: Tabela: Cliente
Id_Cli Cpf_Cli Nome_Cli End_Cli Tel_Cli Cidade_Cli Limite_Cli
001 072387747-31 Monica Silva Rua Franca,
234
(44)999767611 Maringá R$5000,00
002 082387747-32 Arthur
Fredagolli
Rua Itália, 234 (44)988767612 Maringá R$1500,00
002 092387747-33 Regina
Bezerra
Rua Espanha,
234
(44)995667613 Cascavel R$8000,00
002 062387747-34 Augusto
Santo
Rua Inglaterra,
234
(44)888765614 Cascavel R$3000,00
b. Não estruturado – Qualquer dado com forma ou estrutura
desconhecida é classificado como não estruturado. Além do tamanho ser
grande, os dados não estruturados apresentam vários desafios em termos de
processamento para extrair valores deles. Um exemplo é uma fonte de dados
heterogênea que contém uma combinação de arquivos de texto simples,
imagens, vídeos e etc. Hoje em dia as organizações têm muitos dados
disponíveis, mas infelizmente não sabem como extrair valor disso, pois esses
dados estão em sua forma bruta ou formato não estruturado.
9

Exemplo de dados não estruturados: O retorno de uma pesquisa
realizada em um navegador.

c. Semiestruturado - Os dados semiestruturados são uma forma de
dados estruturado que não está de acordo com a estrutura forma dos modelos
de dados associados com banco de dados relacionais ou outras formas de
tabelas de dados, mas que contem tags ou outros marcadores para separa
elementos semânticos e impor hierarquias de registros e campos dentro dos
dados.
Exemplo de dados semiestruturados: Dados pessoais armazenados em
um arquivo XML
<rec> <name> João Lima </name> <sex> Masculino </sex> <age> 35 </age> </rec>
<rec> <name> Sonia R. </name> <sex> Feminino </sex> <age> 41 </age> </rec>
<rec> <name> Regina F. </name> <sex> Feminino </sex> <age> 29 </age> </rec>
<rec> <name> Cristina L. </name> <sex> Feminino </sex> <age> 26 </age> </rec>
<rec> <name> Cicero A. </name> <sex> Masculino </sex> <age> 35 </age> </rec>

1.2 A importância e o volume do big data
De acordo com o Instituto Gartner até 2020 é possível que haja um total
de 40 trilhões de gigabytes de dados no mundo. São surpreendentes 2,2 milhões
de terabytes de novos dados gerados todos os dias.
A quantidade de dados gerados e armazenados diariamente, não
suporta mais uma estrutura centralizada de processamento de dados,
principalmente nas grandes organizações. O uso do Big Data nas organizações
tem por objetivo principal conhecer o comportamento do consumidor, e saber
os motivos que levam o cliente a se comportar de tal forma.
Sendo assim, podemos dizer que o Big Data é importante para ajudar as
empresas a analisar os seus dados e utilizá-los na identificação de novas
oportunidades. Podemos observar que com a aplicação do Big Data nas
organizações existem alguns benefícios que independente do modelo de
negócios, são aplicáveis a quaisquer empresas, são eles: economia de tempo,
redução de custos, otimização de ofertas, fornecimento de novos produtos,
maiores lucros, clientes mais satisfeitos e decisões mais eficientes.
Imagine em todos os e-mails, mensagens de Twitter, fotos e vídeos que
circulam na rede a cada instante. Não se utiliza mais, apenas unidade de
informação Terabyte (1.000.000.000.000 (1012), e sim Zettabyte
(1.000.000.000.000.000.000.000 (1021) e Brontobyte
((1.000.000.000.000.000.000.000.000.000 (1027).
Só no Facebook são 10 bilhões de mensagens, 4,5 bilhões de curtidas e
350 milhões de fotos compartilhadas todos os dias. A tecnologia do Big Data
11

serve exatamente para lidar com esse volume de dados, guardando-os em
diferentes localidades, e juntando-os através de software.
Portanto, a sua importância não gira em torno apenas de como ou
quanta informação chega até você e sua empresa, mas sim os insights e osvalores gerados após análises. Essas analises, se utilizam de técnicas que não
eram empregadas em uma escala empresarial. Os resultados ajudam em
diversas decisões estratégicas do negócio.
“O que mais importa não é se você tem os dados, mas sim como vai usá-
los. […] A gente precisa entender que a pirâmide inverteu. As
informações existem e precisamos saber interpretá-las rapidamente”.
Fábio Sayeg, fundador e CEO da ZOLY.
Para ter um resultado positivo, não basta apenas ter os dados, é
necessário compreender todo o processo de gestão e análise dos mesmos
(coleta, armazenamento, organização e análise, além de mantê-los sempre
atualizados, transformado esses dados em informações relevantes para a
organização.

2. OS 5 V’S DO BIG DATA
O conceito Big Data então propõe formas de tratar os dados e retirar
deles informações para serem utilizados estrategicamente e oferecer uma
abordagem consistente no tratamento do constante crescimento e da
complexidade dos dados. Para tanto, o conceito considera os 5 V´s do Big Data:
o Volume, a Velocidade, a Variedade, a Veracidade e o Valor.
o Volume, se o Big Data se refere aos dados que circulam todos os
dias, entre as organizações, certamente estamos falando de uma
grande quantidade de dados. Aqui trata-se do Volume de dados
mantidos e analisados por ferramentas matemáticas corretas que
podem contribuir com informações valiosas, como perfis, tendências
e etc. Diariamente usamos aplicativos de pagamento, de compras, de
redes sociais, GPS, relacionamento, buscadores, comparadores de
preços, aplicativos de saúde e bem-estar, especializados em
atividades físicas, músicas e etc, tudo isso gera dados e metadados
que serão agrupados para formar o “BIG” volume de dados a
disposição das análises.
a Velocidade, o mercado atual demanda por velocidade o tempo
todo, e o Big Data é um conceito que não pode funcionar se não
houver agilidade. A análise de dados deve ser instantânea, caso
contrário as informações obtidas podem não ser úteis para a
organização. Este V se refere à velocidade com que os dados são
criados. São mensagens de redes sociais se viralizando em
segundos, transações de cartão de crédito sendo verificadas a cada
instante ou os milissegundos necessários para calcular o valor de
compra e venda de ações. Esta tarefa demanda de arquiteturas de
computação específicas e também softwares especializados para
garantir que haja processamento adequado de dados para extração
das informações necessárias.
a Variedade, uma das boas qualidades do Big Data é a variedade de
dados obtidos por meio de diversos caminhos, como documentos
eletrônicos, e-mails, transações, etc. No passado, a maior parte dos
13

dados era estruturada e podia ser colocada em tabelas e relações.
Hoje, 90% dos dados do mundo não se comportam dessa forma. Com
o Big Data, mensagens, fotos, vídeos e sons, que são dados não-
estruturados, podem ser administrados juntamente com dados
tradicionais. Então o Big Data beneficia-se de dados originados em
diferentes aplicações, de diferentes modelos, em mídias diferentes
para compor efetivamente o seu volume de dados a ser aproveitado.
Esta variedade é benéfica e desejável para o modelo, uma vez que
nem sempre aplicações com estruturas de dados relacionais formais
comportam tudo o que pode ser aproveitado para gerar
conhecimento.
a Veracidade, se o volume de dados disponíveis para análise é
grande, certamente existe uma parcela da informação que não traz
veracidade. Infelizmente, a confiabilidade dos dados, principalmente
aqueles provenientes da rede, ainda não é 100% confiáveis. Um dos
pontos mais importantes de qualquer informação é que ela seja
verdadeira. Com o Big Data não é possível controlar cada hashtag do
Twitter ou notícia falsa na internet, mas com análises e estatísticas de
grandes volumes de dados é possível compensar as informações
incorretas. A qualificação da fonte, a determinação de padrões, a
confiabilidade do processo de captura e também, o processo de
cruzamento de novos dados com outros existentes e sobretudo a
compreensão dos dados capturados ajudam a definir a sua
Veracidade é consequentemente o nível de confiabilidade da
informação gerada.
o Valor, o último V é o que torna Big Data relevante (o resultado do
Big Data), de nada adianta um grande volume de dados, velocidade
no processamento, fontes diferentes e dados verificados se estes não
possuem, agregam valor ou justificam o esforço do processo de
consegui-los. É importante que empresas entrem no negócio do Big
Data, mas é sempre importante lembrar dos custos e benefícios e
tentar agregar valor ao que se está fazendo.
14

Com o avanço de novos tipos de negócios, resultando em novos tipos
de dados houve a necessidade de serem incluídos mais 2 V´s a Visualização e
Variabilidade, no tratamento dos tipos de dados que possuem um Big Data.
a Visualização, é fundamental no mundo atual, o uso de gráficos e
tabelas para visualizar grandes quantidades de dados complexos é
muito mais eficaz na transmissão de significados do que planilhas e
relatórios repletos de números e fórmulas.
a Variabilidade é diferente da variedade. Um café pode oferecer 6
misturas diferentes de café, mas se você obter a mesma mistura todos
os dias e o gosto for diferente a cada dia, isso é variabilidade. O
mesmo acontece com os dados, se o significado estiver mudando
constantemente, isso pode ter um impacto enorme na
homogeneização de dados.
15

Um estudo feito pela “Universe of Opportunities and Challenges” aponta que até
2020 o volume de dados gerados diariamente será de 40 trilhões de gigabyte.
Especialistas estimam que um carro autônomo poderá gerar até 100 gigabytes
por segundo.

Á medida que o mundo vai ficando cada vez mais conectado com um
número cada dia maior de dispositivos eletrônicos gerando, enviando e
recebendo dados, esse número terá um aumento astronômico nos próximos
anos.

2.1 Razões para implantar um Big Data

A produção de dados cresce exponencialmente no mundo todo. As
empresas buscam alternativas para utilizar corretamente essas informações.
Ter a capacidade de analisar e atuar sobre os dados é cada vez mais importante.
O ritmo do mercado atual exige que elas possam reagir rapidamente às
mudanças nas demandas dos clientes e condições ambientais, e apenas com
dados é possível tomar tais decisões complexas com o máximo de precisão.
Podemos apresentar no mínimo 3 vantagens gerais para a aplicação do Big
Data são elas:

 A primeira vantagem do Big Data é a capacidade de interpretar
grande quantidade de dados de uma só vez.
 A segunda é a capacidade de analisar dados não estruturados,
esta capacidade de trabalhar dados não estruturados permite ao
Big Data analisar informações de diferentes fontes, aumentando
assim sua abrangência.
 A terceira vantagem geral é a capacidade de interpretar
tendências de eventos, auxiliando a visualização de situações
futuras. Estas tendências podem ser de ordem econômica, de
aceitação de produtos, ou até climáticas.
O Big Data possui também vantagens específicas, Cordeiro (2017) apresenta
as vantagens do Big Data em diferentes áreas de negócios:
Serviços Financeiros por meio de análise de dados muitas instituições
financeiras acompanham as manifestações emocionais
dos clientes pelas mídias sociais, diagnosticando com
antecedência as insatisfações e ganhando tempo para
neutralizá-las antes da migração entre instituições, ou
fechamento de contas, no caso dos bancos.
Varejo por meio da coleta e análise de dados, empresas de varejo
costumam identificar os hábitos e preferências de consumo de
clientes e informações sociais e demográficas. Com isso,
aumentam o número de vendas e elaboram programas de
fidelidade mais atraentes. Outro exemplo é o levantamentode
dados de antigos clientes e cruzamento com dados de produtos
17

preferidos por eles a partir disso, gera-se descontos em
produtos específicos atraindo novamente o cliente.
Saúde A geração de informações clinícas contribui para fortalecer a
medicina de precisão, gerando diagnósticos mais exatos. Além
disso, o Big Data pode auxiliar monitorando as manifestações
de uma população em redes sociais e, dessa forma, prevendo
possíveis casos de eclosão de epidemias e dando tempo às
instituições de saúde se adequarem.
Setor público com o cruzamento de dados de pessoas por meio de diferentes
fontes, os gestores públicos podem identificar cenários de cri
mes financeiros. Outra vantagem do Big Data é monitorar o
nível de satisfação da população e gerar insights para
implementação de novos projetos ou soluções para problemas
detectados.
Ensino análise de dados pode ajudar educadores a identificar alunos
em risco e assegurar progressos dos alunos.
Manufatura por meio da visão que o Big Data pode fornecer, os fabricantes
podem aumentar a quantidade e qualidade da produção,
minimizando o desperdício, criando valor e contribuindo para a
lucratividade do negócio

Outras atividades de negócios estão elecandas no artigo “O que é Big
Data” publicado pela Oracle Big Data Solutions, são eles:
Desenvolvimento de
produtos
Empresas como Netflix e Procter & Gamble usam big data para
antecipar a demanda dos clientes. Eles criam modelos
preditivos para novos produtos e serviços, classificando os
principais atributos de produtos ou serviços passados e atuais
e modelando a relação entre esses atributos e o sucesso
comercial das ofertas. Além disso, a P&G utiliza dados e
análises de grupos de foco mídias sociais, mercados de teste e
lançamentos antecipados de lojas para planejar, produzir e
lançar novos produtos.
Manutenção Preditiva Fatores que podem prever falhas mecânicas podem estar
profundamente relacionados a dados estruturados que
abrangem milhões de entradas de log, dados de sensores,
mensagens de erro e temperatura do motor. Ao analisar essas
indicações de possíveis problemas antes que eles ocorram, as
empresas podem implementar a manutenção de maneira mais
econômica e maximizar o tempo de atividade de peças e
equipamentos.
Fraude e Conformidade Os cenários de segurança e requisitos de conformidade estão
evoluindo constantemente. Big Data ajuda a identificar padrões
em dados que indicam fraudes e agregar grandes volumes de
informações para tornar os relatórios regulares muito mais
rápidos.
Machine Learning O machine learning é um dos assuntos mais comentados do
momento. E os dados (especificamente, big data) são um dos
18

motivos para isso. Agora, somos capazes de ensinar Máquinas
em vez de programa-las. A disponibilidade de big data para
treinar modelos de machine learning permite que isso seja
realidade.
Eficiência Operacional A eficiência operacional nem sempre é notícia, mas é uma área
em que o Big data está tendo o maior impacto. Com o Big data,
você pode analisar e avaliar a produção, os comentários e as
devoluções de cliente, assim como outros fatores para reduzir
interrupções e antecipar demandas futuras. Big data também
pode ser usado para melhorar a tomada de decisões de acordo
com a demanda atual do mercado.
Impulsione a Inovação O Big data pode ajudar a inovar, estudando interdependências
entre seres humanos, instituições, entidades e processos e em,
seguida, determinando novas maneiras de usar esses insights.
Usando informações de dados para aprimorar as decisões
sobre considerações financeiras e de planejamento. Examinar
as tendências e o que os clientes desejam para oferecer novos
produtos e serviços. Implementar um sistema de preços
dinâmico. Existem infinitas possibilidades.

Um estudo realizado pela consultoria McKinsey “ Big Data: The next
frontier for innovation, Competition and productivity”, publicado na revista
on line Cultura Analítica de 02/2018, mostra os potencias valores que são
gerados a partir dos dados que serão coletados até 2020.
No estudo os valores foram dividios em 5 formas:
1- O Big Data pode gerar um valor significativo por tomar informações
verdadeiras e úteis com muito mais frequência.
2- As organizações criam e armazenam mais dados em forma digital,
eles podem coletar informações de desempenho mais precisas e
detalhadas sobre tudo, desde inventários de produtos até de
doenças, portanto, expor a variabilidade e aumentar o desempenho.
As principais empresas estão usando a coleta e análise de dados
para realizar experimentos controlados para tomar melhores
decisões de gerencimento; outros estão usando os dados para gerar
previsões com o objetivo de ajustar suas estratégia de negócio em
tempo de execução.
3- Em terceiro lugar, o Big Data permite uma segmentação cada vez
melhor dos clientes, portando produtos e serviços cada vez mais
personalizados.
4- As análises sofisticas podem trazer uma melhora significativa na
toma de decisões e geração de insights.
19

5- Finalmente, o Big Data pode se usado para melhorar o
desenvolvimento da próxima geração de produtos e serviços. Por
exemplo, os fabricantes estão usando dados obtidos a partir de
sensores incorporados em produtos para criar ofertas inovadoras de
serviços pós-venda, como manutenção preventiva(medidas
preventivas que ocorrem antes uma falha seja notada).

3. DESAFIOS PARA SE EXTRAIR O VALOR DO BIG DATA

Conforme Brown (2019) no seu artigo, o Big Data está se tornando mais
popular entre as empresas em todos os setores, mas a realização de um projeto
de big data não é fácil. Ele descreve alguns desafios que as empresas enfrentam
são eles:

Gerenciar o crescimento de dados

De acordo com o relatório “Digital Universe”, a IDC
estima que a quantidade de informações
armazenadas em sistemas de computação em todo o
mundo dobre a cada dois anos, e a grande maioria
dos dados não é estruturado. Para o gerenciamento e
à análise, as empresas podem usar ferramentas
como NoSQL, Hadoop, Spark e outros softwares
analíticos de big data, bem como software de BI
(Business Intelligence), Inteligência Artificial (IA) e
aprendizado de máquina para obter as informações
que precisam.
Gerar insights rapidamente

As empresas não querem apenas armazenar os
dados que geram. Elas estão mais interessadas em
usar big data para atingir seus objetivos tornando-as
mais competitivas, mas para isso precisam obter
insights e explorá-las rapidamente. As empresas já
possuem a disposição ferramentas analíticas que os
ajudarão a obter resultados em tempo real,
respondendo as inovações do mercado o mais rápido
possível.
Recrutar talentos de Big Data

Para desenvolver e gerenciar aplicativos que geram
insights, as empresas precisam de profissionais com
habilidades em big data. A demanda por especialistas
em Big Data aumentou significativamente, juntamente
com os salários oferecidos pelas empresas.
Integrar fontes diversificadas de
Big Data

A grande variedade de dados faz da integração um
dos maiores desafios da big data. De fato, os dados
vêm de diferentes fontes: aplicativos de negócios,
redes sociais, e-mails, documentos de funcionários e
etc combinando todos esses dados harmoniosamente
e usando-os para criar relatórios, e para esses
usuários avançados, insights orientados por dados e
21

soluções de suporte à decisão empresarial podem ser
muito difíceis.
Validação do Dados

A validação de dados também é um dos principais
desafios do big data. Muitas empresas recebem
dados semelhantes de sistemas diferentes, e esses
dados às vezes são contraditórios.
Proteger o Big Data

A segurança também é uma preocupação importante
no campo de big data. Dados de negócios podem ser
atraentes para hackers, no entanto muitas empresas
investem em medidas adicionaismais populares que
incluem controle de acesso e identidade, criptografia
e segregação de dados.
Resistência Organizacional

Além dos aspectos tecnológicos dos desafios de big
data, os funcionários também podem representar um
desafio de big data. Entre os principais desafios
encontrados pelas empresas que tenham de lançar
um projeto de big data, os três principais problemas
são o alinhamento organizacional insuficiente, a falta
de entendimento por parte dos gerentes, a falta de
entendimento ou a resistência dos negócios. Para
resolver esse desafio, é necessário, portanto,
convencer os líderes de negócios da utilidade do Big
Data e nomear um Diretor de Dados.

3.1 Áreas em potencial de aplicação do Big Data

Existem áreas para exemplificar como o Big Data tem sido explorado no
Brasil diante da dinamicidade da transformação digital são elas:
a. Medicina de precisão

A fusão entre o tratamento de grandes dados e tecnologias como realidade
virtual, Internet das Coisas e aprendizado de máquina já vem sendo trabalhada
pela comunidade médica brasileira. Por aqui, tal conjunção entre Big Data e
saúde trará, em breve, novos recursos aos dispositivos vestíveis (wearables) já
existentes nos hospitais nacionais. Isso abrirá a possibilidade de geração de
centenas de informações clínicas que contribuirão para a consolidação da
medicina de precisão no país.
22

b. Apólices de seguro

A telemetria, é a tecnologia bastante usada na Fórmula 1 que permite a
transmissão de informações detalhadas sobre o desempenho dos
carros diretamente a uma central. Pois esse recurso, que é baseado em Big
Data, já começa a ser usado por algumas seguradoras de veículos no Brasil.
Esse uso do Big Data no Brasil ainda é incipiente, mas já há ao menos
2 empresas do setor que adotam esse sistema de forma bastante simples.
O segurado instala um rastreador em seu automóvel, permitindo que toda a sua
performance seja monitorada — velocidade média, tempo de frenagem,
frequência de uso do automóvel, entre outros dados. É a partir do processamento
dessas informações que se define, de forma personalizada), o valor da apólice.
c. Gestão de tráfego
Desde novembro de 2016, a cidade paranaense de Ivaiporã, localizada a cerca
de 380 quilômetros de Curitiba, instalou um sistema que coleta dados das ruas
em caráter de teste. Tal recurso identifica padrões e fornece previsões para a
organização do tráfego. Essa consciência digital do movimento urbano
determinará, por exemplo, o tempo ideal de fechamento dos semáforos, além de
notificar mais rapidamente os agentes de trânsito em caso de acidentes.
d. Comportamento do consumidor
Vivo, Renner, Claro e Itaú Unibanco: essas são apenas algumas das
companhias que usam a análise de dados para entender o comportamento de
consumo do público.
e. Oportunidades de investimento

Atualmente, a maioria das corretoras de valores e consultorias financeiras do
país adota sistemas inteligentes para cruzar dados macroeconômicos, como
23

taxa de juros e câmbio, dados de mercado, como balanços e demonstrações
financeiras das empresas, e dados do próprio perfil de cada investidor, a fim de
entregar sugestões de investimentos com alto potencial de retorno. Os próprios
robôs investidores seguem essa tendência de uso de Big Data no mercado
financeiro. Compra de ações, composição de carteira, entradas e saídas de
tradings (investimentos especulativos): tudo é feito com base na mineração de
dados.
Estas potenciais áreas saem na frente com o uso do Big Data,
otimizando seus planos de negócios produzindo informações gerenciais que
expliquem tendências, bem como objetos inteligentes que atuem nestas
empresas substituindo a força de trabalho humana em diversas funções.

4. CASES DE SUCESSO DE APLICAÇÃO DO BIG DATA
A tecnologia big data tem influenciado todos os setores e organizações.
Ao entender como o Big Data funciona, compreende-se a extensão de como ele
se adequa a uma sociedade voltada para uma renovada arquitetura de
informação. É nesse contexto que, os cenários previstos dos setores serão
baseados de acordo como cada organização lida com os dados e se os possui.
(DAVENPORT, 2014).
Ao verificar a maneira que as organizações operam seus dados, elas
foram classificadas em 3 estilos. Em empresas líderes, onde seu desempenho
excedem as expectativas. Um exemplo é a Netflix e a Amazon, são companhias
que baseadas nas preferências de seus usuários, serviram para o
processamento dados, convertidos em vários padrões de comportamento e se
consagraram na previsão de oferta de serviços. (DAVENPORT, 2014). As
empresas desprovidas de dados, as quais não os tinham ou não eram bem
estruturados, como por exemplo, as organizações de saúde onde mesmo que
as anotações dos históricos dos pacientes estivessem em prontuários online, o
texto não estruturado tinha déficit de anotações relativo aos pacientes,
atrapalhando o desenvolvimento da instituição. (DAVENPORT, 2014). E por fim,
as empresas que não utilizavam os dados para seu próprio benefício e nem
dos seus clientes. Instituições como bancos, que utilizavam os dados sobre a
movimentação bancária de cada cliente apenas para interpretar e oferecer
serviços de marketing. (DAVENPORT, 2014).
A primeira atividade realizada em big data foi protagonizada por empresas
de produtos e serviços de Internet, e em startups que atuam na Internet e em
setores semelhantes. Parte dessas empresas que contribuem são essenciais
para a consolidação da ciência de dados. Cada avanço tecnológico foi devido a
essas várias empresas existentes. Há algumas delas que são de notório sucesso
é que afetam diretamente a natureza do BD. (DAVENPORT, 2014). São
entidades significativamente catalisadoras da nova ordem de dados. Instituições
como IBM, Facebook, Google e Amazon, são modelos tanto de como o que era
25

o antigo transitou para a o atual; e como empresas que surgiram desses novos
cenários conseguiram se estabelecer.
Uma empresa focada na tecnologia, a IBM desde 1880, vem se estruturando
para a nova ordem mundial de conhecimento.
Com os avanços da tecnologia, ela foi
determinando seu espaço e contribuindo para
a formação de nova informação no mundo.
(IBM, 2016).
Com a Tabulating Machine Company de Hollerith, em 1896, a IBM
alavancou como a empresa de desenvolvimento de base tecnológica que
movimentou as formações dos computadores e informações e que, até hoje é
referência de tecnologia no mundo. (IBM, 2016)
(IBM, 2016) Por ser uma empresa que se intitula como “empresa de
tecnologia da informação do mundo”, a IBM se adequa aos novos embates de
globalização, de forma que suas tecnologias sejam agentes de novas propostas.
Acontece que, com a liberação de software atual, como a Apache fez com o
Hadoop, permitiu a IBM se alinhar e escrever seus próprios estilos de
manuseamento de dados. Criando banco de dados relacionais e
multiplataformas em servidores assegurados por cloud computing. A IBM é uma
das principais referências em software para o controle de informações de uma
empresa. (DAVENPORT, 2014). A IBM defende que com o Big Data pode-se
fazer o que quiser da forma que quiser. As diferentes quantidades de dados
coletados podem gerar visões e resultados incríveis porque enriquece as
iniciativas de análise que estão ocorrendo nas empresas atualmente.
(ZIKOPOULOS et al., 2015). A IBM explica que a melhor maneira de utilizar o
Big Data e seus serviços de gerenciamento é entender a origem dos dados,
como fazer para analisá-los e aproveitá-los de forma que gere resultados
analíticos e que consequentemente resultem insights para dentro da empresa. É
dessa forma, que a empresa afirma, vem se adequando as demandas
informacionais reais e atuais. (ZIKOPOULOS et al., 2015).
26

Criada em 2004 por Mark Elliot Zuckerberg e
cofundadoreso Facebook começou quando
Mark ainda frequentava a Universidade de
Havard. A ideia era criar uma conexão virtual
entre as pessoas que conviviam pelo campus
da universidade. Assim, as pessoas que ingressassem no “TheFacebook”
(chamado antigamente, na época do lançamento) criariam um perfil online onde
seria possível colocar todas as informações pessoais e profissionais como
desejassem. O Facebook é uma empresa que gerencia milhões de dados e é
elevada a quantidade de mídias manipuladas diariamente. O site suporta
diferentes formatos como fotos, vídeos, links, gifs e textos entre outras formas e
formatos caracterizados pela a rede social. O que consagrou o Facebook foi o
fato de ir a favor da tecnologia juntamente com a interatividade pessoal.
Conseguindo definir um padrão de pensamento, vontades e necessidades e
saber da predileção de cada usuário no Facebook conseguiu desencadear um
novo tipo de estreitamento de serviço tanto entre as marcas quanto entre as
empresas e pessoas integradas. (DAVENPORT, 2014).
A empresa traz questões de privacidade preservadas e faz questão de
notificar o usuário quanto à pretensão do uso de dados. Mas a verdade é que
não se sabe realmente como esses dados são/serão utilizados. Mesmo ao
concordar com o fornecimento de dados. Não se sabe o grau de privacidade real
está que sendo controlado. E nem se são usados com um propósito “inofensivo”.
(DAVENPORT, 2014).
Uma organização responsável por vender
produtos via internet, como livros, aparatos
tecnológicos, utensílios gerais entre outras
coisas. A Amazon é considerada a revolução
do mercado e marketing digital. Seu alcance a
nível mundial a consagra como a melhor loja
virtual de vendas, direcionada aos clientes online. (DAVENPORT, 2014).
Acompanhado a revolução da Internet, Jeffrey Bezos teve a ideia de criar um site
de vendas enquanto trabalhava em uma grande empresa. Imaginou um novo
negócio em que se baseava em produtos oferecidos online. Então 1994, resolveu
27

fundar a Amazon, criando o conceito de mercado online para certos tipos de
artigos. (FUNDABLE, 2017).
Por ser uma organização criada dentro dos parâmetros de uma diferente
modelagem de dados, ela consegue estruturar um serviço onde as tendências
possam ser controladas e observadas pelas preferências coletadas de dados da
própria navegação do usuário. Quando se observa, por exemplo, o que o usuário
pesquisou e se comprou, a partir desse ponto, são analisadas outras variáveis
de linhas sugestivas de uma nova possível compra, ou de recomendação que
poderá ser sugerida no futuro. Isso demonstra como a quantidade de dados
coletados foi transformada, nesse sistema, uma nova proposta de marketing.
(DAVENPORT, 2014).
A Amazon se consolida dando manutenção em seus negócios
constantemente, devido à sua arquitetura única, baseado em cloud computing
criando seu banco de dados sobre os produtos. Constrói seu domínio na
apropriação desses recursos, de forma singular. A premissa dessas tecnologias,
como elas são organizadas e elaboradas, casam com a medida de sucesso que
a fundamentou. (DAVENPORT, 2014; VELTE; VELTE; ELSENPETER, 2013).
O sistema de recomendação (também utilizado nas ferramentas da
Google) demonstra como as análises de dados, no caso a pesquisa de produtos,
funcionam muito bem a partir de variáveis inseridas pela predileção de uma
pessoa. Mostrando assim como o princípio do Streaming Service, que até então
era pouco comum, se torna ferramenta chave para a projeção de excelentes
serviços de compra e de divulgação. (DAVENPORT, 2014; VELTE; VELTE;
ELSENPETER, 2013).
A abrangência de sua tecnologia engloba tanto a infraestrutura quanto o
produto final. Por ser o serviço mais amplo de nuvem, ao integrar cada uma de
suas aplicações, alavanca a melhor criação de complementos existentes que
podem ser integrados.
O Streaming Service e o Cloud Computing faz a comunicação ser intensa;
a virtualização ser imediata, o armazenamento ser de grande amplitude e a
estruturação e mapeamento de dados serem agilmente transferidos e fornecidos
pela internet. (VELTE; VELTE; ELSENPETER, 2013).
28

A Amazon é uma empresa transnacional de comércio dos Estados Unidos. Hoje, é
uma empresa que vende de tudo um pouco. Ela tem se destacado cada vez mais pelo
uso inteligente de tecnologia e Big Data. Recentemente, se tornou a segunda empresa
americana a alcançar o valor de mercado de US$ 1 trilhão, o que deixa claro sua força.
E nada disso teria sido possível sem o uso dos dados.
Os algoritmos criados pela Amazon possuem principalmente a função de levar as
ofertas mais personalizadas possível para cada pessoa. Resultado: cliente satisfeito,
empresa vendendo mais.
Através de Machine Learning e do armazenamento em cloud computing, eles
aprendem como cada consumidor se comporta. É possível até prever que tipo de
mercadoria o cliente poderia se interessar. No futuro, o objetivo é entregar produtos
ideias para os clientes sem que eles tenham sequer pedido!
É interessante ressaltar que a Amazon tem investido também em disponibilizar a
mesma tecnologia que usam para outros e-commerces. Dessa maneira, comprovam
sua eficácia em diversos níveis e mostram ainda como expandir a oferta de serviços
com o Big Data.

Fundada em 1998, seus idealizadores Larry
Page e Sergey Brin com a visão de organizar
toda a informação disponível e torná-las úteis.
A Google implementa o mais satisfatório
serviço visto na atualidade. Sua criação foi
revolucionária, agregou várias plataformas em um desenvolvedor só, e priorizou
produtos de apoio crucial a usuários e empresas que depende dos serviços de
informação. (GOOGLE, 2016). Com aplicação nas mais diversas áreas, a Google
se legitima uma das melhores organizações no ambiente em que se estabelece.
Cuidando de coordenar as diversas áreas de tecnologia da informação, ela
trabalha diariamente com dados apurados dos diversos meios possíveis.
Acreditando que haverá utilidade de alguma forma, a Google sempre coleta
dados de todos que a circundam e a acessam. Pensando em como será benéfico
que quanto mais dado somar melhor para fomentação do seu sistema.
29

(DAVENPORT, 2014). A preocupação com os dados não se limita em apenas
agregá-los, mas também em como serão reaproveitados, afinal informação útil é
aquela que informa algo. Entra então o Big Data de forma para gerenciar seus
arquivos. Ele não só auxilia como é o novo tratamento dessas informações e
consegue definir mais uma forma de sistematizar os mecanismos de trabalho.
Fazendo-o repensar e aprimorar a estrutura da sua organização e otimizá-la.
(TAURION, 2015).
As essências da tecnologia da Google no primeiro momento
concentraram-se na cloud computing. Seu servidor de email foi o primeiro a
integralizar a ideia conjuntamente com a nuvem.
Abaixo apresentamos outras empresas de destaque na utilização do Big
Data no cenário nacional e internacional, retirados de diversas publicações:

1. Monsanto

A Monsanto aproveita a análise de dados para elaborar projetos
otimizados de plantio. Eles usam os modelos matemáticos e estatísticos
para planejar os melhores momentos e locais para cultivar plantas
masculinas e femininas.

Seu algoritmo de aprendizado de máquina atinge mais de 90 bilhões de
pontos de dados em dias, em vez de semanas ou meses, com isso pode
se reduzir e otimizar a extensão da área de plantio.

2. Grupo Pão de Açúcar

O grupo Pão de açúcar tem um sistema de relacionamento com o cliente
chamado de Clube Extra, o objetivo é promover aproximação e
fidelização dos clientes e também dos fornecedores.

Operacionalmente o sistema com a tecnologia Big Data otimiza o
estoque, visto que a empresa terá conhecimento prévio sobre o quanto
se deve comprar de determinado produto, tendo em vista os custos de
mantê-lo, e também nesse sistema ocliente pode acumular pontos por
meio de compras online em lojas físicas.

Os dados originados com essa plataforma são analisados para
relacionar os clientes com os produtos, com as marcas favoritas e com
os mais consumidos.

3. Ministério da Justiça
30

As instituições governamentais também estão investindo no uso de Big
Data. O Ministério da Justiça do Brasil usa um banco de dados imenso,
com mais de 1 bilhão de registros.

Para poder analisar todos os dados, o Ministério da Justiça conta com o
auxílio da tecnologia Watson da IBM, desenvolvida para coletar e
processar dados em milésimos de segundos.

Ele ainda utiliza o Big Data para identificar ações ilícitas, especialmente
relacionadas com lavagem de dinheiro.

4. Zara
Antes que as portas se abram diariamente em cada um dos mais de 2.213
estabelecimentos da Zara em todo o mundo, os funcionários e os
gerentes compartilham detalhes dos artigos mais vendidos do dia
anterior, peças devolvidas pelos clientes, feedback dos compradores,
bem como tendências que a equipe tem percebido.

Usando um sistema sofisticado orientado para a tecnologia, analistas
divulgam as atualizações diárias e usam-nas para pintar uma imagem
precisa do que exatamente os clientes da Zara estão exigindo. Essa
informação é rapidamente traduzida por uma vasta equipe de mais de
300 designers internos em projetos tangíveis que obedecem às
tendências de moda, que são decentemente feitos e vendidos a preços
acessíveis.

A Zara está sempre preparada para dar aos consumidores o que eles
querem ou, melhor ainda, o que eles nem sabem que precisam. E, ao
que parece, esse é o segredo do seu sucesso.

5. NASA

Não chega a ser uma grande surpresa, mas a Agência Espacial Norte-
americana (NASA) tem diversos programas que contam com o uso de
Big Data.

Um exemplo é o projeto de pesquisa sobre mudanças climáticas, com
análises de dados importantes coletados por meio de 16 satélites de
ciências da terra da NASA para o programa de ciência climática,
monitorando a qualidade do ar, os oceanos e os furacões, entre outros.

Outro projeto é o supercomputador Pleiades — o supercomputador mais
avançado do mundo para modelagem e simulação. Ele é um dos mais
poderosos instalados no Centro de Pesquisa da NASA em Moffett Field,
Califórnia, e apoia as missões da agência na exploração da ciência
terrestre e espacial, aeronáutica, futuras viagens espaciais
e explorações.
31

6. Nike

A Nike é líder mundial em várias categorias de calçados e vestuários
esportivos e está investindo pesadamente em aplicativos, wearables e
Big Data. A Nike está olhando além dos produtos físicos e pretende criar
marcas de estilo de vida que os atletas não querem correr sem.

A empresa tem 13 linhas diferentes, em mais de 180 países. No
entanto, a forma como ela segmenta e serve esses mercados é o seu
diferencial real. Nike divide o mundo em empreendimentos esportivos
em vez de apenas em geografia. A teoria é que as pessoas que jogam
golfe, por exemplo, têm mais em comum do que as pessoas que
simplesmente vivem próximas umas das outras.

Essa estratégia de varejo e marketing é, em grande parte, impulsionada
por Big Data. A Nike tem investido também em análise de dados
demográfica para definir seus mercados de teste e impulsionar seus
negócios.
7.Target

A Target é a segunda maior retail store dos Estados Unidos, ficando atrás
apenas do Walmart. O case dessa marca ficou extremamente conhecido por
ter realizado algo incrível: prever quais clientes estavam grávidas.
Até hoje, há um grande debate sobre privacidade e até onde é correto utilizar
as informações dos clientes para tal ações. Porém, é inegável a genialidade
do uso do Big Data.
A equipe de análise de dados da rede criou modelos para entender e conhecer
a fundo os hábitos de compra de seus clientes. Dessa forma, foi possível criar
perfis de comprador, baseando-se em suas compras e dados demográficos,
idade e até a situação da vida pessoal da pessoa.
Assim, a empresa poderia oferecer ofertas de produtos que cada perfil estava
mais propenso a comprar. E foi assim que eles passaram a mapear quais
clientes estavam grávidas, e até qual o mês da gestação, baseando-se nos
hábitos de compra.
Apesar de ter gerado muita polêmica, foi evidente o aumento da assertividade
das ofertas e além disso, maior número de compras e fidelizações.
8. American Express

A American Express, mais conhecida como Amex, é uma das mais famosas
empresa de serviços financeiros dos Estados Unidos.
Pensando em como tirar proveito disso, a empresa passou a utilizar a análise
de dados e o machine learning para tomar importantes decisões. Uma das
soluções alcançadas foi detectar fraudes com muito mais facilidade.
Com esse recurso, eles percebem padrões que correspondem a transações
fraudulentas, pensando em detectar rapidamente para minimizar perdas.
https://www.sas.com/pt_br/insights/analytics/machine-learning.html
32

Assim, os algoritmos, através do machine learning, aprendem o padrão de
consumo de cada usuário. Sempre que há algum tipo de transação que foge
do usual, o usuário e a empresa são notificados.
Com o Big Data, viram uma grande oportunidade de diversificar ainda mais os
serviços oferecidos ao usuário, não se limitando ao crédito.
Hoje, a empresa oferece um aplicativo que analisa os dados de compras
anteriores e, em seguida, recomenda restaurantes na área que o usuário
provavelmente desfrutará. Além disso, oferecem cupons e ofertas em outros
estabelecimentos e produtos.
9. Delta Airlines

No ramo da aviação, muitas vezes é difícil encontrar pontos que façam uma
empresa realmente se diferenciar da outra. Pensando em como ir além, a
empresa Delta pensou em como resolver uma das maiores dores dos
passageiros quando viajam: bagagem extraviada.
Com uma solução simples, porém muito inteligente e eficaz, eles pensaram
em um sistema que permite cada passageiro a acompanhar onde está sua
bagagem. Além de deixar as pessoas mais tranquilas, ajudou a evitar
grandes dores de cabeça para a empresa.
Pode parecer simples, mas esse recurso é sim uma utilização muito
inteligente do Big Data. São mais de 130 milhões de bagagens despachadas
por ano, um grande volume de informações com cada uma delas.
Isso mostra como o Big Data não está distante de nossa realidade: pode ser
utilizado por qualquer tipo de empresa, sem gastar milhões de reais. Uma
solução barata e que diferenciou a Delta como uma empresa centrada no
consumidor.

10. Shell

Pra quem pensa que empresas que usam Big Data são apenas as mais
novas ou muito ligadas ao digital, está muito enganado. A Shell, uma das
maiores empresas petrolíferas do mundo passou a usar o Big Data
para reduzir consideravelmente seus gastos de operação.
Para perfurar um local para extração de petróleo, além de muito caro
ocasiona em um grande impacto ambiental. Para minimizar os riscos e
diminuir custos, é preciso estudar bem quais áreas estão propensas a
entregarem melhor resultado.
Assim, com a análise, a Shell monitora as ondas sísmicas de baixa
freqüência abaixo da superfície da Terra. Essas ondas se registram de
maneira diferente nos sensores enquanto viajam pela crosta terrestre. Dessa
forma, podem prever o tamanho provável dos recursos de petróleo e gás.
https://resultys.com.br/como-o-big-data-pode-ajudar-sua-empresa/
33

11. Maplink

A Maplink é uma empresa brasileira especializada na digitalização de
mapas. Nos últimos anos, ela passou a utilizar um software de
rastreamento por satélite para cruzar os dados oriundos de mais de 400
mil carros de São Paulo. E o que é melhor: tudo em tempo real.
Esse trabalho permitiu à empresa realizar um diagnóstico com precisão
apurada do trânsito da cidade, apontando os pontos de lentidão, alémde
possíveis alternativas e rotas de fuga.
12. Precifica

De fato, o consumo por e-commerce no Brasil aumentou. E diante este
cenário, permitiu à Precifica, empresa de precificação inteligente, criar
uma solução para os donos de lojas online. O objetivo é alterar os preços
dos seus produtos automaticamente, de acordo com as oscilações no
mercado.
Isso tudo por meio da coleta de dados de compras dos consumidores.
Principalmente pela internet nos mais variados segmentos de mercado.
Além disso, a Precifica também monitora o valor dos fretes, para auxiliar
as lojas virtuais a determinar a melhor política de remessas.
14.Telebras

A Telebras, a maior empresa pública de telecom do Brasil, também
adotou o Big Data. O objetivo é melhorar a utilização das suas redes de
telecomunicações por meio do mapeamento das demandas existentes
em tempo real.
Assim, a empresa consegue enxergar onde é necessário a construção
de novas redes. E, então, enviar para os dispositivos móveis dos seus
vendedores os dados de leads altamente qualificados, otimizando o
processo de venda.

Agora que já conhecemos alguns casos de sucesso do uso de Big Data
no Brasil, é possível enxergar que, seja qual for o segmento, sem dúvidas o uso
dessa ferramenta é urgente para qualquer empresa que queira se destacar
nesse novo mercado.

5. ARMAZENAMENTO DE DADOS COM O BIG DATA

A tecnologia do armazenamento vem evoluindo a passos largos para
acompanhar a demanda por espaço e o crescimento na complexidade e
tamanho dos arquivos. Cada vez que a resolução de um arquivo de vídeo é
melhorada, por exemplo, o espaço ocupado por esses arquivos cresce
vertiginosamente.
Ter um sistema de computação em nuvem é condição para se trabalhar
bem com um grande volume de dados, uma vez que isso envolve coleta,
armazenamento e compartilhamento de um número gigantesco de informações.
Além disso, a constante necessidade de conhecer o resultado das ações
de um negócio, muitas vezes, imediatamente, torna essa relação entre cloud
computing e Big Data extremamente necessária.
5.1 O que é a computação na nuvem

O conceito da computação em nuvem (cloud computing) tem como
objetivo facilitar o acesso a dados e a execução de programas utilizando a
internet. Desse modo, o usuário tem a possibilidade de usar serviços e
aplicativos sem a necessidade de uma instalação, já que tudo (ou quase tudo)
será executado em servidores. Além disso, o acesso a dados é possível a partir
de quaisquer dispositivos, desde que estejam conectados à internet e tenham a
permissão do devido responsável.
A Cloud Computing (computação em nuvem) vem causando
muitas transformações digitais e já tem um lugar de destaque no mundo
corporativo. Embora atualmente seja algo bastante usual, esse é um assunto
grande e complexo, que possui vários subtemas, como os modelos de nuvem. É
35

comum vermos as siglas IaaS, PaaS e SaaS, além de ouvirmos falar sobre os
serviços públicos, privados e híbridos. No entanto, o assunto ainda gera
dúvidas até mesmo para os profissionais de tecnologia e, principalmente, para
pessoas que não estão acostumadas com o mundo da TI.
5.1.1 Aplicações da Cloud Computing
A Cloud Computing parte do princípio de que a computação não é um produto,
mas um serviço. Sua empresa não precisa possuir uma licença, um servidor ou
uma plataforma de desenvolvimento. O que ela deve é ter acesso às
funcionalidades e à infraestrutura desses softwares e hardwares. Com esse
pensamento, a Cloud Computing permite que um negócio execute soluções de
TI que estão armazenadas e disponibilizadas em servidores remotos. Algumas
funcionalidades possíveis:
 Servidores virtuais - Em vez de investir na compra de servidores e no
espaço físico para eles, pode-se contratar um servidor em nuvem.
 Armazenamento - Arquivos e dados podem ser armazenados
remotamente, de maneira que fiquem disponíveis para acesso a partir de
qualquer dispositivo conectado à internet.
 Softwares - Em vez de comprar licenças de softwares que, muitas vezes,
ficam ligadas a uma estação de trabalho, com a nuvem, é possível pagar
apenas pelos serviços utilizados em cada sistema e acessá-los de
qualquer computador.
 Desenvolvimento de softwares - Uma plataforma de desenvolvimento
segura, robusta e confiável pode ser encontrada no modelo PaaS. Além
disso, também é possível contar com sistemas de gestão
e compartilhamento de informações entre áreas do negócio.
36

Como as possibilidades da computação em nuvem são amplas, os profissionais
de tecnologia costumam dividir os serviços prestados em 3 categorias: IaaS,
PaaS e SaaS.
5.1.2. Exemplos de computação em nuvem: SaaS, PaaS e IaaS
a. IaaS — Infrastructure as a Service (Infraestrutura como Serviço)

Nesse primeiro exemplo dos modelos
de nuvem, a empresa contrata uma
capacidade de hardware que
corresponde a memória,
armazenamento, processamento etc.
Podem entrar nesse pacote de
contratações os servidores,
roteadores, racks, entre outros. Dependendo do fornecedor e do modelo
escolhido, a sua empresa pode ser tarifada, por exemplo, pelo número de
servidores utilizados e pela quantidade de dados armazenados ou trafegados.
Em geral, tudo é fornecido por meio de um data center com servidores virtuais,
em que você paga somente por aquilo que usar.
O uso do IaaS é recomendado para pequenas e médias empresas que estão
crescendo tão rapidamente que a infraestrutura não seria capaz de acompanhar,
além daquelas que tenham demandas voláteis, como lojas virtuais. No entanto,
ele não é recomendado quando há um limite de desempenho ou restrições
relativas à legislação do armazenamento ou terceirização dos dados. Exemplos
desse tipo de serviço são o Amazon Web Services (AWS), o Google Compute
Engine e o Microsoft Azure.
b. PaaS — Platform as a Service (Plataforma como Serviço)
http://aws.amazon.com/pt/
https://cloud.google.com/compute/
https://cloud.google.com/compute/
http://azure.microsoft.com/pt-br/
37

O PaaS é uma plataforma que pode criar,
hospedar e gerir aplicativos. Nesse
modelo de nuvem, contrata-se um
ambiente completo de desenvolvimento,
no qual é possível criar, modificar e
otimizar softwares e aplicações. Tudo isso é feito utilizando a infraestrutura na
nuvem. Ou seja, o time de desenvolvimento tem uma infraestrutura completa e
moderna à disposição, sem que sejam necessários altos investimentos.
As equipes de desenvolvimento só precisam se preocupar com a programação
do software, pois o gerenciamento, manutenção e atualização da infraestrutura
ficam a cargo do fornecedor. Além disso, outro ponto a favor desse modelo de
nuvem é que várias ferramentas de desenvolvimento de software são oferecidas
na plataforma.
Dessa maneira, ela se torna completa, robusta e totalmente disponível em uma
nuvem pública ou privada, podendo ser acessada pela internet. No entanto, a
PaaS não é indicada quando o desempenho geral do software pede algum
hardware ou outros aplicativos específicos. Exemplos deste serviço são: Google
App Engine e Heroku, outro exemplo de PaaS é o Microsoft Azure Cloud
Services.
c. SaaS — Software as a Service (Software como Serviço)
Por fim, qualquer pessoa conhece o
SaaS, mesmo que não saiba. Nesse
terceiro modelo de nuvem, você pode
ter acesso ao software sem comprar a
sua licença, utilizando-o a partir da
Cloud Computing, muitas vezes com
recursos limitados.
https://cloud.google.com/appengine/
https://cloud.google.com/appengine/
https://www.heroku.com/
http://azure.microsoft.com/pt-br/services/cloud-services/
http://azure.microsoft.com/pt-br/services/cloud-services/
38

No entanto, também existem planos de pagamento nos quais é cobrada uma
taxa fixa ou um valor que varia de acordo com o uso. Muitos CRMs ou ERPs
trabalham no sistema SaaS. Assim, o acesso a esses softwares é feito usando
ainternet. Os dados, contatos e demais informações podem ser acessados de
qualquer dispositivo, dando mais mobilidade à equipe.
Falamos que qualquer um conhece o SaaS porque sites como o Facebook e o
Twitter ou aplicativos como o Skype, OneDrive, Google Docs e o Office 365
funcionam dessa maneira. Neles, tudo é disponibilizado na nuvem, para que
muitos usuários consigam ter acesso ao serviço pelo browser ou por um
software.
Para a utilização do SAAS, existe uma grande vantagem da escalabilidade e da
praticidade. Afinal, todos os processos relativos aos custos da compra do
software e do servidor — além da implementação — são eliminados, visto que o
serviço está disponível a um clique de distância.
O SaaS é bastante recomendado para:
 pequenas empresas, que não podem gastar com a compra de
licenças;
 trabalhos que durem apenas um curto período de tempo;
 necessidades de acesso remoto aos aplicativos, como no caso de
softwares de CRM ou de gestão de redes sociais.
Porém, ele não é muito bom para instituições que precisem de um
processamento de dados rápido ou para aquelas que seguem normas de
legislação contrárias à hospedagem de dados em ambiente externos.
A computação em nuvem pode trazer diversas vantagens competitivas para os
negócios.
39

 Redução de custos
 Praticidade
 Acesso às inovações
 Segurança
Existe um mito de que a nuvem reduz a segurança dos dados da empresa. É
verdade que os arquivos na nuvem pública podem estar sujeitos a acessos
inapropriados. Porém, com o fornecedor certo, é possível garantir
a segurança dos arquivos e proteger as informações da sua empresa, por
exemplo, por meio da encriptação.

Referências Bibliográficas

DAVENPORT, Thomas. Big data no trabalho: Derrubando mitos e
descobrindo oportunidades. Tradução: Cristina Yamagami. Rio de Janeiro:
Elsevier, 2014.
MAYER SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big data: como extrair
volume, variedade, velocidade e valor da avalanche de informação
cotidiana. Tradução: Paulo Polznoff Junior. Rio de Janeiro: Elsevier, 2013.
TAURION, Cezar. Big data. Rio de Janeiro: Brasfort, 2015.170 p.
VELTE, Anthony T.; VELTE, Toby J.; ELSENPETER, Robert. Computação em
nuvem: uma abordagem prática. Rio de Janeiro: Alta Books, 2013.
ZIKOPOULOS, Paul et al. Big Data Beyond the Hype: A Guide to
Conversations for Today’s Data Center. : Mc Graw Hilleducation, 2015.
Disponível em: Acesso em: 20 de dezembro de 2016.

Referências online
Abel, C: Análise de dados: conheça as 8 principais ferramentas de Big Data
para usar nos negócios artigo publicado pela MindMiners/ 2018. Disponível
em: <https://mindminers.com/blog/ferramentas-de-big-data/> acesso em
10/07/2019.
Brown, C: 7 desafios que as organizações enfrentam para extrair valor do
big data artigo publicado pela CIO from IDG/2019. Disponível em:
<https://cio.com.br/7-desafios-que-organizacoes-enfrentam-para-extrair-valor-
do-big-data/ > acesso em 08/07/2019.
Camargo. G: 5 motivos para transformar seu negócio em business
analytics: Disponível em: https://computerworld.com.br/2018/05/08/5-motivos-
para-transformar-seu-negocio-em-business-analytics/> acesso em 15/06/2019.
Cordeiro, C.: Vantagens gerais e específicas do Big Data – artigo publicado
pelo neomind / 2017. Disponível em: <http://www.neomind.com.br:81/blog/big-
data-quais-as-vantagens-gerais-e-especificas/> acesso em 10/07/2019.
Entenda como o big data e uma grande vantagem competitiva. Disponível
em: https://www.santodigital.com.br/entenda-como-o-big-data-e-uma-grande-
vantagem-competitiva/ . acesso em 13/06/2019.
Por que business analytics está crescendo. Disponível em:
http://dataexperience.com.br/por-que-business-analytics-esta -crescendo/>
acesso em 15/06/2019.
FUNDABLE. Amazon Startup Story. 2017. Disponível em:
https://www.fundable.com/learn/startup-stories/amazon. Acesso em: 11 de
janeiro de 2020.
GOOGLE. Google Empresa. Disponível em: https://about.google/ . Acesso em:
10 de janeiro de 2020.
https://www.fundable.com/learn/startup-stories/amazon
https://about.google/
41

IBM. História: Um pouco de história. Disponível em: https://ibm.com . Acesso
em: 12 janeiro 2020.
https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-
deveria-saber/
https://culturaanalitica.com.br/os-5-vs-big-data
https://sgatecnologia.com.br/4-cases-do-uso-de-big-data-no-brasil/
https://www.oracle.com/br/big-data/guide/what-is-big-data.html
https://blog.sonda.com/big-data-no-brasil/
https://resultys.com.br/cases-de-empresas-que-usam-big-data/
https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-
como-se-relacionam/
Sugestão de Leitura

por Kenneth Cukier (Autor), Viktor Mayer-Sch Nberger (Autor)
Editora: Elsevier; Edição: 1ª (24 de julho de 2013)

https://ibm.com/
https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-deveria-saber/
https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-deveria-saber/
https://culturaanalitica.com.br/os-5-vs-big-data
https://sgatecnologia.com.br/4-cases-do-uso-de-big-data-no-brasil/
https://www.oracle.com/br/big-data/guide/what-is-big-data.html
https://blog.sonda.com/big-data-no-brasil/
https://resultys.com.br/cases-de-empresas-que-usam-big-data/
https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-como-se-relacionam/
https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-como-se-relacionam/
https://www.amazon.com.br/s/ref=dp_byline_sr_book_1?ie=UTF8&field-author=Kenneth+Cukier&search-alias=books
https://www.amazon.com.br/s/ref=dp_byline_sr_book_2?ie=UTF8&field-author=Viktor+Mayer-Sch+Nberger&search-alias=books
42

Editora: BRASPORT; Edição: 1 (5 de junho de 2013)

UNIDADE II – Business Analytics

Objetivos:
Apresentar e aplicar conceitos, métodos e técnicas de análise de dados no
contexto de negócios, mercados e ambientes;
Apresentar os diferentes métodos usados em uma estratégia de Business
Analytics;
Elencar a áreas de negócios para a aplicação de Business Analytics;
Conhecer certificações Business Analytics.
44

INTRODUÇÃO

Nesta unidade serão apresentados os conceitos de Business Analytics, que
utiliza dados selecionados para realizar a previsão de resultados, indicando
possibilidades de melhorias nos processos das empresas, isso ocorre através
do uso de algoritmos analíticos avançados. Será apresentado como, explorar os
dados por meio de análises diagnósticas: Descritivas, Diagnóstica, Preditivas e
Prescritiva e conhecer as análises de dados aplicadas em diferentes áreas de
negócios. E elencar algumas certificações de Business Analytics.

1. O QUE É BUSINESS ANALYTICS

Conhecimento de negócio é uma das principais habilidades do Cientista
de Dados, que irá aplicar seus conhecimentos em análise de dados, em
diferentes áreas de negócio como: Marketing Analytics, RH Analytics, Financial
Analytics, Social Network Analytics e Text Mining.

Business Analytics é muito amplo:
contempla mineração de dados,
big data, data Science,
procedimentos de descoberta de
conhecimento e, o envolvimento
da área de negócio. Business
Analytics trabalha em conjunto
com outras ferramentas, como as do Bussiness Intelligence(BI). O conceito de
Business Analytics ainda se confunde bastante com o Bussiness Intelligence. A
diferença é que o Business Intelligence (BI) tem um olhar para o passado, faz
leitura de um conjunto de dados em um data warehouse, extrai informação útil
e elabora um dashboard para apoiar os dirigentes das empresas que precisam
empregar a sua expertise para realização das tarefas.
O conceito de Analytics ou Business Analytics é o uso extensivo dos
dados, análise estatística e quantitativa, modelos explicativos e preditivos e
gerenciamento baseados em fatos para conduzir decisões e ações (Davenport
&Harris, 2007).
Business Analytics conta com mais recursos de estatísticas
preditivas do que o BI, oferecendo maior agilidade e segurança e na
disponibilização das informações que são extraídas a partir de dados disponíveis
em sistemas internos das empresas e/ou encontrados na internet, através de
algoritmos analíticos avançados. Assim o Business Analytics possibilita a
formação das melhores estratégias de negócio de forma eficiente e precisa.

1.1. Introdução à Data Mining

Data Mining, ou mineração de dados, é a prática de examinar dados que
já foram coletados utilizando diversos tipos de algoritmos, normalmente de forma
automática, a fim de gerar novas informações e encontrar padrões.
Considerando que minerar dados é um processo de transformar dados em
informações úteis, para atingir esse objetivo, alguns passos são realizados,
como: encontrar padrões, associações e anomalias gerais nos dados. Em Data
Mining não importa a forma como os dados foram coletados, se via banco de
dados, web scraping, API´s, e etc.
O conceito de Data Mining, mineração de dados em português, é mais
simples do que parece. É basicamente uma forma de analisar e processar uma
quantidade de dados sob diferentes perspectivas. Esses dados são então
transformados em informação, que serão úteis nas mais diversas áreas
estratégicas. Uma forma interessante de se pensar em Data Mining é pensar em
seu propósito. Todo o tipo de dado precisa de alguém que identifique os padrões,
consistências e relacionamentos com outros dados, de forma a transformar isso
em conhecimento para ser usado em decisões estratégicas.
O processo do Data Mining se utiliza de aplicações matemáticas e
métodos estatísticos, que vão desde o uso de uma regressão logística (é uma
técnica estatística que tem como objetivo produzir, a partir de um conjunto de
observações, um modelo que permita a predição de valores tomados por uma
variável categórica, frequentemente binária, a partir de uma série de variáveis
explicativas contínuas e/ou binárias), até redes neurais, deep learning -
aprendizagem profunda(a aprendizagem profunda, do inglês Deep Learning é
um ramo de aprendizado de máquina baseado em um conjunto de algoritmos
47

que tentam modelar abstrações de alto nível de dados usando um grafo profundo
com várias camadas de processamento, compostas de várias transformações
lineares e não lineares), análise de clustering (agrupamentos) e classificações
automáticas.

Também conhecido como Mineração de Dados, o Data Mining é o
processo de explorar grandes quantidades de dados à procura de padrões
consistentes. Ele é formado por um conjunto de ferramentas e técnicas que
através do uso de algoritmos de aprendizagem ou classificação, baseados em
redes neurais e estatística que são capazes de explorar um conjunto de dados,
extraindo ou ajudando a evidenciar padrões e auxiliando na descoberta de
conhecimento.
Rocha (2003) explica que Data Mining:
“é uma técnica composta por um conjunto de ferramentas, que através do
uso de algoritmos de aprendizado ou baseada em redes neurais e
estatísticas, permite buscar em uma grande base de dados as informações
que aparentemente estão escondidas, possibilitando, assim agilidade nas
tomadas de decisões “.

Souza (2009) define que:
“Data Mining é o processo de análise de conjunto de dados que por objetivo
a descoberta de padrões interessantes e que possam representar
informações úteis. Um padrão pode ser definido como sendo uma afirmação
baseada em uma distribuição probabilística. Estes padrões podem ser
expressos principalmente na forma de regras, fórmulas e funções, entre
outras.”
Em outras palavras, as ferramentas de Data Mining analisam os dados,
descobrem problemas ou oportunidades escondidas nos relacionamentos dos
dados, e então diagnosticam o comportamento dos negócios, requerendo a
mínima intervenção do usuário. Assim, ele se dedicará somente a ir em busca
do conhecimento, ajudando aos analistas de negócio agregar mais vantagens
competitivas e maximizar seus lucros.

O conhecimento em Data Mining pode ser apresentado por diversas
formas de ferramentas, que são denominadas de ferramentas de Análise de
agrupamento, ou clustering, é o nome dado para o grupo de técnicas
computacionais cujo propósito consiste em separar objetos em grupos,
baseando-se nas características que estes objetos possuem. A idéia básica
consiste em colocar em um mesmo grupo objetos que sejam similares de acordo
com algum critério pré-determinado. As ferramentas que podemos utilizar nestas
técnicas são:
 agrupamentos;
 hipóteses (testes de hipóteses é um
procedimento estatístico que permite tomar uma decisão);
 regras;
 árvores de decisão (são modelos estatísticos que utilizam um
treinamento supervisionado para a classificação e previsão de
dados);
 grafos ou dendrogramas (é um ramo da matemática que estuda
as relações entre os objetos de um determinado conjunto).
Diariamente as empresas acumulam grande volume de dados em seus
aplicativos. Um Business Intelligence (BI), são os dados brutos que dizem quem
comprou o quê, onde, quando e ao final do dia reporta esta baixa aos estoques
detectando tendências de compra. Agora se analisarmos os dados com
estatística de modo mais refinado, à procura de padrões de vinculações entre
variáveis registradas, então estaremos fazendo Data Mining (DM), ou seja,
busca subsidiar a empresa com conhecimento novo e útil acerca do seu meio
ambiente. O BI atua no plano tático, e o DM atua no plano estratégico.

1.1.1. Linhagens do Data Mining
O Data Mining descende fundamentalmente de 3 linhagens:
49

Estatística: A mais antiga delas é a
estatística clássica. Sem a estatística
não seria possível termos o DM, visto
que a mesma é a base da maioria das
tecnologias a partir das quais o DM é
construído. A Estatística Clássica
envolve conceitos como distribuição
normal, variância, análise de regressão, desvio simples, análise de conjuntos,
análises de discriminantes e intervalos de confiança, todos usados para estudar
dados e os relacionamentos entre eles. Esses são as pedras fundamentais onde
as mais avançadas análises estatísticas se apoiam. E sem dúvida, no coração
das atuais ferramentas e técnicas de DM, a análise estatística clássica
desempenha um papel fundamental.
Inteligência Artificial: A segunda
linhagem do DM é a Inteligência
Artificial, ou IA. Essa disciplina, que é
construída a partir dos fundamentos da
heurística, em oposto à estatística,
tenta imitar a maneira como o homem
pensa na resolução dos problemas
estatísticos. Em função desse “approach”, ela requer um impressionante poder
de processamento, que era impraticável até os anos 80, quando os
computadores começaram a oferecer um bom poder de processamento a preços
mais acessíveis. A IA desenvolveu algumas aplicações para o alto escalão do
governo / cientistas americanos, sendo que os altos preços não permitiram que
ela ficasse ao alcance de todos. As notáveis exceções foram certamente alguns
conceitos de IA adotados por alguns produtos de ponta, como módulos de
otimização de consultas para SGBDs.
50

Machine Learning: E a terceira e última
linhagem do DM é a chamada machine
learning, que pode ser melhor descrita
como o casamento entre a estatística e
a IA. Enquanto a IA não se transformava
em sucesso comercial, suas técnicas
foram sendo largamente cooptadas pela
machine learning, que foi capaz de se valer das sempre crescentes taxas de
preço / performance oferecidas pelos computadores nos anos 80 e 90,
conseguindo mais e mais aplicações devido às suas combinações entre
heurística e análise estatística. A machine learning tenta fazer com que os
programas de computador “aprendam” com os dados que eles estudam, tal que
esses programas tomem decisões diferentes