ANÁLISE DE DADOS

•

UNIASSELVI

FABIO ESTEVES

01/06/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise de Dados

7.983 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ANÁLISE DE DADOS
USANDO DASHBOARDS
Programa de Pós-Graduação EAD
UNIASSELVI-PÓS
Autor: Rodrigo Ramos Nogueira
CENTRO UNIVERSITÁRIO LEONARDO DA VINCI
Rodovia BR 470, Km 71, no 1.040, Bairro Benedito
Cx. P. 191 - 89.130-000 – INDAIAL/SC
Fone Fax: (47) 3281-9000/3281-9090
Reitor: Prof. Hermínio Kloch
Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol
Equipe Multidisciplinar da Pós-Graduação EAD:
Carlos Fabiano Fistarol
Ilana Gunilda Gerber Cavichioli
Jóice Gadotti Consatti
Norberto Siegel
Camila Roczanski
Julia dos Santos
Ariana Monique Dalri
Marcelo Bucci
Revisão Gramatical: Equipe Produção de Materiais
Diagramação e Capa:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Copyright © UNIASSELVI 2019
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
UNIASSELVI – Indaial.
Impresso por:
N778a
Nogueira, Rodrigo Ramos
Análise de dados usando dashboards. / Rodrigo Ramos Nogueira. –
Indaial: UNIASSELVI, 2019.
140 p.; il.
ISBN 978-85-7141-298-9
1.Análise de dados – Brasil. 2.Dashboards (Sistemas de informação
gerencial – Brasil. II. Centro Universitário Leonardo Da Vinci.
CDD 005.3
Sumário
APRESENTAÇÃO ..........................................................................05
CAPÍTULO 1
A Explosão dos Dados: Como Gerenciá-Los? .........................07
CAPÍTULO 2
Data Warehouse e Business Intelligence ................................43
CAPÍTULO 3
Criação de Dashboards na Prática ...........................................95
APRESENTAÇÃO
Prezado aluno!
Seja muito bem-vindo à leitura do livro Análise de Dados usando Dashboards.
Temos a certeza de que em algum momento da sua vida, carreira ou estudos,
você parou para pensar nos avanços tecnológicos e aonde iríamos parar com
esta evolução. E, de fato grande responsável pela evolução da tecnologia são os
volumes de dados gerados e cada vez mais estes dados são importantes para
tomada de decisão em grandes corporações.
Mas o que o volume de dados tem a ver com este livro? A partir de agora
você é um minerador e os dados serão a matéria-prima para o seu trabalho. Será
necessário um árduo trabalho de lapidação, mas no final nós garantimos que
você terá um brilhante diamante chamado CONHECIMENTO. E ao saber lidar
com o processo de extração de conhecimento pelos dados, eles lhe tornarão um
profissional disputado por empresas nacionais e internacionais.
Este livro abordará os principais conceitos sobre Business Intelligence, bem
como as principais técnicas que são utilizadas na prática durante a extração
de conhecimento através dos dados. E o mais importante: sempre com uma
abordagem atualizada! Desde tecnologias até com a visão do mercado de trabalho.
Nós estudaremos também as aplicações nas mais diversas perspectivas:
usuários, aplicações, organizações e gestores e deixando claro o papel de cada
elemento na construção de estratégias de coleta, pré-processamento e geração de
informação.
No Capítulo 1 vamos nos contextualizar, você vai aprender sobre o volume
de dados no mundo atual, sobre os tipos de dados e a diferença entre dados e
informação. Vai conhecer um pouco sobre a história da transformação dos dados na
tecnologia e os principais métodos de Business Intelligence.
O Capítulo 2 será responsável por nos trazer mais de conceitos práticos como
Data Warehouse, ETL, OLAP e diversos procedimentos para analisar dados, porém,
não vamos parar nos conceitos, vamos colocar a mão na massa.
Uma vez estes dados estando armazenados e limpos será só os consumir.
Assim, o Capítulo 3 será responsável por nos apresentar as principais ferramentas
de Dashboard do mercado e sua utilização para extração de índices e indicadores.
CAPÍTULO 1
A Explosão dos Dados: Como
Gerenciá-Los?
A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes
objetivos de aprendizagem:
• os principais cenários de dados no mundo atual;
• a importância de se obter um grande volume de dados para a geração de
conhecimento, os tipos e formatos de dados;
• conceituar conhecimento e saber os processos para extraí-los;
• conhecer técnicas e ferramentas para coleta e análise de dados.
8
Análise de Dados usando Dashboards
9
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
1 O Volume E Os Tipos Dos Dados
Já parou para pensar na quantidade de dados que você gera diariamente?
Isso mesmo, apenas você? Apenas um celular conectado com e-mail, aplicativo
de mensagens e mídias sociais é capaz de gerar uma grande quantidade de
dados, dos mais diversos tipos (textos, áudios, fotos, vídeos). Se esta reflexão
for elevada para todos os usuários, em que apenas no Brasil, segundo o IBGE,
116 milhões de pessoas têm conexão com a internet, imagine a quantidade de
informação gerada diariamente em todo mundo por diversas empresas. Isso em
números significam cerca de 2,5 quintilhões de bytes gerados, diariamente, em
todo o mundo.
Tradicionalmente, as bibliografias tratam do tema de análise de dados, na
mesma linha que este livro as aborda, principalmente, a dificuldade da integração
dos dados a partir de diversos sistemas de informação. No entanto, as principais
obras sobre o tema foram publicadas em 1992 e 1996. Neste contexto, muita
coisa vem se modificando e a principal mudança é o notório volume de dados
gerados pelo uso da internet no mundo.
O Internet Live Stats é uma equipe internacional de desenvolvedores,
pesquisadores e analistas que tem como objetivo coletar e disponibilizar
estatísticas sobre o volume de sites na Web, de maneira que estes conteúdos
sejam fornecidos em um formato dinâmico e relevante para um público amplo
em todo o mundo. Segundo estimativas deste órgão, até a confecção deste livro
existem 1.929.019.952 de sites na Web e um total de 4.068.405.997 usuários
espalhados por todo o mundo. Estes usuários geram uma grande informação
diariamente e tais dados são interessantes para as organizações, pois contêm os
mais diversos tipos de estruturas, simples ou complexas, que existem, atendendo
a diversas necessidades e possuindo diversos conteúdos e formatos.
A grande questão é que por um longo período as pessoas eram apenas
consumidoras de conteúdos, um público-alvo, números sem voz, porém, quando
se transformam em usuários da grande rede mundial, cada indivíduo ganha seu
poder e voz, ao invés de ser receptor de mensagens, as pessoas se tornam
produtoras de informações de valor, como decidir qual produto consumir, como
influenciam seus amigos nas redes sociais, quais termos de busca mais utilizam,
quais notícias e quais temas mais lhe interessam. Durante muitos anos as
grandes empresas investiram fortemente em pesquisas de opinião e entrevistas
de foco local, tendo como objetivo saber se o produto a ser lançado atingia o
público-alvo e como melhorá-lo em relação aos concorrentes. Agora as pessoas
estão inundando as mídias sociais com bilhões de dados, mais do que empresas
e marcas consigam administrar transformando a internet numa imensa plataforma
10
Análise de Dados usando Dashboards
de pesquisa quando o que vale não é o que se diz, mas o que de fato se faz.
Estão gerando um imenso manancial de dados e métricas, dados de mercado e
consumo. Como transformá-los em inteligência de negócio?
Um grande ponto de aumento dos dados é um ponto constante, não se muda
apenas o volume dos dados, mas também o limiar que mensura essa evolução.
O IDC (International Data Corporation) realizou um estudo intitulado “O universo
digital das oportunidades: riquezas de dados e valor crescente da internet das
coisas”, com pesquisa e análise da IDC, foi reportado que no ano de 2013
havia um conjunto composto por 4,4 trilhões de gigabytes (ou 4,4 zettabytes)
de informação. Utilizando diversos conjuntos de métricas e análises, o instituto
realizou uma previsão que o mundo saltará para 44 trilhões de gigabytes (44
zettabytes)em 2020 e que 10% desse volume de dados corresponderá à internet
das coisas.
O grande desafio é buscar alternativas para armazenar e processar estes
dados, gerando informação e conhecimento. O caso mais conhecido da análise
de dados e geração de conhecimento para a tomada de decisão é o caso da
fralda e da cerveja. Neste caso, os dados de vendas de produtos de uma grande
rede de mercados americana, após computar um grande volume de dados, foi
possível descobrir que sempre que havia uma compra de fralda às sextas-feiras,
havia uma grande probabilidade de também conter cerveja. Tal análise, permitiu
que a rede tomasse a decisão de realocar os produtos pelas lojas e aumentasse
suas vendas.
Os analistas de dados, muitas vezes, chamados de analistas de Business
Inteligence, que já tinham em mãos os desafios de centralizar diversas fontes de
informação ainda têm isso aumentado.
Em seu tradicional infográfico atualizado, a Go-Globe divulga “O mundo em
60 segundos”, que é mostrado na figura a seguir. Nela é possível ver o volume de
informações geradas a cada minuto em todo mundo nos principais veículos. Note
que apenas buscas no Google são 3.8 milhões, no Youtube são 400 horas de
vídeo enviados e cerca de 700 horas de vídeos assistidos, tudo isso desde que
você começou a leitura desta seção.
11
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
FIGURA 1 – O MUNDO EM 60 SEGUNDOS
FONTE: <http://www.go-globe.com/blog/things-that-happen-
every-60-seconds/>. Acesso em: 15 out. 2018.
Que o mundo vivencia uma explosão dos dados, isto é fato, o que nos gera
um grande desafio: armazenar e gerenciar tais dados. O grande fato, conforme
visto anteriormente, geramos os mais diversos tipos de dados, que nem sempre
possuem uma estrutura. Tornando necessário o conhecimento sobre o formato
desses dados para se obter a melhor maneira de processar e armazená-los.
Agora que você já está contextualizado com o cenário dos dados,
responda: Onde você gera dados no seu dia a dia?
ISOTANI, Seiji; BITTENCOURT, Ig Ibert. Dados abertos
conectados: em busca da Web do conhecimento. Novatec Editora,
2015.
http://www.go-globe.com/blog/things-that-happen-every-60-seconds/
http://www.go-globe.com/blog/things-that-happen-every-60-seconds/
12
Análise de Dados usando Dashboards
Há diversos elementos envolvidos na geração de dados, desde computadores
pessoais executando sistemas de informação, celulares com aplicativos, até
mesmo os mais diversos tipos de sensores e ferramentas de captura (foto
e vídeo). O fato é que há uma grande diversidade de dados, armazenando as
mais diversas informações, desde a maneira como são coletados, até a maneira
com que são armazenados. Neste segundo ponto, conforme mostra a figura a
seguir, os dados estão distribuídos pelo mundo de acordo com o seu formato e
estrutura de armazenamento, que, no geral são classificados como estruturados,
semiestruturados e não estruturados.
FIGURA 2 – DISTRIBUIÇÃO DOS DADOS
FONTE: O autor (2018)
Conforme mostra a figura anterior, apenas 20% dos dados são armazenados
de maneira estruturada. Os dados estruturados são aqueles que estão
armazenados em uma estrutura previamente definida, tradicionalmente os
softwares tradicionais os utilizam na forma de SGBDR (Sistemas Gerenciadores
de Bancos de Dados Relacionais) ou BDR (Bancos de Dados Relacionais).
A principal característica dos SGBDRs é que foram construídos para garantir
a integridade dos dados armazenados, toda sua estrutura é feita com base em
tabelas construídas com base em relacionamentos. Com relação ao motivo desta
forma de armazenamento ser chamada de estruturada, isto se dá, principalmente,
pelo fato de que a estrutura dos dados deve ser definida previamente ao
armazenamento dos dados. Ou seja, primeiro é realizada a definição do campo,
depois sua inserção.
13
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
Os bancos de dados relacionais estão consolidados no mercado há mais de
50 anos, no entanto, 80% dos dados distribuídos pela Web assumem outros dois
formatos: semiestruturados e não estruturados.
Os dados semiestruturados são aqueles que têm uma estrutura, ou seja, se
consegue reconhecer um significado, no entanto, ao contrário dos estruturados,
esta estrutura não é definida previamente. Tal estrutura é incremental e vai se
alterando no passar do tempo. São exemplos de dados semiestruturados:
planilhas Excel, arquivos CSV, documentos XML, documentos JSON. Dados
semiestruturados apresentam uma representação estrutural heterogênea, não
sendo nem completamente não estruturados nem estritamente tipados. Dados
Web se enquadram nessa definição: em alguns casos os dados possuem uma
descrição uniforme (um catálogo de produtos), em outros, algum padrão estrutural
pode ser identificado (um conjunto de documentos no formato de artigo). Afirma-
se também que dados semiestruturados são dados nos quais o esquema de
representação está presente (de forma explícita ou implícita) juntamente com
o dado, ou seja, este é autodescritivo. Isto significa que uma análise do dado
deve ser feita para que a sua estrutura possa ser identificada e extraída (MELLO,
2000).
Por sua vez, os dados não estruturados, são os que mais populam a Web,
destes não é possível obter uma estrutura, e para extrair conhecimento sobre
tais dados é necessário realizar um pré-processamento. São exemplos de dados
não estruturados: textos, imagens, arquivos de som, vídeos e os mais diversos
arquivos multimídia.
Nas organizações isto não é diferente, empresas utilizam seus softwares
de gestão para gerenciar as mais diversas operações (vendas, marketing,
produto) o que por si só já se torna um desafio que é integrar os dados de
todos os setores, muitas vezes, centralizados em diversos SGBDs e softwares.
Complementarmente, cada vez mais empresas utilizam redes sociais para
divulgar seus produtos e iniciativas, tornando-se interessante extrair dados sobre
como os usuários destas redes estão reagindo a isso. Na produção da empresa,
com a ascensão do conceito de internet das coisas e do sensoriamento, os
dados podem ser coletados em tempo real e a maneira com que se trabalha com
indicadores de produção passa se tornar em tempo real.
14
Análise de Dados usando Dashboards
Uma vez compreendidos os mais diversos cenários de dados,
conceitue a diferença entre dados estruturados, semiestruturados
e não estruturados.
FIGURA 3 – EMPRESA CONECTADA E DADOS INTEGRADOS
FONTE: <https://www.i-scoop.eu/manufacturing-industry/>. Acesso em: 25 out. 2018.
E ainda não para por aqui, afinal até o momento, estes dados tratam apenas
da própria corporação, quando empregado o conceito de inteligência competitiva,
que é uma estratégia de se obter informações relevantes sobre o comportamento
da concorrência, o volume de dados coletados é ainda maior. A competitividade,
a informatização e a necessidade de diferencial competitivo fizeram com que
as organizações percebessem a importância do conhecimento e de sua gestão
(LACKMAN; SABAN; LANASA, 2000).
Agora imagine todos estes dados consolidados, integrados e aptos a serem
explorados por diversas perspectivas, com isto em mãos, os gestores de uma
empresa podem tomar os mais diversos tipos de decisões gerenciais. Decisões
sobre venda, compra, realocação de produtos, alteração no fluxo gerencial e uma
infinitude delas.
Assim, obter-se métodos eficazes para coletar, pré-processar dados de
diversas fontes e armazená-los em uma única estrutura é de extrema importância
https://www.i-scoop.eu/manufacturing-industry/
15
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
para a organização. Uma vez estes dados coletados e armazenados podem gerar
informação e conhecimento que poderão ser utilizados como suporte à tomada de
decisão. Mas afinal, qual é a diferença entre dados, informação e conhecimento?
Conhecendo os tipos de dadosVocê viu até o momento que falamos sobre diversos tipos de dados, sua
estrutura e forma de armazenamento. Você conhece os tipos de dados que
citamos? Sabe o que eles têm em comum e diferente? Utilizando como exemplo
um cenário de dados onde se deseja armazenar dados sobre produto e estoque,
veremos alguns exemplos de tipos de dados.
RELACIONAL
Esta representação em forma de tabelas é um tipo de dado estruturado, no
qual você inicialmente precisa definir a estrutura e depois armazenar os dados.
Confira a seguir a representação gráfica dos quadros em um SGBDr e também o
código que representa sua criação em um banco de dados físico.
QUADRO 1 – MODELO RELACIONAL E COMANDO SQL RELATIVO
FONTE: O autor (2018)
16
Análise de Dados usando Dashboards
JSON
JSON, em seu significado teórico é "Javascript Object Notation", que nada
mais é que o formato mais leve conhecido de transferência/intercâmbio de dados.
Além de ser um formato de dados são utilizados por diversos bancos de dados
NoSQL. A mesma representação do modelo relacional é vista no quadro abaixo
utilizando JSON.
QUADRO 2 – EXEMPLO JSON
[
{
"id_produto":1,
"descricao":"Jaleco",
"preco":"3.50",
“estoque”:30
}
]
FONTE: O autor (2018)
CSV
O termo “CSV” tem como significado Comma Separated Values, ou seja, é
um arquivo separado por vírgula (ou ponto e vírgula). Assim como o JSON é um
formato de arquivo para realizar o intercâmbio de dados com um banco de dados
ou uma planilha entre aplicativos.
id_produto, descricao, preco, estoque
1,Jaleco, 3.50,30
2,Chapéu, 13.50,100
3,Calça , 33.50,130
17
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
XML
O XML é uma linguagem de marcação muito similar ao HTML, vem do
inglês eXtensible Markup Language, é recomendada pela W3C para a criação
de documentos com dados organizados hierarquicamente. Tradicionalmente, os
sistemas utilizam XML para realizar integração de dados, dentre muitos, o mais
famoso é o sistema da receita federal.
QUADRO 3 - EXEMPLO DE XML
<?xml version="1.0">
<produtos>
<produto id=1>
<descricao>Jaleco</descricao>
<preco>Jaleco</preco>
<quantidade>Jaleco</quantidade>
</produto>
<produtos>
FONTE: O autor (2018)
Dados, informação e conhecimento
De fato, os dados são de extrema importância para a tomada de decisão
estratégica. Mas afinal, apenas ter os dados já implica conhecimento e
informação. E estes termos são termos muito próximos o que faz com que em
muitos momentos sejam confundidos com apenas um. A figura a seguir ilustra o
que cada um representa.
18
Análise de Dados usando Dashboards
FIGURA 4 – DADOS, INFORMAÇÃO E CONHECIMENTO
FONTE: O autor (2018)
• Dados: são fatos e números que transmitem algo específico, mas que
não são organizados de maneira formal. Assim não têm contexto, de
modo geral, pode-se dizer que dados são a informação de uma maneira
bruta. Na definição de Setzer (1999), um dado é necessariamente uma
entidade matemática e, desta forma, é puramente sintático. Isto significa
que os dados podem ser totalmente descritos através de representações
formais, estruturais. São ainda quantificados ou quantificáveis, eles podem
obviamente ser armazenados em um computador e processados por
ele. Dentro de um computador, trechos de um texto podem ser ligados
virtualmente a outros trechos, por meio de contiguidade física ou por
"ponteiros", isto é, endereços da unidade de armazenamento sendo
utilizados, formando assim estruturas de dados. Ponteiros podem fazer a
ligação de um ponto de um texto a uma representação quantificada de uma
figura, de um som, entre outros.
• Informação: para que os dados se tornem informações, eles devem ser
contextualizados, categorizados, calculados e condensados, deste modo
a informação são os dados organizados. De um modo geral, pode-se
dizer que a informação é quando se traz um sentido ao dado. Na visão de
Angeloni (2003), as informações são apresentadas de acordo com dados,
trazendo a eles um significado. As informações então são dados dotados de
relevância e propósito. A informação nasce a partir resultado do encontro
de uma situação de decisão com um conjunto de dados, ou seja, são dados
contextualizados que visam a fornecer uma solução para determinada
situação de decisão. Uma informação pode ser considerada como dados
19
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
processados e contextualizados, no entanto, há autores que defendem que
a informação é considerada como desprovida de significado e de pouco
valor, sendo ela matéria-prima para se obter conhecimento.
• Conhecimento: acontece sobre os dados e as informações, é obter
discernimento, critério, apreciação prática de vida e experiência. O
conhecimento possuído por cada indivíduo é um produto de sua experiência
e engloba as normas pelas quais ele avalia novos insumos de seu entorno.
Para Davenport (2000), o conhecimento é a informação mais valiosa e,
consequentemente, mais difícil de gerenciar. É valiosa precisamente porque
alguém deu a informação a um contexto, um significado, uma interpretação;
alguém refletiu sobre o conhecimento, acrescentou a ele sua própria
sabedoria e considerou suas implicações mais amplas.
Qual é a diferença entre dado, informação e conhecimento?
2 A História E As Estratégias De
Análise De Dados
Apesar de vivermos na era da informação, a história dos dados como
ferramenta de suporte à tomada de decisões se deu no início na década de 1940,
na Universidade de Illinois, com o trabalho intitulado A Logical Calculus of the Ideas
Immanent in Nervous Activity (Um cálculo lógico das ideias imanentes na atividade
nervosa), desenvolvido por McCulloch e Walter Pitts. Na ocasião estabeleceram
uma analogia entre o processo de comunicação das células nervosas vivas e o
processo de comunicação por transmissão elétrica e propuseram a criação de
neurônios formais. Ao final da pesquisa, conseguiram demonstrar que era possível
conectar os neurônios formais e formar uma rede capaz de executar funções
complexas. As pesquisas sobre redes neurais evoluíram até 1960, com a Rede
Perceptron, criada por Frank Rosenblat, no entanto, baseado, principalmente,
pelos argumentos dados por Mavin Minsky em seu livro Perceptron, no qual de
maneira simples criticou por não haver poder computacional suficiente naquela
época.
Tratando-se de dados, em junho de 1970, o pesquisador Edgar Frank
Ted Codd IBM mudou a história dos bancos de dados apresentando o modelo
20
Análise de Dados usando Dashboards
relacional no artigo intitulado "A Relational Model of Data for Large Shared Data
Banks", em que discutiu uma proposta de armazenamento de dados, que seriam
armazenados em tabelas que devem estar relacionadas. A figura a seguir mostra
um exemplo de como esta estratégia funciona, e funciona tão bem que é utilizada
amplamente nos mais diversos sistemas comerciais, desde frente de caixa,
bancários, ERPs, entre outros.
FIGURA 5 – MODELO RELACIONAL
FONTE: <www.wikiwand.com/en/Relational_model>. Acesso em: 10 dez. 2018.
Na mesma década, Bill Inmon começou a discutir os principais fatores em
torno do Data Warehouse e o termo já começou a existir nos anos 1970. Inmon
trabalhou extensivamente na aprimoração de suas experiências em todas as
formas de modelagem de dados relacionais. O trabalho de Inmon, como pioneiro
do Data Warehousing, foi o livro intitulado “Building the Data Warehouse” um dos
principais livros sobre tecnologia e bibliografia obrigatória para todo profissional
de análise de dados. É impossível falar da história dos dados e não falar de Ralph
Kimball, que com sua publicação “The Data Warehouse Toolkit”, divide com Inmon
a paternidade dos conceitos sobre o que é um Data Warehouse, mais sobre as
arquiteturas e propostas das duas personalidades será discutidono Capítulo 2.
http://www.wikiwand.com/en/Relational_model
21
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
FIGURA 6 – RALPH KIMBALL E BILL INMON
FONTE: O autor (2018)
Em 1996, Usama Fayad publicou o artigo “From Data Mining to Knowledge
Discovery in Databases”, que aborda justamente como extrair conhecimento de
bases de dados, como a partir de um conjunto de dados enxergar além do que
as ferramentas tradicionais permitem visualizar. Este artigo é um dos principais
da literatura atual por além de fazer uma revisão sobre os principais métodos
de extração de conhecimento, ainda descreve as principais etapas de KDD
(Knowledge Discovery in Databases), que são mostradas pela figura a seguir e
serão discutidas em mais nível de detalhes no Capítulo 3.
FIGURA 7 – ETAPAS DE EXTRAÇÃO DO CONHECIMENTO
FONTE: Fayad (1996)
Com a arquitetura proposta por Fayad, com o banco de dados de Cood e
a proposta de um modelo multidimensional de Inmon, o mundo digital passou
por severas mudanças, principalmente com a Web 2.0 e a geração de dados em
grande escala. No entanto, tais tecnologias jamais deixaram de ser utilizadas e
mesmo as mais novas técnicas de análise de dados levam sua essência. Em
2018 são diversas novas terminologias e tendo como objetivo facilitar o seu
entendimento.
22
Análise de Dados usando Dashboards
Quem foram os principais nomes da história dos dados e quais as
contribuições deles?
Big Data

Big Data é um termo que tem como tradução literal mais próxima “grandes
quantidades de dados” e é também o termo instituído pela IBM para determinar
a grande quantidade de dados gerados pelos sistemas de informação. Hoje em
dia Big Data representa muito mais do que isso, representa uma verdadeira
transformação digital, em que quanto mais dados uma empresa puder coletar,
mais poder de tomada de decisão poderá obter.
Em sua principal definição, Big Data é conhecido como um cenário que
contém a soma de volume, velocidade e variedade, que, quando juntos, geram
um valor de informação com veracidade. O volume é o coração, afinal para se
obter um cenário de Big Data é necessário ter um grande volume de dados, a
velocidade se remete à informação chegar ao tempo mais rápido nas mãos do
tomador de decisão e a variedade está relacionada tanto aos dispositivos que
coletam dados (sistemas de informação, GPS, câmeras de vídeo, dispositivos IoT,
entre outros), quanto à estrutura de tais dados (estruturados, semiestruturados e
não estruturados).
Há uma grande dificuldade na definição de quão grande deve ser um con-
junto de dados para que seja considerado um volume de dados em Big Data. A pri-
meira coisa a ser levada em consideração é a própria integração de existir volume,
velocidade e variedade, bem como a definição dada por Edd Dumbill (DUMBILL,
2012), que afirma que Big Data são dados que excedem a capacidade de proces-
samento dos sistemas de banco de dados convencionais, em que o volume de
dados é muito elevado e necessitam de processamento rápido, o que não é provi-
do pelas arquiteturas de bancos de dados tradicionais e para ganhar valor a partir
desses dados, é necessário escolher uma forma alternativa para processá-los.
Data mining
A mineração de dados (data mining) é uma operação que leva o seu nome
a sério, neste caso, a mina não é de ouro, mas de dados. É um processo de
lapidar dados brutos e extrair conhecimento a partir deles. Este processo pode
operar diretamente em fontes de dados brutas sob a qual deverá realizar uma
severa etapa de pré-processamento de dados, no entanto, é recomendado que
23
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
seja realizado a partir de uma fonte de dados já integrada e limpa, como, por
exemplo um Data Warehouse.
SGBD
Anteriormente falamos sobre Edgar Frank Codd e sua importante contribuição
para a comunidade digital, com o desenvolvimento do modelo relacional
de armazenamento. Tratar de SGBD é tratar de sistemas que gerenciam o
armazenamento de tais dados.
Sistemas Gerenciadores de Bancos de Dados, ou Sistemas Gerenciadores
de Bancos de Dados Relacionais são, de maneira simples, um software que
é responsável por gerenciar o acesso aos dados. O SGBD é responsável por
fazer a interface entre os dados com aplicações e usuários, encapsulando-os,
garantindo sua segurança e integridade.

Os SGBDs têm como característica o relacionamento entre tabelas, que
implementam os modelos relacionais. Dentre os principais SGBDs do mercado,
destacam-se o SQL Server e Oracle entre os pagos, já entre os livres existe o
MySQL e o PostgreSQL.
Toda vez que você utiliza um software aplicativo, um sistema de informação,
os dados estão sendo armazenados por um SGBD.
Data Warehouse
Data Warehouses tem como tradução literal “Armazém de dados” e segue
sua função que é armazenar dados. No entanto, você deve se perguntar, qual é a
diferença entre ele e um banco de dados? Ainda que um Data Warehouse possa
utilizar um banco de dados relacional, o objetivo deste armazém é armazenar
dados para se realizarem consultas.
De uma maneira simples, são bancos de dados analíticos, projetados para
armazenar os dados de fontes diversas, já transformados e preparados para
serem explorados por aplicações de tomada de decisão. Os Data Warehouses
também podem ser compreendidos como centralizadores de dados, uma vez que
são alimentados por diversas fontes de dados. Pense em uma organização que
utilize um software de gestão comercial, gestão financeira e complementarmente
utilize as redes sociais. Em um Data Warehouse é possível concentrar todos
esses dados, integrando-os e permitindo que sejam as mais diversas análises.
Inclusive para aplicações de mineração de dados e construção de Dashboards.
24
Análise de Dados usando Dashboards
Neste momento não se assuste! O próximo capítulo é dedicado para Data
Warehouse e o Capítulo 3 para Dashboards.
NoSQL

Em cenários de dados, um componente relativamente atual são os bancos de
dados NOSQL (Not Only SQL – Não apenas SQL), que surgiram nos anos 2000,
a partir da ascensão de grandes empresas da Internet como Amazon e Google,
que cada vez mais produziam dados gradativamente, tendo a necessidade de
escalabilidade em escrita e principalmente leitura de dados após o aumento de
tecnologias voltadas à nuvem.
De modo geral, a principal vantagem do emprego de bancos de dados
NOSQL é a utilização do particionamento dos dados horizontal, ao contrário dos
bancos relacionais, que os fazem verticalmente, isto significa que em bancos
NOSQL, os dados podem ser distribuídos de maneira independente sem que seja
necessário enviar todo um conjunto para um determinado nó ou disco. Através
do modo com o qual os dados são armazenados em NOSQL, é possível que os
dados sejam particionados e distribuídos de forma mais ágil do que os tradicionais
bancos relacionais, esta diferença fica visível através da figura a seguir.
FIGURA 8 – DISTRIBUIÇÃO DE DADOS RELACIONAL X NOSQL
FONTE: O autor (2018)
Neste momento, você pode estar um pouco assustado com tanta terminologia
e coisa nova. No entanto, gostaríamos de tirar alguns minutos para falar sobre
carreira. Afinal, dominar tanta tecnologia deve ter algum benefício, não é mesmo?
25
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
As profissões e os dados
As profissões ligadas à tecnologia mudaram a última década, desde
novas profissões criadas, até mesmo a alterações na maneira com que esses
profissionais atuam (horários flexíveis, home office, entre outros). O fato é que
os profissionais de tecnologia irão continuar em alta e dominando o mercado de
trabalho nos próximos anos, porém é estar consciente que são diversas áreas
e que estão em constante mutação. Ao contrário do que se previa, os avanços
trazidos pela informática e a automação têm ampliado a oferta de vagas de
emprego nos mais diversos ramos. Por sinal,especialistas apontam que há muitas
profissões ainda desconhecidas, que vão surgir nesta ou nas décadas seguintes,
por conta das demandas e inovações a serem experimentadas pela sociedade.
Mas há cargos que já estão sendo oferecidos e procurados pelas empresas. A
seguir veremos algumas das principais carreiras das tecnologias em ascensão,
que estão diretamente ligadas à análise de dados, mas é importante destacar
que em algumas empresas alguns destes cargos estão agrupados e em outras
desmembrados em outras profissões e níveis de carreira (Trainne, Júnior, Sênior,
Pleno). Por isso, o profissional deve se preparar, investir na sua formação e estar
atento às oportunidades.
Cientista de dados
Quando se fala de geração de dados em larga escala, Big Data, Data Mining,
este será o profissional responsável por extrair conhecimento desses dados. É o
profissional que alia conhecimentos de software, a gestão comercial, estatística e
matemática para encontrar soluções para entender o que interessa e pode ser útil
para os negócios dentro do imenso volume de informações que circula na internet.
Este tipo de profissional está apto a atuar em empresas de vários setores, onde
muitas vezes um outro pré-requisito pode ser o domínio sobre o segmento de
atuação da empresa. No setor de ciência de dados os salários estão entre R$ 9
mil e R$ 15 mil, além de ter uma grande procura mundial por este profissional, a
escassez leva a grandes empresas investirem até mesmo na criação de robôs
para codificarem.
FONTE: <https://www.tecmundo.com.br/internet/123114-ia-google-cria-codi-
go-melhor-desenvolvido-criadores.htm>. Acesso em: 1 nov. 2018.
Administrador de banco de dados
Tendo como nome mais famoso DBA (Database Administrator), o
administrador de banco de dados é o profissional responsável por cuidar de
todos os fatores que envolvem os bancos de dados de uma organização, desde
a tecnologia que está sendo implementada, até mesmo, em alguns casos, saber
https://www.tecmundo.com.br/internet/123114-ia-google-cria-codigo-melhor-desenvolvido-criadores.htm
https://www.tecmundo.com.br/internet/123114-ia-google-cria-codigo-melhor-desenvolvido-criadores.htm
26
Análise de Dados usando Dashboards
se o ar-condicionado está funcionando bem e que o servidor não irá desligá-lo por
conta disso. O salário de DBA varia entre R$4,7 mil até R$15 mil, destacando-se
para a profissão um aumento de 88% quando se trata da carreira de DBA júnior.
Analista de business intelligence
É o profissional responsável por controlar e analisar as iniciativas do cliente
no ambiente digital, bem como seus indicadores e metas. É o responsável por
realizar análises micro e macroscópicas do mercado a fim de otimizar a gestão
dos negócios. A partir da análise de dados, o profissional de BI define novos
padrões e melhores práticas de desenvolvimento, além de identificar bases de
dados que serão fontes de informação para o crescimento da empresa.
Um profissional especializado em business intelligence é um dos mais
procurados pelos mais diversos setores da indústria, desde bancos até mesmo
companhias biomédicas. O salário de um profissional deste setor varia em torno
de R$ 5 mil até R$20 mil.
Diretor de transformação digital
É o profissional que lidera as iniciativas relacionadas à atualização das
empresas no mundo digital. Trabalha com e-commerce, marketing digital e
Tecnologia da Informação (TI), buscando conexões com consumidores que
utilizam a internet e as redes sociais.
Este tipo de profissional atua principalmente em grandes empresas de varejo
e bancos. Salários podem chegar até a R$ 65 mil para os mais bem qualificados.

Gerente de expansão em TI
É o perfil profissional que projeta o desenvolvimento de produtos e negócios
(funções integradas e programa as abordagens com base em dados de
mercado, tecnologia e infraestrutura), combinando engenharia, design, análise,
gerenciamento de produtos, operações e marketing. O foco é sempre a área
digital.
É um profissional requisitado por grandes organizações e startups. Salários
podem ir de R$ 15 mil a R$ 25 mil.
Analista de mídias digitais
Como vimos até agora e continuaremos cada vez mais as redes sociais estão
impactando na tomada de decisão das empresas. O profissional de mídias digitais
27
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
Segurança da Informação: esta é uma área que foge do
foco do nosso livro e do curso, mas note que até o momento
foram abordadas as mais diversas profissões e as mais
diversas fontes de dados. Assim, o profissional responsável
por garantir a segurança no armazenamento e no acesso
a dados o torna uma importante profissão na atualidade,
bem como uma profissão em ascensão nos próximos anos.
Este profissional consiste na proteção da informação de
vários tipos de ameaças para garantir a continuidade do
negócio, minimizar o risco ao negócio, maximizar o retorno
sobre os investimentos e as oportunidades de negócio. Tem
como perfil, o profissional que gerencia as oportunidades
de aplicação de tecnologia e interage com outras áreas
de maneira a assegurar a segurança das informações da
empresa. O salário na área de segurança da informação
varia de R$4 mil até R$20 mil.
FONTE: : <https://computerworld.com.br/2018/11/05/9-carreiras-de-
ti-em-alta-salario-chega-a-r-28-mil/> e <https://www.baguete.com.br/
noticias/26/09/2012/sp-salario-do-dba-jr-subiu-88>. Acesso em: 21 jan.
2019.
tem como ferramenta de trabalho as redes sociais, como o Facebook, o Twitter,
o Instagram, entre outras. Objetivo é conhecer o máximo possível dos usuários
e criar perfis de consumidores para oferecer a eles o que buscam. Chances
ampliadas para quem tem formação básica em marketing e comunicação social.
Este tipo de profissional atua nas mais diversas organizações, onde os salários
podem chegar a R$ 6 mil.
Excel – A eterna ferramenta de business intelligence
Esta poderia ser apenas uma menção honrosa a uma ferramenta que
completa mais de 30 anos de existência, mas não! É real! O Microsoft Excel
se torna quase imbatível quando o tema é geração de relatórios. Neste exato
momento milhares de pessoas estão gerando relatórios no Excel enquanto outras
milhares estão estudando como fazê-lo. O Visicalc, desenvolvido por Dan Bricklin,
conhecido como o “pai das planilhas eletrônicas”, foi o precursor das planilhas
eletrônicas e também pela utilização das planilhas dos computadores pessoais.
Na época, os computadores, que existiam custavam cerca de R$15 mil reais,
também não existia a internet (pelo menos não como a conhecemos hoje), com
https://computerworld.com.br/2018/11/05/9-carreiras-de-ti-em-alta-salario-chega-a-r-28-mil/
https://computerworld.com.br/2018/11/05/9-carreiras-de-ti-em-alta-salario-chega-a-r-28-mil/
28
Análise de Dados usando Dashboards
poucos softwares de gestão e assim, afinal, para que comprar um computador?
Nesse sentido, as planilhas eletrônicas justificaram o investimento e o uso das
planilhas eletrônicas nas organizações passaram a justificar o investimento, pois
além de armazenarem os dados sobre a gestão das empresas, tornaram-se as
primeiras ferramentas de inteligência de negócios e suporte à decisão.
No entanto o ano agora é 2018, passam mais de 30 anos desde a criação
das planilhas e há uma imensidão de ferramentas computacionais para gestão
de empresas e suporte à decisão. Por que então, o Excel ainda é tão utilizado?
São diversos fatores que fazem a ferramenta obter tanto número de usuários. O
principal, com certeza, é a sinergia do Pacote Office com o sistema operacional
Windows, que apenas na versão 10 alcançou 270 milhões de usuários em todo
mundo.
Segundo Marques (2017), o Excel é a ferramenta que é imensamente
utilizada pelas empresas para os mais diversos tipos de funcionalidades.
Independentemente do porte ou segmento da organização, esta é uma ferramenta
altamente difundida no ambiente empresarial, pois oferece infinitaspossibilidades
para manter os processos automatizados e organizados. Os recursos do Excel
permitem que o usuário faça cálculos complexos, principalmente aqueles que
envolvem a área financeira de um negócio. Além disso, é possível criar uma
planilha de gastos, uma planilha para controlar o fluxo de caixa, calcular preços
dos produtos e serviços oferecidos pela empresa, registrar os pagamentos, toda a
parte contábil da organização, entre outras funcionalidades.
Outro fator muito impactante no uso da ferramenta é o fato das empresas
comumente utilizarem softwares ERP para realizar a gestão de todos os
processos organizacionais, como, por exemplo, o SAP. Este tipo de software é
informalmente chamado de “engessado”, pois ao invés de se adaptar às rotinas
da empresa é a empresa que se adapta ao funcionamento do software. O fato
é que muitas vezes as empresas precisam gerar relatórios específicos que
atendam às suas necessidades particulares e estes relatórios não são fornecidos
pelo software ERP, a empresa pode até fazer uma requisição e solicitar que
seja implementado, mas isso envolve tempo e alto custo. Em contrapartida, os
ERPs fornecem diversos relatórios sobre os módulos (financeiro, comercial,
gestão, estoque, entre outros) e estes mesmos relatórios podem ser importados
no formato de planilhas eletrônicas. Uma vez tendo acesso aos dados através
de planilhas, estes são integrados, também em planilhas. Cabe à empresa gerar
seus próprios relatórios, importando várias planilhas e consolidando e explorando
utilizando os mais diversos recursos. A figura a seguir mostra uma visão geral dos
gráficos gerados pelo Excel, pode-se notar que há uma diversidade de gráficos:
pizza, barra, geográfico, pivot table, entre muitos.
29
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
Neste momento, você deve se perguntar: Eu já conheço tudo
sobre Excel! Por que então tanta tecnologia se o Excel resolve todos
os meus problemas? O Excel é de fato um canivete suíço dos dados,
mas utilizá-lo, com certeza, não é o melhor caminho para a análise
dos dados. O próprio exemplo da importação de diversas planilhas
de um ERP já nos demonstra que deve haver um grande esforço
humano para realizar um relatório de integração. Com o Excel o
esforço é dobrado, afinal não há mecanismos computacionais para
a integridade dos dados armazenados, ou seja, isto tem que ser feito
manualmente, levando em conta principalmente quando se trata de
diversas fontes.
Neste livro aprenderemos como fazer a integração de diversas
fontes de dados, utilizando os métodos e ferramentas corretas, que
uma vez integradas ampliam o poder de tomada de decisão. E,
falando nelas na próxima seção, você verá todo o poder que estas
ferramentas possuem no apoio à tomada de decisão.
FIGURA 9 – GERAÇÃO DE RELATÓRIOS COM O EXCEL
FONTE: O autor (2018)
30
Análise de Dados usando Dashboards
HAN, Jiawei; PEI, Jian; KAMBER, Micheline. Data mining:
concepts and techniques. Elsevier, 2011.
3 Aplicações De Dashboards E
Business Intelligence
Até o momento, você já aprendeu o que é SGBD, Data Warehouse,
Big Data, Data Mining, mas afinal em meio a tanta tecnologia, o que é business
intelligence? A grande questão que vimos até agora é que os dados estão
mudando a maneira que nos relacionamos com a tecnologia e principalmente,
entre nós mesmos. Sobre tudo que falamos até o momento, imagine o volume dos
dados gerados revertidos em prol das organizações, que um gestor consiga ter
na palma de sua mão os dados de todos os sistemas da empresa (ERP, Vendas,
Mobile) integrados aos dados de suas redes sociais, permitindo a tomada de
decisões sobre as mais diversas perspectivas, de forma simples, esse poder dos
dados é business intelligence.
O conceito de business intelligence já estava presente nas organizações
e começou a ser conhecido na década de 1980, a partir de publicações realizadas
pelo Gartner Group, uma importante empresa americana que desenvolve
tecnologias e pesquisas relacionadas à tecnologia e inovação. Em sua tradução
literal, business intelligence tem como significado “inteligência de negócios”, é uma
tecnologia que permite a transformação de dados em informações quantitativas
e importantes para a tomada de decisão da empresa. Segundo Tyson (1986),
é um processo que envolve a coleta, análise e validação de informações
sobre concorrentes, clientes, fornecedores, candidatos potenciais à aquisição,
candidatos à joint-venture e alianças estratégicas. Incluem também eventos
econômicos, reguladores e políticos, que tenham impacto sobre os negócios
da empresa. O processo de business intelligence analisa e valida todas essas
informações e as transforma em conhecimento estratégico.
Para Olszak e Ziemba (2007), em uma organização, em nível estratégico,
os sistemas de business intelligence tornam possível a definição de metas e
objetivos, assim como o seu respetivo acompanhamento, permitindo a realização
de diferentes relatórios. Em nível tático permitem otimizar ações futuras e
modificar aspectos organizacionais, financeiros ou tecnológicos do desempenho
da organização, a fim de ajudar a alcançar os seus objetivos estratégicos
de uma forma mais eficaz. Por último, em nível operacional, os sistemas de
31
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
business intelligence são utilizados para executar análises ad-hoc e responder
a questões relacionadas com operações das atividades da organização. Será
difícil encontrar uma organização bem-sucedida que não tenha aproveitado
os sistemas de business intelligence para o seu negócio. Como tal, tem se
assistido a uma crescente procura de sistemas de business intelligence em
diversas áreas, como o transporte, os serviços bancários, a saúde, a indústria de
distribuição e fabricação, o retalho, as telecomunicações, entre outros. Contudo,
as necessidades das organizações variam conforme a natureza do seu negócio e,
assim, as necessidades dos sistemas de business intelligence variam conforme
os requisitos.
Neste momento, você deve pensar que o conceito de business intelligence
se aplica apenas a grandes organizações, com milhares de funcionários e que só
haverá este cenário quando se interligam todos os dados. Na verdade, mesmo
que seja um conceito amplo e pode ser aplicado nos mais diversos segmentos
e nos próprios setores de uma empresa, como venda, marketing, faturamento,
entre outros.
Da maneira que falamos até agora faz com que você pense que business
intelligence trata apenas do fluxo organizacional dos dados, porém não é apenas
um conceito relacionado à administração de empresas, mas sim a um conjunto
de técnicas e processos, alinhados com tecnologia que transformam uma grande
quantidade de dados brutos em informação e conhecimento que podem auxiliar
no suporte à tomada de decisão.
O processo de geração de conhecimento através de business intelligence é
realizado pelo emprego de tudo que foi visto até agora, desde a coleta dos dados
até a extração de conhecimento deles. A figura a seguir mostra um pouco desse
processo. A etapa inicial é sempre dada pela coleta dos dados. Geralmente, a
principal fonte dos dados são os sistemas transacionais utilizados pela empresa
(ERP, CRM, SAAS), mas pode haver outras fontes integradas. Posteriormente
é realizada a etapa de Data Warehousing, em que os dados são integrados e
limpos e armazenados em um banco de dados analítico (armazém de dados).
Uma vez estes dados estando armazenados, haverá uma infinitude de maneiras
de explorá-los, seja através de consultas OLAP, ou pela realização de processos
de Data Mining. Não se assuste, nem tenha pressa, vamos aprender a construir
nosso próprio Data Warehouse, no Capítulo 2 e como extrair conhecimento, no
Capítulo 3.
32
Análise de Dados usando Dashboards
FIGURA 10 – PROCESSO DE BUSINESS INTELLIGENCE
FONTE: O autor (2018)
Entre as diversas maneiras deexplorar um Data Warehouse é por meio de
Dashboards, afinal o objetivo deste livro é que você consiga gerar Dashboards
interativos integrando as mais diversas aplicações. Você já sabe que as pessoas
e organizações estão gerando uma gama de informações diariamente, trazendo
diversos desafios de armazenamento e descoberta de conhecimento. Neste
tópico iremos discutir os principais cases que envolvem a análise de dados.
A fralda e cerveja
Toda vez que se fala de Data Mining, Big Data ou Business Intelligence é
impossível deixar este case de lado, sendo este quase folclore na história dos
dados. Esta história começa com combinações perfeitas em uma compra, como
quem compra pão → compra manteiga ou quem compra café → compra leite. No
entanto, ainda que os processos de extração de conhecimento permitam extrair
tal informação vem a pergunta: Isso não é óbvio?
O fato é que uma das maiores redes de hipermercados norte-americana
coletou os dados e armazenou no formato na forma de Basket. Ou seja, para cada
venda são registrados quais produtos foram vendidos em um formato binário. O
quadro a seguir mostra como esses dados são formatados.
33
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
QUADRO 4 – MODELO DE ARMAZENAMENTO “BASKET”
Código da
Compra
MAÇÃ SORVETE CARNE BOLACHA
C001 1 1 1 1
2 1 0 0 1
3 0 1 1 0
4 1 1 1 1
5 1 0 0 1
6 0 1 1 0
FONTE: O autor (2018)
Nos anos 1990, a então rede de hipermercados, a partir da análise de um
grande volume de informações, foi possível gerar uma associação entre dois
produtos: fralda e cerveja.
FIGURA 11 – O CASO DA FRALDA E DA CERVEJA
FONTE: <https://www.slideshare.net/mrm0/beer-diapers-and-
correlation-a-tale-of-ambiguity>. Acesso em: 10 dez. 2018.
Obter tal informação foi de extremo valor para a tomada de decisão, afinal
permite além de maior divulgação dos produtos, uma realocação dos produtos
próximos no mercado. Quando se vai além dos produtos vendidos e se cria um
Dashboard com a integração desses dados com o aspecto temporal (dia da
semana, hora, mês etc.) e com perfil de clientes (idade, sexo etc.), a análise
https://www.slideshare.net/mrm0/beer-diapers-and-correlation-a-tale-of-ambiguity
https://www.slideshare.net/mrm0/beer-diapers-and-correlation-a-tale-of-ambiguity
34
Análise de Dados usando Dashboards
chegou à conclusão que homens adultos (pais) que compram fraldas (para seus
filhos) às sextas-feiras, também compram cervejas.
Este além de ser um dos principais cases da área de análise de dados, serve
como motivação para que você possa enxergar o mundo com novos olhos. Afinal,
você já parou para se perguntar:
● Como as livrarias recomendam livros?
● Como as músicas são recomendadas no Youtube?
● Como o Google sabe a próxima palavra que eu ia digitar?
● Como eu consigo fazer isso no meu sistema?
Como funcionam as regras de associação na prática?
A descoberta de regras de associação em bancos de dados relacionais ou
data warehouses é uma das tarefas de mineração de dados (data mining) que
possui o maior número de aplicações práticas. Este artigo inicia uma série de
trabalhos que terão o objetivo principal de demonstrar como esta nova tecnologia
pode ser aplicada em diferentes áreas de conhecimento.
A área de Ciência da Computação que tem por objetivo oferecer estratégias
automatizadas para a análise de grandes bases de dados de empresas,
procurando extrair das mesmas informações que estejam implícitas, que sejam
previamente desconhecidas e potencialmente úteis. A Mineração de Dados surgiu
no início dos anos 1990, a partir da reunião de ideias provenientesde diferentes
áreas como inteligência artificial, banco de dados, estatística, e visualização de
dados. A principal motivação para o surgimento da mineração de dados encontra-
se no fato de as organizações estarem armazenando de forma contínua uma
enorme quantidade de dados a respeito de seus negócios nas últimas décadas.
O conhecimento obtido pelas técnicas de mineração de dados é geralmente
expresso na forma de regras e padrões.
Devido a sua grande aplicabilidade, as regras de associação encontram-se
entre um dos mais importantes tipos de conhecimento, que podem ser minerados
em bases de dados. Estas regras representam padrões de relacionamento
entre itens de uma base de dados. Uma de suas típicas aplicações é a análise
de transações de compras: market basket analysis, um processo que examina
padrões de compras de consumidores para determinar produtos que costumam
ser adquiridos em conjunto. Um exemplo de regra de associação, obtida a partir
da análise de uma base de dados real, que registra os produtos adquiridos por
famílias cariocas em suas compras mensais, é dado por: {minipizza semipronta}
Þ {suco de fruta em pó}. Esta regra de associação indica que as famílias que
compram o produto {minipizza semipronta} tem maior chance de também adquirir
35
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
o produto {suco de fruta em pó}.
Introdução às regras de associação
O problema da mineração de regras de associação foi primeiramente
apresentado no ano de 1993. Nesta época, as regras eram mineradas a partir de
bases de dados de transações (ou bases transacionais). As definições formais
de regra de associação e base de dados transacional são apresentadas a seguir.
Seja I = {I1,I2,...In} um conjunto de itens. Seja D uma base de dados de
transações, em que cada transação T é formada por um conjunto de itens onde T Í
I. Cada transação possui um identificador chamado TID. Uma regra de associação
é uma implicação da forma A Þ B, onde
A e B podem ser conjuntos compostos por um ou mais itens, A Ì
I, B Ì I, e A C B = Æ. A é chamado de antecedente da regra e B é chamado de
consequente.
Dada uma regra A Þ B, a sua medida de suporte (Sup) representa a
porcentagem de transações da base de dados que contêm os itens de A e B,
indicando a relevância dela. Já a sua medida de confiança (Conf) representa,
dentre as transações que possuem os itens de A, a porcentagem de transações
que possuem também os itens de B, indicando a validade da regra. O problema
da mineração de regras de associação, conforme definido originalmente em 1993,
consiste em encontrar todas as regras de associação que possuam suporte e
confiança maiores ou iguais, respectivamente, a um suporte mínimo (SupMin) e
uma confiança mínima (ConfMin), especificados pelo usuário.
Para explicar o funcionamento deste processo, será apresentado um exemplo
baseado numa pequena base de dados que armazena as compras efetuadas por
clientes de um supermercado hipotético (listagem a seguir).
TID Produtos comprados
------------------------------------------------------
1 biscoito, cerveja, chá, salaminho
2 cerveja, couve, linguiça, pão, queijo
3 café, brócolis, couve, pão
4 brócolis, café, cerveja, couve, pão, salaminho
5 brócolis, café, couve, pão, refrigerante
6 couve, linguiça
Observe que cada registro da base de dados armazena a relação de
produtos adquiridos por um cliente específico. Um exemplo de regra de
36
Análise de Dados usando Dashboards
associação que poderia ser minerada nesta base de dados, através da utilização
de uma ferramenta de data mining, é dado por: {cerveja} Þ {salaminho}. Note que
duas das seis transações que compõem a base contêm os produtos {cerveja}
e {salaminho}. Desta maneira, o suporte da regra {cerveja} Þ {salaminho} pode
ser calculado da seguinte forma: 2 ¸ 6 = 33,33%. Observe agora que na base de
dados, existem duas transações que contêm os produtos {cerveja} e {salaminho}
juntos e três transações que contêm o produto {cerveja}. A confiança da regra
{cerveja} Þ {salaminho} pode então ser calculada da seguinte maneira: 2 ¸ 3 =
66,67%. Este valor indica que 66,67% dos consumidores que compraram {cerveja}
também compraram {salaminho}.
Outro índice estatístico comumente utilizado para definir o grau de
interesse de uma regrade associação é denominado lift. O lift de uma regra de
associação A Þ B indica quanto mais frequente se torna B, quando A ocorre.
Esta medida é computada por: Lift(A Þ B) = Conf(A Þ B) ÷ Sup(B). O lift da regra
hipotética {cerveja} Þ {salaminho} é dado por: Conf({cerveja} Þ {salaminho}) ÷
Sup({salaminho}) = 66.67% ÷ 33.33% = 2. O resultado deste cálculo indica que
os clientes que compram {cerveja} têm uma chance duas vezes maior de comprar
{salaminho}.
Os primeiros softwares para mineração de regras de associação começaram
a ser desenvolvidos em meados da década de 1990, ainda em ambiente
acadêmico. Hoje em dia já existem algumas dezenas de ferramentas comerciais
capazes de minerar este tipo de padrão, desenvolvidas por grandes empresas.
As ferramentas para mineração de regras de associação funcionam, tipicamente,
da seguinte maneira: o usuário especifica a base de dados que deseja minerar
e estabelece valores mínimos para as medidas de interesse como o suporte, a
confiança e o lift (muitas ferramentas utilizam ainda outras medidas de interesse
para avaliar as regras de associação). Em seguida, a ferramenta executa um
algoritmo que analisa a base de dados e gera como saída um conjunto de regras
de associação com valores de suporte e confiança superiores aos valores mínimos
especificados pelo usuário. Note que este processo é diferente do utilizado pelas
aplicações OLAP e pelos métodos estatísticos tradicionais, em que o especialista
testa a sua hipótese contra a base de dados. No caso da mineração de dados, as
hipóteses e os padrões são automaticamente extraídos da base de dados pelas
ferramentas.
FONTE: <https://www.devmedia.com.br/data-mining-de-regras-
de-associacao-parte-1/6533>. Acesso em: 19 out. 2018.
37
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
O presidente e os dados
Você, com certeza, sabe que Barack Obama venceu a eleição no ano de
2008 e também repetiu o feito no ano de 2012, pode até saber que o Hit “Yes,
We Can” bateu recorde de acessos no Youtube, o que você talvez não saiba é
que houve muita coleta, pré-processamento e, principalmente, muita análise de
dados por trás dessa trajetória. Grandes volumes de dados foram coletados e
processados para futuramente serem analisados nas campanhas.

Nas eleições presidenciais de 2008, a equipe de Barack Obama atribuiu a
cada eleitor norte-americano pontos baseados na probabilidade de aquela pessoa
realizar duas ações distintas e essenciais para a sua campanha: preencher uma
cédula de votação e, mais importante, esta cédula ser um voto para o democrata.
Estes pontos eram derivados de um volume de dados sem precedentes, gerado
por um contínuo trabalho de pesquisa. Para cada debate semanal por estado
norte-americano, os call centers da campanha conduziam de 5 mil a 10 mil
entrevistas curtas que rapidamente verificavam as preferências do eleitor, além
de mil entrevistas em versão longa. Ao realizar análises em cima de tais dados,
obteve-se mais de 100 variáveis que permitiram à equipe de governo pautar os
rumos da campanha e deu um ótimo resultado na campanha de 2012.
Já para as eleições de 2012, a quantidade de pessoas destinadas para
realizar análises foi cinco vezes maior e se multiplicou por cinco em relação ao
ano anterior. Esta equipe realizou medições a partir de uma megabase (uma
base de dados de grandes dimensões), podendo determinar, por exemplo, que
um jantar com o presidente Obama e o ator George Clooney era o ideal para
arrecadar fundos entre mulheres de 40 e 49 anos. Análises detalhadas deste
estilo permitiram ao candidato alcançar cifras recordes de arrecadação. Além
disso, o Big Data foi muito importante na hora de conhecer a intenção de votos
real no estado onde o triunfo do Obama era mais incerto, entre eles, Ohio. E por
fim, o resultado foi certo, Obama conseguiu se reeleger.
Você deve se perguntar, em 2016: Por que não funcionou?
Em um primeiro momento, temos que ter em mente que estamos em
uma revolução tecnológica. Assim como Gordon G. Moore afirmou
em 1965, na conhecida Lei De Moore “o número de transistores dos
chips teria um aumento de 100%, pelo mesmo custo, a cada período
de 18 meses”, o que queremos dizer é que a tecnologia muda, e
o que é novidade hoje pode ser passado em questão de pouco
38
Análise de Dados usando Dashboards
tempo, e com relação aos processos de coleta e análise de dados
não será diferente. Apenas para não deixar de lado a eleição do
atual presidente americano Donald Trump em 2016 com a empresa
Cambridge Analytica, que fez a análise de 198 milhões perfis de
eleitores que utilizaram a estrutura da empresa Amazon.
Dados o novo petróleo
A análise de grandes quantidades de dados desestruturados é uma das
quatro grandes tendências da tecnologia e, segundo Anjul Bhambhri, VP de
projetos de Big Data da IBM, isto será tão importante para o mundo quanto o
petróleo.
“Todo clique, tweet, site navegado está sendo analisado. E estes dados
abrem oportunidades inimagináveis. Big Data é o novo óleo, o novo recurso
natural”, afirmou.
De acordo com a companhia, em 2020, o mundo terá cerca de 40 zetabytes
(21 zeros) de dados para serem analisados contra 7 zetabytes atuais. Isto
dará a chance para que as empresas consigam fazer análises semânticas de
sentimentos, gostos e prever necessidades.
Além do Big Data, outras três tecnologias foram apontadas como essenciais
para os próximos anos: computação na nuvem, mobilidade e social. Para
o vice-presidente do centro de desenvolvimento da IBM, Stephen Farley, a
competitividade está focada em “analisar o consumidor (Big Data), armazenar
os dados dos clientes de forma simples e barata (cloud computing), com acesso
às informações na ponta dos dedos (mobilidade) e comunicando as descobertas
(social)”.
“O mundo está se tornando programável e o desenvolvimento de softwares
baseados nestas tendências dominará as empresas. Estas novidades estão
redesenhando a economia mundial”, afirmou. “Todas as companhias terão de
adotar estas tecnologias se quiserem oferecer diferenciais”, completou.
FONTE: <https://olhardigital.com.br/noticia/big-data-e-o-novo-petroleo,-
afirma-executiva-da-ibm/34986>. Acesso em: 21 jan. 2019.
39
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
Elementar, meu caro Watson!
Quando se fala em coleta, pré-processamento e análise de dados, surgem
novas plataformas de armazenamento na nuvem. Grandes empresas da tecnologia
têm investido nesse segmento como uma forma de oferecer processamento pago
por hora, são exemplos o Azure (Microsoft), Google Cloud, Amazon AWS e o IBM
Watson. Este último tem se destacado em pesquisas acadêmicas, inclusive em
um case recente e nacional.
Nos últimos anos, o Brasil foi marcado por dezenas de escândalos de
corrupção, bem como uma série de notícias sobre o combate a ela. Criado
em 2007 pelo Ministério da Justiça do Brasil, por meio do Departamento de
Recuperação de Ativos e Cooperação Jurídica Internacional da Secretaria
Nacional de Justiça, o Laboratório de Tecnologia contra Lavagem de Dinheiro
(LAB-LD) apoia investigações complexas sobre corrupção e lavagem de dinheiro.

Utilizando o IBM Watson, investigações financeiras – que dependem de
dados como movimentações e extratos de contas bancárias, troca de e-mails,
registros telefônicos e de empresas, além de informações vindas de redes sociais
– podem ser realizadas com muito mais facilidade. Neste caso, foi possível utilizar
a ferramenta para consolidar diversas fontes de dados e em cima destes dados
realizar buscas semânticas e por palavras-chave. Este sistema inteligente explora
o conceito de metadados sobre apelidos de suspeitos, parceiros e cúmplices, bem
como gírias de atividades criminosas, um exemplo disso é ao registrar o termo
‘farinha’ retornar informações sobre cocaína.
No passado, as investigações exigiam analistas altamente qualificados que
gastavam milhares de horasdebruçados em planilhas, e-mails e publicações em
redes sociais. Hoje, os investigadores gastam menos tempo na identificação de
dados relevantes e se empenham mais nas análises (BARBOSA, 2016). Com a
ajuda das soluções da IBM, a REDE-LAB alcançou o objetivo de automatizar os
processos de mineração de dados complexos — permitindo que os investigadores
acelerassem seu trabalho de forma significativa. Segundo o coordenador do
projeto, Roberto Zaina, da IBM (2014, p. 2 ), “Estimamos que o IBM Watson
Explorer nos permitirá acelerar exponencialmente nossas investigações. A
identificação de ativos ilícitos nos obriga a avançar mais rapidamente do que os
criminosos, e as nossas soluções da IBM estão nos ajudando a fazer exatamente
isso”.
40
Análise de Dados usando Dashboards
Considerações Finais
Prezado aluno!
Chegamos ao fim do Capítulo 1, esperamos que tenha sido proveitoso para
você. Durante este capítulo você pôde aprender sobre o volume de dados gerados
no mundo, espero que tenha aproveitado esse momento para refletir sobre esse
tipo de aplicação no seu cotidiano e tenha tido boas ideias de aplicações.
Durante o transcorrer do livro, discutimos tópicos atuais sobre análise de
dados, pois serão importantes para a compreensão e discussão dos métodos
utilizados. Nós também conhecemos os principais nomes da história dos dados
e suas contribuições tecnológicas, mas não iremos parar por aqui, tudo que você
viu será colocado em prática no Capítulo 2.
Referências
ANGELONI, M. T. Elementos intervenientes na tomada de decisão. Ci. Inf, v.
32, n. 1, p. 17-22, 2003.
BARBOSA, R. A. Tecnologia da informação na análise de crimes de lavagem
de dinheiro. 2016.
DAVENPORT, T. H. Ecologia da informação: por que só a tecnologia não basta
para o sucesso na era da informação. Futura, 2000.
DUMBILL, Edd. What is big data? An introduction to the big data landscape.
oreilly.com, http://radar.oreilly.com/2012/01/what-is-big-data.html, 2012.
EFRAIM, T. et al. Decision support systems and intelligent systems. Upper
Saddle River, NK: Prentice Hall, 2001.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data
mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996.
HAN, J.; PEI, J.; KAMBER, M. Data mining: concepts and techniques. Elsevier,
2011.
IBM. Ministério da Justiça identifica ativos ilícitos com ajuda do IBM
Watson Explorer. Disponível em <ftp://ftp.software.ibm.com/la/documents/gb/br/
Mnisterio_da_Justica_-_Big_Data.pdf>. Acesso em: 15 nov. 2011.
http://ftp.software.ibm.com/la/documents/gb/br/Mnisterio_da_Justica_-_Big_Data.pdf
http://ftp.software.ibm.com/la/documents/gb/br/Mnisterio_da_Justica_-_Big_Data.pdf
41
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
INMON, W. H. Building the data warehouse. John Wiley & sons, 2005.
KIMBALL, R.; ROSS, M. The data warehouse toolkit: the complete guide to
dimensional modeling. John Wiley & Sons, 2011.
LACKMAN, C. L.; SABAN, K.; LANASA, J. M. Organizing the competitive
intelligence function: a benchmarking study. Competitive Intelligence Review:
Published in Cooperation with the Society of Competitive Intelligence
Professionals, v. 11, n. 1, p. 17-27, 2000.
LIEBOWITZ, J. Strategic intelligence: business intelligence, competitive
intelligence, and knowledge management. Auerbach Publications, 2006.
MARQUES, M. Por que o excel é tão utilizado nas empresas? 2017. Disponível
em: <http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-
excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-
962528535.1541963168>. Acesso em: 15 out. 2018.
MELLO, R. dos S. et al. Dados semiestruturados. XV Simpósio Brasileiro de
Banco de Dados, 2000.
OLSZAK, C.; ZIEMBA, E. Approach to building and implementing business
intelligence systems. Interdisciplinary Journal of Information, Knowledge, and
Management 2, 2007: 135-148.
PETERSON, E. T. Web analytics demystified. [S. l.]: Celilo Group Media and
CafePress, 2004. p. 268.
SETZER, V. W. Dado, informação, conhecimento e competência.
DataGramaZero Revista de Ciência da Informação, n. 0, p. 28, 1999.
TURBAN, E. et al. Business Intelligence: um enfoque gerencial para a
inteligência do negócio. Bookman, 2009.
TYSON, K. W. M. Business intelligence-putting it all together. Leading Edge
Pub, 1986.
http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168
http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168
http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168
42
Análise de Dados usando Dashboards
CAPÍTULO 2
Data Warehouse e Business
Intelligence
A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes
objetivos de aprendizagem:
• saber como funciona o do processo de análise de dados, modelagem
multidimensional e os tipos de modelos;
• conhecer o que é um Data Warehouse e seus elementos e o que é um cenário
de Business Intelligence;
• conhecer todas as etapas de construção, desde a etapa de coleta,
transformação dos dados e alimentação de um Data Warehouse;
• realizar a extração, transformação e carga e a modelagem multidimensional;
• armazenar dados em um Data Warehouse;
• realizar consultas OLAP em cenários de business intelligence.
44
Análise de Dados usando Dashboards
45
Data Warehouse e Business Intelligence Capítulo 2
1 Introdução Ao Data Warehouse E
Business Intelligence
Finalizamos o capítulo anterior falando sobre Business Intelligence (BI), seu
poder e possibilidades na geração de conhecimento. Business intelligence, muitas
vezes, é difícil de ser compreendido, pois não se trata de uma única ferramenta,
mas de diversas técnicas de extração e manipulação. Na definição que surgiu
em 1989, por Howard Dresner, business intelligence é uma metodologia pela
qual se estabelecem ferramentas para obter, organizar, analisar e prover acesso
às informações necessárias aos tomadores de decisão das empresas para
analisarem os fenômenos acerca de seus negócios, ou seja, business intelligence
não é uma ferramenta, mas uma metodologia, que pode empregar uma ou
diversas ferramentas de acordo com o cenário de sua aplicação.

A escolha de uma estratégia, ou de um conjunto delas, depende muito do
cenário em que será aplicado e caberá ao profissional responsável conhecimento
sobre o cenário e sobre as estratégias. Infelizmente, nosso livro teria que ter mais
de 10.000 páginas para poder explicar todos os cenários possíveis de aplicações
de dados desde cenários de venda, compra, empréstimos, financiamentos,
operadoras de crédito, bolsa de valores, redes sociais, enfim, uma infinitude
deles. Porém, vamos aprender a partir de agora como coletar esses dados e quais
são as ferramentas para processá-los e analisá-los, permitindo a construção de
fantásticos dashboards analíticos.
Vamos estudar o processo de Data Warehousing, no qual você
compreenderá os principais métodos de coleta de dados, as principais
estratégias de processamento, bem como o armazenamento e posterior análises
multidimensionais. Uma vez realizado este processo, diversos processos de
business intelligence podem ser integrados, como mineração de dados e geração
de dashboards.
O processo de geração do conhecimento geralmente inicia com os bancos
de dados relacionais. Estes bancos de dados estão no mercado desde os anos
1970 e têm sua eficiência inegável, principalmente, no que se refere à segurança
e integridade dos dados armazenados. No entanto, a arquitetura desses bancos
de dados foi projetada para a realização de transações bancárias, e mesmo que
não seja um sistema bancário, diz-se que um sistema de gestão realizauma
transação, que nada mais é do que um conjunto de funções, executadas num
banco de dados, que o usuário percebe como uma única ação. Por exemplo,
ao realizar uma venda, nem sempre se trata de inserir um registro na tabela
de venda, por exemplo, insere os registros de produtos vendidos, dá baixa no
estoque e insere o valor do saldo. Todas estas funções caracterizam-se como
46
Análise de Dados usando Dashboards
uma única transação.
Os bancos de dados tradicionais que trabalham orientados a transações
são chamados de OLTP (Online Transaction Processing – Processamento de
Transações On-line), porém, conforme havíamos abordado anteriormente, o foco
desta abordagem são as transações. Muitas vezes, os conceitos de Business
Intelligence e Sistemas de Apoio à Decisão são confundidos com os próprios
sistemas gerenciais, afinal ainda que utilizem uma arquitetura OLTP, tais sistemas
permitem a extração de relatórios gerenciais: produtos mais vendidos, clientes
que mais compram, saldo total. O que você precisa entender é que relatórios
extraídos de sistemas de gestão não é business intelligence, relatórios são
relatórios. Vamos explicar isso detalhadamente para ficar claro no decorrer deste
capítulo.
Se você já teve a disciplina de banco de dados ou já estudou boas práticas,
com certeza, aprendeu as formas normais e respectivamente que a normalização
nos obriga a criar mais tabelas. Uma vez tendo criadas mais tabelas, isto ajuda a
amplificar a garantia da integridade dos dados armazenados, no entanto há um
problema: as consultas.
Uma vez que ao normalizar um banco de dados se criam diversas tabelas,
as consultas mais complexas necessitam de junções. Ou seja, conectar várias
tabelas para responder a estas consultas. Em um banco de dados pequeno, o
aumento do tempo de execução das consultas utilizando junções pode não ser
notado, no entanto, sabendo que um cenário de business intelligence irá integrar
diversos setores da empresa, com um volume significativo de dados, quanto mais
tabelas existirem, maior será o tempo de execução.
A partir de agora você conhecerá um pouco mais sobre a construção de um
projeto de business intelligence, que acontece durante a concepção de um Data
Warehouse, visto na próxima seção.
Tendências para business intelligence em 2019
Em nosso livro estamos discutindo as estratégias para construção de um
business intelligence. No entanto, estamos vendo abordagens tradicionais,
consolidadas pela academia e mercado. Também é importante levar em
consideração o cenário de inovação tecnológica mundial e como essa inovação
implica cenários de business intelligence. Para isto, nesse texto, trazemos duas
abordagens, as principais estratégias (conceitos e metodologias) e as principais
ferramentas.
47
Data Warehouse e Business Intelligence Capítulo 2
Os últimos anos têm sido de inovações na área de análise de dados, além de
aprimoramentos de produtos e serviços, levando as organizações a uma análise
sobre como priorizar uma abordagem moderna de business intelligence que
conduza a empresa a obter o máximo valor dos seus dados.
Pensando no quem vem pela frente, Adriano Chemin, vice-presidente da
Tableau para América Latina, empresa de software para análise visual de dados,
reuniu as principais tendências de business intelligence para os próximos anos,
são elas:
Inteligência artificial explicável
Que a inteligência artificial (AI) veio para ficar é fato, graças ao aprendizado
de máquina empresas conseguem criar clusters de comportamento, identificar
tendências de mercado, avaliar riscos, tomar decisões rápidas e automatizar
milhões de atividades que antes consumiam tempo e recursos. Não dá para
negar que o AI abriu um mundo de possibilidades para o universo de BI, e que
muitas das evoluções que estamos vendo (e que veremos nos próximos anos)
foram conquistadas graças às possibilidades oferecidas pela tecnologia de AI.
Por outro lado, quanto mais dependemos da AI, maior é nossa desconfiança
quanto à credibilidade das recomendações baseadas em modelos, já que grande
parte das ferramentas que utilizam aprendizado de máquina não fornecem uma
forma transparente de ver os algoritmos ou a lógica por trás das decisões e
das recomendações. É aí que vem o AI Explicável, a prática de compreender e
apresentar exibições transparentes dos modelos de aprendizado de máquina. Se
é possível questionar seres humanos, por que não ter a mesma opção com o
aprendizado de máquina na tomada de decisões?
A AI Explicável permite que o corpo executivo, cientistas e analistas de dados
entendam e questionem a forma como o aprendizado de máquina é aplicado
no dia a dia de uma empresa, gerando mais transparência e confiabilidade nos
resultados.
Linguagem natural transforma a dinâmica das organizações
O processamento de linguagem natural (NLP) está quebrando
paradigmas em todos os campos da tecnologia e mudando a forma como
as pessoas trabalham, ouvem música, solicitam informações sobre o
tempo e, cada vez mais, obtém respostas sobre um painel de dados.
A habilidade de obter respostas por meio de um comando de voz permite que
pessoas com todos os níveis de conhecimento possam questionar seus dados, e
ao perguntar, obter uma resposta concreta e veloz. Paralelamente, a linguagem
natural está evoluindo para dar suporte à conversação analítica, ou seja, a conversa
48
Análise de Dados usando Dashboards
entre o ser humano e o sistema sobre seus dados. O sistema aproveita o contexto
da conversa para entender a intenção por trás da consulta do usuário e promover
o diálogo, criando uma experiência de conversação cada vez mais natural.
À medida que a linguagem natural evolui com o setor de BI, ela abrirá portas
para a adoção de análise e ajudará a transformar ambientes de trabalho em
operações autônomas e impulsionadas por dados. O NPL eleva o patamar
analítico das organizações como um todo, permitindo que um CEO atarefado, ou
um analista de marketing sem tanta destreza com análises numéricas obtenham
as respostas que necessitam para executar seu trabalho de forma precisa.

Análise acionável: mobilidade dos dados impulsiona ações
Velocidade é palavra-chave na vida de quem trabalha com análise de dados
na atualidade, seja no acesso às informações ou no tempo de resposta para
executar a ação necessária, tudo precisa estar alinhado em um único fluxo de
trabalho e disponível no lugar e no dispositivo que o cientista/analista de dados
desejar para que ele possa agir rápido.
Pensando nisso, fornecedores de plataformas de BI oferecem análise
em dispositivos móveis, análise incorporada, extensões de painel e APIs que
incorporam a análise ao local onde as pessoas executam seu trabalho evitando
a troca de aplicativos (ou servidores) desnecessária e melhorando o fluxo de
trabalho.
A mobilidade permite, por exemplo, que o CEO de uma empresa acompanhe
a evolução de seus negócios de qualquer lugar do mundo, e acione sua equipe em
tempo real. A incorporação da análise em fluxos de trabalho diversos, leva ao que
chamamos de análise acionável, um avanço poderoso que promete atender às
necessidades analíticas dos mais diversos departamentos, e empoderar funcionários
de diferentes setores por meio de dados contextualizados e sob demanda.

Storytelling é a nova linguagem dos dados
Dados são a forma mais poderosa de comunicar uma descoberta, apresentar
um insight ou expor seus resultados, e nada como o storytelling para gerar aquele
impacto positivo. Storytelling analítico, ou contar uma história por meio de dados,
é uma das tendências mais marcantes do mundo do BI, e uma forma muito mais
atraente de expor todas as etapas das suas análises de forma acionável e fácil de
entender.
À medida que as empresas criam uma cultura de análise, contar histórias
com dados tem ganhado novos significados. Ao invés de apresentar uma
conclusão única, o storytelling promove a criação de