Buscar

ANÁLISE DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 140 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ANÁLISE DE DADOS 
USANDO DASHBOARDS
Programa de Pós-Graduação EAD
UNIASSELVI-PÓS
Autor: Rodrigo Ramos Nogueira
CENTRO UNIVERSITÁRIO LEONARDO DA VINCI
Rodovia BR 470, Km 71, no 1.040, Bairro Benedito
Cx. P. 191 - 89.130-000 – INDAIAL/SC
Fone Fax: (47) 3281-9000/3281-9090
Reitor: Prof. Hermínio Kloch
Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol
Equipe Multidisciplinar da Pós-Graduação EAD: 
Carlos Fabiano Fistarol
Ilana Gunilda Gerber Cavichioli
Jóice Gadotti Consatti
Norberto Siegel
Camila Roczanski
Julia dos Santos
Ariana Monique Dalri
Marcelo Bucci
Revisão Gramatical: Equipe Produção de Materiais
Diagramação e Capa: 
Centro Universitário Leonardo da Vinci – UNIASSELVI
Copyright © UNIASSELVI 2019
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
 UNIASSELVI – Indaial.
Impresso por:
N778a
 Nogueira, Rodrigo Ramos
 Análise de dados usando dashboards. / Rodrigo Ramos Nogueira. – 
Indaial: UNIASSELVI, 2019.
 140 p.; il.
 ISBN 978-85-7141-298-9
1.Análise de dados – Brasil. 2.Dashboards (Sistemas de informação 
gerencial – Brasil. II. Centro Universitário Leonardo Da Vinci.
CDD 005.3
Sumário
APRESENTAÇÃO ..........................................................................05
CAPÍTULO 1
A Explosão dos Dados: Como Gerenciá-Los? .........................07
CAPÍTULO 2
Data Warehouse e Business Intelligence ................................43
CAPÍTULO 3
Criação de Dashboards na Prática ...........................................95
APRESENTAÇÃO
Prezado aluno! 
Seja muito bem-vindo à leitura do livro Análise de Dados usando Dashboards. 
Temos a certeza de que em algum momento da sua vida, carreira ou estudos, 
você parou para pensar nos avanços tecnológicos e aonde iríamos parar com 
esta evolução. E, de fato grande responsável pela evolução da tecnologia são os 
volumes de dados gerados e cada vez mais estes dados são importantes para 
tomada de decisão em grandes corporações.
Mas o que o volume de dados tem a ver com este livro? A partir de agora 
você é um minerador e os dados serão a matéria-prima para o seu trabalho. Será 
necessário um árduo trabalho de lapidação, mas no final nós garantimos que 
você terá um brilhante diamante chamado CONHECIMENTO. E ao saber lidar 
com o processo de extração de conhecimento pelos dados, eles lhe tornarão um 
profissional disputado por empresas nacionais e internacionais.
Este livro abordará os principais conceitos sobre Business Intelligence, bem 
como as principais técnicas que são utilizadas na prática durante a extração 
de conhecimento através dos dados. E o mais importante: sempre com uma 
abordagem atualizada! Desde tecnologias até com a visão do mercado de trabalho. 
Nós estudaremos também as aplicações nas mais diversas perspectivas: 
usuários, aplicações, organizações e gestores e deixando claro o papel de cada 
elemento na construção de estratégias de coleta, pré-processamento e geração de 
informação.
No Capítulo 1 vamos nos contextualizar, você vai aprender sobre o volume 
de dados no mundo atual, sobre os tipos de dados e a diferença entre dados e 
informação. Vai conhecer um pouco sobre a história da transformação dos dados na 
tecnologia e os principais métodos de Business Intelligence.
O Capítulo 2 será responsável por nos trazer mais de conceitos práticos como 
Data Warehouse, ETL, OLAP e diversos procedimentos para analisar dados, porém, 
não vamos parar nos conceitos, vamos colocar a mão na massa. 
Uma vez estes dados estando armazenados e limpos será só os consumir. 
Assim, o Capítulo 3 será responsável por nos apresentar as principais ferramentas 
de Dashboard do mercado e sua utilização para extração de índices e indicadores. 
CAPÍTULO 1
A Explosão dos Dados: Como 
Gerenciá-Los?
A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes 
objetivos de aprendizagem:
• os principais cenários de dados no mundo atual;
• a importância de se obter um grande volume de dados para a geração de 
conhecimento, os tipos e formatos de dados;
• conceituar conhecimento e saber os processos para extraí-los;
• conhecer técnicas e ferramentas para coleta e análise de dados.
8
 Análise de Dados usando Dashboards
9
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
1 O Volume E Os Tipos Dos Dados
Já parou para pensar na quantidade de dados que você gera diariamente? 
Isso mesmo, apenas você? Apenas um celular conectado com e-mail, aplicativo 
de mensagens e mídias sociais é capaz de gerar uma grande quantidade de 
dados, dos mais diversos tipos (textos, áudios, fotos, vídeos). Se esta reflexão 
for elevada para todos os usuários, em que apenas no Brasil, segundo o IBGE, 
116 milhões de pessoas têm conexão com a internet, imagine a quantidade de 
informação gerada diariamente em todo mundo por diversas empresas. Isso em 
números significam cerca de 2,5 quintilhões de bytes gerados, diariamente, em 
todo o mundo. 
Tradicionalmente, as bibliografias tratam do tema de análise de dados, na 
mesma linha que este livro as aborda, principalmente, a dificuldade da integração 
dos dados a partir de diversos sistemas de informação. No entanto, as principais 
obras sobre o tema foram publicadas em 1992 e 1996. Neste contexto, muita 
coisa vem se modificando e a principal mudança é o notório volume de dados 
gerados pelo uso da internet no mundo. 
O Internet Live Stats é uma equipe internacional de desenvolvedores, 
pesquisadores e analistas que tem como objetivo coletar e disponibilizar 
estatísticas sobre o volume de sites na Web, de maneira que estes conteúdos 
sejam fornecidos em um formato dinâmico e relevante para um público amplo 
em todo o mundo. Segundo estimativas deste órgão, até a confecção deste livro 
existem 1.929.019.952 de sites na Web e um total de 4.068.405.997 usuários 
espalhados por todo o mundo. Estes usuários geram uma grande informação 
diariamente e tais dados são interessantes para as organizações, pois contêm os 
mais diversos tipos de estruturas, simples ou complexas, que existem, atendendo 
a diversas necessidades e possuindo diversos conteúdos e formatos.
A grande questão é que por um longo período as pessoas eram apenas 
consumidoras de conteúdos, um público-alvo, números sem voz, porém, quando 
se transformam em usuários da grande rede mundial, cada indivíduo ganha seu 
poder e voz, ao invés de ser receptor de mensagens, as pessoas se tornam 
produtoras de informações de valor, como decidir qual produto consumir, como 
influenciam seus amigos nas redes sociais, quais termos de busca mais utilizam, 
quais notícias e quais temas mais lhe interessam. Durante muitos anos as 
grandes empresas investiram fortemente em pesquisas de opinião e entrevistas 
de foco local, tendo como objetivo saber se o produto a ser lançado atingia o 
público-alvo e como melhorá-lo em relação aos concorrentes. Agora as pessoas 
estão inundando as mídias sociais com bilhões de dados, mais do que empresas 
e marcas consigam administrar transformando a internet numa imensa plataforma 
10
 Análise de Dados usando Dashboards
de pesquisa quando o que vale não é o que se diz, mas o que de fato se faz. 
Estão gerando um imenso manancial de dados e métricas, dados de mercado e 
consumo. Como transformá-los em inteligência de negócio?
Um grande ponto de aumento dos dados é um ponto constante, não se muda 
apenas o volume dos dados, mas também o limiar que mensura essa evolução. 
O IDC (International Data Corporation) realizou um estudo intitulado “O universo 
digital das oportunidades: riquezas de dados e valor crescente da internet das 
coisas”, com pesquisa e análise da IDC, foi reportado que no ano de 2013 
havia um conjunto composto por 4,4 trilhões de gigabytes (ou 4,4 zettabytes) 
de informação. Utilizando diversos conjuntos de métricas e análises, o instituto 
realizou uma previsão que o mundo saltará para 44 trilhões de gigabytes (44 
zettabytes)em 2020 e que 10% desse volume de dados corresponderá à internet 
das coisas.
O grande desafio é buscar alternativas para armazenar e processar estes 
dados, gerando informação e conhecimento. O caso mais conhecido da análise 
de dados e geração de conhecimento para a tomada de decisão é o caso da 
fralda e da cerveja. Neste caso, os dados de vendas de produtos de uma grande 
rede de mercados americana, após computar um grande volume de dados, foi 
possível descobrir que sempre que havia uma compra de fralda às sextas-feiras, 
havia uma grande probabilidade de também conter cerveja. Tal análise, permitiu 
que a rede tomasse a decisão de realocar os produtos pelas lojas e aumentasse 
suas vendas.
Os analistas de dados, muitas vezes, chamados de analistas de Business 
Inteligence, que já tinham em mãos os desafios de centralizar diversas fontes de 
informação ainda têm isso aumentado. 
Em seu tradicional infográfico atualizado, a Go-Globe divulga “O mundo em 
60 segundos”, que é mostrado na figura a seguir. Nela é possível ver o volume de 
informações geradas a cada minuto em todo mundo nos principais veículos. Note 
que apenas buscas no Google são 3.8 milhões, no Youtube são 400 horas de 
vídeo enviados e cerca de 700 horas de vídeos assistidos, tudo isso desde que 
você começou a leitura desta seção. 
11
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
FIGURA 1 – O MUNDO EM 60 SEGUNDOS
FONTE: <http://www.go-globe.com/blog/things-that-happen-
every-60-seconds/>. Acesso em: 15 out. 2018.
Que o mundo vivencia uma explosão dos dados, isto é fato, o que nos gera 
um grande desafio: armazenar e gerenciar tais dados. O grande fato, conforme 
visto anteriormente, geramos os mais diversos tipos de dados, que nem sempre 
possuem uma estrutura. Tornando necessário o conhecimento sobre o formato 
desses dados para se obter a melhor maneira de processar e armazená-los. 
 Agora que você já está contextualizado com o cenário dos dados, 
responda: Onde você gera dados no seu dia a dia?
ISOTANI, Seiji; BITTENCOURT, Ig Ibert. Dados abertos 
conectados: em busca da Web do conhecimento. Novatec Editora, 
2015.
http://www.go-globe.com/blog/things-that-happen-every-60-seconds/
http://www.go-globe.com/blog/things-that-happen-every-60-seconds/
12
 Análise de Dados usando Dashboards
Há diversos elementos envolvidos na geração de dados, desde computadores 
pessoais executando sistemas de informação, celulares com aplicativos, até 
mesmo os mais diversos tipos de sensores e ferramentas de captura (foto 
e vídeo). O fato é que há uma grande diversidade de dados, armazenando as 
mais diversas informações, desde a maneira como são coletados, até a maneira 
com que são armazenados. Neste segundo ponto, conforme mostra a figura a 
seguir, os dados estão distribuídos pelo mundo de acordo com o seu formato e 
estrutura de armazenamento, que, no geral são classificados como estruturados, 
semiestruturados e não estruturados. 
FIGURA 2 – DISTRIBUIÇÃO DOS DADOS
FONTE: O autor (2018)
Conforme mostra a figura anterior, apenas 20% dos dados são armazenados 
de maneira estruturada. Os dados estruturados são aqueles que estão 
armazenados em uma estrutura previamente definida, tradicionalmente os 
softwares tradicionais os utilizam na forma de SGBDR (Sistemas Gerenciadores 
de Bancos de Dados Relacionais) ou BDR (Bancos de Dados Relacionais). 
A principal característica dos SGBDRs é que foram construídos para garantir 
a integridade dos dados armazenados, toda sua estrutura é feita com base em 
tabelas construídas com base em relacionamentos. Com relação ao motivo desta 
forma de armazenamento ser chamada de estruturada, isto se dá, principalmente, 
pelo fato de que a estrutura dos dados deve ser definida previamente ao 
armazenamento dos dados. Ou seja, primeiro é realizada a definição do campo, 
depois sua inserção.
13
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
Os bancos de dados relacionais estão consolidados no mercado há mais de 
50 anos, no entanto, 80% dos dados distribuídos pela Web assumem outros dois 
formatos: semiestruturados e não estruturados.
Os dados semiestruturados são aqueles que têm uma estrutura, ou seja, se 
consegue reconhecer um significado, no entanto, ao contrário dos estruturados, 
esta estrutura não é definida previamente. Tal estrutura é incremental e vai se 
alterando no passar do tempo. São exemplos de dados semiestruturados: 
planilhas Excel, arquivos CSV, documentos XML, documentos JSON. Dados 
semiestruturados apresentam uma representação estrutural heterogênea, não 
sendo nem completamente não estruturados nem estritamente tipados. Dados 
Web se enquadram nessa definição: em alguns casos os dados possuem uma 
descrição uniforme (um catálogo de produtos), em outros, algum padrão estrutural 
pode ser identificado (um conjunto de documentos no formato de artigo). Afirma-
se também que dados semiestruturados são dados nos quais o esquema de 
representação está presente (de forma explícita ou implícita) juntamente com 
o dado, ou seja, este é autodescritivo. Isto significa que uma análise do dado 
deve ser feita para que a sua estrutura possa ser identificada e extraída (MELLO, 
2000).
Por sua vez, os dados não estruturados, são os que mais populam a Web, 
destes não é possível obter uma estrutura, e para extrair conhecimento sobre 
tais dados é necessário realizar um pré-processamento. São exemplos de dados 
não estruturados: textos, imagens, arquivos de som, vídeos e os mais diversos 
arquivos multimídia. 
Nas organizações isto não é diferente, empresas utilizam seus softwares 
de gestão para gerenciar as mais diversas operações (vendas, marketing, 
produto) o que por si só já se torna um desafio que é integrar os dados de 
todos os setores, muitas vezes, centralizados em diversos SGBDs e softwares. 
Complementarmente, cada vez mais empresas utilizam redes sociais para 
divulgar seus produtos e iniciativas, tornando-se interessante extrair dados sobre 
como os usuários destas redes estão reagindo a isso. Na produção da empresa, 
com a ascensão do conceito de internet das coisas e do sensoriamento, os 
dados podem ser coletados em tempo real e a maneira com que se trabalha com 
indicadores de produção passa se tornar em tempo real. 
14
 Análise de Dados usando Dashboards
 Uma vez compreendidos os mais diversos cenários de dados, 
conceitue a diferença entre dados estruturados, semiestruturados 
e não estruturados. 
FIGURA 3 – EMPRESA CONECTADA E DADOS INTEGRADOS
FONTE: <https://www.i-scoop.eu/manufacturing-industry/>. Acesso em: 25 out. 2018.
E ainda não para por aqui, afinal até o momento, estes dados tratam apenas 
da própria corporação, quando empregado o conceito de inteligência competitiva, 
que é uma estratégia de se obter informações relevantes sobre o comportamento 
da concorrência, o volume de dados coletados é ainda maior. A competitividade, 
a informatização e a necessidade de diferencial competitivo fizeram com que 
as organizações percebessem a importância do conhecimento e de sua gestão 
(LACKMAN; SABAN; LANASA, 2000).
Agora imagine todos estes dados consolidados, integrados e aptos a serem 
explorados por diversas perspectivas, com isto em mãos, os gestores de uma 
empresa podem tomar os mais diversos tipos de decisões gerenciais. Decisões 
sobre venda, compra, realocação de produtos, alteração no fluxo gerencial e uma 
infinitude delas. 
Assim, obter-se métodos eficazes para coletar, pré-processar dados de 
diversas fontes e armazená-los em uma única estrutura é de extrema importância 
https://www.i-scoop.eu/manufacturing-industry/
15
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
para a organização. Uma vez estes dados coletados e armazenados podem gerar 
informação e conhecimento que poderão ser utilizados como suporte à tomada de 
decisão. Mas afinal, qual é a diferença entre dados, informação e conhecimento? 
Conhecendo os tipos de dadosVocê viu até o momento que falamos sobre diversos tipos de dados, sua 
estrutura e forma de armazenamento. Você conhece os tipos de dados que 
citamos? Sabe o que eles têm em comum e diferente? Utilizando como exemplo 
um cenário de dados onde se deseja armazenar dados sobre produto e estoque, 
veremos alguns exemplos de tipos de dados. 
RELACIONAL
Esta representação em forma de tabelas é um tipo de dado estruturado, no 
qual você inicialmente precisa definir a estrutura e depois armazenar os dados. 
Confira a seguir a representação gráfica dos quadros em um SGBDr e também o 
código que representa sua criação em um banco de dados físico.
QUADRO 1 – MODELO RELACIONAL E COMANDO SQL RELATIVO
FONTE: O autor (2018)
16
 Análise de Dados usando Dashboards
JSON
JSON, em seu significado teórico é "Javascript Object Notation", que nada 
mais é que o formato mais leve conhecido de transferência/intercâmbio de dados. 
Além de ser um formato de dados são utilizados por diversos bancos de dados 
NoSQL. A mesma representação do modelo relacional é vista no quadro abaixo 
utilizando JSON.
QUADRO 2 – EXEMPLO JSON
[ 
 { 
 "id_produto":1, 
 "descricao":"Jaleco", 
 "preco":"3.50",
 “estoque”:30
 }
]
FONTE: O autor (2018)
CSV
O termo “CSV” tem como significado Comma Separated Values, ou seja, é 
um arquivo separado por vírgula (ou ponto e vírgula). Assim como o JSON é um 
formato de arquivo para realizar o intercâmbio de dados com um banco de dados 
ou uma planilha entre aplicativos.
id_produto, descricao, preco, estoque
1,Jaleco, 3.50,30
2,Chapéu, 13.50,100
3,Calça , 33.50,130
17
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
XML
O XML é uma linguagem de marcação muito similar ao HTML, vem do 
inglês eXtensible Markup Language, é recomendada pela W3C para a criação 
de documentos com dados organizados hierarquicamente. Tradicionalmente, os 
sistemas utilizam XML para realizar integração de dados, dentre muitos, o mais 
famoso é o sistema da receita federal.
QUADRO 3 - EXEMPLO DE XML
<?xml version="1.0">
<produtos>
 <produto id=1>
 <descricao>Jaleco</descricao>
 <preco>Jaleco</preco>
 <quantidade>Jaleco</quantidade>
 </produto>
<produtos>
FONTE: O autor (2018)
Dados, informação e conhecimento
De fato, os dados são de extrema importância para a tomada de decisão 
estratégica. Mas afinal, apenas ter os dados já implica conhecimento e 
informação. E estes termos são termos muito próximos o que faz com que em 
muitos momentos sejam confundidos com apenas um. A figura a seguir ilustra o 
que cada um representa.
18
 Análise de Dados usando Dashboards
FIGURA 4 – DADOS, INFORMAÇÃO E CONHECIMENTO
FONTE: O autor (2018)
•	 Dados: são fatos e números que transmitem algo específico, mas que 
não são organizados de maneira formal. Assim não têm contexto, de 
modo geral, pode-se dizer que dados são a informação de uma maneira 
bruta. Na definição de Setzer (1999), um dado é necessariamente uma 
entidade matemática e, desta forma, é puramente sintático. Isto significa 
que os dados podem ser totalmente descritos através de representações 
formais, estruturais. São ainda quantificados ou quantificáveis, eles podem 
obviamente ser armazenados em um computador e processados por 
ele. Dentro de um computador, trechos de um texto podem ser ligados 
virtualmente a outros trechos, por meio de contiguidade física ou por 
"ponteiros", isto é, endereços da unidade de armazenamento sendo 
utilizados, formando assim estruturas de dados. Ponteiros podem fazer a 
ligação de um ponto de um texto a uma representação quantificada de uma 
figura, de um som, entre outros. 
•	 Informação: para que os dados se tornem informações, eles devem ser 
contextualizados, categorizados, calculados e condensados, deste modo 
a informação são os dados organizados. De um modo geral, pode-se 
dizer que a informação é quando se traz um sentido ao dado. Na visão de 
Angeloni (2003), as informações são apresentadas de acordo com dados, 
trazendo a eles um significado. As informações então são dados dotados de 
relevância e propósito. A informação nasce a partir resultado do encontro 
de uma situação de decisão com um conjunto de dados, ou seja, são dados 
contextualizados que visam a fornecer uma solução para determinada 
situação de decisão. Uma informação pode ser considerada como dados 
19
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
processados e contextualizados, no entanto, há autores que defendem que 
a informação é considerada como desprovida de significado e de pouco 
valor, sendo ela matéria-prima para se obter conhecimento.
•	 Conhecimento: acontece sobre os dados e as informações, é obter 
discernimento, critério, apreciação prática de vida e experiência. O 
conhecimento possuído por cada indivíduo é um produto de sua experiência 
e engloba as normas pelas quais ele avalia novos insumos de seu entorno. 
Para Davenport (2000), o conhecimento é a informação mais valiosa e, 
consequentemente, mais difícil de gerenciar. É valiosa precisamente porque 
alguém deu a informação a um contexto, um significado, uma interpretação; 
alguém refletiu sobre o conhecimento, acrescentou a ele sua própria 
sabedoria e considerou suas implicações mais amplas. 
Qual é a diferença entre dado, informação e conhecimento?
2 A História E As Estratégias De 
Análise De Dados
Apesar de vivermos na era da informação, a história dos dados como 
ferramenta de suporte à tomada de decisões se deu no início na década de 1940, 
na Universidade de Illinois, com o trabalho intitulado A Logical Calculus of the Ideas 
Immanent in Nervous Activity (Um cálculo lógico das ideias imanentes na atividade 
nervosa), desenvolvido por McCulloch e Walter Pitts. Na ocasião estabeleceram 
uma analogia entre o processo de comunicação das células nervosas vivas e o 
processo de comunicação por transmissão elétrica e propuseram a criação de 
neurônios formais. Ao final da pesquisa, conseguiram demonstrar que era possível 
conectar os neurônios formais e formar uma rede capaz de executar funções 
complexas. As pesquisas sobre redes neurais evoluíram até 1960, com a Rede 
Perceptron, criada por Frank Rosenblat, no entanto, baseado, principalmente, 
pelos argumentos dados por Mavin Minsky em seu livro Perceptron, no qual de 
maneira simples criticou por não haver poder computacional suficiente naquela 
época. 
Tratando-se de dados, em junho de 1970, o pesquisador Edgar Frank 
Ted Codd IBM mudou a história dos bancos de dados apresentando o modelo 
20
 Análise de Dados usando Dashboards
relacional no artigo intitulado "A Relational Model of Data for Large Shared Data 
Banks", em que discutiu uma proposta de armazenamento de dados, que seriam 
armazenados em tabelas que devem estar relacionadas. A figura a seguir mostra 
um exemplo de como esta estratégia funciona, e funciona tão bem que é utilizada 
amplamente nos mais diversos sistemas comerciais, desde frente de caixa, 
bancários, ERPs, entre outros. 
FIGURA 5 – MODELO RELACIONAL
FONTE: <www.wikiwand.com/en/Relational_model>. Acesso em: 10 dez. 2018.
Na mesma década, Bill Inmon começou a discutir os principais fatores em 
torno do Data Warehouse e o termo já começou a existir nos anos 1970. Inmon 
trabalhou extensivamente na aprimoração de suas experiências em todas as 
formas de modelagem de dados relacionais. O trabalho de Inmon, como pioneiro 
do Data Warehousing, foi o livro intitulado “Building the Data Warehouse” um dos 
principais livros sobre tecnologia e bibliografia obrigatória para todo profissional 
de análise de dados. É impossível falar da história dos dados e não falar de Ralph 
Kimball, que com sua publicação “The Data Warehouse Toolkit”, divide com Inmon 
a paternidade dos conceitos sobre o que é um Data Warehouse, mais sobre as 
arquiteturas e propostas das duas personalidades será discutidono Capítulo 2. 
http://www.wikiwand.com/en/Relational_model
21
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
FIGURA 6 – RALPH KIMBALL E BILL INMON
FONTE: O autor (2018)
Em 1996, Usama Fayad publicou o artigo “From Data Mining to Knowledge 
Discovery in Databases”, que aborda justamente como extrair conhecimento de 
bases de dados, como a partir de um conjunto de dados enxergar além do que 
as ferramentas tradicionais permitem visualizar. Este artigo é um dos principais 
da literatura atual por além de fazer uma revisão sobre os principais métodos 
de extração de conhecimento, ainda descreve as principais etapas de KDD 
(Knowledge Discovery in Databases), que são mostradas pela figura a seguir e 
serão discutidas em mais nível de detalhes no Capítulo 3. 
FIGURA 7 – ETAPAS DE EXTRAÇÃO DO CONHECIMENTO 
FONTE: Fayad (1996)
Com a arquitetura proposta por Fayad, com o banco de dados de Cood e 
a proposta de um modelo multidimensional de Inmon, o mundo digital passou 
por severas mudanças, principalmente com a Web 2.0 e a geração de dados em 
grande escala. No entanto, tais tecnologias jamais deixaram de ser utilizadas e 
mesmo as mais novas técnicas de análise de dados levam sua essência. Em 
2018 são diversas novas terminologias e tendo como objetivo facilitar o seu 
entendimento.
22
 Análise de Dados usando Dashboards
 Quem foram os principais nomes da história dos dados e quais as 
contribuições deles?
Big Data 
 
Big Data é um termo que tem como tradução literal mais próxima “grandes 
quantidades de dados” e é também o termo instituído pela IBM para determinar 
a grande quantidade de dados gerados pelos sistemas de informação. Hoje em 
dia Big Data representa muito mais do que isso, representa uma verdadeira 
transformação digital, em que quanto mais dados uma empresa puder coletar, 
mais poder de tomada de decisão poderá obter. 
Em sua principal definição, Big Data é conhecido como um cenário que 
contém a soma de volume, velocidade e variedade, que, quando juntos, geram 
um valor de informação com veracidade. O volume é o coração, afinal para se 
obter um cenário de Big Data é necessário ter um grande volume de dados, a 
velocidade se remete à informação chegar ao tempo mais rápido nas mãos do 
tomador de decisão e a variedade está relacionada tanto aos dispositivos que 
coletam dados (sistemas de informação, GPS, câmeras de vídeo, dispositivos IoT, 
entre outros), quanto à estrutura de tais dados (estruturados, semiestruturados e 
não estruturados).
 Há uma grande dificuldade na definição de quão grande deve ser um con-
junto de dados para que seja considerado um volume de dados em Big Data. A pri-
meira coisa a ser levada em consideração é a própria integração de existir volume, 
velocidade e variedade, bem como a definição dada por Edd Dumbill (DUMBILL, 
2012), que afirma que Big Data são dados que excedem a capacidade de proces-
samento dos sistemas de banco de dados convencionais, em que o volume de 
dados é muito elevado e necessitam de processamento rápido, o que não é provi-
do pelas arquiteturas de bancos de dados tradicionais e para ganhar valor a partir 
desses dados, é necessário escolher uma forma alternativa para processá-los.
Data mining
A mineração de dados (data mining) é uma operação que leva o seu nome 
a sério, neste caso, a mina não é de ouro, mas de dados. É um processo de 
lapidar dados brutos e extrair conhecimento a partir deles. Este processo pode 
operar diretamente em fontes de dados brutas sob a qual deverá realizar uma 
severa etapa de pré-processamento de dados, no entanto, é recomendado que 
23
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
seja realizado a partir de uma fonte de dados já integrada e limpa, como, por 
exemplo um Data Warehouse.
SGBD
Anteriormente falamos sobre Edgar Frank Codd e sua importante contribuição 
para a comunidade digital, com o desenvolvimento do modelo relacional 
de armazenamento. Tratar de SGBD é tratar de sistemas que gerenciam o 
armazenamento de tais dados.
Sistemas Gerenciadores de Bancos de Dados, ou Sistemas Gerenciadores 
de Bancos de Dados Relacionais são, de maneira simples, um software que 
é responsável por gerenciar o acesso aos dados. O SGBD é responsável por 
fazer a interface entre os dados com aplicações e usuários, encapsulando-os, 
garantindo sua segurança e integridade.
 
Os SGBDs têm como característica o relacionamento entre tabelas, que 
implementam os modelos relacionais. Dentre os principais SGBDs do mercado, 
destacam-se o SQL Server e Oracle entre os pagos, já entre os livres existe o 
MySQL e o PostgreSQL. 
Toda vez que você utiliza um software aplicativo, um sistema de informação, 
os dados estão sendo armazenados por um SGBD. 
Data Warehouse
Data Warehouses tem como tradução literal “Armazém de dados” e segue 
sua função que é armazenar dados. No entanto, você deve se perguntar, qual é a 
diferença entre ele e um banco de dados? Ainda que um Data Warehouse possa 
utilizar um banco de dados relacional, o objetivo deste armazém é armazenar 
dados para se realizarem consultas. 
De uma maneira simples, são bancos de dados analíticos, projetados para 
armazenar os dados de fontes diversas, já transformados e preparados para 
serem explorados por aplicações de tomada de decisão. Os Data Warehouses 
também podem ser compreendidos como centralizadores de dados, uma vez que 
são alimentados por diversas fontes de dados. Pense em uma organização que 
utilize um software de gestão comercial, gestão financeira e complementarmente 
utilize as redes sociais. Em um Data Warehouse é possível concentrar todos 
esses dados, integrando-os e permitindo que sejam as mais diversas análises. 
Inclusive para aplicações de mineração de dados e construção de Dashboards.
24
 Análise de Dados usando Dashboards
Neste momento não se assuste! O próximo capítulo é dedicado para Data 
Warehouse e o Capítulo 3 para Dashboards. 
NoSQL
 
Em cenários de dados, um componente relativamente atual são os bancos de 
dados NOSQL (Not Only SQL – Não apenas SQL), que surgiram nos anos 2000, 
a partir da ascensão de grandes empresas da Internet como Amazon e Google, 
que cada vez mais produziam dados gradativamente, tendo a necessidade de 
escalabilidade em escrita e principalmente leitura de dados após o aumento de 
tecnologias voltadas à nuvem. 
De modo geral, a principal vantagem do emprego de bancos de dados 
NOSQL é a utilização do particionamento dos dados horizontal, ao contrário dos 
bancos relacionais, que os fazem verticalmente, isto significa que em bancos 
NOSQL, os dados podem ser distribuídos de maneira independente sem que seja 
necessário enviar todo um conjunto para um determinado nó ou disco. Através 
do modo com o qual os dados são armazenados em NOSQL, é possível que os 
dados sejam particionados e distribuídos de forma mais ágil do que os tradicionais 
bancos relacionais, esta diferença fica visível através da figura a seguir.
FIGURA 8 – DISTRIBUIÇÃO DE DADOS RELACIONAL X NOSQL
FONTE: O autor (2018)
Neste momento, você pode estar um pouco assustado com tanta terminologia 
e coisa nova. No entanto, gostaríamos de tirar alguns minutos para falar sobre 
carreira. Afinal, dominar tanta tecnologia deve ter algum benefício, não é mesmo?
25
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
As profissões e os dados
As profissões ligadas à tecnologia mudaram a última década, desde 
novas profissões criadas, até mesmo a alterações na maneira com que esses 
profissionais atuam (horários flexíveis, home office, entre outros). O fato é que 
os profissionais de tecnologia irão continuar em alta e dominando o mercado de 
trabalho nos próximos anos, porém é estar consciente que são diversas áreas 
e que estão em constante mutação. Ao contrário do que se previa, os avanços 
trazidos pela informática e a automação têm ampliado a oferta de vagas de 
emprego nos mais diversos ramos. Por sinal,especialistas apontam que há muitas 
profissões ainda desconhecidas, que vão surgir nesta ou nas décadas seguintes, 
por conta das demandas e inovações a serem experimentadas pela sociedade. 
Mas há cargos que já estão sendo oferecidos e procurados pelas empresas. A 
seguir veremos algumas das principais carreiras das tecnologias em ascensão, 
que estão diretamente ligadas à análise de dados, mas é importante destacar 
que em algumas empresas alguns destes cargos estão agrupados e em outras 
desmembrados em outras profissões e níveis de carreira (Trainne, Júnior, Sênior, 
Pleno). Por isso, o profissional deve se preparar, investir na sua formação e estar 
atento às oportunidades.
Cientista de dados
Quando se fala de geração de dados em larga escala, Big Data, Data Mining, 
este será o profissional responsável por extrair conhecimento desses dados. É o 
profissional que alia conhecimentos de software, a gestão comercial, estatística e 
matemática para encontrar soluções para entender o que interessa e pode ser útil 
para os negócios dentro do imenso volume de informações que circula na internet. 
Este tipo de profissional está apto a atuar em empresas de vários setores, onde 
muitas vezes um outro pré-requisito pode ser o domínio sobre o segmento de 
atuação da empresa. No setor de ciência de dados os salários estão entre R$ 9 
mil e R$ 15 mil, além de ter uma grande procura mundial por este profissional, a 
escassez leva a grandes empresas investirem até mesmo na criação de robôs 
para codificarem. 
FONTE: <https://www.tecmundo.com.br/internet/123114-ia-google-cria-codi-
go-melhor-desenvolvido-criadores.htm>. Acesso em: 1 nov. 2018.
Administrador de banco de dados
Tendo como nome mais famoso DBA (Database Administrator), o 
administrador de banco de dados é o profissional responsável por cuidar de 
todos os fatores que envolvem os bancos de dados de uma organização, desde 
a tecnologia que está sendo implementada, até mesmo, em alguns casos, saber 
https://www.tecmundo.com.br/internet/123114-ia-google-cria-codigo-melhor-desenvolvido-criadores.htm
https://www.tecmundo.com.br/internet/123114-ia-google-cria-codigo-melhor-desenvolvido-criadores.htm
26
 Análise de Dados usando Dashboards
se o ar-condicionado está funcionando bem e que o servidor não irá desligá-lo por 
conta disso. O salário de DBA varia entre R$4,7 mil até R$15 mil, destacando-se 
para a profissão um aumento de 88% quando se trata da carreira de DBA júnior.
Analista de business intelligence 
É o profissional responsável por controlar e analisar as iniciativas do cliente 
no ambiente digital, bem como seus indicadores e metas. É o responsável por 
realizar análises micro e macroscópicas do mercado a fim de otimizar a gestão 
dos negócios. A partir da análise de dados, o profissional de BI define novos 
padrões e melhores práticas de desenvolvimento, além de identificar bases de 
dados que serão fontes de informação para o crescimento da empresa.
Um profissional especializado em business intelligence é um dos mais 
procurados pelos mais diversos setores da indústria, desde bancos até mesmo 
companhias biomédicas. O salário de um profissional deste setor varia em torno 
de R$ 5 mil até R$20 mil.
Diretor de transformação digital
É o profissional que lidera as iniciativas relacionadas à atualização das 
empresas no mundo digital. Trabalha com e-commerce, marketing digital e 
Tecnologia da Informação (TI), buscando conexões com consumidores que 
utilizam a internet e as redes sociais.
Este tipo de profissional atua principalmente em grandes empresas de varejo 
e bancos. Salários podem chegar até a R$ 65 mil para os mais bem qualificados.
 
Gerente de expansão em TI
É o perfil profissional que projeta o desenvolvimento de produtos e negócios 
(funções integradas e programa as abordagens com base em dados de 
mercado, tecnologia e infraestrutura), combinando engenharia, design, análise, 
gerenciamento de produtos, operações e marketing. O foco é sempre a área 
digital.
É um profissional requisitado por grandes organizações e startups. Salários 
podem ir de R$ 15 mil a R$ 25 mil.
Analista de mídias digitais
Como vimos até agora e continuaremos cada vez mais as redes sociais estão 
impactando na tomada de decisão das empresas. O profissional de mídias digitais 
27
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
Segurança da Informação: esta é uma área que foge do 
foco do nosso livro e do curso, mas note que até o momento 
foram abordadas as mais diversas profissões e as mais 
diversas fontes de dados. Assim, o profissional responsável 
por garantir a segurança no armazenamento e no acesso 
a dados o torna uma importante profissão na atualidade, 
bem como uma profissão em ascensão nos próximos anos. 
Este profissional consiste na proteção da informação de 
vários tipos de ameaças para garantir a continuidade do 
negócio, minimizar o risco ao negócio, maximizar o retorno 
sobre os investimentos e as oportunidades de negócio. Tem 
como perfil, o profissional que gerencia as oportunidades 
de aplicação de tecnologia e interage com outras áreas 
de maneira a assegurar a segurança das informações da 
empresa. O salário na área de segurança da informação 
varia de R$4 mil até R$20 mil.
FONTE: : <https://computerworld.com.br/2018/11/05/9-carreiras-de-
ti-em-alta-salario-chega-a-r-28-mil/> e <https://www.baguete.com.br/
noticias/26/09/2012/sp-salario-do-dba-jr-subiu-88>. Acesso em: 21 jan. 
2019.
tem como ferramenta de trabalho as redes sociais, como o Facebook, o Twitter, 
o Instagram, entre outras. Objetivo é conhecer o máximo possível dos usuários 
e criar perfis de consumidores para oferecer a eles o que buscam. Chances 
ampliadas para quem tem formação básica em marketing e comunicação social. 
Este tipo de profissional atua nas mais diversas organizações, onde os salários 
podem chegar a R$ 6 mil.
Excel – A eterna ferramenta de business intelligence
Esta poderia ser apenas uma menção honrosa a uma ferramenta que 
completa mais de 30 anos de existência, mas não! É real! O Microsoft Excel 
se torna quase imbatível quando o tema é geração de relatórios. Neste exato 
momento milhares de pessoas estão gerando relatórios no Excel enquanto outras 
milhares estão estudando como fazê-lo. O Visicalc, desenvolvido por Dan Bricklin, 
conhecido como o “pai das planilhas eletrônicas”, foi o precursor das planilhas 
eletrônicas e também pela utilização das planilhas dos computadores pessoais. 
Na época, os computadores, que existiam custavam cerca de R$15 mil reais, 
também não existia a internet (pelo menos não como a conhecemos hoje), com 
https://computerworld.com.br/2018/11/05/9-carreiras-de-ti-em-alta-salario-chega-a-r-28-mil/
https://computerworld.com.br/2018/11/05/9-carreiras-de-ti-em-alta-salario-chega-a-r-28-mil/
28
 Análise de Dados usando Dashboards
poucos softwares de gestão e assim, afinal, para que comprar um computador? 
Nesse sentido, as planilhas eletrônicas justificaram o investimento e o uso das 
planilhas eletrônicas nas organizações passaram a justificar o investimento, pois 
além de armazenarem os dados sobre a gestão das empresas, tornaram-se as 
primeiras ferramentas de inteligência de negócios e suporte à decisão.
No entanto o ano agora é 2018, passam mais de 30 anos desde a criação 
das planilhas e há uma imensidão de ferramentas computacionais para gestão 
de empresas e suporte à decisão. Por que então, o Excel ainda é tão utilizado? 
São diversos fatores que fazem a ferramenta obter tanto número de usuários. O 
principal, com certeza, é a sinergia do Pacote Office com o sistema operacional 
Windows, que apenas na versão 10 alcançou 270 milhões de usuários em todo 
mundo. 
Segundo Marques (2017), o Excel é a ferramenta que é imensamente 
utilizada pelas empresas para os mais diversos tipos de funcionalidades. 
Independentemente do porte ou segmento da organização, esta é uma ferramenta 
altamente difundida no ambiente empresarial, pois oferece infinitaspossibilidades 
para manter os processos automatizados e organizados. Os recursos do Excel 
permitem que o usuário faça cálculos complexos, principalmente aqueles que 
envolvem a área financeira de um negócio. Além disso, é possível criar uma 
planilha de gastos, uma planilha para controlar o fluxo de caixa, calcular preços 
dos produtos e serviços oferecidos pela empresa, registrar os pagamentos, toda a 
parte contábil da organização, entre outras funcionalidades.
Outro fator muito impactante no uso da ferramenta é o fato das empresas 
comumente utilizarem softwares ERP para realizar a gestão de todos os 
processos organizacionais, como, por exemplo, o SAP. Este tipo de software é 
informalmente chamado de “engessado”, pois ao invés de se adaptar às rotinas 
da empresa é a empresa que se adapta ao funcionamento do software. O fato 
é que muitas vezes as empresas precisam gerar relatórios específicos que 
atendam às suas necessidades particulares e estes relatórios não são fornecidos 
pelo software ERP, a empresa pode até fazer uma requisição e solicitar que 
seja implementado, mas isso envolve tempo e alto custo. Em contrapartida, os 
ERPs fornecem diversos relatórios sobre os módulos (financeiro, comercial, 
gestão, estoque, entre outros) e estes mesmos relatórios podem ser importados 
no formato de planilhas eletrônicas. Uma vez tendo acesso aos dados através 
de planilhas, estes são integrados, também em planilhas. Cabe à empresa gerar 
seus próprios relatórios, importando várias planilhas e consolidando e explorando 
utilizando os mais diversos recursos. A figura a seguir mostra uma visão geral dos 
gráficos gerados pelo Excel, pode-se notar que há uma diversidade de gráficos: 
pizza, barra, geográfico, pivot table, entre muitos. 
29
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
Neste momento, você deve se perguntar: Eu já conheço tudo 
sobre Excel! Por que então tanta tecnologia se o Excel resolve todos 
os meus problemas? O Excel é de fato um canivete suíço dos dados, 
mas utilizá-lo, com certeza, não é o melhor caminho para a análise 
dos dados. O próprio exemplo da importação de diversas planilhas 
de um ERP já nos demonstra que deve haver um grande esforço 
humano para realizar um relatório de integração. Com o Excel o 
esforço é dobrado, afinal não há mecanismos computacionais para 
a integridade dos dados armazenados, ou seja, isto tem que ser feito 
manualmente, levando em conta principalmente quando se trata de 
diversas fontes. 
Neste livro aprenderemos como fazer a integração de diversas 
fontes de dados, utilizando os métodos e ferramentas corretas, que 
uma vez integradas ampliam o poder de tomada de decisão. E, 
falando nelas na próxima seção, você verá todo o poder que estas 
ferramentas possuem no apoio à tomada de decisão.
FIGURA 9 – GERAÇÃO DE RELATÓRIOS COM O EXCEL
FONTE: O autor (2018)
30
 Análise de Dados usando Dashboards
HAN, Jiawei; PEI, Jian; KAMBER, Micheline. Data mining: 
concepts and techniques. Elsevier, 2011.
3 Aplicações De Dashboards E 
Business Intelligence
 Até o momento, você já aprendeu o que é SGBD, Data Warehouse, 
Big Data, Data Mining, mas afinal em meio a tanta tecnologia, o que é business 
intelligence? A grande questão que vimos até agora é que os dados estão 
mudando a maneira que nos relacionamos com a tecnologia e principalmente, 
entre nós mesmos. Sobre tudo que falamos até o momento, imagine o volume dos 
dados gerados revertidos em prol das organizações, que um gestor consiga ter 
na palma de sua mão os dados de todos os sistemas da empresa (ERP, Vendas, 
Mobile) integrados aos dados de suas redes sociais, permitindo a tomada de 
decisões sobre as mais diversas perspectivas, de forma simples, esse poder dos 
dados é business intelligence.
 O conceito de business intelligence já estava presente nas organizações 
e começou a ser conhecido na década de 1980, a partir de publicações realizadas 
pelo Gartner Group, uma importante empresa americana que desenvolve 
tecnologias e pesquisas relacionadas à tecnologia e inovação. Em sua tradução 
literal, business intelligence tem como significado “inteligência de negócios”, é uma 
tecnologia que permite a transformação de dados em informações quantitativas 
e importantes para a tomada de decisão da empresa. Segundo Tyson (1986), 
é um processo que envolve a coleta, análise e validação de informações 
sobre concorrentes, clientes, fornecedores, candidatos potenciais à aquisição, 
candidatos à joint-venture e alianças estratégicas. Incluem também eventos 
econômicos, reguladores e políticos, que tenham impacto sobre os negócios 
da empresa. O processo de business intelligence analisa e valida todas essas 
informações e as transforma em conhecimento estratégico.
Para Olszak e Ziemba (2007), em uma organização, em nível estratégico, 
os sistemas de business intelligence tornam possível a definição de metas e 
objetivos, assim como o seu respetivo acompanhamento, permitindo a realização 
de diferentes relatórios. Em nível tático permitem otimizar ações futuras e 
modificar aspectos organizacionais, financeiros ou tecnológicos do desempenho 
da organização, a fim de ajudar a alcançar os seus objetivos estratégicos 
de uma forma mais eficaz. Por último, em nível operacional, os sistemas de 
31
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
business intelligence são utilizados para executar análises ad-hoc e responder 
a questões relacionadas com operações das atividades da organização. Será 
difícil encontrar uma organização bem-sucedida que não tenha aproveitado 
os sistemas de business intelligence para o seu negócio. Como tal, tem se 
assistido a uma crescente procura de sistemas de business intelligence em 
diversas áreas, como o transporte, os serviços bancários, a saúde, a indústria de 
distribuição e fabricação, o retalho, as telecomunicações, entre outros. Contudo, 
as necessidades das organizações variam conforme a natureza do seu negócio e, 
assim, as necessidades dos sistemas de business intelligence variam conforme 
os requisitos.
Neste momento, você deve pensar que o conceito de business intelligence 
se aplica apenas a grandes organizações, com milhares de funcionários e que só 
haverá este cenário quando se interligam todos os dados. Na verdade, mesmo 
que seja um conceito amplo e pode ser aplicado nos mais diversos segmentos 
e nos próprios setores de uma empresa, como venda, marketing, faturamento, 
entre outros. 
Da maneira que falamos até agora faz com que você pense que business 
intelligence trata apenas do fluxo organizacional dos dados, porém não é apenas 
um conceito relacionado à administração de empresas, mas sim a um conjunto 
de técnicas e processos, alinhados com tecnologia que transformam uma grande 
quantidade de dados brutos em informação e conhecimento que podem auxiliar 
no suporte à tomada de decisão. 
O processo de geração de conhecimento através de business intelligence é 
realizado pelo emprego de tudo que foi visto até agora, desde a coleta dos dados 
até a extração de conhecimento deles. A figura a seguir mostra um pouco desse 
processo. A etapa inicial é sempre dada pela coleta dos dados. Geralmente, a 
principal fonte dos dados são os sistemas transacionais utilizados pela empresa 
(ERP, CRM, SAAS), mas pode haver outras fontes integradas. Posteriormente 
é realizada a etapa de Data Warehousing, em que os dados são integrados e 
limpos e armazenados em um banco de dados analítico (armazém de dados). 
Uma vez estes dados estando armazenados, haverá uma infinitude de maneiras 
de explorá-los, seja através de consultas OLAP, ou pela realização de processos 
de Data Mining. Não se assuste, nem tenha pressa, vamos aprender a construir 
nosso próprio Data Warehouse, no Capítulo 2 e como extrair conhecimento, no 
Capítulo 3.
32
 Análise de Dados usando Dashboards
FIGURA 10 – PROCESSO DE BUSINESS INTELLIGENCE 
FONTE: O autor (2018)
Entre as diversas maneiras deexplorar um Data Warehouse é por meio de 
Dashboards, afinal o objetivo deste livro é que você consiga gerar Dashboards 
interativos integrando as mais diversas aplicações. Você já sabe que as pessoas 
e organizações estão gerando uma gama de informações diariamente, trazendo 
diversos desafios de armazenamento e descoberta de conhecimento. Neste 
tópico iremos discutir os principais cases que envolvem a análise de dados. 
A fralda e cerveja
Toda vez que se fala de Data Mining, Big Data ou Business Intelligence é 
impossível deixar este case de lado, sendo este quase folclore na história dos 
dados. Esta história começa com combinações perfeitas em uma compra, como 
quem compra pão → compra manteiga ou quem compra café → compra leite. No 
entanto, ainda que os processos de extração de conhecimento permitam extrair 
tal informação vem a pergunta: Isso não é óbvio?
O fato é que uma das maiores redes de hipermercados norte-americana 
coletou os dados e armazenou no formato na forma de Basket. Ou seja, para cada 
venda são registrados quais produtos foram vendidos em um formato binário. O 
quadro a seguir mostra como esses dados são formatados. 
33
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
QUADRO 4 – MODELO DE ARMAZENAMENTO “BASKET”
Código da 
Compra
MAÇÃ SORVETE CARNE BOLACHA
C001 1 1 1 1
2 1 0 0 1
3 0 1 1 0
4 1 1 1 1
5 1 0 0 1
6 0 1 1 0
FONTE: O autor (2018)
Nos anos 1990, a então rede de hipermercados, a partir da análise de um 
grande volume de informações, foi possível gerar uma associação entre dois 
produtos: fralda e cerveja. 
FIGURA 11 – O CASO DA FRALDA E DA CERVEJA
FONTE: <https://www.slideshare.net/mrm0/beer-diapers-and-
correlation-a-tale-of-ambiguity>. Acesso em: 10 dez. 2018.
Obter tal informação foi de extremo valor para a tomada de decisão, afinal 
permite além de maior divulgação dos produtos, uma realocação dos produtos 
próximos no mercado. Quando se vai além dos produtos vendidos e se cria um 
Dashboard com a integração desses dados com o aspecto temporal (dia da 
semana, hora, mês etc.) e com perfil de clientes (idade, sexo etc.), a análise 
https://www.slideshare.net/mrm0/beer-diapers-and-correlation-a-tale-of-ambiguity
https://www.slideshare.net/mrm0/beer-diapers-and-correlation-a-tale-of-ambiguity
34
 Análise de Dados usando Dashboards
chegou à conclusão que homens adultos (pais) que compram fraldas (para seus 
filhos) às sextas-feiras, também compram cervejas. 
Este além de ser um dos principais cases da área de análise de dados, serve 
como motivação para que você possa enxergar o mundo com novos olhos. Afinal, 
você já parou para se perguntar:
● Como as livrarias recomendam livros?
● Como as músicas são recomendadas no Youtube?
● Como o Google sabe a próxima palavra que eu ia digitar?
● Como eu consigo fazer isso no meu sistema?
Como funcionam as regras de associação na prática?
A descoberta de regras de associação em bancos de dados relacionais ou 
data warehouses é uma das tarefas de mineração de dados (data mining) que 
possui o maior número de aplicações práticas. Este artigo inicia uma série de 
trabalhos que terão o objetivo principal de demonstrar como esta nova tecnologia 
pode ser aplicada em diferentes áreas de conhecimento.
A área de Ciência da Computação que tem por objetivo oferecer estratégias 
automatizadas para a análise de grandes bases de dados de empresas, 
procurando extrair das mesmas informações que estejam implícitas, que sejam 
previamente desconhecidas e potencialmente úteis. A Mineração de Dados surgiu 
no início dos anos 1990, a partir da reunião de ideias provenientesde diferentes 
áreas como inteligência artificial, banco de dados, estatística, e visualização de 
dados. A principal motivação para o surgimento da mineração de dados encontra-
se no fato de as organizações estarem armazenando de forma contínua uma 
enorme quantidade de dados a respeito de seus negócios nas últimas décadas. 
O conhecimento obtido pelas técnicas de mineração de dados é geralmente 
expresso na forma de regras e padrões.
Devido a sua grande aplicabilidade, as regras de associação encontram-se 
entre um dos mais importantes tipos de conhecimento, que podem ser minerados 
em bases de dados. Estas regras representam padrões de relacionamento 
entre itens de uma base de dados. Uma de suas típicas aplicações é a análise 
de transações de compras: market basket analysis, um processo que examina 
padrões de compras de consumidores para determinar produtos que costumam 
ser adquiridos em conjunto. Um exemplo de regra de associação, obtida a partir 
da análise de uma base de dados real, que registra os produtos adquiridos por 
famílias cariocas em suas compras mensais, é dado por: {minipizza semipronta} 
Þ {suco de fruta em pó}. Esta regra de associação indica que as famílias que 
compram o produto {minipizza semipronta} tem maior chance de também adquirir 
35
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
o produto {suco de fruta em pó}.
Introdução às regras de associação
O problema da mineração de regras de associação foi primeiramente 
apresentado no ano de 1993. Nesta época, as regras eram mineradas a partir de 
bases de dados de transações (ou bases transacionais). As definições formais 
de regra de associação e base de dados transacional são apresentadas a seguir.
Seja I = {I1,I2,...In} um conjunto de itens. Seja D uma base de dados de 
transações, em que cada transação T é formada por um conjunto de itens onde T Í 
I. Cada transação possui um identificador chamado TID. Uma regra de associação 
é uma implicação da forma A Þ B, onde
A e B podem ser conjuntos compostos por um ou mais itens, A Ì 
I, B Ì I, e A C B = Æ. A é chamado de antecedente da regra e B é chamado de 
consequente.
Dada uma regra A Þ B, a sua medida de suporte (Sup) representa a 
porcentagem de transações da base de dados que contêm os itens de A e B, 
indicando a relevância dela. Já a sua medida de confiança (Conf) representa, 
dentre as transações que possuem os itens de A, a porcentagem de transações 
que possuem também os itens de B, indicando a validade da regra. O problema 
da mineração de regras de associação, conforme definido originalmente em 1993, 
consiste em encontrar todas as regras de associação que possuam suporte e 
confiança maiores ou iguais, respectivamente, a um suporte mínimo (SupMin) e 
uma confiança mínima (ConfMin), especificados pelo usuário.
Para explicar o funcionamento deste processo, será apresentado um exemplo 
baseado numa pequena base de dados que armazena as compras efetuadas por 
clientes de um supermercado hipotético (listagem a seguir).
TID Produtos comprados
------------------------------------------------------
1 biscoito, cerveja, chá, salaminho
2 cerveja, couve, linguiça, pão, queijo
3 café, brócolis, couve, pão
4 brócolis, café, cerveja, couve, pão, salaminho
5 brócolis, café, couve, pão, refrigerante
6 couve, linguiça
Observe que cada registro da base de dados armazena a relação de 
produtos adquiridos por um cliente específico. Um exemplo de regra de 
36
 Análise de Dados usando Dashboards
associação que poderia ser minerada nesta base de dados, através da utilização 
de uma ferramenta de data mining, é dado por: {cerveja} Þ {salaminho}. Note que 
duas das seis transações que compõem a base contêm os produtos {cerveja} 
e {salaminho}. Desta maneira, o suporte da regra {cerveja} Þ {salaminho} pode 
ser calculado da seguinte forma: 2 ¸ 6 = 33,33%. Observe agora que na base de 
dados, existem duas transações que contêm os produtos {cerveja} e {salaminho} 
juntos e três transações que contêm o produto {cerveja}. A confiança da regra 
{cerveja} Þ {salaminho} pode então ser calculada da seguinte maneira: 2 ¸ 3 = 
66,67%. Este valor indica que 66,67% dos consumidores que compraram {cerveja} 
também compraram {salaminho}.
Outro índice estatístico comumente utilizado para definir o grau de 
interesse de uma regrade associação é denominado lift. O lift de uma regra de 
associação A Þ B indica quanto mais frequente se torna B, quando A ocorre. 
Esta medida é computada por: Lift(A Þ B) = Conf(A Þ B) ÷ Sup(B). O lift da regra 
hipotética {cerveja} Þ {salaminho} é dado por: Conf({cerveja} Þ {salaminho}) ÷ 
Sup({salaminho}) = 66.67% ÷ 33.33% = 2. O resultado deste cálculo indica que 
os clientes que compram {cerveja} têm uma chance duas vezes maior de comprar 
{salaminho}.
Os primeiros softwares para mineração de regras de associação começaram 
a ser desenvolvidos em meados da década de 1990, ainda em ambiente 
acadêmico. Hoje em dia já existem algumas dezenas de ferramentas comerciais 
capazes de minerar este tipo de padrão, desenvolvidas por grandes empresas. 
As ferramentas para mineração de regras de associação funcionam, tipicamente, 
da seguinte maneira: o usuário especifica a base de dados que deseja minerar 
e estabelece valores mínimos para as medidas de interesse como o suporte, a 
confiança e o lift (muitas ferramentas utilizam ainda outras medidas de interesse 
para avaliar as regras de associação). Em seguida, a ferramenta executa um 
algoritmo que analisa a base de dados e gera como saída um conjunto de regras 
de associação com valores de suporte e confiança superiores aos valores mínimos 
especificados pelo usuário. Note que este processo é diferente do utilizado pelas 
aplicações OLAP e pelos métodos estatísticos tradicionais, em que o especialista 
testa a sua hipótese contra a base de dados. No caso da mineração de dados, as 
hipóteses e os padrões são automaticamente extraídos da base de dados pelas 
ferramentas.
FONTE: <https://www.devmedia.com.br/data-mining-de-regras-
de-associacao-parte-1/6533>. Acesso em: 19 out. 2018.
37
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
O presidente e os dados
Você, com certeza, sabe que Barack Obama venceu a eleição no ano de 
2008 e também repetiu o feito no ano de 2012, pode até saber que o Hit “Yes, 
We Can” bateu recorde de acessos no Youtube, o que você talvez não saiba é 
que houve muita coleta, pré-processamento e, principalmente, muita análise de 
dados por trás dessa trajetória. Grandes volumes de dados foram coletados e 
processados para futuramente serem analisados nas campanhas.
 
Nas eleições presidenciais de 2008, a equipe de Barack Obama atribuiu a 
cada eleitor norte-americano pontos baseados na probabilidade de aquela pessoa 
realizar duas ações distintas e essenciais para a sua campanha: preencher uma 
cédula de votação e, mais importante, esta cédula ser um voto para o democrata. 
Estes pontos eram derivados de um volume de dados sem precedentes, gerado 
por um contínuo trabalho de pesquisa. Para cada debate semanal por estado 
norte-americano, os call centers da campanha conduziam de 5 mil a 10 mil 
entrevistas curtas que rapidamente verificavam as preferências do eleitor, além 
de mil entrevistas em versão longa. Ao realizar análises em cima de tais dados, 
obteve-se mais de 100 variáveis que permitiram à equipe de governo pautar os 
rumos da campanha e deu um ótimo resultado na campanha de 2012. 
Já para as eleições de 2012, a quantidade de pessoas destinadas para 
realizar análises foi cinco vezes maior e se multiplicou por cinco em relação ao 
ano anterior. Esta equipe realizou medições a partir de uma megabase (uma 
base de dados de grandes dimensões), podendo determinar, por exemplo, que 
um jantar com o presidente Obama e o ator George Clooney era o ideal para 
arrecadar fundos entre mulheres de 40 e 49 anos. Análises detalhadas deste 
estilo permitiram ao candidato alcançar cifras recordes de arrecadação. Além 
disso, o Big Data foi muito importante na hora de conhecer a intenção de votos 
real no estado onde o triunfo do Obama era mais incerto, entre eles, Ohio. E por 
fim, o resultado foi certo, Obama conseguiu se reeleger. 
Você deve se perguntar, em 2016: Por que não funcionou? 
Em um primeiro momento, temos que ter em mente que estamos em 
uma revolução tecnológica. Assim como Gordon G. Moore afirmou 
em 1965, na conhecida Lei De Moore “o número de transistores dos 
chips teria um aumento de 100%, pelo mesmo custo, a cada período 
de 18 meses”, o que queremos dizer é que a tecnologia muda, e 
o que é novidade hoje pode ser passado em questão de pouco 
38
 Análise de Dados usando Dashboards
tempo, e com relação aos processos de coleta e análise de dados 
não será diferente. Apenas para não deixar de lado a eleição do 
atual presidente americano Donald Trump em 2016 com a empresa 
Cambridge Analytica, que fez a análise de 198 milhões perfis de 
eleitores que utilizaram a estrutura da empresa Amazon. 
Dados o novo petróleo 
A análise de grandes quantidades de dados desestruturados é uma das 
quatro grandes tendências da tecnologia e, segundo Anjul Bhambhri, VP de 
projetos de Big Data da IBM, isto será tão importante para o mundo quanto o 
petróleo.
“Todo clique, tweet, site navegado está sendo analisado. E estes dados 
abrem oportunidades inimagináveis. Big Data é o novo óleo, o novo recurso 
natural”, afirmou. 
De acordo com a companhia, em 2020, o mundo terá cerca de 40 zetabytes 
(21 zeros) de dados para serem analisados contra 7 zetabytes atuais. Isto 
dará a chance para que as empresas consigam fazer análises semânticas de 
sentimentos, gostos e prever necessidades. 
Além do Big Data, outras três tecnologias foram apontadas como essenciais 
para os próximos anos: computação na nuvem, mobilidade e social. Para 
o vice-presidente do centro de desenvolvimento da IBM, Stephen Farley, a 
competitividade está focada em “analisar o consumidor (Big Data), armazenar 
os dados dos clientes de forma simples e barata (cloud computing), com acesso 
às informações na ponta dos dedos (mobilidade) e comunicando as descobertas 
(social)”.
“O mundo está se tornando programável e o desenvolvimento de softwares 
baseados nestas tendências dominará as empresas. Estas novidades estão 
redesenhando a economia mundial”, afirmou. “Todas as companhias terão de 
adotar estas tecnologias se quiserem oferecer diferenciais”, completou.
FONTE: <https://olhardigital.com.br/noticia/big-data-e-o-novo-petroleo,-
afirma-executiva-da-ibm/34986>. Acesso em: 21 jan. 2019.
39
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
Elementar, meu caro Watson!
Quando se fala em coleta, pré-processamento e análise de dados, surgem 
novas plataformas de armazenamento na nuvem. Grandes empresas da tecnologia 
têm investido nesse segmento como uma forma de oferecer processamento pago 
por hora, são exemplos o Azure (Microsoft), Google Cloud, Amazon AWS e o IBM 
Watson. Este último tem se destacado em pesquisas acadêmicas, inclusive em 
um case recente e nacional. 
Nos últimos anos, o Brasil foi marcado por dezenas de escândalos de 
corrupção, bem como uma série de notícias sobre o combate a ela. Criado 
em 2007 pelo Ministério da Justiça do Brasil, por meio do Departamento de 
Recuperação de Ativos e Cooperação Jurídica Internacional da Secretaria 
Nacional de Justiça, o Laboratório de Tecnologia contra Lavagem de Dinheiro 
(LAB-LD) apoia investigações complexas sobre corrupção e lavagem de dinheiro.
 
Utilizando o IBM Watson, investigações financeiras – que dependem de 
dados como movimentações e extratos de contas bancárias, troca de e-mails, 
registros telefônicos e de empresas, além de informações vindas de redes sociais 
– podem ser realizadas com muito mais facilidade. Neste caso, foi possível utilizar 
a ferramenta para consolidar diversas fontes de dados e em cima destes dados 
realizar buscas semânticas e por palavras-chave. Este sistema inteligente explora 
o conceito de metadados sobre apelidos de suspeitos, parceiros e cúmplices, bem 
como gírias de atividades criminosas, um exemplo disso é ao registrar o termo 
‘farinha’ retornar informações sobre cocaína.
No passado, as investigações exigiam analistas altamente qualificados que 
gastavam milhares de horasdebruçados em planilhas, e-mails e publicações em 
redes sociais. Hoje, os investigadores gastam menos tempo na identificação de 
dados relevantes e se empenham mais nas análises (BARBOSA, 2016). Com a 
ajuda das soluções da IBM, a REDE-LAB alcançou o objetivo de automatizar os 
processos de mineração de dados complexos — permitindo que os investigadores 
acelerassem seu trabalho de forma significativa. Segundo o coordenador do 
projeto, Roberto Zaina, da IBM (2014, p. 2 ), “Estimamos que o IBM Watson 
Explorer nos permitirá acelerar exponencialmente nossas investigações. A 
identificação de ativos ilícitos nos obriga a avançar mais rapidamente do que os 
criminosos, e as nossas soluções da IBM estão nos ajudando a fazer exatamente 
isso”.
40
 Análise de Dados usando Dashboards
Considerações Finais
Prezado aluno! 
Chegamos ao fim do Capítulo 1, esperamos que tenha sido proveitoso para 
você. Durante este capítulo você pôde aprender sobre o volume de dados gerados 
no mundo, espero que tenha aproveitado esse momento para refletir sobre esse 
tipo de aplicação no seu cotidiano e tenha tido boas ideias de aplicações. 
Durante o transcorrer do livro, discutimos tópicos atuais sobre análise de 
dados, pois serão importantes para a compreensão e discussão dos métodos 
utilizados. Nós também conhecemos os principais nomes da história dos dados 
e suas contribuições tecnológicas, mas não iremos parar por aqui, tudo que você 
viu será colocado em prática no Capítulo 2. 
Referências
ANGELONI, M. T. Elementos intervenientes na tomada de decisão. Ci. Inf, v. 
32, n. 1, p. 17-22, 2003.
BARBOSA, R. A. Tecnologia da informação na análise de crimes de lavagem 
de dinheiro. 2016.
DAVENPORT, T. H. Ecologia da informação: por que só a tecnologia não basta 
para o sucesso na era da informação. Futura, 2000.
DUMBILL, Edd. What is big data? An introduction to the big data landscape. 
oreilly.com, http://radar.oreilly.com/2012/01/what-is-big-data.html, 2012.
EFRAIM, T. et al. Decision support systems and intelligent systems. Upper 
Saddle River, NK: Prentice Hall, 2001.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data 
mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996.
HAN, J.; PEI, J.; KAMBER, M. Data mining: concepts and techniques. Elsevier, 
2011.
IBM. Ministério da Justiça identifica ativos ilícitos com ajuda do IBM 
Watson Explorer. Disponível em <ftp://ftp.software.ibm.com/la/documents/gb/br/
Mnisterio_da_Justica_-_Big_Data.pdf>. Acesso em: 15 nov. 2011.
http://ftp.software.ibm.com/la/documents/gb/br/Mnisterio_da_Justica_-_Big_Data.pdf
http://ftp.software.ibm.com/la/documents/gb/br/Mnisterio_da_Justica_-_Big_Data.pdf
41
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 
INMON, W. H. Building the data warehouse. John Wiley & sons, 2005.
KIMBALL, R.; ROSS, M. The data warehouse toolkit: the complete guide to 
dimensional modeling. John Wiley & Sons, 2011.
LACKMAN, C. L.; SABAN, K.; LANASA, J. M. Organizing the competitive 
intelligence function: a benchmarking study. Competitive Intelligence Review: 
Published in Cooperation with the Society of Competitive Intelligence 
Professionals, v. 11, n. 1, p. 17-27, 2000.
LIEBOWITZ, J. Strategic intelligence: business intelligence, competitive 
intelligence, and knowledge management. Auerbach Publications, 2006.
MARQUES, M. Por que o excel é tão utilizado nas empresas? 2017. Disponível 
em: <http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-
excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-
962528535.1541963168>. Acesso em: 15 out. 2018.
MELLO, R. dos S. et al. Dados semiestruturados. XV Simpósio Brasileiro de 
Banco de Dados, 2000.
OLSZAK, C.; ZIEMBA, E. Approach to building and implementing business 
intelligence systems. Interdisciplinary Journal of Information, Knowledge, and 
Management 2, 2007: 135-148.
PETERSON, E. T. Web analytics demystified. [S. l.]: Celilo Group Media and 
CafePress, 2004. p. 268.
SETZER, V. W. Dado, informação, conhecimento e competência. 
DataGramaZero Revista de Ciência da Informação, n. 0, p. 28, 1999.
TURBAN, E. et al. Business Intelligence: um enfoque gerencial para a 
inteligência do negócio. Bookman, 2009.
TYSON, K. W. M. Business intelligence-putting it all together. Leading Edge 
Pub, 1986.
http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168
http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168
http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168
42
 Análise de Dados usando Dashboards
CAPÍTULO 2
Data Warehouse e Business 
Intelligence
A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes 
objetivos de aprendizagem:
• saber como funciona o do processo de análise de dados, modelagem 
multidimensional e os tipos de modelos; 
• conhecer o que é um Data Warehouse e seus elementos e o que é um cenário 
de Business Intelligence; 
• conhecer todas as etapas de construção, desde a etapa de coleta, 
transformação dos dados e alimentação de um Data Warehouse; 
• realizar a extração, transformação e carga e a modelagem multidimensional;
• armazenar dados em um Data Warehouse; 
• realizar consultas OLAP em cenários de business intelligence.
44
 Análise de Dados usando Dashboards
45
Data Warehouse e Business Intelligence Capítulo 2 
1 Introdução Ao Data Warehouse E 
Business Intelligence 
Finalizamos o capítulo anterior falando sobre Business Intelligence (BI), seu 
poder e possibilidades na geração de conhecimento. Business intelligence, muitas 
vezes, é difícil de ser compreendido, pois não se trata de uma única ferramenta, 
mas de diversas técnicas de extração e manipulação. Na definição que surgiu 
em 1989, por Howard Dresner, business intelligence é uma metodologia pela 
qual se estabelecem ferramentas para obter, organizar, analisar e prover acesso 
às informações necessárias aos tomadores de decisão das empresas para 
analisarem os fenômenos acerca de seus negócios, ou seja, business intelligence 
não é uma ferramenta, mas uma metodologia, que pode empregar uma ou 
diversas ferramentas de acordo com o cenário de sua aplicação.
 
A escolha de uma estratégia, ou de um conjunto delas, depende muito do 
cenário em que será aplicado e caberá ao profissional responsável conhecimento 
sobre o cenário e sobre as estratégias. Infelizmente, nosso livro teria que ter mais 
de 10.000 páginas para poder explicar todos os cenários possíveis de aplicações 
de dados desde cenários de venda, compra, empréstimos, financiamentos, 
operadoras de crédito, bolsa de valores, redes sociais, enfim, uma infinitude 
deles. Porém, vamos aprender a partir de agora como coletar esses dados e quais 
são as ferramentas para processá-los e analisá-los, permitindo a construção de 
fantásticos dashboards analíticos. 
Vamos estudar o processo de Data Warehousing, no qual você 
compreenderá os principais métodos de coleta de dados, as principais 
estratégias de processamento, bem como o armazenamento e posterior análises 
multidimensionais. Uma vez realizado este processo, diversos processos de 
business intelligence podem ser integrados, como mineração de dados e geração 
de dashboards. 
O processo de geração do conhecimento geralmente inicia com os bancos 
de dados relacionais. Estes bancos de dados estão no mercado desde os anos 
1970 e têm sua eficiência inegável, principalmente, no que se refere à segurança 
e integridade dos dados armazenados. No entanto, a arquitetura desses bancos 
de dados foi projetada para a realização de transações bancárias, e mesmo que 
não seja um sistema bancário, diz-se que um sistema de gestão realizauma 
transação, que nada mais é do que um conjunto de funções, executadas num 
banco de dados, que o usuário percebe como uma única ação. Por exemplo, 
ao realizar uma venda, nem sempre se trata de inserir um registro na tabela 
de venda, por exemplo, insere os registros de produtos vendidos, dá baixa no 
estoque e insere o valor do saldo. Todas estas funções caracterizam-se como 
46
 Análise de Dados usando Dashboards
uma única transação. 
Os bancos de dados tradicionais que trabalham orientados a transações 
são chamados de OLTP (Online Transaction Processing – Processamento de 
Transações On-line), porém, conforme havíamos abordado anteriormente, o foco 
desta abordagem são as transações. Muitas vezes, os conceitos de Business 
Intelligence e Sistemas de Apoio à Decisão são confundidos com os próprios 
sistemas gerenciais, afinal ainda que utilizem uma arquitetura OLTP, tais sistemas 
permitem a extração de relatórios gerenciais: produtos mais vendidos, clientes 
que mais compram, saldo total. O que você precisa entender é que relatórios 
extraídos de sistemas de gestão não é business intelligence, relatórios são 
relatórios. Vamos explicar isso detalhadamente para ficar claro no decorrer deste 
capítulo. 
 Se você já teve a disciplina de banco de dados ou já estudou boas práticas, 
com certeza, aprendeu as formas normais e respectivamente que a normalização 
nos obriga a criar mais tabelas. Uma vez tendo criadas mais tabelas, isto ajuda a 
amplificar a garantia da integridade dos dados armazenados, no entanto há um 
problema: as consultas. 
Uma vez que ao normalizar um banco de dados se criam diversas tabelas, 
as consultas mais complexas necessitam de junções. Ou seja, conectar várias 
tabelas para responder a estas consultas. Em um banco de dados pequeno, o 
aumento do tempo de execução das consultas utilizando junções pode não ser 
notado, no entanto, sabendo que um cenário de business intelligence irá integrar 
diversos setores da empresa, com um volume significativo de dados, quanto mais 
tabelas existirem, maior será o tempo de execução.
A partir de agora você conhecerá um pouco mais sobre a construção de um 
projeto de business intelligence, que acontece durante a concepção de um Data 
Warehouse, visto na próxima seção.
Tendências para business intelligence em 2019 
Em nosso livro estamos discutindo as estratégias para construção de um 
business intelligence. No entanto, estamos vendo abordagens tradicionais, 
consolidadas pela academia e mercado. Também é importante levar em 
consideração o cenário de inovação tecnológica mundial e como essa inovação 
implica cenários de business intelligence. Para isto, nesse texto, trazemos duas 
abordagens, as principais estratégias (conceitos e metodologias) e as principais 
ferramentas.
47
Data Warehouse e Business Intelligence Capítulo 2 
Os últimos anos têm sido de inovações na área de análise de dados, além de 
aprimoramentos de produtos e serviços, levando as organizações a uma análise 
sobre como priorizar uma abordagem moderna de business intelligence que 
conduza a empresa a obter o máximo valor dos seus dados.
Pensando no quem vem pela frente, Adriano Chemin, vice-presidente da 
Tableau para América Latina, empresa de software para análise visual de dados, 
reuniu as principais tendências de business intelligence para os próximos anos, 
são elas:
Inteligência artificial explicável
Que a inteligência artificial (AI) veio para ficar é fato, graças ao aprendizado 
de máquina empresas conseguem criar clusters de comportamento, identificar 
tendências de mercado, avaliar riscos, tomar decisões rápidas e automatizar 
milhões de atividades que antes consumiam tempo e recursos. Não dá para 
negar que o AI abriu um mundo de possibilidades para o universo de BI, e que 
muitas das evoluções que estamos vendo (e que veremos nos próximos anos) 
foram conquistadas graças às possibilidades oferecidas pela tecnologia de AI. 
Por outro lado, quanto mais dependemos da AI, maior é nossa desconfiança 
quanto à credibilidade das recomendações baseadas em modelos, já que grande 
parte das ferramentas que utilizam aprendizado de máquina não fornecem uma 
forma transparente de ver os algoritmos ou a lógica por trás das decisões e 
das recomendações. É aí que vem o AI Explicável, a prática de compreender e 
apresentar exibições transparentes dos modelos de aprendizado de máquina. Se 
é possível questionar seres humanos, por que não ter a mesma opção com o 
aprendizado de máquina na tomada de decisões?
A AI Explicável permite que o corpo executivo, cientistas e analistas de dados 
entendam e questionem a forma como o aprendizado de máquina é aplicado 
no dia a dia de uma empresa, gerando mais transparência e confiabilidade nos 
resultados.
Linguagem natural transforma a dinâmica das organizações
O processamento de linguagem natural (NLP) está quebrando 
paradigmas em todos os campos da tecnologia e mudando a forma como 
as pessoas trabalham, ouvem música, solicitam informações sobre o 
tempo e, cada vez mais, obtém respostas sobre um painel de dados. 
A habilidade de obter respostas por meio de um comando de voz permite que 
pessoas com todos os níveis de conhecimento possam questionar seus dados, e 
ao perguntar, obter uma resposta concreta e veloz. Paralelamente, a linguagem 
natural está evoluindo para dar suporte à conversação analítica, ou seja, a conversa 
48
 Análise de Dados usando Dashboards
entre o ser humano e o sistema sobre seus dados. O sistema aproveita o contexto 
da conversa para entender a intenção por trás da consulta do usuário e promover 
o diálogo, criando uma experiência de conversação cada vez mais natural. 
À medida que a linguagem natural evolui com o setor de BI, ela abrirá portas 
para a adoção de análise e ajudará a transformar ambientes de trabalho em 
operações autônomas e impulsionadas por dados. O NPL eleva o patamar 
analítico das organizações como um todo, permitindo que um CEO atarefado, ou 
um analista de marketing sem tanta destreza com análises numéricas obtenham 
as respostas que necessitam para executar seu trabalho de forma precisa. 
 
 Análise acionável: mobilidade dos dados impulsiona ações
Velocidade é palavra-chave na vida de quem trabalha com análise de dados 
na atualidade, seja no acesso às informações ou no tempo de resposta para 
executar a ação necessária, tudo precisa estar alinhado em um único fluxo de 
trabalho e disponível no lugar e no dispositivo que o cientista/analista de dados 
desejar para que ele possa agir rápido.
Pensando nisso, fornecedores de plataformas de BI oferecem análise 
em dispositivos móveis, análise incorporada, extensões de painel e APIs que 
incorporam a análise ao local onde as pessoas executam seu trabalho evitando 
a troca de aplicativos (ou servidores) desnecessária e melhorando o fluxo de 
trabalho.
A mobilidade permite, por exemplo, que o CEO de uma empresa acompanhe 
a evolução de seus negócios de qualquer lugar do mundo, e acione sua equipe em 
tempo real. A incorporação da análise em fluxos de trabalho diversos, leva ao que 
chamamos de análise acionável, um avanço poderoso que promete atender às 
necessidades analíticas dos mais diversos departamentos, e empoderar funcionários 
de diferentes setores por meio de dados contextualizados e sob demanda. 
 
 Storytelling é a nova linguagem dos dados
Dados são a forma mais poderosa de comunicar uma descoberta, apresentar 
um insight ou expor seus resultados, e nada como o storytelling para gerar aquele 
impacto positivo. Storytelling analítico, ou contar uma história por meio de dados, 
é uma das tendências mais marcantes do mundo do BI, e uma forma muito mais 
atraente de expor todas as etapas das suas análises de forma acionável e fácil de 
entender.
À medida que as empresas criam uma cultura de análise, contar histórias 
com dados tem ganhado novos significados. Ao invés de apresentar uma 
conclusão única, o storytelling promove a criação de

Continue navegando