Prévia do material em texto
ANÁLISE DE DADOS
USANDO DASHBOARDS
Programa de Pós-Graduação EAD
UNIASSELVI-PÓS
Autor: Rodrigo Ramos Nogueira
CENTRO UNIVERSITÁRIO LEONARDO DA VINCI
Rodovia BR 470, Km 71, no 1.040, Bairro Benedito
Cx. P. 191 - 89.130-000 – INDAIAL/SC
Fone Fax: (47) 3281-9000/3281-9090
Reitor: Prof. Hermínio Kloch
Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol
Equipe Multidisciplinar da Pós-Graduação EAD:
Carlos Fabiano Fistarol
Ilana Gunilda Gerber Cavichioli
Jóice Gadotti Consatti
Norberto Siegel
Camila Roczanski
Julia dos Santos
Ariana Monique Dalri
Marcelo Bucci
Revisão Gramatical: Equipe Produção de Materiais
Diagramação e Capa:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Copyright © UNIASSELVI 2019
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
UNIASSELVI – Indaial.
Impresso por:
N778a
Nogueira, Rodrigo Ramos
Análise de dados usando dashboards. / Rodrigo Ramos Nogueira. –
Indaial: UNIASSELVI, 2019.
140 p.; il.
ISBN 978-85-7141-298-9
1.Análise de dados – Brasil. 2.Dashboards (Sistemas de informação
gerencial – Brasil. II. Centro Universitário Leonardo Da Vinci.
CDD 005.3
Sumário
APRESENTAÇÃO ..........................................................................05
CAPÍTULO 1
A Explosão dos Dados: Como Gerenciá-Los? .........................07
CAPÍTULO 2
Data Warehouse e Business Intelligence ................................43
CAPÍTULO 3
Criação de Dashboards na Prática ...........................................95
APRESENTAÇÃO
Prezado aluno!
Seja muito bem-vindo à leitura do livro Análise de Dados usando Dashboards.
Temos a certeza de que em algum momento da sua vida, carreira ou estudos,
você parou para pensar nos avanços tecnológicos e aonde iríamos parar com
esta evolução. E, de fato grande responsável pela evolução da tecnologia são os
volumes de dados gerados e cada vez mais estes dados são importantes para
tomada de decisão em grandes corporações.
Mas o que o volume de dados tem a ver com este livro? A partir de agora
você é um minerador e os dados serão a matéria-prima para o seu trabalho. Será
necessário um árduo trabalho de lapidação, mas no final nós garantimos que
você terá um brilhante diamante chamado CONHECIMENTO. E ao saber lidar
com o processo de extração de conhecimento pelos dados, eles lhe tornarão um
profissional disputado por empresas nacionais e internacionais.
Este livro abordará os principais conceitos sobre Business Intelligence, bem
como as principais técnicas que são utilizadas na prática durante a extração
de conhecimento através dos dados. E o mais importante: sempre com uma
abordagem atualizada! Desde tecnologias até com a visão do mercado de trabalho.
Nós estudaremos também as aplicações nas mais diversas perspectivas:
usuários, aplicações, organizações e gestores e deixando claro o papel de cada
elemento na construção de estratégias de coleta, pré-processamento e geração de
informação.
No Capítulo 1 vamos nos contextualizar, você vai aprender sobre o volume
de dados no mundo atual, sobre os tipos de dados e a diferença entre dados e
informação. Vai conhecer um pouco sobre a história da transformação dos dados na
tecnologia e os principais métodos de Business Intelligence.
O Capítulo 2 será responsável por nos trazer mais de conceitos práticos como
Data Warehouse, ETL, OLAP e diversos procedimentos para analisar dados, porém,
não vamos parar nos conceitos, vamos colocar a mão na massa.
Uma vez estes dados estando armazenados e limpos será só os consumir.
Assim, o Capítulo 3 será responsável por nos apresentar as principais ferramentas
de Dashboard do mercado e sua utilização para extração de índices e indicadores.
CAPÍTULO 1
A Explosão dos Dados: Como
Gerenciá-Los?
A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes
objetivos de aprendizagem:
• os principais cenários de dados no mundo atual;
• a importância de se obter um grande volume de dados para a geração de
conhecimento, os tipos e formatos de dados;
• conceituar conhecimento e saber os processos para extraí-los;
• conhecer técnicas e ferramentas para coleta e análise de dados.
8
Análise de Dados usando Dashboards
9
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
1 O Volume E Os Tipos Dos Dados
Já parou para pensar na quantidade de dados que você gera diariamente?
Isso mesmo, apenas você? Apenas um celular conectado com e-mail, aplicativo
de mensagens e mídias sociais é capaz de gerar uma grande quantidade de
dados, dos mais diversos tipos (textos, áudios, fotos, vídeos). Se esta reflexão
for elevada para todos os usuários, em que apenas no Brasil, segundo o IBGE,
116 milhões de pessoas têm conexão com a internet, imagine a quantidade de
informação gerada diariamente em todo mundo por diversas empresas. Isso em
números significam cerca de 2,5 quintilhões de bytes gerados, diariamente, em
todo o mundo.
Tradicionalmente, as bibliografias tratam do tema de análise de dados, na
mesma linha que este livro as aborda, principalmente, a dificuldade da integração
dos dados a partir de diversos sistemas de informação. No entanto, as principais
obras sobre o tema foram publicadas em 1992 e 1996. Neste contexto, muita
coisa vem se modificando e a principal mudança é o notório volume de dados
gerados pelo uso da internet no mundo.
O Internet Live Stats é uma equipe internacional de desenvolvedores,
pesquisadores e analistas que tem como objetivo coletar e disponibilizar
estatísticas sobre o volume de sites na Web, de maneira que estes conteúdos
sejam fornecidos em um formato dinâmico e relevante para um público amplo
em todo o mundo. Segundo estimativas deste órgão, até a confecção deste livro
existem 1.929.019.952 de sites na Web e um total de 4.068.405.997 usuários
espalhados por todo o mundo. Estes usuários geram uma grande informação
diariamente e tais dados são interessantes para as organizações, pois contêm os
mais diversos tipos de estruturas, simples ou complexas, que existem, atendendo
a diversas necessidades e possuindo diversos conteúdos e formatos.
A grande questão é que por um longo período as pessoas eram apenas
consumidoras de conteúdos, um público-alvo, números sem voz, porém, quando
se transformam em usuários da grande rede mundial, cada indivíduo ganha seu
poder e voz, ao invés de ser receptor de mensagens, as pessoas se tornam
produtoras de informações de valor, como decidir qual produto consumir, como
influenciam seus amigos nas redes sociais, quais termos de busca mais utilizam,
quais notícias e quais temas mais lhe interessam. Durante muitos anos as
grandes empresas investiram fortemente em pesquisas de opinião e entrevistas
de foco local, tendo como objetivo saber se o produto a ser lançado atingia o
público-alvo e como melhorá-lo em relação aos concorrentes. Agora as pessoas
estão inundando as mídias sociais com bilhões de dados, mais do que empresas
e marcas consigam administrar transformando a internet numa imensa plataforma
10
Análise de Dados usando Dashboards
de pesquisa quando o que vale não é o que se diz, mas o que de fato se faz.
Estão gerando um imenso manancial de dados e métricas, dados de mercado e
consumo. Como transformá-los em inteligência de negócio?
Um grande ponto de aumento dos dados é um ponto constante, não se muda
apenas o volume dos dados, mas também o limiar que mensura essa evolução.
O IDC (International Data Corporation) realizou um estudo intitulado “O universo
digital das oportunidades: riquezas de dados e valor crescente da internet das
coisas”, com pesquisa e análise da IDC, foi reportado que no ano de 2013
havia um conjunto composto por 4,4 trilhões de gigabytes (ou 4,4 zettabytes)
de informação. Utilizando diversos conjuntos de métricas e análises, o instituto
realizou uma previsão que o mundo saltará para 44 trilhões de gigabytes (44
zettabytes)em 2020 e que 10% desse volume de dados corresponderá à internet
das coisas.
O grande desafio é buscar alternativas para armazenar e processar estes
dados, gerando informação e conhecimento. O caso mais conhecido da análise
de dados e geração de conhecimento para a tomada de decisão é o caso da
fralda e da cerveja. Neste caso, os dados de vendas de produtos de uma grande
rede de mercados americana, após computar um grande volume de dados, foi
possível descobrir que sempre que havia uma compra de fralda às sextas-feiras,
havia uma grande probabilidade de também conter cerveja. Tal análise, permitiu
que a rede tomasse a decisão de realocar os produtos pelas lojas e aumentasse
suas vendas.
Os analistas de dados, muitas vezes, chamados de analistas de Business
Inteligence, que já tinham em mãos os desafios de centralizar diversas fontes de
informação ainda têm isso aumentado.
Em seu tradicional infográfico atualizado, a Go-Globe divulga “O mundo em
60 segundos”, que é mostrado na figura a seguir. Nela é possível ver o volume de
informações geradas a cada minuto em todo mundo nos principais veículos. Note
que apenas buscas no Google são 3.8 milhões, no Youtube são 400 horas de
vídeo enviados e cerca de 700 horas de vídeos assistidos, tudo isso desde que
você começou a leitura desta seção.
11
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
FIGURA 1 – O MUNDO EM 60 SEGUNDOS
FONTE: <http://www.go-globe.com/blog/things-that-happen-
every-60-seconds/>. Acesso em: 15 out. 2018.
Que o mundo vivencia uma explosão dos dados, isto é fato, o que nos gera
um grande desafio: armazenar e gerenciar tais dados. O grande fato, conforme
visto anteriormente, geramos os mais diversos tipos de dados, que nem sempre
possuem uma estrutura. Tornando necessário o conhecimento sobre o formato
desses dados para se obter a melhor maneira de processar e armazená-los.
Agora que você já está contextualizado com o cenário dos dados,
responda: Onde você gera dados no seu dia a dia?
ISOTANI, Seiji; BITTENCOURT, Ig Ibert. Dados abertos
conectados: em busca da Web do conhecimento. Novatec Editora,
2015.
http://www.go-globe.com/blog/things-that-happen-every-60-seconds/
http://www.go-globe.com/blog/things-that-happen-every-60-seconds/
12
Análise de Dados usando Dashboards
Há diversos elementos envolvidos na geração de dados, desde computadores
pessoais executando sistemas de informação, celulares com aplicativos, até
mesmo os mais diversos tipos de sensores e ferramentas de captura (foto
e vídeo). O fato é que há uma grande diversidade de dados, armazenando as
mais diversas informações, desde a maneira como são coletados, até a maneira
com que são armazenados. Neste segundo ponto, conforme mostra a figura a
seguir, os dados estão distribuídos pelo mundo de acordo com o seu formato e
estrutura de armazenamento, que, no geral são classificados como estruturados,
semiestruturados e não estruturados.
FIGURA 2 – DISTRIBUIÇÃO DOS DADOS
FONTE: O autor (2018)
Conforme mostra a figura anterior, apenas 20% dos dados são armazenados
de maneira estruturada. Os dados estruturados são aqueles que estão
armazenados em uma estrutura previamente definida, tradicionalmente os
softwares tradicionais os utilizam na forma de SGBDR (Sistemas Gerenciadores
de Bancos de Dados Relacionais) ou BDR (Bancos de Dados Relacionais).
A principal característica dos SGBDRs é que foram construídos para garantir
a integridade dos dados armazenados, toda sua estrutura é feita com base em
tabelas construídas com base em relacionamentos. Com relação ao motivo desta
forma de armazenamento ser chamada de estruturada, isto se dá, principalmente,
pelo fato de que a estrutura dos dados deve ser definida previamente ao
armazenamento dos dados. Ou seja, primeiro é realizada a definição do campo,
depois sua inserção.
13
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
Os bancos de dados relacionais estão consolidados no mercado há mais de
50 anos, no entanto, 80% dos dados distribuídos pela Web assumem outros dois
formatos: semiestruturados e não estruturados.
Os dados semiestruturados são aqueles que têm uma estrutura, ou seja, se
consegue reconhecer um significado, no entanto, ao contrário dos estruturados,
esta estrutura não é definida previamente. Tal estrutura é incremental e vai se
alterando no passar do tempo. São exemplos de dados semiestruturados:
planilhas Excel, arquivos CSV, documentos XML, documentos JSON. Dados
semiestruturados apresentam uma representação estrutural heterogênea, não
sendo nem completamente não estruturados nem estritamente tipados. Dados
Web se enquadram nessa definição: em alguns casos os dados possuem uma
descrição uniforme (um catálogo de produtos), em outros, algum padrão estrutural
pode ser identificado (um conjunto de documentos no formato de artigo). Afirma-
se também que dados semiestruturados são dados nos quais o esquema de
representação está presente (de forma explícita ou implícita) juntamente com
o dado, ou seja, este é autodescritivo. Isto significa que uma análise do dado
deve ser feita para que a sua estrutura possa ser identificada e extraída (MELLO,
2000).
Por sua vez, os dados não estruturados, são os que mais populam a Web,
destes não é possível obter uma estrutura, e para extrair conhecimento sobre
tais dados é necessário realizar um pré-processamento. São exemplos de dados
não estruturados: textos, imagens, arquivos de som, vídeos e os mais diversos
arquivos multimídia.
Nas organizações isto não é diferente, empresas utilizam seus softwares
de gestão para gerenciar as mais diversas operações (vendas, marketing,
produto) o que por si só já se torna um desafio que é integrar os dados de
todos os setores, muitas vezes, centralizados em diversos SGBDs e softwares.
Complementarmente, cada vez mais empresas utilizam redes sociais para
divulgar seus produtos e iniciativas, tornando-se interessante extrair dados sobre
como os usuários destas redes estão reagindo a isso. Na produção da empresa,
com a ascensão do conceito de internet das coisas e do sensoriamento, os
dados podem ser coletados em tempo real e a maneira com que se trabalha com
indicadores de produção passa se tornar em tempo real.
14
Análise de Dados usando Dashboards
Uma vez compreendidos os mais diversos cenários de dados,
conceitue a diferença entre dados estruturados, semiestruturados
e não estruturados.
FIGURA 3 – EMPRESA CONECTADA E DADOS INTEGRADOS
FONTE: <https://www.i-scoop.eu/manufacturing-industry/>. Acesso em: 25 out. 2018.
E ainda não para por aqui, afinal até o momento, estes dados tratam apenas
da própria corporação, quando empregado o conceito de inteligência competitiva,
que é uma estratégia de se obter informações relevantes sobre o comportamento
da concorrência, o volume de dados coletados é ainda maior. A competitividade,
a informatização e a necessidade de diferencial competitivo fizeram com que
as organizações percebessem a importância do conhecimento e de sua gestão
(LACKMAN; SABAN; LANASA, 2000).
Agora imagine todos estes dados consolidados, integrados e aptos a serem
explorados por diversas perspectivas, com isto em mãos, os gestores de uma
empresa podem tomar os mais diversos tipos de decisões gerenciais. Decisões
sobre venda, compra, realocação de produtos, alteração no fluxo gerencial e uma
infinitude delas.
Assim, obter-se métodos eficazes para coletar, pré-processar dados de
diversas fontes e armazená-los em uma única estrutura é de extrema importância
https://www.i-scoop.eu/manufacturing-industry/
15
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
para a organização. Uma vez estes dados coletados e armazenados podem gerar
informação e conhecimento que poderão ser utilizados como suporte à tomada de
decisão. Mas afinal, qual é a diferença entre dados, informação e conhecimento?
Conhecendo os tipos de dadosVocê viu até o momento que falamos sobre diversos tipos de dados, sua
estrutura e forma de armazenamento. Você conhece os tipos de dados que
citamos? Sabe o que eles têm em comum e diferente? Utilizando como exemplo
um cenário de dados onde se deseja armazenar dados sobre produto e estoque,
veremos alguns exemplos de tipos de dados.
RELACIONAL
Esta representação em forma de tabelas é um tipo de dado estruturado, no
qual você inicialmente precisa definir a estrutura e depois armazenar os dados.
Confira a seguir a representação gráfica dos quadros em um SGBDr e também o
código que representa sua criação em um banco de dados físico.
QUADRO 1 – MODELO RELACIONAL E COMANDO SQL RELATIVO
FONTE: O autor (2018)
16
Análise de Dados usando Dashboards
JSON
JSON, em seu significado teórico é "Javascript Object Notation", que nada
mais é que o formato mais leve conhecido de transferência/intercâmbio de dados.
Além de ser um formato de dados são utilizados por diversos bancos de dados
NoSQL. A mesma representação do modelo relacional é vista no quadro abaixo
utilizando JSON.
QUADRO 2 – EXEMPLO JSON
[
{
"id_produto":1,
"descricao":"Jaleco",
"preco":"3.50",
“estoque”:30
}
]
FONTE: O autor (2018)
CSV
O termo “CSV” tem como significado Comma Separated Values, ou seja, é
um arquivo separado por vírgula (ou ponto e vírgula). Assim como o JSON é um
formato de arquivo para realizar o intercâmbio de dados com um banco de dados
ou uma planilha entre aplicativos.
id_produto, descricao, preco, estoque
1,Jaleco, 3.50,30
2,Chapéu, 13.50,100
3,Calça , 33.50,130
17
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
XML
O XML é uma linguagem de marcação muito similar ao HTML, vem do
inglês eXtensible Markup Language, é recomendada pela W3C para a criação
de documentos com dados organizados hierarquicamente. Tradicionalmente, os
sistemas utilizam XML para realizar integração de dados, dentre muitos, o mais
famoso é o sistema da receita federal.
QUADRO 3 - EXEMPLO DE XML
<?xml version="1.0">
<produtos>
<produto id=1>
<descricao>Jaleco</descricao>
<preco>Jaleco</preco>
<quantidade>Jaleco</quantidade>
</produto>
<produtos>
FONTE: O autor (2018)
Dados, informação e conhecimento
De fato, os dados são de extrema importância para a tomada de decisão
estratégica. Mas afinal, apenas ter os dados já implica conhecimento e
informação. E estes termos são termos muito próximos o que faz com que em
muitos momentos sejam confundidos com apenas um. A figura a seguir ilustra o
que cada um representa.
18
Análise de Dados usando Dashboards
FIGURA 4 – DADOS, INFORMAÇÃO E CONHECIMENTO
FONTE: O autor (2018)
• Dados: são fatos e números que transmitem algo específico, mas que
não são organizados de maneira formal. Assim não têm contexto, de
modo geral, pode-se dizer que dados são a informação de uma maneira
bruta. Na definição de Setzer (1999), um dado é necessariamente uma
entidade matemática e, desta forma, é puramente sintático. Isto significa
que os dados podem ser totalmente descritos através de representações
formais, estruturais. São ainda quantificados ou quantificáveis, eles podem
obviamente ser armazenados em um computador e processados por
ele. Dentro de um computador, trechos de um texto podem ser ligados
virtualmente a outros trechos, por meio de contiguidade física ou por
"ponteiros", isto é, endereços da unidade de armazenamento sendo
utilizados, formando assim estruturas de dados. Ponteiros podem fazer a
ligação de um ponto de um texto a uma representação quantificada de uma
figura, de um som, entre outros.
• Informação: para que os dados se tornem informações, eles devem ser
contextualizados, categorizados, calculados e condensados, deste modo
a informação são os dados organizados. De um modo geral, pode-se
dizer que a informação é quando se traz um sentido ao dado. Na visão de
Angeloni (2003), as informações são apresentadas de acordo com dados,
trazendo a eles um significado. As informações então são dados dotados de
relevância e propósito. A informação nasce a partir resultado do encontro
de uma situação de decisão com um conjunto de dados, ou seja, são dados
contextualizados que visam a fornecer uma solução para determinada
situação de decisão. Uma informação pode ser considerada como dados
19
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
processados e contextualizados, no entanto, há autores que defendem que
a informação é considerada como desprovida de significado e de pouco
valor, sendo ela matéria-prima para se obter conhecimento.
• Conhecimento: acontece sobre os dados e as informações, é obter
discernimento, critério, apreciação prática de vida e experiência. O
conhecimento possuído por cada indivíduo é um produto de sua experiência
e engloba as normas pelas quais ele avalia novos insumos de seu entorno.
Para Davenport (2000), o conhecimento é a informação mais valiosa e,
consequentemente, mais difícil de gerenciar. É valiosa precisamente porque
alguém deu a informação a um contexto, um significado, uma interpretação;
alguém refletiu sobre o conhecimento, acrescentou a ele sua própria
sabedoria e considerou suas implicações mais amplas.
Qual é a diferença entre dado, informação e conhecimento?
2 A História E As Estratégias De
Análise De Dados
Apesar de vivermos na era da informação, a história dos dados como
ferramenta de suporte à tomada de decisões se deu no início na década de 1940,
na Universidade de Illinois, com o trabalho intitulado A Logical Calculus of the Ideas
Immanent in Nervous Activity (Um cálculo lógico das ideias imanentes na atividade
nervosa), desenvolvido por McCulloch e Walter Pitts. Na ocasião estabeleceram
uma analogia entre o processo de comunicação das células nervosas vivas e o
processo de comunicação por transmissão elétrica e propuseram a criação de
neurônios formais. Ao final da pesquisa, conseguiram demonstrar que era possível
conectar os neurônios formais e formar uma rede capaz de executar funções
complexas. As pesquisas sobre redes neurais evoluíram até 1960, com a Rede
Perceptron, criada por Frank Rosenblat, no entanto, baseado, principalmente,
pelos argumentos dados por Mavin Minsky em seu livro Perceptron, no qual de
maneira simples criticou por não haver poder computacional suficiente naquela
época.
Tratando-se de dados, em junho de 1970, o pesquisador Edgar Frank
Ted Codd IBM mudou a história dos bancos de dados apresentando o modelo
20
Análise de Dados usando Dashboards
relacional no artigo intitulado "A Relational Model of Data for Large Shared Data
Banks", em que discutiu uma proposta de armazenamento de dados, que seriam
armazenados em tabelas que devem estar relacionadas. A figura a seguir mostra
um exemplo de como esta estratégia funciona, e funciona tão bem que é utilizada
amplamente nos mais diversos sistemas comerciais, desde frente de caixa,
bancários, ERPs, entre outros.
FIGURA 5 – MODELO RELACIONAL
FONTE: <www.wikiwand.com/en/Relational_model>. Acesso em: 10 dez. 2018.
Na mesma década, Bill Inmon começou a discutir os principais fatores em
torno do Data Warehouse e o termo já começou a existir nos anos 1970. Inmon
trabalhou extensivamente na aprimoração de suas experiências em todas as
formas de modelagem de dados relacionais. O trabalho de Inmon, como pioneiro
do Data Warehousing, foi o livro intitulado “Building the Data Warehouse” um dos
principais livros sobre tecnologia e bibliografia obrigatória para todo profissional
de análise de dados. É impossível falar da história dos dados e não falar de Ralph
Kimball, que com sua publicação “The Data Warehouse Toolkit”, divide com Inmon
a paternidade dos conceitos sobre o que é um Data Warehouse, mais sobre as
arquiteturas e propostas das duas personalidades será discutidono Capítulo 2.
http://www.wikiwand.com/en/Relational_model
21
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
FIGURA 6 – RALPH KIMBALL E BILL INMON
FONTE: O autor (2018)
Em 1996, Usama Fayad publicou o artigo “From Data Mining to Knowledge
Discovery in Databases”, que aborda justamente como extrair conhecimento de
bases de dados, como a partir de um conjunto de dados enxergar além do que
as ferramentas tradicionais permitem visualizar. Este artigo é um dos principais
da literatura atual por além de fazer uma revisão sobre os principais métodos
de extração de conhecimento, ainda descreve as principais etapas de KDD
(Knowledge Discovery in Databases), que são mostradas pela figura a seguir e
serão discutidas em mais nível de detalhes no Capítulo 3.
FIGURA 7 – ETAPAS DE EXTRAÇÃO DO CONHECIMENTO
FONTE: Fayad (1996)
Com a arquitetura proposta por Fayad, com o banco de dados de Cood e
a proposta de um modelo multidimensional de Inmon, o mundo digital passou
por severas mudanças, principalmente com a Web 2.0 e a geração de dados em
grande escala. No entanto, tais tecnologias jamais deixaram de ser utilizadas e
mesmo as mais novas técnicas de análise de dados levam sua essência. Em
2018 são diversas novas terminologias e tendo como objetivo facilitar o seu
entendimento.
22
Análise de Dados usando Dashboards
Quem foram os principais nomes da história dos dados e quais as
contribuições deles?
Big Data
Big Data é um termo que tem como tradução literal mais próxima “grandes
quantidades de dados” e é também o termo instituído pela IBM para determinar
a grande quantidade de dados gerados pelos sistemas de informação. Hoje em
dia Big Data representa muito mais do que isso, representa uma verdadeira
transformação digital, em que quanto mais dados uma empresa puder coletar,
mais poder de tomada de decisão poderá obter.
Em sua principal definição, Big Data é conhecido como um cenário que
contém a soma de volume, velocidade e variedade, que, quando juntos, geram
um valor de informação com veracidade. O volume é o coração, afinal para se
obter um cenário de Big Data é necessário ter um grande volume de dados, a
velocidade se remete à informação chegar ao tempo mais rápido nas mãos do
tomador de decisão e a variedade está relacionada tanto aos dispositivos que
coletam dados (sistemas de informação, GPS, câmeras de vídeo, dispositivos IoT,
entre outros), quanto à estrutura de tais dados (estruturados, semiestruturados e
não estruturados).
Há uma grande dificuldade na definição de quão grande deve ser um con-
junto de dados para que seja considerado um volume de dados em Big Data. A pri-
meira coisa a ser levada em consideração é a própria integração de existir volume,
velocidade e variedade, bem como a definição dada por Edd Dumbill (DUMBILL,
2012), que afirma que Big Data são dados que excedem a capacidade de proces-
samento dos sistemas de banco de dados convencionais, em que o volume de
dados é muito elevado e necessitam de processamento rápido, o que não é provi-
do pelas arquiteturas de bancos de dados tradicionais e para ganhar valor a partir
desses dados, é necessário escolher uma forma alternativa para processá-los.
Data mining
A mineração de dados (data mining) é uma operação que leva o seu nome
a sério, neste caso, a mina não é de ouro, mas de dados. É um processo de
lapidar dados brutos e extrair conhecimento a partir deles. Este processo pode
operar diretamente em fontes de dados brutas sob a qual deverá realizar uma
severa etapa de pré-processamento de dados, no entanto, é recomendado que
23
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
seja realizado a partir de uma fonte de dados já integrada e limpa, como, por
exemplo um Data Warehouse.
SGBD
Anteriormente falamos sobre Edgar Frank Codd e sua importante contribuição
para a comunidade digital, com o desenvolvimento do modelo relacional
de armazenamento. Tratar de SGBD é tratar de sistemas que gerenciam o
armazenamento de tais dados.
Sistemas Gerenciadores de Bancos de Dados, ou Sistemas Gerenciadores
de Bancos de Dados Relacionais são, de maneira simples, um software que
é responsável por gerenciar o acesso aos dados. O SGBD é responsável por
fazer a interface entre os dados com aplicações e usuários, encapsulando-os,
garantindo sua segurança e integridade.
Os SGBDs têm como característica o relacionamento entre tabelas, que
implementam os modelos relacionais. Dentre os principais SGBDs do mercado,
destacam-se o SQL Server e Oracle entre os pagos, já entre os livres existe o
MySQL e o PostgreSQL.
Toda vez que você utiliza um software aplicativo, um sistema de informação,
os dados estão sendo armazenados por um SGBD.
Data Warehouse
Data Warehouses tem como tradução literal “Armazém de dados” e segue
sua função que é armazenar dados. No entanto, você deve se perguntar, qual é a
diferença entre ele e um banco de dados? Ainda que um Data Warehouse possa
utilizar um banco de dados relacional, o objetivo deste armazém é armazenar
dados para se realizarem consultas.
De uma maneira simples, são bancos de dados analíticos, projetados para
armazenar os dados de fontes diversas, já transformados e preparados para
serem explorados por aplicações de tomada de decisão. Os Data Warehouses
também podem ser compreendidos como centralizadores de dados, uma vez que
são alimentados por diversas fontes de dados. Pense em uma organização que
utilize um software de gestão comercial, gestão financeira e complementarmente
utilize as redes sociais. Em um Data Warehouse é possível concentrar todos
esses dados, integrando-os e permitindo que sejam as mais diversas análises.
Inclusive para aplicações de mineração de dados e construção de Dashboards.
24
Análise de Dados usando Dashboards
Neste momento não se assuste! O próximo capítulo é dedicado para Data
Warehouse e o Capítulo 3 para Dashboards.
NoSQL
Em cenários de dados, um componente relativamente atual são os bancos de
dados NOSQL (Not Only SQL – Não apenas SQL), que surgiram nos anos 2000,
a partir da ascensão de grandes empresas da Internet como Amazon e Google,
que cada vez mais produziam dados gradativamente, tendo a necessidade de
escalabilidade em escrita e principalmente leitura de dados após o aumento de
tecnologias voltadas à nuvem.
De modo geral, a principal vantagem do emprego de bancos de dados
NOSQL é a utilização do particionamento dos dados horizontal, ao contrário dos
bancos relacionais, que os fazem verticalmente, isto significa que em bancos
NOSQL, os dados podem ser distribuídos de maneira independente sem que seja
necessário enviar todo um conjunto para um determinado nó ou disco. Através
do modo com o qual os dados são armazenados em NOSQL, é possível que os
dados sejam particionados e distribuídos de forma mais ágil do que os tradicionais
bancos relacionais, esta diferença fica visível através da figura a seguir.
FIGURA 8 – DISTRIBUIÇÃO DE DADOS RELACIONAL X NOSQL
FONTE: O autor (2018)
Neste momento, você pode estar um pouco assustado com tanta terminologia
e coisa nova. No entanto, gostaríamos de tirar alguns minutos para falar sobre
carreira. Afinal, dominar tanta tecnologia deve ter algum benefício, não é mesmo?
25
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
As profissões e os dados
As profissões ligadas à tecnologia mudaram a última década, desde
novas profissões criadas, até mesmo a alterações na maneira com que esses
profissionais atuam (horários flexíveis, home office, entre outros). O fato é que
os profissionais de tecnologia irão continuar em alta e dominando o mercado de
trabalho nos próximos anos, porém é estar consciente que são diversas áreas
e que estão em constante mutação. Ao contrário do que se previa, os avanços
trazidos pela informática e a automação têm ampliado a oferta de vagas de
emprego nos mais diversos ramos. Por sinal,especialistas apontam que há muitas
profissões ainda desconhecidas, que vão surgir nesta ou nas décadas seguintes,
por conta das demandas e inovações a serem experimentadas pela sociedade.
Mas há cargos que já estão sendo oferecidos e procurados pelas empresas. A
seguir veremos algumas das principais carreiras das tecnologias em ascensão,
que estão diretamente ligadas à análise de dados, mas é importante destacar
que em algumas empresas alguns destes cargos estão agrupados e em outras
desmembrados em outras profissões e níveis de carreira (Trainne, Júnior, Sênior,
Pleno). Por isso, o profissional deve se preparar, investir na sua formação e estar
atento às oportunidades.
Cientista de dados
Quando se fala de geração de dados em larga escala, Big Data, Data Mining,
este será o profissional responsável por extrair conhecimento desses dados. É o
profissional que alia conhecimentos de software, a gestão comercial, estatística e
matemática para encontrar soluções para entender o que interessa e pode ser útil
para os negócios dentro do imenso volume de informações que circula na internet.
Este tipo de profissional está apto a atuar em empresas de vários setores, onde
muitas vezes um outro pré-requisito pode ser o domínio sobre o segmento de
atuação da empresa. No setor de ciência de dados os salários estão entre R$ 9
mil e R$ 15 mil, além de ter uma grande procura mundial por este profissional, a
escassez leva a grandes empresas investirem até mesmo na criação de robôs
para codificarem.
FONTE: <https://www.tecmundo.com.br/internet/123114-ia-google-cria-codi-
go-melhor-desenvolvido-criadores.htm>. Acesso em: 1 nov. 2018.
Administrador de banco de dados
Tendo como nome mais famoso DBA (Database Administrator), o
administrador de banco de dados é o profissional responsável por cuidar de
todos os fatores que envolvem os bancos de dados de uma organização, desde
a tecnologia que está sendo implementada, até mesmo, em alguns casos, saber
https://www.tecmundo.com.br/internet/123114-ia-google-cria-codigo-melhor-desenvolvido-criadores.htm
https://www.tecmundo.com.br/internet/123114-ia-google-cria-codigo-melhor-desenvolvido-criadores.htm
26
Análise de Dados usando Dashboards
se o ar-condicionado está funcionando bem e que o servidor não irá desligá-lo por
conta disso. O salário de DBA varia entre R$4,7 mil até R$15 mil, destacando-se
para a profissão um aumento de 88% quando se trata da carreira de DBA júnior.
Analista de business intelligence
É o profissional responsável por controlar e analisar as iniciativas do cliente
no ambiente digital, bem como seus indicadores e metas. É o responsável por
realizar análises micro e macroscópicas do mercado a fim de otimizar a gestão
dos negócios. A partir da análise de dados, o profissional de BI define novos
padrões e melhores práticas de desenvolvimento, além de identificar bases de
dados que serão fontes de informação para o crescimento da empresa.
Um profissional especializado em business intelligence é um dos mais
procurados pelos mais diversos setores da indústria, desde bancos até mesmo
companhias biomédicas. O salário de um profissional deste setor varia em torno
de R$ 5 mil até R$20 mil.
Diretor de transformação digital
É o profissional que lidera as iniciativas relacionadas à atualização das
empresas no mundo digital. Trabalha com e-commerce, marketing digital e
Tecnologia da Informação (TI), buscando conexões com consumidores que
utilizam a internet e as redes sociais.
Este tipo de profissional atua principalmente em grandes empresas de varejo
e bancos. Salários podem chegar até a R$ 65 mil para os mais bem qualificados.
Gerente de expansão em TI
É o perfil profissional que projeta o desenvolvimento de produtos e negócios
(funções integradas e programa as abordagens com base em dados de
mercado, tecnologia e infraestrutura), combinando engenharia, design, análise,
gerenciamento de produtos, operações e marketing. O foco é sempre a área
digital.
É um profissional requisitado por grandes organizações e startups. Salários
podem ir de R$ 15 mil a R$ 25 mil.
Analista de mídias digitais
Como vimos até agora e continuaremos cada vez mais as redes sociais estão
impactando na tomada de decisão das empresas. O profissional de mídias digitais
27
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
Segurança da Informação: esta é uma área que foge do
foco do nosso livro e do curso, mas note que até o momento
foram abordadas as mais diversas profissões e as mais
diversas fontes de dados. Assim, o profissional responsável
por garantir a segurança no armazenamento e no acesso
a dados o torna uma importante profissão na atualidade,
bem como uma profissão em ascensão nos próximos anos.
Este profissional consiste na proteção da informação de
vários tipos de ameaças para garantir a continuidade do
negócio, minimizar o risco ao negócio, maximizar o retorno
sobre os investimentos e as oportunidades de negócio. Tem
como perfil, o profissional que gerencia as oportunidades
de aplicação de tecnologia e interage com outras áreas
de maneira a assegurar a segurança das informações da
empresa. O salário na área de segurança da informação
varia de R$4 mil até R$20 mil.
FONTE: : <https://computerworld.com.br/2018/11/05/9-carreiras-de-
ti-em-alta-salario-chega-a-r-28-mil/> e <https://www.baguete.com.br/
noticias/26/09/2012/sp-salario-do-dba-jr-subiu-88>. Acesso em: 21 jan.
2019.
tem como ferramenta de trabalho as redes sociais, como o Facebook, o Twitter,
o Instagram, entre outras. Objetivo é conhecer o máximo possível dos usuários
e criar perfis de consumidores para oferecer a eles o que buscam. Chances
ampliadas para quem tem formação básica em marketing e comunicação social.
Este tipo de profissional atua nas mais diversas organizações, onde os salários
podem chegar a R$ 6 mil.
Excel – A eterna ferramenta de business intelligence
Esta poderia ser apenas uma menção honrosa a uma ferramenta que
completa mais de 30 anos de existência, mas não! É real! O Microsoft Excel
se torna quase imbatível quando o tema é geração de relatórios. Neste exato
momento milhares de pessoas estão gerando relatórios no Excel enquanto outras
milhares estão estudando como fazê-lo. O Visicalc, desenvolvido por Dan Bricklin,
conhecido como o “pai das planilhas eletrônicas”, foi o precursor das planilhas
eletrônicas e também pela utilização das planilhas dos computadores pessoais.
Na época, os computadores, que existiam custavam cerca de R$15 mil reais,
também não existia a internet (pelo menos não como a conhecemos hoje), com
https://computerworld.com.br/2018/11/05/9-carreiras-de-ti-em-alta-salario-chega-a-r-28-mil/
https://computerworld.com.br/2018/11/05/9-carreiras-de-ti-em-alta-salario-chega-a-r-28-mil/
28
Análise de Dados usando Dashboards
poucos softwares de gestão e assim, afinal, para que comprar um computador?
Nesse sentido, as planilhas eletrônicas justificaram o investimento e o uso das
planilhas eletrônicas nas organizações passaram a justificar o investimento, pois
além de armazenarem os dados sobre a gestão das empresas, tornaram-se as
primeiras ferramentas de inteligência de negócios e suporte à decisão.
No entanto o ano agora é 2018, passam mais de 30 anos desde a criação
das planilhas e há uma imensidão de ferramentas computacionais para gestão
de empresas e suporte à decisão. Por que então, o Excel ainda é tão utilizado?
São diversos fatores que fazem a ferramenta obter tanto número de usuários. O
principal, com certeza, é a sinergia do Pacote Office com o sistema operacional
Windows, que apenas na versão 10 alcançou 270 milhões de usuários em todo
mundo.
Segundo Marques (2017), o Excel é a ferramenta que é imensamente
utilizada pelas empresas para os mais diversos tipos de funcionalidades.
Independentemente do porte ou segmento da organização, esta é uma ferramenta
altamente difundida no ambiente empresarial, pois oferece infinitaspossibilidades
para manter os processos automatizados e organizados. Os recursos do Excel
permitem que o usuário faça cálculos complexos, principalmente aqueles que
envolvem a área financeira de um negócio. Além disso, é possível criar uma
planilha de gastos, uma planilha para controlar o fluxo de caixa, calcular preços
dos produtos e serviços oferecidos pela empresa, registrar os pagamentos, toda a
parte contábil da organização, entre outras funcionalidades.
Outro fator muito impactante no uso da ferramenta é o fato das empresas
comumente utilizarem softwares ERP para realizar a gestão de todos os
processos organizacionais, como, por exemplo, o SAP. Este tipo de software é
informalmente chamado de “engessado”, pois ao invés de se adaptar às rotinas
da empresa é a empresa que se adapta ao funcionamento do software. O fato
é que muitas vezes as empresas precisam gerar relatórios específicos que
atendam às suas necessidades particulares e estes relatórios não são fornecidos
pelo software ERP, a empresa pode até fazer uma requisição e solicitar que
seja implementado, mas isso envolve tempo e alto custo. Em contrapartida, os
ERPs fornecem diversos relatórios sobre os módulos (financeiro, comercial,
gestão, estoque, entre outros) e estes mesmos relatórios podem ser importados
no formato de planilhas eletrônicas. Uma vez tendo acesso aos dados através
de planilhas, estes são integrados, também em planilhas. Cabe à empresa gerar
seus próprios relatórios, importando várias planilhas e consolidando e explorando
utilizando os mais diversos recursos. A figura a seguir mostra uma visão geral dos
gráficos gerados pelo Excel, pode-se notar que há uma diversidade de gráficos:
pizza, barra, geográfico, pivot table, entre muitos.
29
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
Neste momento, você deve se perguntar: Eu já conheço tudo
sobre Excel! Por que então tanta tecnologia se o Excel resolve todos
os meus problemas? O Excel é de fato um canivete suíço dos dados,
mas utilizá-lo, com certeza, não é o melhor caminho para a análise
dos dados. O próprio exemplo da importação de diversas planilhas
de um ERP já nos demonstra que deve haver um grande esforço
humano para realizar um relatório de integração. Com o Excel o
esforço é dobrado, afinal não há mecanismos computacionais para
a integridade dos dados armazenados, ou seja, isto tem que ser feito
manualmente, levando em conta principalmente quando se trata de
diversas fontes.
Neste livro aprenderemos como fazer a integração de diversas
fontes de dados, utilizando os métodos e ferramentas corretas, que
uma vez integradas ampliam o poder de tomada de decisão. E,
falando nelas na próxima seção, você verá todo o poder que estas
ferramentas possuem no apoio à tomada de decisão.
FIGURA 9 – GERAÇÃO DE RELATÓRIOS COM O EXCEL
FONTE: O autor (2018)
30
Análise de Dados usando Dashboards
HAN, Jiawei; PEI, Jian; KAMBER, Micheline. Data mining:
concepts and techniques. Elsevier, 2011.
3 Aplicações De Dashboards E
Business Intelligence
Até o momento, você já aprendeu o que é SGBD, Data Warehouse,
Big Data, Data Mining, mas afinal em meio a tanta tecnologia, o que é business
intelligence? A grande questão que vimos até agora é que os dados estão
mudando a maneira que nos relacionamos com a tecnologia e principalmente,
entre nós mesmos. Sobre tudo que falamos até o momento, imagine o volume dos
dados gerados revertidos em prol das organizações, que um gestor consiga ter
na palma de sua mão os dados de todos os sistemas da empresa (ERP, Vendas,
Mobile) integrados aos dados de suas redes sociais, permitindo a tomada de
decisões sobre as mais diversas perspectivas, de forma simples, esse poder dos
dados é business intelligence.
O conceito de business intelligence já estava presente nas organizações
e começou a ser conhecido na década de 1980, a partir de publicações realizadas
pelo Gartner Group, uma importante empresa americana que desenvolve
tecnologias e pesquisas relacionadas à tecnologia e inovação. Em sua tradução
literal, business intelligence tem como significado “inteligência de negócios”, é uma
tecnologia que permite a transformação de dados em informações quantitativas
e importantes para a tomada de decisão da empresa. Segundo Tyson (1986),
é um processo que envolve a coleta, análise e validação de informações
sobre concorrentes, clientes, fornecedores, candidatos potenciais à aquisição,
candidatos à joint-venture e alianças estratégicas. Incluem também eventos
econômicos, reguladores e políticos, que tenham impacto sobre os negócios
da empresa. O processo de business intelligence analisa e valida todas essas
informações e as transforma em conhecimento estratégico.
Para Olszak e Ziemba (2007), em uma organização, em nível estratégico,
os sistemas de business intelligence tornam possível a definição de metas e
objetivos, assim como o seu respetivo acompanhamento, permitindo a realização
de diferentes relatórios. Em nível tático permitem otimizar ações futuras e
modificar aspectos organizacionais, financeiros ou tecnológicos do desempenho
da organização, a fim de ajudar a alcançar os seus objetivos estratégicos
de uma forma mais eficaz. Por último, em nível operacional, os sistemas de
31
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
business intelligence são utilizados para executar análises ad-hoc e responder
a questões relacionadas com operações das atividades da organização. Será
difícil encontrar uma organização bem-sucedida que não tenha aproveitado
os sistemas de business intelligence para o seu negócio. Como tal, tem se
assistido a uma crescente procura de sistemas de business intelligence em
diversas áreas, como o transporte, os serviços bancários, a saúde, a indústria de
distribuição e fabricação, o retalho, as telecomunicações, entre outros. Contudo,
as necessidades das organizações variam conforme a natureza do seu negócio e,
assim, as necessidades dos sistemas de business intelligence variam conforme
os requisitos.
Neste momento, você deve pensar que o conceito de business intelligence
se aplica apenas a grandes organizações, com milhares de funcionários e que só
haverá este cenário quando se interligam todos os dados. Na verdade, mesmo
que seja um conceito amplo e pode ser aplicado nos mais diversos segmentos
e nos próprios setores de uma empresa, como venda, marketing, faturamento,
entre outros.
Da maneira que falamos até agora faz com que você pense que business
intelligence trata apenas do fluxo organizacional dos dados, porém não é apenas
um conceito relacionado à administração de empresas, mas sim a um conjunto
de técnicas e processos, alinhados com tecnologia que transformam uma grande
quantidade de dados brutos em informação e conhecimento que podem auxiliar
no suporte à tomada de decisão.
O processo de geração de conhecimento através de business intelligence é
realizado pelo emprego de tudo que foi visto até agora, desde a coleta dos dados
até a extração de conhecimento deles. A figura a seguir mostra um pouco desse
processo. A etapa inicial é sempre dada pela coleta dos dados. Geralmente, a
principal fonte dos dados são os sistemas transacionais utilizados pela empresa
(ERP, CRM, SAAS), mas pode haver outras fontes integradas. Posteriormente
é realizada a etapa de Data Warehousing, em que os dados são integrados e
limpos e armazenados em um banco de dados analítico (armazém de dados).
Uma vez estes dados estando armazenados, haverá uma infinitude de maneiras
de explorá-los, seja através de consultas OLAP, ou pela realização de processos
de Data Mining. Não se assuste, nem tenha pressa, vamos aprender a construir
nosso próprio Data Warehouse, no Capítulo 2 e como extrair conhecimento, no
Capítulo 3.
32
Análise de Dados usando Dashboards
FIGURA 10 – PROCESSO DE BUSINESS INTELLIGENCE
FONTE: O autor (2018)
Entre as diversas maneiras deexplorar um Data Warehouse é por meio de
Dashboards, afinal o objetivo deste livro é que você consiga gerar Dashboards
interativos integrando as mais diversas aplicações. Você já sabe que as pessoas
e organizações estão gerando uma gama de informações diariamente, trazendo
diversos desafios de armazenamento e descoberta de conhecimento. Neste
tópico iremos discutir os principais cases que envolvem a análise de dados.
A fralda e cerveja
Toda vez que se fala de Data Mining, Big Data ou Business Intelligence é
impossível deixar este case de lado, sendo este quase folclore na história dos
dados. Esta história começa com combinações perfeitas em uma compra, como
quem compra pão → compra manteiga ou quem compra café → compra leite. No
entanto, ainda que os processos de extração de conhecimento permitam extrair
tal informação vem a pergunta: Isso não é óbvio?
O fato é que uma das maiores redes de hipermercados norte-americana
coletou os dados e armazenou no formato na forma de Basket. Ou seja, para cada
venda são registrados quais produtos foram vendidos em um formato binário. O
quadro a seguir mostra como esses dados são formatados.
33
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
QUADRO 4 – MODELO DE ARMAZENAMENTO “BASKET”
Código da
Compra
MAÇÃ SORVETE CARNE BOLACHA
C001 1 1 1 1
2 1 0 0 1
3 0 1 1 0
4 1 1 1 1
5 1 0 0 1
6 0 1 1 0
FONTE: O autor (2018)
Nos anos 1990, a então rede de hipermercados, a partir da análise de um
grande volume de informações, foi possível gerar uma associação entre dois
produtos: fralda e cerveja.
FIGURA 11 – O CASO DA FRALDA E DA CERVEJA
FONTE: <https://www.slideshare.net/mrm0/beer-diapers-and-
correlation-a-tale-of-ambiguity>. Acesso em: 10 dez. 2018.
Obter tal informação foi de extremo valor para a tomada de decisão, afinal
permite além de maior divulgação dos produtos, uma realocação dos produtos
próximos no mercado. Quando se vai além dos produtos vendidos e se cria um
Dashboard com a integração desses dados com o aspecto temporal (dia da
semana, hora, mês etc.) e com perfil de clientes (idade, sexo etc.), a análise
https://www.slideshare.net/mrm0/beer-diapers-and-correlation-a-tale-of-ambiguity
https://www.slideshare.net/mrm0/beer-diapers-and-correlation-a-tale-of-ambiguity
34
Análise de Dados usando Dashboards
chegou à conclusão que homens adultos (pais) que compram fraldas (para seus
filhos) às sextas-feiras, também compram cervejas.
Este além de ser um dos principais cases da área de análise de dados, serve
como motivação para que você possa enxergar o mundo com novos olhos. Afinal,
você já parou para se perguntar:
● Como as livrarias recomendam livros?
● Como as músicas são recomendadas no Youtube?
● Como o Google sabe a próxima palavra que eu ia digitar?
● Como eu consigo fazer isso no meu sistema?
Como funcionam as regras de associação na prática?
A descoberta de regras de associação em bancos de dados relacionais ou
data warehouses é uma das tarefas de mineração de dados (data mining) que
possui o maior número de aplicações práticas. Este artigo inicia uma série de
trabalhos que terão o objetivo principal de demonstrar como esta nova tecnologia
pode ser aplicada em diferentes áreas de conhecimento.
A área de Ciência da Computação que tem por objetivo oferecer estratégias
automatizadas para a análise de grandes bases de dados de empresas,
procurando extrair das mesmas informações que estejam implícitas, que sejam
previamente desconhecidas e potencialmente úteis. A Mineração de Dados surgiu
no início dos anos 1990, a partir da reunião de ideias provenientesde diferentes
áreas como inteligência artificial, banco de dados, estatística, e visualização de
dados. A principal motivação para o surgimento da mineração de dados encontra-
se no fato de as organizações estarem armazenando de forma contínua uma
enorme quantidade de dados a respeito de seus negócios nas últimas décadas.
O conhecimento obtido pelas técnicas de mineração de dados é geralmente
expresso na forma de regras e padrões.
Devido a sua grande aplicabilidade, as regras de associação encontram-se
entre um dos mais importantes tipos de conhecimento, que podem ser minerados
em bases de dados. Estas regras representam padrões de relacionamento
entre itens de uma base de dados. Uma de suas típicas aplicações é a análise
de transações de compras: market basket analysis, um processo que examina
padrões de compras de consumidores para determinar produtos que costumam
ser adquiridos em conjunto. Um exemplo de regra de associação, obtida a partir
da análise de uma base de dados real, que registra os produtos adquiridos por
famílias cariocas em suas compras mensais, é dado por: {minipizza semipronta}
Þ {suco de fruta em pó}. Esta regra de associação indica que as famílias que
compram o produto {minipizza semipronta} tem maior chance de também adquirir
35
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
o produto {suco de fruta em pó}.
Introdução às regras de associação
O problema da mineração de regras de associação foi primeiramente
apresentado no ano de 1993. Nesta época, as regras eram mineradas a partir de
bases de dados de transações (ou bases transacionais). As definições formais
de regra de associação e base de dados transacional são apresentadas a seguir.
Seja I = {I1,I2,...In} um conjunto de itens. Seja D uma base de dados de
transações, em que cada transação T é formada por um conjunto de itens onde T Í
I. Cada transação possui um identificador chamado TID. Uma regra de associação
é uma implicação da forma A Þ B, onde
A e B podem ser conjuntos compostos por um ou mais itens, A Ì
I, B Ì I, e A C B = Æ. A é chamado de antecedente da regra e B é chamado de
consequente.
Dada uma regra A Þ B, a sua medida de suporte (Sup) representa a
porcentagem de transações da base de dados que contêm os itens de A e B,
indicando a relevância dela. Já a sua medida de confiança (Conf) representa,
dentre as transações que possuem os itens de A, a porcentagem de transações
que possuem também os itens de B, indicando a validade da regra. O problema
da mineração de regras de associação, conforme definido originalmente em 1993,
consiste em encontrar todas as regras de associação que possuam suporte e
confiança maiores ou iguais, respectivamente, a um suporte mínimo (SupMin) e
uma confiança mínima (ConfMin), especificados pelo usuário.
Para explicar o funcionamento deste processo, será apresentado um exemplo
baseado numa pequena base de dados que armazena as compras efetuadas por
clientes de um supermercado hipotético (listagem a seguir).
TID Produtos comprados
------------------------------------------------------
1 biscoito, cerveja, chá, salaminho
2 cerveja, couve, linguiça, pão, queijo
3 café, brócolis, couve, pão
4 brócolis, café, cerveja, couve, pão, salaminho
5 brócolis, café, couve, pão, refrigerante
6 couve, linguiça
Observe que cada registro da base de dados armazena a relação de
produtos adquiridos por um cliente específico. Um exemplo de regra de
36
Análise de Dados usando Dashboards
associação que poderia ser minerada nesta base de dados, através da utilização
de uma ferramenta de data mining, é dado por: {cerveja} Þ {salaminho}. Note que
duas das seis transações que compõem a base contêm os produtos {cerveja}
e {salaminho}. Desta maneira, o suporte da regra {cerveja} Þ {salaminho} pode
ser calculado da seguinte forma: 2 ¸ 6 = 33,33%. Observe agora que na base de
dados, existem duas transações que contêm os produtos {cerveja} e {salaminho}
juntos e três transações que contêm o produto {cerveja}. A confiança da regra
{cerveja} Þ {salaminho} pode então ser calculada da seguinte maneira: 2 ¸ 3 =
66,67%. Este valor indica que 66,67% dos consumidores que compraram {cerveja}
também compraram {salaminho}.
Outro índice estatístico comumente utilizado para definir o grau de
interesse de uma regrade associação é denominado lift. O lift de uma regra de
associação A Þ B indica quanto mais frequente se torna B, quando A ocorre.
Esta medida é computada por: Lift(A Þ B) = Conf(A Þ B) ÷ Sup(B). O lift da regra
hipotética {cerveja} Þ {salaminho} é dado por: Conf({cerveja} Þ {salaminho}) ÷
Sup({salaminho}) = 66.67% ÷ 33.33% = 2. O resultado deste cálculo indica que
os clientes que compram {cerveja} têm uma chance duas vezes maior de comprar
{salaminho}.
Os primeiros softwares para mineração de regras de associação começaram
a ser desenvolvidos em meados da década de 1990, ainda em ambiente
acadêmico. Hoje em dia já existem algumas dezenas de ferramentas comerciais
capazes de minerar este tipo de padrão, desenvolvidas por grandes empresas.
As ferramentas para mineração de regras de associação funcionam, tipicamente,
da seguinte maneira: o usuário especifica a base de dados que deseja minerar
e estabelece valores mínimos para as medidas de interesse como o suporte, a
confiança e o lift (muitas ferramentas utilizam ainda outras medidas de interesse
para avaliar as regras de associação). Em seguida, a ferramenta executa um
algoritmo que analisa a base de dados e gera como saída um conjunto de regras
de associação com valores de suporte e confiança superiores aos valores mínimos
especificados pelo usuário. Note que este processo é diferente do utilizado pelas
aplicações OLAP e pelos métodos estatísticos tradicionais, em que o especialista
testa a sua hipótese contra a base de dados. No caso da mineração de dados, as
hipóteses e os padrões são automaticamente extraídos da base de dados pelas
ferramentas.
FONTE: <https://www.devmedia.com.br/data-mining-de-regras-
de-associacao-parte-1/6533>. Acesso em: 19 out. 2018.
37
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
O presidente e os dados
Você, com certeza, sabe que Barack Obama venceu a eleição no ano de
2008 e também repetiu o feito no ano de 2012, pode até saber que o Hit “Yes,
We Can” bateu recorde de acessos no Youtube, o que você talvez não saiba é
que houve muita coleta, pré-processamento e, principalmente, muita análise de
dados por trás dessa trajetória. Grandes volumes de dados foram coletados e
processados para futuramente serem analisados nas campanhas.
Nas eleições presidenciais de 2008, a equipe de Barack Obama atribuiu a
cada eleitor norte-americano pontos baseados na probabilidade de aquela pessoa
realizar duas ações distintas e essenciais para a sua campanha: preencher uma
cédula de votação e, mais importante, esta cédula ser um voto para o democrata.
Estes pontos eram derivados de um volume de dados sem precedentes, gerado
por um contínuo trabalho de pesquisa. Para cada debate semanal por estado
norte-americano, os call centers da campanha conduziam de 5 mil a 10 mil
entrevistas curtas que rapidamente verificavam as preferências do eleitor, além
de mil entrevistas em versão longa. Ao realizar análises em cima de tais dados,
obteve-se mais de 100 variáveis que permitiram à equipe de governo pautar os
rumos da campanha e deu um ótimo resultado na campanha de 2012.
Já para as eleições de 2012, a quantidade de pessoas destinadas para
realizar análises foi cinco vezes maior e se multiplicou por cinco em relação ao
ano anterior. Esta equipe realizou medições a partir de uma megabase (uma
base de dados de grandes dimensões), podendo determinar, por exemplo, que
um jantar com o presidente Obama e o ator George Clooney era o ideal para
arrecadar fundos entre mulheres de 40 e 49 anos. Análises detalhadas deste
estilo permitiram ao candidato alcançar cifras recordes de arrecadação. Além
disso, o Big Data foi muito importante na hora de conhecer a intenção de votos
real no estado onde o triunfo do Obama era mais incerto, entre eles, Ohio. E por
fim, o resultado foi certo, Obama conseguiu se reeleger.
Você deve se perguntar, em 2016: Por que não funcionou?
Em um primeiro momento, temos que ter em mente que estamos em
uma revolução tecnológica. Assim como Gordon G. Moore afirmou
em 1965, na conhecida Lei De Moore “o número de transistores dos
chips teria um aumento de 100%, pelo mesmo custo, a cada período
de 18 meses”, o que queremos dizer é que a tecnologia muda, e
o que é novidade hoje pode ser passado em questão de pouco
38
Análise de Dados usando Dashboards
tempo, e com relação aos processos de coleta e análise de dados
não será diferente. Apenas para não deixar de lado a eleição do
atual presidente americano Donald Trump em 2016 com a empresa
Cambridge Analytica, que fez a análise de 198 milhões perfis de
eleitores que utilizaram a estrutura da empresa Amazon.
Dados o novo petróleo
A análise de grandes quantidades de dados desestruturados é uma das
quatro grandes tendências da tecnologia e, segundo Anjul Bhambhri, VP de
projetos de Big Data da IBM, isto será tão importante para o mundo quanto o
petróleo.
“Todo clique, tweet, site navegado está sendo analisado. E estes dados
abrem oportunidades inimagináveis. Big Data é o novo óleo, o novo recurso
natural”, afirmou.
De acordo com a companhia, em 2020, o mundo terá cerca de 40 zetabytes
(21 zeros) de dados para serem analisados contra 7 zetabytes atuais. Isto
dará a chance para que as empresas consigam fazer análises semânticas de
sentimentos, gostos e prever necessidades.
Além do Big Data, outras três tecnologias foram apontadas como essenciais
para os próximos anos: computação na nuvem, mobilidade e social. Para
o vice-presidente do centro de desenvolvimento da IBM, Stephen Farley, a
competitividade está focada em “analisar o consumidor (Big Data), armazenar
os dados dos clientes de forma simples e barata (cloud computing), com acesso
às informações na ponta dos dedos (mobilidade) e comunicando as descobertas
(social)”.
“O mundo está se tornando programável e o desenvolvimento de softwares
baseados nestas tendências dominará as empresas. Estas novidades estão
redesenhando a economia mundial”, afirmou. “Todas as companhias terão de
adotar estas tecnologias se quiserem oferecer diferenciais”, completou.
FONTE: <https://olhardigital.com.br/noticia/big-data-e-o-novo-petroleo,-
afirma-executiva-da-ibm/34986>. Acesso em: 21 jan. 2019.
39
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
Elementar, meu caro Watson!
Quando se fala em coleta, pré-processamento e análise de dados, surgem
novas plataformas de armazenamento na nuvem. Grandes empresas da tecnologia
têm investido nesse segmento como uma forma de oferecer processamento pago
por hora, são exemplos o Azure (Microsoft), Google Cloud, Amazon AWS e o IBM
Watson. Este último tem se destacado em pesquisas acadêmicas, inclusive em
um case recente e nacional.
Nos últimos anos, o Brasil foi marcado por dezenas de escândalos de
corrupção, bem como uma série de notícias sobre o combate a ela. Criado
em 2007 pelo Ministério da Justiça do Brasil, por meio do Departamento de
Recuperação de Ativos e Cooperação Jurídica Internacional da Secretaria
Nacional de Justiça, o Laboratório de Tecnologia contra Lavagem de Dinheiro
(LAB-LD) apoia investigações complexas sobre corrupção e lavagem de dinheiro.
Utilizando o IBM Watson, investigações financeiras – que dependem de
dados como movimentações e extratos de contas bancárias, troca de e-mails,
registros telefônicos e de empresas, além de informações vindas de redes sociais
– podem ser realizadas com muito mais facilidade. Neste caso, foi possível utilizar
a ferramenta para consolidar diversas fontes de dados e em cima destes dados
realizar buscas semânticas e por palavras-chave. Este sistema inteligente explora
o conceito de metadados sobre apelidos de suspeitos, parceiros e cúmplices, bem
como gírias de atividades criminosas, um exemplo disso é ao registrar o termo
‘farinha’ retornar informações sobre cocaína.
No passado, as investigações exigiam analistas altamente qualificados que
gastavam milhares de horasdebruçados em planilhas, e-mails e publicações em
redes sociais. Hoje, os investigadores gastam menos tempo na identificação de
dados relevantes e se empenham mais nas análises (BARBOSA, 2016). Com a
ajuda das soluções da IBM, a REDE-LAB alcançou o objetivo de automatizar os
processos de mineração de dados complexos — permitindo que os investigadores
acelerassem seu trabalho de forma significativa. Segundo o coordenador do
projeto, Roberto Zaina, da IBM (2014, p. 2 ), “Estimamos que o IBM Watson
Explorer nos permitirá acelerar exponencialmente nossas investigações. A
identificação de ativos ilícitos nos obriga a avançar mais rapidamente do que os
criminosos, e as nossas soluções da IBM estão nos ajudando a fazer exatamente
isso”.
40
Análise de Dados usando Dashboards
Considerações Finais
Prezado aluno!
Chegamos ao fim do Capítulo 1, esperamos que tenha sido proveitoso para
você. Durante este capítulo você pôde aprender sobre o volume de dados gerados
no mundo, espero que tenha aproveitado esse momento para refletir sobre esse
tipo de aplicação no seu cotidiano e tenha tido boas ideias de aplicações.
Durante o transcorrer do livro, discutimos tópicos atuais sobre análise de
dados, pois serão importantes para a compreensão e discussão dos métodos
utilizados. Nós também conhecemos os principais nomes da história dos dados
e suas contribuições tecnológicas, mas não iremos parar por aqui, tudo que você
viu será colocado em prática no Capítulo 2.
Referências
ANGELONI, M. T. Elementos intervenientes na tomada de decisão. Ci. Inf, v.
32, n. 1, p. 17-22, 2003.
BARBOSA, R. A. Tecnologia da informação na análise de crimes de lavagem
de dinheiro. 2016.
DAVENPORT, T. H. Ecologia da informação: por que só a tecnologia não basta
para o sucesso na era da informação. Futura, 2000.
DUMBILL, Edd. What is big data? An introduction to the big data landscape.
oreilly.com, http://radar.oreilly.com/2012/01/what-is-big-data.html, 2012.
EFRAIM, T. et al. Decision support systems and intelligent systems. Upper
Saddle River, NK: Prentice Hall, 2001.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data
mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996.
HAN, J.; PEI, J.; KAMBER, M. Data mining: concepts and techniques. Elsevier,
2011.
IBM. Ministério da Justiça identifica ativos ilícitos com ajuda do IBM
Watson Explorer. Disponível em <ftp://ftp.software.ibm.com/la/documents/gb/br/
Mnisterio_da_Justica_-_Big_Data.pdf>. Acesso em: 15 nov. 2011.
http://ftp.software.ibm.com/la/documents/gb/br/Mnisterio_da_Justica_-_Big_Data.pdf
http://ftp.software.ibm.com/la/documents/gb/br/Mnisterio_da_Justica_-_Big_Data.pdf
41
A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1
INMON, W. H. Building the data warehouse. John Wiley & sons, 2005.
KIMBALL, R.; ROSS, M. The data warehouse toolkit: the complete guide to
dimensional modeling. John Wiley & Sons, 2011.
LACKMAN, C. L.; SABAN, K.; LANASA, J. M. Organizing the competitive
intelligence function: a benchmarking study. Competitive Intelligence Review:
Published in Cooperation with the Society of Competitive Intelligence
Professionals, v. 11, n. 1, p. 17-27, 2000.
LIEBOWITZ, J. Strategic intelligence: business intelligence, competitive
intelligence, and knowledge management. Auerbach Publications, 2006.
MARQUES, M. Por que o excel é tão utilizado nas empresas? 2017. Disponível
em: <http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-
excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-
962528535.1541963168>. Acesso em: 15 out. 2018.
MELLO, R. dos S. et al. Dados semiestruturados. XV Simpósio Brasileiro de
Banco de Dados, 2000.
OLSZAK, C.; ZIEMBA, E. Approach to building and implementing business
intelligence systems. Interdisciplinary Journal of Information, Knowledge, and
Management 2, 2007: 135-148.
PETERSON, E. T. Web analytics demystified. [S. l.]: Celilo Group Media and
CafePress, 2004. p. 268.
SETZER, V. W. Dado, informação, conhecimento e competência.
DataGramaZero Revista de Ciência da Informação, n. 0, p. 28, 1999.
TURBAN, E. et al. Business Intelligence: um enfoque gerencial para a
inteligência do negócio. Bookman, 2009.
TYSON, K. W. M. Business intelligence-putting it all together. Leading Edge
Pub, 1986.
http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168
http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168
http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168
42
Análise de Dados usando Dashboards
CAPÍTULO 2
Data Warehouse e Business
Intelligence
A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes
objetivos de aprendizagem:
• saber como funciona o do processo de análise de dados, modelagem
multidimensional e os tipos de modelos;
• conhecer o que é um Data Warehouse e seus elementos e o que é um cenário
de Business Intelligence;
• conhecer todas as etapas de construção, desde a etapa de coleta,
transformação dos dados e alimentação de um Data Warehouse;
• realizar a extração, transformação e carga e a modelagem multidimensional;
• armazenar dados em um Data Warehouse;
• realizar consultas OLAP em cenários de business intelligence.
44
Análise de Dados usando Dashboards
45
Data Warehouse e Business Intelligence Capítulo 2
1 Introdução Ao Data Warehouse E
Business Intelligence
Finalizamos o capítulo anterior falando sobre Business Intelligence (BI), seu
poder e possibilidades na geração de conhecimento. Business intelligence, muitas
vezes, é difícil de ser compreendido, pois não se trata de uma única ferramenta,
mas de diversas técnicas de extração e manipulação. Na definição que surgiu
em 1989, por Howard Dresner, business intelligence é uma metodologia pela
qual se estabelecem ferramentas para obter, organizar, analisar e prover acesso
às informações necessárias aos tomadores de decisão das empresas para
analisarem os fenômenos acerca de seus negócios, ou seja, business intelligence
não é uma ferramenta, mas uma metodologia, que pode empregar uma ou
diversas ferramentas de acordo com o cenário de sua aplicação.
A escolha de uma estratégia, ou de um conjunto delas, depende muito do
cenário em que será aplicado e caberá ao profissional responsável conhecimento
sobre o cenário e sobre as estratégias. Infelizmente, nosso livro teria que ter mais
de 10.000 páginas para poder explicar todos os cenários possíveis de aplicações
de dados desde cenários de venda, compra, empréstimos, financiamentos,
operadoras de crédito, bolsa de valores, redes sociais, enfim, uma infinitude
deles. Porém, vamos aprender a partir de agora como coletar esses dados e quais
são as ferramentas para processá-los e analisá-los, permitindo a construção de
fantásticos dashboards analíticos.
Vamos estudar o processo de Data Warehousing, no qual você
compreenderá os principais métodos de coleta de dados, as principais
estratégias de processamento, bem como o armazenamento e posterior análises
multidimensionais. Uma vez realizado este processo, diversos processos de
business intelligence podem ser integrados, como mineração de dados e geração
de dashboards.
O processo de geração do conhecimento geralmente inicia com os bancos
de dados relacionais. Estes bancos de dados estão no mercado desde os anos
1970 e têm sua eficiência inegável, principalmente, no que se refere à segurança
e integridade dos dados armazenados. No entanto, a arquitetura desses bancos
de dados foi projetada para a realização de transações bancárias, e mesmo que
não seja um sistema bancário, diz-se que um sistema de gestão realizauma
transação, que nada mais é do que um conjunto de funções, executadas num
banco de dados, que o usuário percebe como uma única ação. Por exemplo,
ao realizar uma venda, nem sempre se trata de inserir um registro na tabela
de venda, por exemplo, insere os registros de produtos vendidos, dá baixa no
estoque e insere o valor do saldo. Todas estas funções caracterizam-se como
46
Análise de Dados usando Dashboards
uma única transação.
Os bancos de dados tradicionais que trabalham orientados a transações
são chamados de OLTP (Online Transaction Processing – Processamento de
Transações On-line), porém, conforme havíamos abordado anteriormente, o foco
desta abordagem são as transações. Muitas vezes, os conceitos de Business
Intelligence e Sistemas de Apoio à Decisão são confundidos com os próprios
sistemas gerenciais, afinal ainda que utilizem uma arquitetura OLTP, tais sistemas
permitem a extração de relatórios gerenciais: produtos mais vendidos, clientes
que mais compram, saldo total. O que você precisa entender é que relatórios
extraídos de sistemas de gestão não é business intelligence, relatórios são
relatórios. Vamos explicar isso detalhadamente para ficar claro no decorrer deste
capítulo.
Se você já teve a disciplina de banco de dados ou já estudou boas práticas,
com certeza, aprendeu as formas normais e respectivamente que a normalização
nos obriga a criar mais tabelas. Uma vez tendo criadas mais tabelas, isto ajuda a
amplificar a garantia da integridade dos dados armazenados, no entanto há um
problema: as consultas.
Uma vez que ao normalizar um banco de dados se criam diversas tabelas,
as consultas mais complexas necessitam de junções. Ou seja, conectar várias
tabelas para responder a estas consultas. Em um banco de dados pequeno, o
aumento do tempo de execução das consultas utilizando junções pode não ser
notado, no entanto, sabendo que um cenário de business intelligence irá integrar
diversos setores da empresa, com um volume significativo de dados, quanto mais
tabelas existirem, maior será o tempo de execução.
A partir de agora você conhecerá um pouco mais sobre a construção de um
projeto de business intelligence, que acontece durante a concepção de um Data
Warehouse, visto na próxima seção.
Tendências para business intelligence em 2019
Em nosso livro estamos discutindo as estratégias para construção de um
business intelligence. No entanto, estamos vendo abordagens tradicionais,
consolidadas pela academia e mercado. Também é importante levar em
consideração o cenário de inovação tecnológica mundial e como essa inovação
implica cenários de business intelligence. Para isto, nesse texto, trazemos duas
abordagens, as principais estratégias (conceitos e metodologias) e as principais
ferramentas.
47
Data Warehouse e Business Intelligence Capítulo 2
Os últimos anos têm sido de inovações na área de análise de dados, além de
aprimoramentos de produtos e serviços, levando as organizações a uma análise
sobre como priorizar uma abordagem moderna de business intelligence que
conduza a empresa a obter o máximo valor dos seus dados.
Pensando no quem vem pela frente, Adriano Chemin, vice-presidente da
Tableau para América Latina, empresa de software para análise visual de dados,
reuniu as principais tendências de business intelligence para os próximos anos,
são elas:
Inteligência artificial explicável
Que a inteligência artificial (AI) veio para ficar é fato, graças ao aprendizado
de máquina empresas conseguem criar clusters de comportamento, identificar
tendências de mercado, avaliar riscos, tomar decisões rápidas e automatizar
milhões de atividades que antes consumiam tempo e recursos. Não dá para
negar que o AI abriu um mundo de possibilidades para o universo de BI, e que
muitas das evoluções que estamos vendo (e que veremos nos próximos anos)
foram conquistadas graças às possibilidades oferecidas pela tecnologia de AI.
Por outro lado, quanto mais dependemos da AI, maior é nossa desconfiança
quanto à credibilidade das recomendações baseadas em modelos, já que grande
parte das ferramentas que utilizam aprendizado de máquina não fornecem uma
forma transparente de ver os algoritmos ou a lógica por trás das decisões e
das recomendações. É aí que vem o AI Explicável, a prática de compreender e
apresentar exibições transparentes dos modelos de aprendizado de máquina. Se
é possível questionar seres humanos, por que não ter a mesma opção com o
aprendizado de máquina na tomada de decisões?
A AI Explicável permite que o corpo executivo, cientistas e analistas de dados
entendam e questionem a forma como o aprendizado de máquina é aplicado
no dia a dia de uma empresa, gerando mais transparência e confiabilidade nos
resultados.
Linguagem natural transforma a dinâmica das organizações
O processamento de linguagem natural (NLP) está quebrando
paradigmas em todos os campos da tecnologia e mudando a forma como
as pessoas trabalham, ouvem música, solicitam informações sobre o
tempo e, cada vez mais, obtém respostas sobre um painel de dados.
A habilidade de obter respostas por meio de um comando de voz permite que
pessoas com todos os níveis de conhecimento possam questionar seus dados, e
ao perguntar, obter uma resposta concreta e veloz. Paralelamente, a linguagem
natural está evoluindo para dar suporte à conversação analítica, ou seja, a conversa
48
Análise de Dados usando Dashboards
entre o ser humano e o sistema sobre seus dados. O sistema aproveita o contexto
da conversa para entender a intenção por trás da consulta do usuário e promover
o diálogo, criando uma experiência de conversação cada vez mais natural.
À medida que a linguagem natural evolui com o setor de BI, ela abrirá portas
para a adoção de análise e ajudará a transformar ambientes de trabalho em
operações autônomas e impulsionadas por dados. O NPL eleva o patamar
analítico das organizações como um todo, permitindo que um CEO atarefado, ou
um analista de marketing sem tanta destreza com análises numéricas obtenham
as respostas que necessitam para executar seu trabalho de forma precisa.
Análise acionável: mobilidade dos dados impulsiona ações
Velocidade é palavra-chave na vida de quem trabalha com análise de dados
na atualidade, seja no acesso às informações ou no tempo de resposta para
executar a ação necessária, tudo precisa estar alinhado em um único fluxo de
trabalho e disponível no lugar e no dispositivo que o cientista/analista de dados
desejar para que ele possa agir rápido.
Pensando nisso, fornecedores de plataformas de BI oferecem análise
em dispositivos móveis, análise incorporada, extensões de painel e APIs que
incorporam a análise ao local onde as pessoas executam seu trabalho evitando
a troca de aplicativos (ou servidores) desnecessária e melhorando o fluxo de
trabalho.
A mobilidade permite, por exemplo, que o CEO de uma empresa acompanhe
a evolução de seus negócios de qualquer lugar do mundo, e acione sua equipe em
tempo real. A incorporação da análise em fluxos de trabalho diversos, leva ao que
chamamos de análise acionável, um avanço poderoso que promete atender às
necessidades analíticas dos mais diversos departamentos, e empoderar funcionários
de diferentes setores por meio de dados contextualizados e sob demanda.
Storytelling é a nova linguagem dos dados
Dados são a forma mais poderosa de comunicar uma descoberta, apresentar
um insight ou expor seus resultados, e nada como o storytelling para gerar aquele
impacto positivo. Storytelling analítico, ou contar uma história por meio de dados,
é uma das tendências mais marcantes do mundo do BI, e uma forma muito mais
atraente de expor todas as etapas das suas análises de forma acionável e fácil de
entender.
À medida que as empresas criam uma cultura de análise, contar histórias
com dados tem ganhado novos significados. Ao invés de apresentar uma
conclusão única, o storytelling promove a criação deum diálogo e contribui para
49
Data Warehouse e Business Intelligence Capítulo 2
uma abordagem coletiva da análise. Com o storytelling, tanto o criador do painel
como o público se tornam responsáveis por chegar a uma conclusão sobre o que
os dados estão dizendo – estimulando a diversidade de ideias e promovendo o
trabalho coletivo ou cocriação de painéis.
Comunidade analítica
Ter uma plataforma de BI funcionando não significa extrair o máximo
potencial dessa ferramenta. E por mais duro que pareça, o fato de alguém, ou
um determinado departamento abrir relatórios uma vez ou outra, não significa
fazer bom proveito dos dados, e muito menos que essa consulta trará ações
concretas ou terá efeitos práticos. De nada adianta ter o BI dos sonhos se não
houver adoção massiva da ferramenta. Em muitas empresas a adoção de uma
plataforma de BI de sucesso começa com o alto escalão da empresa e com a
percepção de que é preciso integrar as diferentes fontes de dados e extrair valor.
E para gerar valor, nada como uma comunidade interna de usuários engajados, e
métricas concretas para determinar como as pessoas estão usando a plataforma
de BI para causar um impacto nos negócios.
Falando em comunidade, empresas do mundo todo já perceberam o
poder da cocriação analítica, e como pessoas com um background diferente
conseguem trabalhar juntas para estabelecer métricas e descobrir insights por
meio dos dados. O BI de autoatendimento democratizou o acesso à informação
nas empresas. Agora o desafio é fomentar comunidades engajadas, transformar
informação em ação e claro, medir os resultados. E viva o trabalho em equipe.
Com cada vez mais dados à nossa disposição, é cada vez mais difícil nos
concentrar nas informações relevantes para os nossos problemas e apresentá-las
de forma prática. É disso que trata o Business Intelligence. Complementarmente
às tendências vistas anteriormente, veremos um pouco sobre as
ferramentas que estão tomando conta do mercado de business intelligence.
Board: a Board International combina três ferramentas em uma: BI, análise
preditiva e gerenciamento de desempenho. Oferece módulos para finanças
(planejamento, consolidação), RH (mapeamento de habilidades, planejamento
de força de trabalho), marketing (análise de mídias sociais, monitoramento
de lealdade e retenção), cadeia de suprimentos (otimização de entrega,
gerenciamento de fornecedores), vendas (análise de cross-selling e up-selling)
e TI (KPIs, níveis de serviço). A empresa é suíça, mas o software está disponível
em inglês, espanhol, chinês, japonês, francês, alemão e italiano.
● Público-alvo: variado.
● Recursos notáveis: suporte a idiomas.
50
Análise de Dados usando Dashboards
● Preço: a taxa de licença por usuário varia de acordo com a função.
Domo: a Domo é uma plataforma baseada na nuvem que oferece ferramentas
de business intelligence adaptadas a vários setores (como serviços financeiros,
assistência médica, manufatura e educação) e funções (incluindo CEOs, vendas,
profissionais de BI e trabalhadores de TI). Os CIOs podem começar verificando
como a Domo lida com dados da AWS, Jira, GitHub ou New Relic antes de analisar
como mais de 500 outras integrações podem ajudar o restante da empresa.
● Recursos notáveis: interface móvel robusta.
● Preços: taxa de licença anual. O plano profissional limita o armazenamento
de dados a 250 milhões de linhas; não há limites no plano da empresa.
Dundas BI: o Dundas BI, da Dundas Data Visualization, é mais usado
para criar dashboards e scorecards, mas também pode gerar relatórios
padrão e ad-hoc. A análise e a visualização são realizadas por meio de
uma interface da Web que pode se adaptar às habilidades dos usuários:
usuários avançados e usuários padrão veem recursos diferentes. A
versão mais recente pode extrair dados do Google Analytics, Snowflake
e Salesforce Pardot, entre outras fontes. O Dundas BI foi adaptado para
19 indústrias, incluindo tecnologia limpa, mineração e construção, além
de serviços bancários e de saúde.
● Recursos notáveis: interface HTML5 flexível
que se adapta a qualquer dispositivo.
● Preço: com base em usuários simultâneos.
Google Data Studio: sabemos que o Google está constantemente analisando
a web, mas o que ele pode fazer com nossos dados corporativos? O Google
Data Studio começou como uma ferramenta para dashboards e relatórios sobre
dados do Google Analytics. Agora ele tem sido sobrecarregado com acesso
a informações de Recrutamento, Marketing e Vendas também, por meio de
conectores para a Criteo, LinkedIn, MailChimp, PayPal, Salesforce, Stripe, Twitter
e qualquer coisa que você possa colocar em uma planilha ou banco de dados
SQL. Naturalmente, está hospedado na nuvem e tem uma interface da web.
● Características notáveis: o preço.
● Preços: grátis.
Looker: a Looker adota uma abordagem dupla para o business intelligence:
permite que os usuários explorem os dados a sua maneira, mas também
trabalha com especialistas para ajudar aqueles que realmente não sabem o
que estão procurando. Faz isso permitindo que outros fornecedores de software
51
Data Warehouse e Business Intelligence Capítulo 2
envolvam seus recursos de análise em aplicativos verticais “Powered by
Looker”. A partir do início do ano que vem, ele se conectará ao serviço BQML
(BigQuery Machine Learning) do Google para desenvolver modelos preditivos.
● Recursos notáveis: baseados na Web, podem acessar dados ao vivo de
qualquer banco de dados SQL.
● Preço: sob demanda, varia de acordo com o número de usuários e
conexões do banco de dados.
Microsoft Power BI: com o aplicativo Power BI Desktop para Windows, os usuários
podem analisar e visualizar dados de fontes locais ou da nuvem, publicando seus
relatórios na plataforma Power BI. A versão gratuita Author atende a usuários
isolados; a versão Pro facilita a análise colaborativa, por uma taxa mensal,
aproveitando o Microsoft Office365, o SharePoint e as equipes para controlar o
acesso a dados brutos e aos relatórios publicados. Para empresas que desejam
mais, a camada Premium possibilita a preparação de dados de autoatendimento
com conectores pré-construídos para dados corporativos mantidos no Microsoft
Dynamics 365, Azure SQL Data Warehouse ou fontes de terceiros, como
Salesforce.
● Recursos notáveis: o aplicativo para dispositivos móveis permite a
anotação na tela de toque dos relatórios.
● Preços: três níveis: Author (gratuito), Pro (US $ 9,99 por
usuário por mês) e Premium (com base na capacidade).
Qlik: o objetivo da Qlik é dar a qualquer pessoa na empresa acesso a todos
os dados – sujeito, é claro, às políticas corporativas de governança de dados.
Pode associar determinados dados a todos os demais para facilitar a busca por
conexões. O Qlik Sense, a ferramenta de autoatendimento para acessar esse
recurso analítico, vem nas versões em nuvem e on-premise.
● Recursos notáveis: o Associative Engine pode analisar todos os seus
dados, em tempo real.
● Preços: versões limitadas são gratuitas; as funções de colaboração
custam de US$ 15 por usuário ao mês para o Qlik Sense Cloud Business.
Salesforce: o Einstein Analytics é a tentativa da Salesforce.com de
melhorar o BI com a inteligência artificial. Seu objetivo é estender o acesso
de autoatendimento aos dados para os usuários em toda a empresa,
com uma aparência semelhante à das interfaces Reports e Dashboard.
O Einstein Discovery permite que os usuários criem modelos preditivos a
partir de seus dados, o que não se limita aos dados mantidos na nuvem
do Salesforce: o Einstein pode extrair dados do Oracle, do SAP e de
52
Análise de Dados usando Dashboards
outras fontes. Existem modelos específicos para cada setor e ferramentas
personalizadas para departamentos de Vendas, Marketing e TI.
● Recursos notáveis: IA para BI na própria nuvem Salesforce.
● Preço: US$ 75 por usuário ao mês para as EinsteinPredictions, personalizadas para o Einstein Analytics
Plus (necessário para importar dados externos).
SAS Visual Analytics: a abordagem do SAS Institute no BI é sua
ferramenta Visual Analytics. Destina-se a destacar automaticamente
as principais relações nos dados. Na versão mais recente, você pode
escolher uma variável e mostrar-lhe quais elementos de seus dados a
influenciam e como. Outros recursos incluem análise de sentimento para
extração de dados de mídias sociais e outros textos, geração automática
de gráficos, mapeamento e preparação de dados de autoatendimento.
A implantação pode on-premise, em nuvens públicas ou privadas ou na
plataforma Cloud Foundry como um serviço.
● Recursos notáveis: funções de análise automatizadas.
● Preços: sob demanda.
10 – SiSense: A pilha de software de BI da SiSense cobre tudo, desde o banco de
dados até ETL e Analytics, até a visualização – e afirma que seu mecanismo de banco
de dados In-Chip é mais rápido até do que os bancos de dados em memória. Está
disponível on-prenise ou na nuvem. Existem soluções para Finanças, Marketing,
Vendas, RH e TI, bem como serviços de atendimento ao cliente e departamentos
de operações e logística. O SiSense também possibilita oferecer as ferramentas
de análise para usuários fora da empresa, incorporando-as em aplicativos web.
● Recursos notáveis: cliente totalmente baseado na
web, incluindo a preparação de dados.
● Preços: sob demanda.
Tableau: Os recursos do Tableau incluem mapeamento e análise de
pesquisas e dados de séries temporais. Seu truque mais recente é
utilizar as técnicas do Processamento de Linguagem Natural para
permitir que os usuários descrevam o que desejam ver, em vez
de clicar e arrastar para criar consultas de fórmulas. É possível
executar o software on-premiseq, escolher uma nuvem pública ou
optar por tê-lo totalmente hospedado pela Tableau. Oferece versões
personalizadas para mais de uma dúzia de setores, incluindo
53
Data Warehouse e Business Intelligence Capítulo 2
Serviços Bancários, de Saúde e Manufatura, com suporte para os
departamentos Financeiro, de RH, de TI, de Marketing e de Vendas.
● Recursos notáveis: a Tableau usa PLN para permitir que os usuários
digam o que desejam ver.
● Preços: cada implantação precisa de pelo menos um Tableau Creator
(US $ 70 / mês); outros podem ser Viewers (de US $ 12 / mês, min. 100)
ou Explorers (de US $ 35 / mês, min. 5).
FONTE: 12 principais ferramentas de Business Intelligence em
2019. Disponível em: <https://cio.com.br/12-principais-ferramentas-de-
business-intelligence-em-2019/>. Acesso em: em: 5 dez. 2018.
5 tendências de business intelligence para 2019. Disponível
em: <https://www.itforum365.com.br/tecnologia/5-tendencias-de-
business-intelligence-para-2019/>. Acesso em: 5 dez. 2018.
2 Data Warehouse
Um Data Warehouse tem como tradução literal "Armazém de dados", pode
ser compreendido como um banco de dados analítico, afinal tem como objetivo
preparar uma base de dados para realização de consultas. Isto significa, que
todos os processos que compõem a construção de um Data Warehouse têm um
objetivo principal: realizar análises com o menor tempo possível.
Com o crescente aumento do volume das informações organizacionais
armazenadas nos sistemas gerenciadores de banco de dados, os sistemas
tradicionais OLTP – Online Transaction Processing (Processamento de Transações
On-line) já não dispõem de suporte para retornar às consultas em um tempo hábil
para a tomada de decisão. Por outro lado, são realizadas operações analíticas
que permitem a exploração de dados armazenados, estes são os ambientes de
Data Warehouse.
Data Warehouses, explicado de uma maneira simples, são bancos de
dados analíticos, projetados para armazenar os dados de fontes diversas, já
transformados e preparados para a realização de consultas através de operações
OLAP (HAN; PEI; KAMBER, 2011).
Conforme vimos no capítulo anterior, a “paternidade” do conceito de Data
Warehouse é dividida por Bill Inmon e Ralph Kimball, uma vez que o termo é
discutido desde os anos 1970 e ainda é um dos mais ascendentes no que se
refere a técnicas de Business Intelligence. Durante o livro, iremos ver os principais
pontos de uma arquitetura de Data Warehouse, bem como a particularidade de
https://cio.com.br/12-principais-ferramentas-de-business-intelligence-em-2019/
https://cio.com.br/12-principais-ferramentas-de-business-intelligence-em-2019/
https://www.itforum365.com.br/tecnologia/5-tendencias-de-business-intelligence-para-2019/
https://www.itforum365.com.br/tecnologia/5-tendencias-de-business-intelligence-para-2019/
54
Análise de Dados usando Dashboards
cada um dos pais do conceito, complementado de perspectivas atuais.
No que se refere ao conceito de um Data Warehouse, comumente partimos
da definição de Inmon (2005), que um Data Warehouse é uma coleção de dados,
orientado a um assunto, integrado, com tempo variável e não volátil; e que este
banco de dados é desenvolvido para suporte ao gerenciamento dos processos
de tomada de decisão. Vejamos o que cada um destes itens significa de maneira
detalhada:
● Orientado a assunto: uma vez notando-se a necessidade da
implementação de um Data Warehouse em uma organização, este
terá um tema, um objeto de análise. Um Data Warehouse é orientado
a assunto pelo fato de que este sempre estará relacionado a um tema
sobre o qual consultas são realizadas. Isto significa que ele sempre será
direcionado a um tema, seja as vendas, financeiro, fiscal, compras.
● Integrado: no Capítulo 1, falamos sobre diversos tipos de dados
(XML, JSON, CSV, SGBDR), dizemos isto porque uma das principais
características de um Data Warehouse é a integração. Um Data
Warehouse pode integrar vários sistemas internos que usam SGBD e
ao mesmo tempo integrar com redes sociais via JSON, fazendo dessa
dinâmica nas fontes de dados sua principal característica, bem como um
dos principais desafios.
● Variável em relação ao tempo: o fator temporal é, na maioria dos
casos, determinante na análise dos dados armazenados em um Data
Warehouse. Deste modo, a cada carga de um novo conjunto de dados,
este será associado com um determinado tempo. Vejamos a importância
do tempo, por exemplo, em um Data Warehouse de ações na bolsa de
valores se obtém os meses nos quais há uma maior queda nas ações
e os meses em que há um número maior de vendas. Assim, faz-se
necessário que os dados de Data Warehouse sejam armazenados em
relação ao tempo.
● Não volátil: este fator também está relacionado ao tempo, uma vez
que todo registro que é inserido em um Data Warehouse é associado
a um tempo. Não devem haver exclusões, por isso não volátil. Isto não
significa que o registro não constará como removido, mas que haverá
duas ocorrências, uma primeira na data de sua inserção indicando que
existiu e uma segunda indicando a data que foi removido.
55
Data Warehouse e Business Intelligence Capítulo 2
FIGURA 1 – ARQUITETURA DE UM DATA WAREHOUSE
FONTE: Adaptado de Kimball (2011, p.28)
Na arquitetura proposta por Kimball, o sistema é composto por quatro
camadas principais: fontes de dados, área de trabalho, área de apresentação e
ferramentas de acesso aos dados. Conheça o que compreende cada uma dessas
camadas:
● Fontes provedoras: em um ambiente de Data Warehouse uma das
características é a integração entre os dados, ou seja, os dados são
oriundos de diversas fontes. Esta camada contém todos os dados
possíveis de serem armazenados no Data Warehouse (relacional,
orientado a objetos, não estruturados, textual, Web etc.), que possam
ajudar a cumprir as tarefas de análise.
Arquitetura de um Data Warehous
A arquitetura de um Data Warehouse é composta pela estratégia de coleta,
pré-processamento e análise dos dados. São diversas as arquiteturas propostas
na literatura, as variações acontecem principalmente pelo fato de existirem
variações nas formas e formatosde dados, porém todas as arquiteturas são
baseadas na principal proposta por Kimball, que é mostrada pela figura a seguir.
56
Análise de Dados usando Dashboards
● Área de trabalho: nesta camada são realizados os processos de
integração das fontes de dados, bem como as transformações
necessárias para armazenar os dados de acordo com o modelo definido
para Data Warehouse. Nesta camada são realizados os principais
procedimentos da chamada ETL (Extract, Transform and Load), que
estudaremos em detalhe neste capítulo.
● Área de apresentação de dados: esta camada trata do principal objeto
deste capítulo, ou seja, um Data Warehouse em si, em que os dados já
coletados e transformados serão armazenados em um banco de dados
projetado a partir de um modelo multidimensional.
● Ferramentas de acesso aos dados: a quarta camada é onde as
ferramentas de visualização fazendo uso de o servidor OLAP submeter
requisições de acesso aos dados armazenados. No que se refere ao
objetivo do nosso livro, será nesta camada que os dados estarão prontos
e as ferramentas de construção de Dashboards serão conectadas aos
dados permitindo a exploração e análises multidimensionais.
Todos os dados que entram no Data Warehouse são integrados, sendo que
existe uma única fonte de dados para os diferentes Data Marts. Isso garante que
a integridade e a consistência dos dados sejam mantidas intactas em toda a
organização. A figura a seguir mostra a arquitetura típica de um Data Warehouse
nesta arquitetura.
FIGURA 2 – ARQUITETURA PROPOSTA POR INMON
FONTE: Singh e Singh (1998)
57
Data Warehouse e Business Intelligence Capítulo 2
Os Data Marts podem ser compreendidos como Data Warehouses setoriais
em uma organização, por exemplo: venda, financeiro, fiscal, marketing. Pode-se
notar que a participação dos Data Marts é mais efetiva na arquitetura de Inmon e
é parte integrante de todo processo de construção.
Outro elemento diferente dos vistos anteriormente é o conceito de Staging
Area, seu significado é “Área de preparação”, essa é uma etapa interessante,
uma vez que facilita o processo de pré-processamento dos dados. Na Staging
Area, os dados são copiados das fontes provedoras, o que facilita para que as
demais tarefas os acessem.
Sobre a arquitetura proposta por Inmon, Rangarajan (2016) elenca os
seguintes pontos positivos da arquitetura:
● O Data Warehouse realmente serve como fonte única de verdade para
a empresa, pois é a única fonte para os Data Marts e todos os dados no
Data Warehouse são integrados.
● As anomalias de atualização de dados são evitadas devido à redundância
muito baixa. Isso torna o processo ETL mais fácil e menos propenso a
falhas.
● Os processos de negócios podem ser compreendidos facilmente, pois o
modelo lógico representa as entidades de negócios detalhadas.
● Muito flexível – à medida que os requisitos de negócios mudam ou os
dados de origem são alterados, é fácil atualizar o Data Warehouse, pois
uma coisa está em apenas um lugar.
● Pode lidar com necessidades de relatórios variados em toda a empresa.
Rangarajan (2016) também lista algumas das desvantagens do método
Inmon:
● O modelo e a implementação podem se tornar complexos ao longo do
tempo, pois envolvem mais tabelas e junções.
● Precisa de recursos que sejam especialistas em modelagem de dados e
do próprio negócio.
● Esses tipos de recursos podem ser difíceis de encontrar e costumam ser
caros.
58
Análise de Dados usando Dashboards
● A configuração inicial e a entrega levarão mais tempo, e o gerenciamento
precisa estar ciente disso.
● Mais trabalho de ETL é necessário, pois os Data Marts são construídos a
partir do Data Warehouse.
● Uma equipe razoavelmente grande de especialistas precisa estar por
perto para gerenciar com sucesso o ambiente.
Note que tais arquiteturas foram propostas em meados dos anos 1980 e
vigoram bem até os dias atuais. Existem diversas variações, mas em sua maioria
estão relacionadas ao tipo de fonte de dados (coleta da Web em tempo real,
por exemplo) ou sobre novas técnicas de armazenamento (integração entre
nuvem e Hadoop, por exemplo). Como o nosso objetivo é a construção de um
Data Warehouse e não uma análise comparativa entre esses grandes pais da
tecnologia que estamos trabalhando, vamos seguir, mas se você ficou curioso
com as demais arquiteturas, características e diferenças, seguem algumas
sugestões de leitura.
JINDAL, Rajni; TANEJA, Shweta. Comparative study of data
warehouse design approaches: a survey. International Journal of
Database Management Systems, v. 4, n. 1, p. 33, 2012.
SAROOP, Shashank; KUMAR, Manoj. Comparative analysis
of data warehouse design approaches from security perspectives.
International journal of computer trends and technology, 2011.
YESSAD, Lamia; LABIOD, Aissa. Comparative study of data
warehouses modeling approaches: Inmon, Kimball and Data
Vault. In: System Reliability and Science (ICSRS), International
Conference on. IEEE, 2016. p. 95-99.
59
Data Warehouse e Business Intelligence Capítulo 2
Complementarmente, um Data Warehouse, pela definição de Kimball e Ross
(2011), é uma cópia de dados de transação (OLTP), especificamente estruturado
para consulta e análise. Para fazer possível o armazenamento de dados, o
esquema de dados baseia-se no modelo multidimensional, tal modelo que é
de grande importância para a construção de um Data Warehouse e que vamos
discutir em detalhes no próximo tópico de estudo.
1 O que é um Data Warehouse e Data Warehousing?
2 Quais são as expectativas para o futuro dos estudos que
envolvem Data Warehouse no futuro?
2.1 Modelagem Multidimensional
Antes de nos aprofundarmos em nosso estudo sobre a modelagem
multidimensional, é importante relembrar alguns conceitos sobre a modelagem
de dados relacional. Vimos anteriormente que o modelo relacional surgiu em
1970, desenvolvido pelo pesquisador da IBM, Edgar Frank Ted Codd IBM, que
de maneira sucinta propôs o armazenamento de dados onde os dados seriam
armazenados em tabelas que devem estar relacionadas.
No modelo relacional os dados são organizados em tabelas e cada dado
armazenado tem um determinado tipo de dados associado. Por exemplo, se um
dado é um nome será do tipo VARCHAR (que representa textos), se for um valor
em reais R$ será do tipo DOUBLE (que representa números com casas decimais.
São diversos os tipos de dados e isto pode variar da tecnologia que seu banco de
dados, seja relacional ou multidimensional será implementado, para ter uma visão
geral. A tabela a seguir mostra alguns desses tipos baseados no banco de dados
PostgreSQL e que são comuns aos demais SGBDs também.
60
Análise de Dados usando Dashboards
TABELA 1 – TIPOS DE DADOS
Nome Tamanho Descrição Intervalo de valores
smallint 2 bytes valor inteiro pequeno -32768 to +32767
integer 4 bytes principal escolha para inteiros -2147483648 to +2147483647
bigint 8 bytes números inteiros grandes
-9223372036854775808 to
9223372036854775807
decimal variable
números de casas decimais in-
definidas
sem limite
numeric variable
números de casas decimais in-
definidas
sem limite
real 4 bytes
números com casas decimais
precisas
precisão de 6 casas decimais
double pre-
cision
8 bytes
números com casas decimais
precisas
precisão de 8 casas decimais
serial 4 bytes
é um inteiro com autoincremento,
que preenche automaticamente
ideal para campos chave
1 to 2147483647
bigserial 8 bytes
é um inteiro (grande) com auto-
incremento, que preenche auto-
maticamente ideal para campos
chave
1 to 9223372036854775807
FONTE: O autor (2018)
As ligações entre os campos são realizadas por chaves, primárias e
estrangeiras, tais campos que se relacionam, ou seja, é através do relacionamento
entre essas chaves que o banco de dados é considerado relacional. A figura a
seguir mostra um banco de dados relacional para gerenciamento de um comércio
de vendase seu estoque.
FIGURA 3 – EXEMPLO DE BANCO DE DADOS RELACIONAL
FONTE: O autor (2018)
61
Data Warehouse e Business Intelligence Capítulo 2
Na Figura 3 vemos algo sobre o conteúdo citado anteriormente, por exemplo,
o campo data ser do tipo DATE, preço ser DOUBLE, nome do cliente ser VARCHAR
e os IDs como inteiro. Também é possível notar que os relacionamentos são
formados pela ligação entre as chaves primárias (Primary Keys – PK) e chaves
estrangeiras (Foreign Keys – FK).
Mas afinal, o que o modelo relacional tem a ver com o modelo
multidimensional? Toda estrutura é bem similar, o modo é a construção dos
modelos. Como nosso objetivo não é construir um modelo relacional, deixamos
duas sugestões de leitura para que você possa rever esses conceitos e seguir
firme na modelagem.
HEUSER, Carlos Alberto. Projeto de banco de dados: Volume
4 da Série Livros didáticos informática UFRGS. Bookman Editora,
2009.
Conceitos e ferramentas para realizar a modelagem de
dados. Disponível em: <https://www.devmedia.com.br/conceitos-e-
ferramentas-para-realizar-a-modelagem-de-dados/34008>. Acesso
em: 19 dez. 2018.
Ainda tratando do que se refere à modelagem relacional, esta tem entre
muitos objetivos armazenar os dados garantindo o maior nível de integridade
possível de integridade nos dados armazenados. A principal estratégia para isto é
denominada normalização. A normalização dos dados é o primeiro passo para se
obter sucesso com um modelo de dados íntegro, uma vez que sendo estas normas
respeitadas, as redundâncias e inconsistências poderão ser evitadas. Atualmente
já são mais de 10 formas normais (FN), todas oriundas das três primeiras:
● 1FN: a primeira forma normal trata da atomicidade dos atributos,
proibindo atributos compostos, multivalorados e relações aninhadas.
● 2FN: a segunda forma normal está relacionada à dependência funcional
da chave primária. Para estar na segunda forma normal, a tabela deve
estar na primeira forma normal e nenhum dos campos que não são
https://www.devmedia.com.br/conceitos-e-ferramentas-para-realizar-a-modelagem-de-dados/34008
https://www.devmedia.com.br/conceitos-e-ferramentas-para-realizar-a-modelagem-de-dados/34008
62
Análise de Dados usando Dashboards
chaves podem depender de apenas parte da chave primária.
● 3FN: a terceira forma normal está relacionada à chamada dependência
transitiva, ou seja, um campo não deve depender de um outro campo
“não chave”. Para remover a dependência transitiva, deve-se identificar
os campos que são dependentes transitivos de outros campos e removê-
los.
Agora encerramos os conceitos sobre a modelagem relacional e a
normalização, vamos lá!
A modelagem multidimensional é uma estratégia de modelagem de dados
que tem ênfase na análise dos dados, ou seja, na realização de consultas. Sendo
assim, a cada momento do seu aprendizado você tem que ter em mente que a
construção do modelo tem o foco na análise. Não se preocupe com a integridade
e não, não se assuste! A integridade dos dados já foi garantida inicialmente pelo
seu sistema transacional (OLTP) e no caso de integração de diversas fontes será
responsável pela etapa de ETL (vista na continuidade).
A modelagem multidimensional é uma técnica de modelagem de bancos
de dados que se destina apoiar as consultas realizadas pelo usuário final
em um Data Warehouse (KIMBALL; ROSS, 2011). A técnica de modelagem
multidimensional trata da elaboração de um projeto lógico de um banco de dados,
que tem sua aplicação destinada à análise de dados. Utilizando a modelagem
multidimensional, estabelece-se a estrutura de dados sob qual o cubo de dados
será analisado.
De maneira geral, independentemente da técnica utilizada para sua
construção, um modelo multidimensional é composto por três componentes
principais: as tabelas de fato, as tabelas com dimensões e as métricas, sem
deixar de lado os atributos comuns que também pertencerão às tabelas.
As métricas são valores, normalmente, aditivos, armazenados na tabela fato,
ou seja, as métricas são as medidas brutas, atômicas e de simples composição.
Em uma estrutura de Data Warehouse, são armazenados na tabela Fato e medem
os descritivos armazenados nas Dimensões. Valores e quantidades são exemplos
de formatos das métricas. Na sequência do nosso livro, iremos discutir sobre a
criação de dashboards e extração de indicadores, que tem grande relação com as
métricas, mas não são a mesma coisa. Por exemplo, uma métrica pode ser o total
vendido em R$ e um indicador, o percentual dessas vendas em um determinado
mês.
Segundo Elias (2011), existem diversos tipos de métricas, as métricas aditivas
63
Data Warehouse e Business Intelligence Capítulo 2
são aquelas que podem ser sumarizadas independentemente das dimensões
utilizadas. Este tipo de métrica pode ser utilizada sem quase nenhuma restrição
ou limitação e são flexíveis o suficiente para gerar informações em qualquer
perspectiva. Por exemplo, métricas como quantidade e valores de determinados
itens podem ser, em geral, sumarizados por data (dia, mês ou ano), local, clientes,
entre outras dimensões, sem perder a consistência da informação.
As métricas semiaditivas são aquelas que podem ser sumarizadas em
alguns casos. Isso porque a depender da situação empregada à métrica, ela pode
perder sentido para a análise caso seja agregada. Neste caso, a sumarização só
fará sentido com algumas dimensões específicas. Por exemplo, a métrica saldo
bancário. O saldo é um valor que reflete a situação atual da conta, que pode ter
o saldo credor ou devedor. Faria sentido, por exemplo, somar os saldos de todos
os dias de um mês para uma determinada conta bancária? Claro que não, pois
se um dia o saldo for de -1000 e no dia seguinte ter os mesmos -1000, a soma irá
devolver um saldo negativo de -2000, o que não é verdade. No entanto, há casos
em que a métrica semiaditiva adquire característica de aditiva. Se por acaso
somar os saldos de várias contas bancárias em um determinado dia, poderemos
ver o saldo geral, o que tem total sentido e utilidade para uma instituição bancária,
por exemplo.
As métricas não aditivas são aquelas que não podem ser sumarizadas ao
longo das dimensões. Essas métricas não podem ter agregações, pois perdem
a veracidade do valor. Percentuais são exemplos de valores armazenados nas
métricas que não permitem a sumarização. Por exemplo, não faz sentido somar o
percentual de vendas de um item “A” que teve 50% de saída com um item “B” que
teve 60%. A soma resultaria em um valor agregado de 110%. O que isso nos diz?
Nada! Como muitas vezes as métricas semiaditivas e não aditivas são derivadas
de métricas aditivas, recomendamos, se possível, que sejam armazenadas as
métricas brutas para o cálculo em tempo de execução. A métrica semiaditiva
saldo, por exemplo, pode ser calculada em tempo de execução com as métricas
aditivas do valor de crédito e débito. Portanto, devemos ficar atentos a essas
diferenças, para que no desenvolvimento do Data Warehouse possamos efetuar
o tratamento adequado em cada um desses casos. Lembrando que quanto
menos flexível for a utilização das métricas, mais complexo será a utilização pelos
usuários, o que pode ser um fator crítico de sucesso para o projeto. Sempre que
possível devemos gerar as agregações em tempo de execução para as métricas
semiaditivas e não aditivas, facilitando a utilização e deixando transparente aos
usuários os cálculos efetuados.
No que se refere às métricas e valores armazenados, também existe o
conceito de hierarquia. Tais atributos podem ser considerados descritivos ou até
mesmo formar uma hierarquia. As hierarquias são representadas pela composição
64
Análise de Dados usando Dashboards
de vários atributos em uma dimensão, em que cada atributo representa um nível
em uma hierarquia. Um exemplo aplicável em qualquer cenário é a dimensão
tempo, considerando que esta dimensão tem diversas perspectivasde análise
(dia, mês, ano, semana, dia da semana, quinzena, entre outros, veremos mais a
fundo adiante a dimensão Tempo). No caso da dimensão do tempo, considerando
que esta dimensão tenha os atributos dia, mês e ano, estes atributos compõem
uma hierarquia de tempo que permite navegar pelos níveis data -> mês -> ano. A
figura a seguir mostra alguns exemplos de hierarquia.
FIGURA 4 – EXEMPLO DE HIERARQUIAS
FONTE: O autor (2018)
Subcategoria
O modelo multidimensional, assim como no relacional, é composto por
tabelas. No entanto, existe uma abordagem diferente. Uma vez que o foco é na
análise, o objetivo principal das análises se transformará em uma tabela principal,
denominada tabela FATO.
Para trazer sentido e valores para tabela fato e tendo como objetivo auxiliar
na obtenção de valores e métricas para o objeto de análise, existem as outras
tabelas, denominadas tabelas DIMENSÕES. Tanto uma tabela FATO quanto uma
tabela DIMENSÃO são tabelas consideradas normais em sua construção, tendo
as mesmas características do modelo relacional (campos, chaves, tipos de dados
etc.), sendo que o que muda é a estratégia de modelagem.
Desde o início do nosso livro estamos falando sobre Inmon e Kimball,
bem como sobre a existência de algumas divergências de abordagens. Uma
delas é sobre a modelagem, cada autor propõe uma estratégia de modelagem
multidimensional, sendo estas as duas principais técnicas de modelagem para
cenários de Data Warehouse: Star Model e SnowFlake.
65
Data Warehouse e Business Intelligence Capítulo 2
2.2 Modelo Estrela “Star Model”
O Star Model, ou modelo estrela, é a estratégia de modelagem mais utilizada
na construção de modelos multidimensionais para ambientes de Data Warehouse.
Este modelo foi proposto por Ralph Kimball, com o objetivo de dar suporte à
tomada de decisão e melhorar o desempenho das consultas em ambientes
multidimensionais.
O modelo estrela é composto de uma tabela principal ao centro do
modelo, a FATO. As demais tabelas, chamadas de DIMENSÕES, ficam dispostas
ao redor da tabela principal, sendo que esta disposição forma uma estrela, daí
o nome do modelo. A figura a seguir mostra um exemplo do modelo da ideia do
modelo estrela.
FIGURA 5 – EXEMPLO DO MODELO ESTRELA
FONTE: O autor (2018)
O principal objetivo da modelagem em estrela é condensar os valores
vindos das fontes de dados, ou seja, armazená-los no menor número de tabelas
possível e esta não é uma tarefa fácil. Quando iniciamos a modelagem, sempre
há a velha preocupação: a integridade dos dados. Uma vez que nesse momento
nosso foco muda e se torna a análise e consultas, ao decorrer da modelagem
multidimensional, você pode fazer as seguintes perguntas para auxiliar na
66
Análise de Dados usando Dashboards
construção do modelo:
● Quais tabelas posso juntar em apenas uma? Por exemplo, ao invés de
existir a tabela bairro, cidade, estado e país, ligadas por chaves, você
pode inserir todas essas informações em uma única tabela chamada
localidade.
● Quais dados eu calculo que podem ser armazenados em um campo? Um
exemplo disso é quando no banco transacional existe a tabela produto e
a quantidade vendida, sendo que o valor total é calculado por consulta.
Ao realizar o modelo estrela para este caso, será criada uma métrica na
tabela fato chamada total que armazenará esse valor já calculado, o que
otimizará o tempo de resposta das análises.
Realizando estas mesmas perguntas, uma possibilidade para a modelagem
multidimensional, pegando como fonte de dados o modelo relacional de vendas
visto anteriormente, teremos assim um modelo multidimensional para vendas. Tal
modelo é mostrado pela figura a seguir mostra uma alternativa de modelagem
para o mesmo sistema de vendas, note que existe uma tabela central fato e que,
principalmente, o número de tabelas é reduzido, contendo no modelo o mesmo
número de informação que pode ser extraído no modelo anterior.
FIGURA 6 – EXEMPLO DE MODELO MULTIDIMENSIONAL ESTRELA DE VENDAS
FONTE: O autor (2018)
67
Data Warehouse e Business Intelligence Capítulo 2
2.3 Modelo Snowflake
O Modelo SnowFlake é muito próximo do que é conhecido da modelagem
tradicional de banco de dados, uma vez que durante sua construção são levadas
em consideração as formas normais. Idealizado por Bill Inmon, este modelo
contém uma tabela FATO e as tabelas DIMENSÕES. A principal característica
desse modelo é que as dimensões não se comunicam apenas com a tabela fato,
mas também entre as próprias dimensões. A maneira com que as tabelas são
conectadas, ou seja, que elas ficam dispostas, representa um floco de neve, por
isso o nome SnowFlake, que em sua tradução significa “Floco de Neve”, bem
como mostra a figura a seguir.
FIGURA 7– MODELO SNOWFLAKE
FONTE: O autor (2018)
Entre as características dessa modelagem é que, conforme visto
anteriormente, aplica o conceito de normalização e por isso tem diversas tabelas.
Conforme vimos, o processo de normalização nos obriga a criar novos campos a
cada forma normal aplicada.
68
Análise de Dados usando Dashboards
Como a modelagem multidimensional é uma estratégia que objetiva otimizar
o processo de recuperação de informações através de consultas, tal processo
não pode utilizar um excesso de tabelas o que implicará um excesso de junções.
Por isso, ao utilizar o modelo SnowFlake, o recomendado é que ao se pensar em
normalização aplique no máximo a terceira forma normal.
A abordagem Inmon para a construção de um Data Warehouse começa com
o modelo de dados corporativos. Esse modelo identifica as principais áreas de
assunto e, o mais importante, as principais entidades com as quais a empresa
opera e se preocupa, como cliente, produto, fornecedor etc.
A partir desse modelo, um modelo lógico detalhado é criado para cada
entidade principal. Por exemplo, um modelo lógico será construído para o Cliente
com todos os detalhes relacionados a essa entidade. Pode haver dez entidades
diferentes no Cliente. Todos os detalhes, incluindo chaves de negócios, atributos,
dependências, participação e relacionamentos, serão capturados no modelo
lógico detalhado.
O ponto-chave a que se refere a proposta de Inmon, aqui é que a estrutura
da entidade é construída na forma normalizada. A redundância de dados é
evitada tanto quanto possível. Isso leva a uma identificação clara dos conceitos
de negócios e evita anomalias de atualização de dados. O próximo passo é
construir o modelo físico. A implementação física do Data Warehouse também é
normalizada.
Esse modelo normalizado torna o carregamento dos dados menos complexo,
mas o uso dessa estrutura para consulta é difícil, pois envolve muitas tabelas
e junções. Então, Inmon sugere a construção de Data Marts específicos para
departamentos. Os Data Marts serão projetados especificamente para finanças,
vendas etc., e eles podem ter dados desnormalizados para ajudar na geração de
relatórios (BRESLIN, 2004).
Colocando a mão na massa – Modelagem de Dados com o SQL Power
Architect
Existem diversas ferramentas de modelagem de dados disponíveis no
mercado, das mais diversas empresas, com as mais diversas licenças (desde
open source até pagas). Queremos deixar ao menos uma opção disponível e
já com algumas dicas iniciais para que você possa iniciar seus estudos práticos
sobre modelagem de dados e colocar a mão na massa.
69
Data Warehouse e Business Intelligence Capítulo 2
Durante o livro vamos utilizar o software denominado SQL Power Architect,
que de maneira simples é uma ferramenta gráfica para modelagem de banco
de dados. Existem diversos recursos, desde a simples modelagem e geração
do banco de dados, até mesmo a conexão com engenharia reversa para
diversos SGBDs (Oracle, PostgreSQL, SQL Server, MySQL, Sybase, DB2 etc.)
e até mesmo recursos avançados para processos e administração de um Data
Warehouse.
É claro que alguns dessesrecursos são limitados na versão gratuita, pois são
várias licenças desta ferramenta. Para iniciarmos, vamos começar com a versão
gratuita, que você pode conseguir através do link <http://www.bestofbi.com/page/
architect_download_os>, disponível para os principais sistemas operacionais.
FIGURA 8 – INTERFACE DO SQL POWER ARCHITECT
FONTE: O autor (2018)
O Power Architect assim como as demais ferramentas de modelagem de
dados foi destinado à modelagem de bancos de dados relacionais, no entanto,
atendem bem às demandas da modelagem multidimensional. Você pode aprender
mais sobre essa ferramenta no próprio site do fabricante <http://www.bestofbi.
com/page/architect-demos>. Como nosso objetivo não é amarrar o conhecimento
à tecnologia, mas sim ao conceito de modelagem, é importante que você possa
buscar utilizar a ferramenta que tenha maior familiaridade. Vou deixar aqui
algumas outras opções de ferramentas, inclusive algumas on-line:
http://www.bestofbi.com/page/architect_download_os
http://www.bestofbi.com/page/architect_download_os
70
Análise de Dados usando Dashboards
MySQLWorkBench. Disponível em: <https://www.mysql.com/
products/workbench/>. Acesso em: 23 jan. 2019.
Archi. Disponível em: <https://www.archimatetool.com/>.
Acesso em: 23 jan. 2019.
SQLDMB. Disponível em: <https://sqldbm.com/Home/>.
Acesso em: 23 jan. 2019.
Gennymodel. Disponível em: <https://www.genmymodel.com/
database-diagram-online>. Acesso em: 23 jan. 2019.
Qual é a diferença entre o modelo relacional e o modelo
multidimensional?
FIGURA 9 – MODELAGEM MULTIDIMENSIONAL DE VENDAS
FONTE: O autor (2018)
https://www.mysql.com/products/workbench/
https://www.mysql.com/products/workbench/
https://www.archimatetool.com/
https://sqldbm.com/Home/
71
Data Warehouse e Business Intelligence Capítulo 2
3 Etl (Extract, Transform And
Load)
É muito difícil dizer qual é a etapa mais importante, afinal quando estudamos
a arquitetura de um Data Warehouse, aprendemos que existe uma conexão entre
cada camada. No entanto, um forte candidato a este cargo é esta etapa chamada
de ETL (Extract, Transform and Load); Extração, Transformação e Carga. De
maneira sucinta, esta é a etapa responsável por pegar os dados da fonte, prepará-
los e armazená-los em um banco de dados multidimensional.
FIGURA 10 – PROCESSO DE EXTRAÇÃO TRANSFORMAÇÃO E CARGA
FONTE: <https://www.dbbest.com/blog/extract-transform-load-
etl-technologies-part-1/>. Acesso em: 19 dez. 2018.
A ETL é responsável por fazer a integração entre as camadas de um Data
Warehouse a partir das fontes de dados, além de tratar e armazenar estes dados
em um banco de dados multidimensional no Data Warehouse. Quando dizemos
que é um forte candidato a ser a etapa mais importante de um Data Warehouse,
isso é dito principalmente porque essa etapa consome cerca de 80% de um
projeto de implementação de um Data Warehouse que seja dedicado a etapa de
ETL (NAGABHUSHANA, 2006).
Na definição de Kimball e Ross (2011), o sistema de ETL é análogo ao
da cozinha de um restaurante, onde os chefes pegam matérias-primas e as
transformam em deliciosas refeições para os clientes. Ou seja, essa etapa coleta
e prepara os dados, ficando por conta das aplicações de Dashboards apenas
servir-se de tais dados, gerando os mais diversos relatórios.
https://www.dbbest.com/blog/extract-transform-load-etl-technologies-part-1/
https://www.dbbest.com/blog/extract-transform-load-etl-technologies-part-1/
72
Análise de Dados usando Dashboards
Cada etapa da ETL tem sua devida tarefa no projeto, vamos compreender
melhor o que cada uma delas significa.
Extração
A extração (extract), como o nome diz, é responsável por extrair os dados
das fontes, ou seja, é processo de recuperação dos dados necessários das fontes
de origem. Tais fontes de dados podem ser as tabelas reais ou simplesmente
cópias que foram carregadas no Data Warehouse (Staging Area).
Um ponto importante da extração é a diversidade de fontes de dados, que
não são necessariamente uma fonte OLTP, podem ser documentos de texto,
XML, JSON, CSV, ou, o caso mais comum, diversas fontes integradas.
A etapa de extração deve ser capaz de ler e compreender os dados da fonte
e copiar apenas os dados necessários, sendo que esta etapa deve ser construída
apta a coletar dados com um período de tempo definido (a cada 30 minutos, por
exemplo) ou ser um mecanismo de coleta em tempo real.
Transformação
A etapa de transformação é a etapa que demanda mais esforço computacional
dentro do processo de ETL, pois suas responsabilidades são diversas.
A primeira trata da integração dos dados, a extração coleta de diversas fontes
coleta, mas a transformação é responsável por integrar cada campo coletado,
transformando-o para um único padrão e deixando apto para armazená-lo no
modelo multidimensional. Esta etapa, literalmente, transforma os dados coletados
das fontes de acordo com os definidos no modelo do Data Warehouse, onde são
realizados pré-processamentos, nos quais são identificados os dados duplicados,
integração entre os dados, substituição de valores, limpeza de campos e toda a
transformação necessária para adequar as fontes de dados.
Um exemplo de uma transformação comum realizada por processos ETL é
relacionado com campos de sexo, em alguns sistemas são “M” para Masculino e
“F” para Feminino, porém em outros está guardado como “H” para Masculino e
“M” para Feminino, em outro ainda, podemos encontrar “1” para Masculino e “2”
para Feminino, cabendo transformá-los para um único formato.
Outro exemplo, que é um caso recorrente em cenários de Data Warehouse,
é o armazenamento do tempo. Cada fonte de origem pode ser armazenada de
uma maneira, tendo de ser padronizadas ao serem armazenadas em um Data
73
Data Warehouse e Business Intelligence Capítulo 2
Warehouse, veja exemplo das datas na figura a seguir. Esse exemplo é marcante
por pegar justamente a consolidação dos dados de diversas fontes, a integração
entre eles, a padronização e o armazenamento em um formato diferente, o do
Data Warehouse.
FIGURA 11 – TRANSFORMAÇÃO E PADRONIZAÇÃO DAS DATAS
FONTE: O autor (2018)
A etapa de transformação também é responsável por resolver desafiadores
problemas oriundos das fontes de dados, como ausência de informação, valores
inválidos, ausência de integridade referencial, violação de regras de negócios,
cálculos inválidos, duplicação de informação, inconsistência de dados e falhas
na modelagem das fontes de dados. Muitas vezes, para resolver os casos acima,
será necessário incorporar métodos avançados como mineração de dados e
machine learning.
Carga
Uma vez as etapas anteriores deixando os dados prontos, já coletados e
transformados, a etapa de carga (load) é responsável por armazenar os dados no
Data Warehouse, no banco de dados multidimensional.
Em um primeiro olhar quando se fala em Carga, parece um processo simples,
pensando em inserções em um banco de dados, no entanto, é um processo
um pouco mais complexo do que se imagina. Na carga, o Data Warehouse é
alimentado com novos dados, de forma que as tabelas do banco de dados
multidimensional sejam atualizadas para conter os novos dados.
Normalmente, o Data Warehouse é colocado off-line durante a carga de
forma que nenhum usuário possa consultá-lo simultaneamente, sendo essa etapa
realizada em períodos de não utilização, na madrugada, por exemplo. Como o
74
Análise de Dados usando Dashboards
armazenamento de dados em ambientes de Data Warehouse, normalmente,
envolve grandes quantidades de dados, a etapa de carga sempre ocorre em um
período regular, por exemplo, diariamente.
ETL na prática. Como funciona?
No mercado existem diversas ferramentas que realizam o processo de ETL,
cada uma com a sua particularidade. Tais ferramentas são softwares específicos,
nos quais você pode identificar sua fonte provedora, selecionar os métodos de
pré-processamentoe transformação, posteriormente selecionando a fonte de
origem (banco de dados multidimensional).
Como dito anteriormente, ETL é um processo, não significa que esteja
amarrado a uma ferramenta, qual será utilizada depende muito do cenário de
aplicação, inclusive há muito que são desenvolvidas ferramentas exclusivas,
a maioria utiliza a linguagem python para isso. No entanto, veja algumas
das principais ferramentas ETL em um artigo que compara seus recursos,
complementarmente em um breve texto sobre a principal ferramenta de ETL
encontrada no mercado, o Pentaho Data Integration.
MAJCHRZAK, Tim A.; JANSEN, Tobias; KUCHEN, Herbert.
Efficiency evaluation of open source ETL tools. In: Proceedings of the
2011 ACM Symposium on Applied Computing. ACM, 2011. p. 287-
294.
Uma vez feita a extração e transformação, a carga será realizada em um
banco de dados Multidimensional, podendo ser explorado através de consultas
OLAP e servir aplicações.
Pentaho Data Integration – Fazendo ETL em estilo
de Minority Report
Aqui abordaremos um relato de experiência para
solucionar um problema relacionado à transferência de
grandes volumes de dados entre sistemas utilizando
Pentaho Data Integration como solução, com isso reduzindo
o tempo de processamento, o esforço de desenvolvimento e
75
Data Warehouse e Business Intelligence Capítulo 2
aumentando o valor agregado para os usuários finais do sistema. A
suíte Pentaho é formada por um conjunto de softwares voltados para
construção de soluções de BI de ponta a ponta, que inclui programas
para extrair os dados de sistemas de origem em uma empresa,
gravá-los em um data warehouse (ou base de dados), limpá-los,
prepará-los e entregá-los a outros sistemas de destino ou mesmo a
outros componentes da suíte para estudar ou dar acesso aos dados
do usuário final.
FIGURA 12 – ECOSSISTEMA PENTAHO
FONTE: O autor (2018)
O Pentaho Data Integration é parte das soluções disponibilizadas pela suíte
Pentaho, possui versões Community e Enterprise, mas a diferença existente entre
as versões não representa impeditivo algum para o uso da versão Community.
A versão Community possui todos os recursos necessários a qualquer
implementação que se deseje realizar e possui vasta disponibilidade de plugins
para serem utilizados, inclusive plugins que geram a documentação de projetos,
como o Kettle Cookbook. Todo o processo de extração e transformação e carga
descrito neste texto foi realizado com o Pentaho Data Integration Community,
versão 7.1.
O Pentaho Data Integration é o componente da suíte Pentaho usado para
criar processos de extração, transformação e carga, assim alimentam o banco de
76
Análise de Dados usando Dashboards
dados. Trata-se da ferramenta mais popular e madura da suíte inteira, com seus
mais de 15 anos de existência. Com o Pentaho Data Integration, é possível fazer
inúmeras operações de Integração de Dados. Como por exemplo:
● Migração de dados.
● Movimentação de grandes volumes de dados.
● Transformação de dados.
● Limpeza de dados.
● Conformidade de dados.
O Spoon
O Pentaho Data Integration é formado por duas categorias de artefatos, Jobs
e Transformações, e estes artefatos são construídos por meio de sua interface
gráfica, o Spoon. O Spoon é a interface gráfica do Pentaho Data Integration, que
facilita na concepção de rotinas e lógica ETL. A seguir, apresentamos a interface
do Spoon.
FIGURA 13 – SPOON
FONTE: <https://www.infoq.com/br/articles/pentaho-pdi>. Acesso em: 22 jan. 2019.
Uma transformação registra o passo-a-passo de como a
extração ou leitura de uma fonte de informação é realizada. É
a transformação que opera sobre os dados. Ela pode conter:
● Leitura de dados de uma tabela, de um banco de dados.
● Seleção de campos específicos de uma tabela.
https://www.infoq.com/br/articles/pentaho-pdi
77
Data Warehouse e Business Intelligence Capítulo 2
● Concatenação de valores de dois campos distintos de uma tabela.
● Divisão de valores contidos em um único campo gerando dois ou mais
novos campos ou linhas.
● Merge de dados de tabelas contidas em bancos de dados diferentes.
● Merge de dados originados em tabelas, arquivos XML, TXT ou CSV,
entre outras fontes de dados.
● Aplicação de expressões regulares em texto para limpeza.
O aspecto mais importante em uma transformação é que ela opera todas as
etapas simultaneamente – uma transformação não tem início ou fim, ela apenas
processa linhas que chegam.
Jobs
Um job é uma sequência operações. Ao contrário de uma transformação,
que opera sobre as linhas de dados em paralelo, um job realiza operações
completas, uma por uma. Ele permite, por exemplo, combinar transformações
em uma sequência específica e, com isto, automatizar uma dada tarefa. Por sua
natureza, ele não fornece muitos recursos técnicos para manusear os dados em
si, deixando isto à cargo das transformações.
É possível conferir a lista completa de funcionalidades dos Jobs e
Transformações que está disponível na Wiki do projeto.
Pan
O Spoon, porém, é só a interface gráfica para criar os processos
de integração de dados. Ele não serve para executá-los em produção,
ou seja, no ambiente sem supervisão humana. Para isso usamos outros
programas, que operam em linha de comando, sem interface gráfica.
O Pan é o programa que executa transformações. Vale a pena mencionar
que tanto jobs quanto transformações podem ser arquivos em um sistema
de arquivos, normal, ou em um repositório em banco de dados. O Pan
pode executar uma transformação a partir de qualquer uma destas origens.
Em geral, as transformações executadas pelo Pan são agendadas em modo
batch, para que possam ser executadas automaticamente em intervalos regulares
por alguma ferramenta de gerenciamento de tarefas como o crontab, por exemplo.
78
Análise de Dados usando Dashboards
Kitchen
Enquanto o Pan executa transformações, o Kitchen executa jobs.
Tal qual ocorre com o Pan, o Kitchen pode executar jobs a partir de
um sistema de arquivos ou de um repositório em banco de dados.
Novamente, tal qual o Pan, jobs são executados em modo batch através do
agendamento no modo batch para serem executados automaticamente em
intervalos regulares por alguma ferramenta de gerenciamento de tarefas como o
crontab, por exemplo.
A tríade Spoon, Pan e Kitchen é o responsável pela criação e execução
de artefatos criados para solucionar um problema de extração, transformação e
carga de dados em um projeto de ETL com o Pentaho Data Integration.
Caso de uso
Segundo Nitin Anand, em seu artigo para o International Journal of Scientific
and Research Publications:
“Um componente importante em um projeto de BI é o processo de Extrair,
Transformar e Carregar (ETL). Ele descreve a coleta de dados de várias fontes
(extrair), sua modificação para combinar o estado desejado (transformação) e sua
importação em um banco de dados ou data warehouse (carga). Os processos
de ETL são responsáveis por até 80% do esforço em projetos de BI. Um alto
desempenho é, portanto, vital para poder processar grandes quantidades de
dados e ter um banco de dados atualizado”.
Recentemente, enfrentamos um cenário em que precisávamos mover dados
de um banco de dados Oracle para serem consumidos por um outro sistema
que também utilizava Oracle como sistema de armazenamento. A necessidade
de se copiar estes dados ocorria devido à natureza da aplicação destino que
necessitava de intensa sumarização de dados e processamento o que não
poderia ser realizado no banco de dados de origem para não comprometer o
seu uso, uma vez que este possui uma natureza transacional, ou seja, é utilizado
diariamente por todos os usuários da empresa em suas atividades. Sumarizar
dados neste ambiente poderia implicar em prejuízo para as operações normais
do dia a dia.
Neste cenário, a tarefa de transferir dados do banco de dados de origem
para o destino era realizadapor meio de um processo de ETL, desenvolvido em
JAVA quando este sistema legado foi entregue pela primeira vez seis anos atrás.
Esta solução se comunicava com os sistemas origem e destino por meio de uma
API que consultava dados de um lado e escrevia do outro lado. APIs são soluções
79
Data Warehouse e Business Intelligence Capítulo 2
tecnológicas concebidas para transferir informação entre sistemas de forma
cadenciada e em pequenas porções. Utilizar esta tecnologia para mover grande
quantidade de dados pode implicar, entre outros problemas, no seguinte:
● Criação de gargalos nos sistemas de origem e destino devido à alta
carga que será movimentada.
● Caso seja utilizado algum mecanismo de ESB (Enterprise Service
Bus), este ambiente pode ficar sobrecarregado devido à alta volumetria
de mensagens, talvez arquivos JSON, que trafegarão por este meio
(middleware).
● Gestão orientada a codificação. Quando a tarefa de transformar dados ou
mesmo mover entre sistemas é endereçada via aplicação desenvolvida
em Java ou outra linguagem de programação, momentaneamente
esta solução pode resolver o problema, mas com o passar do tempo,
e à medida que novas necessidades surgem nas fontes de informação
de origem, modificações necessitarão ser realizadas no código e,
consequentemente, com o passar do tempo o conhecimento e esforço
despendido nesta tarefa vai aumentando. A tendência de se perder
em meio a essa complexidade aumenta, deixando a manutenção do
legado cada vez mais custosa. Devemos sempre pensar no futuro e na
manutenibilidade, que quando mal planejada pode encarecer os custos
de suporte e manutenção de um software.
O cenário descrito, neste texto, trata de um sistema legado, desenvolvido
sem as boas práticas de engenharia de software e que possuía uma natureza
crítica. Além disso, não poderia deixar de funcionar nem por um minuto. Por esta
natureza de alta criticidade, à medida que o ETL em Java falhava, cada vez mais
a fragilidade do sistema destino para o usuário aumentava gerando insegurança.
Com o passar dos anos, essa solução não se mostrou eficiente o bastante
e constantemente apresentava problemas, incluindo a interrupção de seu
funcionamento. Partimos, então, para outras alternativas.
Para solucionar este problema, encaramos o desafio de utilizar o Pentaho
Data Integration. O resultado dessa abordagem será descrito nos próximos
parágrafos.
Características e particularidades do Pentaho Data Integration
O Pentaho Data Integration possui características muito particulares
quando nos referimos à captura de dados em fontes de informações, sejam
elas bancos de dados, arquivos TXT ou CSV, arquivos XML ou JSON ou até
mesmo arquivos DBF. É possível fazer ajustes finos, inclusive com relação ao
80
Análise de Dados usando Dashboards
número de threads que podem ser executadas por um passo na transformação.
Outro aspecto importante e que também pode ser executado com o Pentaho
Data Integration é escolher, a partir de uma fonte de dados, quais informações
desejamos que sejam transferidas para o passo seguinte, ou seja, em uma
tabela de um banco de dados origem, é possível selecionar os campos exatos
que se deseja capturar, em uma planilha eletrônica também podemos selecionar
exatamente as colunas que são necessárias.
A ferramenta é muito flexível e possibilita inúmeros arranjos para que ao final,
após a cópia de dados e transformações destes, tenhamos apenas o desejado.
As integrações que podem ser realizadas com o
Pentaho Data Integration incluem, entre outros recursos:
● Exportar dados para um arquivo em formato texto em uma conta do
Amazon Simple Storage Service (S3).
● Conectar a um serviço JIRA e executar a extração de dados JSON sobre
os resultados.
● Capturar dados da conta do Google Analytics.
● Ler e enviar mensagens binárias para uma fila de mensagens do Apache
Kafka.
● Enviar mensagens para canais ou grupos no Slack.
● Ler conteúdo de textos de vários tipos de arquivos (PDF, DOC etc.),
usando o Apache Tika.
Com o tempo e à medida que usamos cada vez mais o Pentaho Data
Integration, as funcionalidades necessárias para a construção de transformações
que geram valor ficam cada vez mais inteligíveis. Esta curva de aprendizado é
crescente, mas de inclinação suave, pois essa ferramenta é muito intuitiva.
Adotar o Pentaho Data Integration gera valor a um custo comparativamente
menor que o desenvolvimento de ETLs com código. Há algum tempo presenciamos
um cenário onde uma solução para ler um arquivo XML e transformar o conteúdo
deste arquivo em formato CSV para que pudesse ser lido por outro sistema levou
cerca de três meses para ser concluído. Devido à falta de conhecimento em uma
ferramenta robusta de integração de dados via ETL, o time que desenvolveu
esta solução precisou passar por todas as fases de um modelo tradicional de
desenvolvimento de software, em que só a fase de mapeamento das informações de
entrada levou 30 dias para ser concluída. A solução, que nada mais era que um ETL,
foi desenvolvida totalmente em Java por pura falta de conhecimento de ferramentas
de ETL, como o Pentaho Data Integration. O valor investido nestes três meses de
desenvolvimento certamente poderia ter sido investido em outras iniciativas.
81
Data Warehouse e Business Intelligence Capítulo 2
Quando nos referimos a gerar valor, estamos nos referindo não apenas a
satisfazer as necessidades de nosso cliente ou unidade de negócio, estamos
também nos referindo a salvar recursos financeiros evitando o desperdício
de implementações manuais de código para realizar tarefas de um ETL. Com
investimento em um código personalizado há uma falsa impressão de redução
de custos, já que o custo inicial é baixo, mas os custos com suporte e melhorias
crescem à medida que as necessidades dos negócios mudam.
Mover grandes quantidades de dados por meio de código, utilizando APIs
pode, entre outras situações, sobrecarregar um barramento de serviços e cedo ou
tarde o histórico de desenvolvimento desta solução irá se perder ou, como ocorreu
com o sistema legado mencionado neste artigo, deixar de entregar resultados e
se tornar um problema para o sistema e os times de desenvolvimento e, acima de
tudo, a empresa.
O uso de um ETL consolidado e largamente utilizado como o Pentaho
Data Integration traz maior flexibilidade, menor tempo de desenvolvimento e
melhor estruturação para tarefas como as discutidas neste artigo. Entre as
principais características do Pentaho Data Integration, podemos destacar:
Abordagem orientada a modelos com o uso de metadados:
● Intuitivo com possibilidade de responder facilmente a perguntas tais
como o que fazer e como fazer.
● Realizar transformações complexas com zero codificação.
● Representar graficamente fluxos de transformações de dados
(transformações) e orquestração de tarefas (jobs).
● Arquitetura extensível por meio de plugins, sem contar o fato de que é
Software Livre e pode ser modificado à vontade.
Não é fácil realizar experimentos com processos de desenvolvimento, mas
ocasionalmente nos deparamos com o caso das duas Alemanhas, que é o mais
perto que podemos chegar de um experimento de laboratório com pessoas: duas
equipes completamente separadas, desenvolvendo a mesma coisa a partir do
mesmo ponto inicial e condições semelhantes. As escolhas ao longo do caminho
são, então, a única explicação para quaisquer diferenças de resultados. No
nosso caso, a diferença é a opção de tecnologia para resolver um problema de
integração de dados e os fatos claramente favorecem a ferramenta de um ETL
sobre o código puro. Se ainda havia alguma dúvida acerca da vantagem em se
usar uma ferramenta de ETL em relação a desenvolver a mesma operação em
código, os fatos aqui descritos resolveram-na completamente: ferramentas de
82
Análise de Dados usando Dashboards
O que é ETL?
Por que o processo de extração, transformação e cargaé tão
importante para o processo de Data Warehousing?
ETL dão resultados vastamente superiores à criação de código a um menor custo
e em um menor prazo.
FONTE: Pentaho Data Integration – ETL em Software Livre. Disponível em:
<https://www.infoq.com/br/articles/pentaho-pdi>. Acesso em: 22 jan. 2019.
4 O Cubo De Dados E As Consultas
Olap
Sabemos que os dados de um Data Warehouse podem ser explorados por
diversas perspectivas, ou seja, explorando a multidimensionalidade do modelo
criado. O cubo de dados é uma representação abstrata da representação analítica
dos dados armazenados multidimensionalmente. De modo simples, o cubo é uma
metáfora visual. Os dados são vistos de acordo com as dimensões.
A figura a seguir mostra o exemplo do modelo multidimensional em
sua representação em forma de cubo, note que essa é uma das possíveis
representações, como o cubo é uma metáfora, a figura apresenta apenas o
número possível para este: três dimensões. Cada cubo representa um valor
de venda, e as faces do cubo representam as dimensões de análise: produto,
fornecedor e tempo.
FIGURA 14 – REPRESENTAÇÃO MULTIDIMENSIONAL
NA FORMA DE UM CUBO DE DADOS
FONTE: O autor (2018)
83
Data Warehouse e Business Intelligence Capítulo 2
OLAP vs OLTP na prática
As siglas OLTP e OLAP são bastante utilizadas no
universo do Business Intelligence (BI), porém, ambas possuem
conceitos divergentes e são aplicadas em contextos diferentes.
Neste artigo entenderemos melhor cada uma.
O OLTP, do inglês “Online Transaction Processing”, é o
termo usado para se referir aos sistemas transacionais, ou seja,
os sistemas operacionais das organizações. São utilizados
no processamento dos dados de rotina que são gerados
diariamente através dos sistemas informacionais da empresa
No que se refere aos cubos, um conceito que comumente é empregado é
o de cuboide. Um cuboide é uma combinação de dimensões, é uma maneira
visual de compreender a análise multidimensional dos dados. No exemplo a
seguir, veremos um cubo de dados que contém 4 dimensões (tempo, item, local e
fornecedor) isto implica que para realizar a análise serão 16 cuboides gerados a
partir dele, conforme mostra a figura a seguir.
FIGURA 15 – CUBOIDES
FONTE: Pan (2017)
Ainda segundo Pan (2017), um cuboide básico possui os dados mais
detalhados, exceto os próprios dados de origem; é composto de todas as
dimensões, como (tempo, item, localização, fornecedor). Por exemplo, um usuário
pode explorar o cuboide base (tempo, item, localização, fornecedor) ao longo da
dimensão "fornecedor" para cuboide (hora, item, local). E neste caso, o cuboide
base é o cuboide parental, ou seja, que representa uma hierarquia e um cuboide
3D (tempo, item, localização) que representa uma hierarquia pai → filho.
84
Análise de Dados usando Dashboards
e dão suporte às funções de execução do negócio organizacional.
Já o OLAP, do inglês “Online Analytical Processing”, trata da
capacidade de analisar grandes volumes de informações nas mais
diversas perspectivas dentro de um Data Warehouse (DW). O OLAP
também faz referência às ferramentas analíticas utilizadas no BI
para a visualização das informações gerenciais e dá suporte para as
funções de análises do negócio organizacional. Estes sistemas se
diferenciam em outros aspectos, são eles:
QUADRO 1 – COMPARATIVO OLAP X OLTP
FONTE: <https://canaltech.com.br/business-intelligence/o-que-
significa-oltp-e-olap-na-pratica/>. Acesso em: 22 jan. 2019.
85
Data Warehouse e Business Intelligence Capítulo 2
Em resumo podemos dizer que a grande diferença está no fato
de que um está direcionado ao funcionamento dentro do ambiente
operacional (OLTP) e o outro com foco essencialmente gerencial
(OLAP).
FIGURA 16 – COMPARAÇÃO ENTRE ARQUITETURAS OLAP X OLTP
FONTE: <https://canaltech.com.br/business-intelligence/o-que-
significa-oltp-e-olap-na-pratica/>. Acesso em: 22 jan. 2019.
Com as diferenças mostradas, percebemos que não se trata de um
conceito ser melhor que o outro, mas sim de conceitos complementares
e com objetivos distintos dentro da organização. Cabe à empresa se
posicionar e utilizar ambos da melhor forma possível para conciliar
desempenho operacional e o resultado estratégico da organização.
FONTE: <https://canaltech.com.br/business-intelligence/o-que-significa-oltp-e-olap-na-
pratica/>. Acesso em: 22 jan. 2019.
86
Análise de Dados usando Dashboards
Os bancos de dados relacionais ainda são maioria em sistemas de informação
denominados como OLTP, uma vez que têm ênfase em garantir a integridade
durante as transações no uso do sistema. Uma vez que neste momento já
passamos pela ETL, a partir de agora os sistemas OLTP podem fazer parte de um
Data Warehouse apenas na forma de fontes de dados.
Em ambientes de Data Warehouse, nos quais se tem as análises como
principal objetivo, serão realizadas operações OLAP (Online Analytical Processing
– Processamento Analítico On-line). De maneira simples, OLAP é a capacidade do
sistema processar os dados analiticamente, explorando a multidimensionalidade
do banco de dados em que os dados estão armazenados. O foco da realização de
operações OLAP é o processamento on-line de dados com foco em análise para
tarefas de tomada de decisão. As análises ocorrem em um tempo mais rápido,
objetivando-se atingir tempo real nas consultas, são executadas de maneira
eficiente quando comparadas com as mesmas consultas executadas em um
ambiente OLTP.
Os denominados Servidores OLAP, que implementam esta arquitetura,
sempre empregam uma visão multidimensional dos dados, fazendo com que haja
grande aplicabilidade quando integrados a bancos de dados multidimensionais.
No que se refere a estas implementações, elas podem ser ROLAP, MOLAP e
HOLAP. Segundo Vieira (s.d.), a definição destes servidores tem o seguinte:
ROLAP – Relational Online Analytical Processing: partindo do nome, nessa
implementação, o servidor para manipular os dados será implementado utilizando
um sistema gerenciador de banco de dados relacional. Durante a implementação,
o servidor é constituído de uma camada de interface entre o modelo relacional
e o modelo multidimensional, pois transformam as requisições multidimensionais
do usuário em rotinas de acesso às tabelas, que armazenam os dados. Sua
vantagem é a eficiência no armazenamento de dados esparsos e o segredo está
na modelagem dos dados.
MOLAP – Multidimensional Online Analytical Processing: nessa
implementação específica para a multidimensionalidade, para este fim e para
isto armazenam e executam operações diretamente sobre uma matriz de dados.
Se os dados não forem esparsos, esses servidores são mais eficientes em
armazenamento e recuperação do que os servidores ROLAP, uma vez que sua
arquitetura é projetada especificamente para este fim.
HOLAP – Hybrid Online Analytical Processing: em uma aplicação híbrida,
em uma abordagem atual próxima às aplicações mobile que usam um misto
de tecnologias, esta implementação utiliza uma integração entre as duas
abordagens vistas anteriormente. Os servidores HOLAP adotam uma forma de
87
Data Warehouse e Business Intelligence Capítulo 2
armazenamento em dois níveis, um para dados densos, que são colocados
em matrizes e outro para dados esparsos, que são alocados em tabelas. Ou
seja, torna-se uma aplicação robusta integrando tanto matrizes quanto tabelas
armazenando o modelo multidimensional, o que demanda um maior requisito de
equipe para desenvolvê-lo.
DOLAP – Desktop Online Analytical Processing: esse tipo de OLAP não se
refere à implementação do armazenamento, mas à distribuição de dados. Essa
abordagem tem como objetivo otimizar as consultas através do armazenamento
no computador do usuário. Isto não significa que não haverá um servidor que
armazena os dados, mas que o computador do usuário também receberá os
dados. O conjunto de dados multidimensionais deve ser criado noservidor e
uma cópia é transferida para o desktop. Utilizando esta técnica é possível trazer
portabilidade aos usuários OLAP, que não possuem acesso direto ao servidor,
no entanto, têm que ter um cuidado com o período da análise, uma vez que o
ambiente Desktop não pode ficar diferente do servidor OLAP.
Independentemente da estratégia de implementação de um servidor OLAP,
a arquitetura deverá prover recursos para extrair informação e conhecimento
por intermédio do modelo multidimensional. Utilizando as operações OLAP,
é possível navegar pela hierarquia dos dados, explorando o cubo de dados, a
multidimensionalidade e a granularidade dos dados.
Neste momento, você deve ter se perguntado o que significa granularidade.
A granularidade vem realmente de grão, qual o menor grão (dado) possível de ser
armazenado, o grão é o menor nível da informação e é definido de acordo com
as necessidades elencadas no início do projeto. Ele é determinado para cada
tabela Fato, já que normalmente as Fatos possuem informações e granularidades
distintas. Segundo Elias (2014), é importante entender o relacionamento existente
entre o detalhamento e a granularidade. Quando falamos de menor granularidade,
ou granularidade fina, significa maior detalhamento (menor sumarização)
dos dados. Maior granularidade, ou granularidade grossa, significa menor
detalhamento (maior sumarização). Assim podemos notar que a granularidade e
o detalhamento são inversamente proporcionais.
Tradicionalmente, os servidores permitem a exploração dos dados mediante
à realização das operações OLAP e operam aumentando e diminuindo a
granularidade dos dados. Tais operações são:
Slice: em português essa operação significa fatiar. Assim, retornam valores
específicos de uma dimensão do cubo, pode-se dizer que fatia uma parte do
cubo a ser visualizado. Pode-se dizer que seleciona uma dimensão específica
de um determinado cubo e fornece um novo subcubo. A figura a seguir mostra
88
Análise de Dados usando Dashboards
um exemplo de uma operação Slice, onde inicialmente existem três dimensões
(cidade, tempo e itens) e após a realização da operação foi aplicado um filtro
de tempo selecionado apenas o bimestre Q1, sendo assim, fatiou-se mostrando
apenas duas dimensões.
FIGURA 17 – OPERAÇÃO DE SLICE
FONTE: Han, Pei e Kamber (2011)
Dice: o tempo dice não tem uma tradução específica em português, mas
o significado mais próximo é “parte de um cubo”. Esta operação são slices
consecutivos, permitindo gerar diversos cortes no cubo, gerando um subcubo.
No exemplo da figura a seguir, notamos que o círculo do meio representa um
conjunto de filtros, tais filtros podem ser compreendidos como slices que em
conjunto formam um dice.
89
Data Warehouse e Business Intelligence Capítulo 2
FIGURA 18 – OPERAÇÃO DE DICE
FONTE: Han, Pei e Kamber (2011)
Drill-Down: este operador navega a partir de dados, obtendo um maior nível
de detalhamento, aproximando-se da granularidade mínima. Ao aplicar essa
operação, está descendo uma hierarquia de conceitos para uma dimensão. A
figura a seguir, assim como nos exemplos anteriores, mostra um cubo inicial,
quando realizada uma operação de drill-down, que expande os dados do cubo,
trazendo as mesmas informações, que antes eram mostradas por bimestre, agora
organizadas por meses. Pode-se dizer que a operação de drill-down expande o
cubo de dados.
90
Análise de Dados usando Dashboards
FIGURA 19 – OPERAÇÃO DE DRILL-DOWN
FONTE: Han, Pei e Kamber (2011)
Roll-Up: oposto do operador drill-down, sumariza as informações, diminuindo
o nível de detalhes. A operação de roll-up executa a agregação em um cubo
de dados. A figura seguinte mostra que a hierarquia está definida em palavras
e textos. A operação de roll-up, no exemplo, agrega os dados de palavras para
textos, gerando um cubo resultante com o total de ocorrências por textos, ao invés
do cubo inicial que agrupava por palavra.
91
Data Warehouse e Business Intelligence Capítulo 2
FIGURA 20 – OPERAÇÃO DE ROLL-UP
FONTE: Han, Pei e Kamber (2011)
Uma vez conhecido os operadores OLAP, podemos explorar as dimensões
de um Data Warehouse. Essas operações são executadas no servidor OLAP e
consumidas pelas ferramentas de visualização de dados.
5 Camada De Apresentação
Dos Dados E Ferramentas De
Visualização
Seguindo a arquitetura proposta por Kimball e até mesmo na mesma lógica
de Inmon, as fontes de dados são definidas pelo cenário de aplicação, a área
de preparação definido pela ETL, que ao fim realiza a carga no banco de dados
multidimensional. O servidor OLAP representa a camada de apresentação,
fornecendo os dados através de suas operações.
92
Análise de Dados usando Dashboards
Uma vez feito isso, os dados já estão pré-processados, limpos e
armazenados, deste modo estando prontos para que sejam consumidos pelas
aplicações. As ferramentas de apresentação podem ser uma aplicação específica
ou, o caso mais convencional, a utilização de uma ferramenta para a geração de
dashboards. Tendo em vista que o objetivo do livro é a construção de dashboards,
nosso próximo capítulo será dedicado a discorrer pelas ferramentas em detalhes.
O que é um cubo de dados?
Qual é a principal diferença entre OLAP e OLTP?
Considerações Finais
Prezado aluno!
Chegamos ao fim do Capítulo 2, esperamos que tenha sido proveitoso para
você. Este capítulo teve como foco trazer conceitos sobre Data Warehouse e lhe
propiciar conhecimento para construí-lo.
Iniciamos o capítulo relembrando o conceito de business intelligence,
relembrando que é uma metodologia e não uma ferramenta, apresentando assim
a arquitetura de um Data Warehouse como uma das principais ferramentas.
Durante esse capítulo, você pôde aprender os conceitos essenciais de Data
Warehouse, conheceu a etapa de ETL, que consome 80% do processo de Data
Warehousing. Na ETL aprendeu em detalhes o que é extração, transformação e
carga.
Em nosso estudo, você desmistificou um dos maiores dilemas do estudo de
Data Warehouse: a diferença entre OLAP e OLTP. Nesse momento foi importante
nosso aprendizado sobre modelagem multidimensional. No estudo sobre OLAP
vimos os tipos de servidores e como é feita a implementação.
Durante o capítulo discutimos tópicos atuais sobre ferramentas e técnicas de
coleta e processamento, que temos certeza de que serão úteis no seu dia a dia
como analista de dados. Lembre-se de que tecnologia evolui diariamente, por isso
93
Data Warehouse e Business Intelligence Capítulo 2
nunca deixe de se atualizar sobre o que foi visto até agora.
Dito isto, você está preparado para ir à etapa final do nosso livro, que é o
momento de pegar os dados gerados e apresentá-los ao gestor em forma de
dashboards, que será o tema do Capítulo 3, nosso capítulo final.
Referências
BRESLIN, Mary. Data warehousing battle of the giants. Business Intelligence
Journal, v. 7, p. 6-20, 2004.
ELIAS, DIEGO. Tipos de métricas existentes no Data Warehouse. Disponível
em <https://canaltech.com.br/business-intelligence/Tipos-de-metricas-existentes-no-
Data-Warehouse/>. Acesso em 12 dez 2012.
HAN, Jiawei; PEI, Jian; KAMBER, Micheline. Data mining: concepts and techniques.
Elsevier, 2011.
INMON, William H. Building the data warehouse. John wiley & sons, 2005.
KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete guide to
dimensional modeling. John Wiley & Sons, 2011.
NAGABHUSHANA, S. Data Warehousing, OLAP and Data Mining. New Delhi,
Índia: New Age International, 2006.
PAN, JULIAN. A creative visualization of OLAP cuboids. Disponível em <https://
www.ebayinc.com/stories/blogs/tech/a-creative-visualization-of-olap-cuboids/>.
Acesso em: 10 nov. 2018.
RANGARAJAN, S. Data Warehouse Design–Inmon versus Kimball. Retrieved
Junio, v. 1, p. 2018, 2016.
SINGH, Harry; SINGH, Harry S. Data warehousing: concepts, technologies,
implementations, andmanagement. New Jersey: Prentice Hall PTR, 1998.
VIEIRA, Marina Teresa Pires; FELIPE, Joaquim Cezar. DATA WAREHOUSE, s.d.
https://www.ebayinc.com/stories/blogs/tech/a-creative-visualization-of-olap-cuboids/
https://www.ebayinc.com/stories/blogs/tech/a-creative-visualization-of-olap-cuboids/
94
Análise de Dados usando Dashboards
CAPÍTULO 3
Criação de Dashboards na Prática
Ao final do capítulo o acadêmico deverá ser capaz de saber/fazer:
• saber conceitos sobre dashboards;
• fazer métricas e suas aplicações em cenários de business intelligence;
• estabelecer as principais ferramentas do mercado
para construção de dashboards;
• compreender o melhor cenário de aplicação para cada uma delas;
• construir seus próprios dashboards a partir dos dados fornecidos;
• utilizar as ferramentas explanadas no capítulo.
96
Análise de Dados usando Dashboards
97
Criação de Dashboards na Prática Capítulo 3
1 Business Intelligence E
Dashboards
Nos capítulos anteriores, você foi contextualizado sobre o volume de dados
que geramos e que iremos gerar cerca de 44 trilhões de gigabytes até 2020,
tornando um desafio coletar, pré-processar e apresentar tais dados para gerar
insights poderosos para a tomada de decisão. O processo de business intelligence
é uma metodologia para extração de tais insights para as organizações. Como
ferramenta estamos estudando a implementação de um Data Warehouse para
suprir as tarefas de suporte à decisão.
Vimos que um Data Warehouse vai além de ser apenas um armazém no
conceito de um banco de dados, é toda uma arquitetura de coleta e preparação
de dados. Os dados são coletados das fontes provedoras (podendo ser um
sistema OLTP ou integração de várias fontes de dados), que são preparados
(ETL) e disponibilizados em um servidor OLAP. Neste processo, a última
camada é a utilização de ferramentas de acesso aos dados e será a partir daqui
que entenderemos melhor a função dos dashboards em cenários de business
intelligence.
Os dashboards, algumas vezes chamados de business intelligence
dashboards (principalmente no idioma inglês), independente de nomenclatura,
sua função é sua própria tradução literal: painel. Para compreender melhor,
vamos pegar a essência de um painel, o painel de um carro, ou até melhor, de um
avião. Este painel tem uma importante função, mostrar tudo que está acontecendo
durante o percurso, a posição geográfica onde está, o status do combustível,
o funcionamento das peças, entre muitas outras informações. Você até pode
navegar sem um painel, mas sem dúvida que se utilizando dele é possível analisar
a viagem por diversas perspectivas e tomar as melhores decisões, que o farão ter
a melhor viagem possível. A figura a seguir nos mostra esta analogia, de um lado
um dashboard de dados e do outro o painel de um avião.
98
Análise de Dados usando Dashboards
Lembre-se de que ter uma grande quantidade de dados não fará
sentido sem um processo eficiente de modelagem e de tratamento.
Outro ponto importante é você saber desde já que apesar de os
dashboards comporem a camada de ferramentas de visualização
de um Data Warehouse, não necessariamente precisam de um
desenvolvedor para que se possa utilizar um dashboard, você pode
integrá-los com qualquer dado armazenado em seu computador.
FIGURA 1 – PAINEL DE DADOS X PAINEL DE UM AVIÃO
FONTE: O autor (2018)
Quando tratamos de um cenário corporativo, um dashboard tem o mesmo
objetivo de um painel de voo: mostrar tudo que está acontecendo em uma
organização. Vamos pensar em uma indústria multinacional, o painel deve mostrar
o número de funcionários contratados, o número de funcionários dispensados, o
número de matéria-prima, o número de produtos produzidos, o custo da produção,
o número de funcionários envolvidos, o lucro sendo avaliado por diversas
perspectivas, enfim, ser literalmente um painel sobre tudo que está acontecendo.
Quanto mais informações forem trazidas, mais eficiência decisória o gestor da
empresa terá em mãos.
Um dashboard é uma ferramenta de visualização de dados que exibe em
uma única tela o status de métricas de análise de negócios, indicadores e pontos
de dados importantes para uma organização. É claro que ele pode ser dividido em
vários relatórios, mas o ideal é que você pense nele como um único painel a ser
projetado em uma TV de 50 polegadas na sala do CEO mostrando indicadores a
todo o momento, ou seja, é uma ferramenta para mostrar visualmente os dados
que estão armazenados em um Data Warehouse.
99
Criação de Dashboards na Prática Capítulo 3
Notoriamente, ter eficiência no emprego de um dashboard é resultado de
um processo de data warehousing até as ofertas das consultas OLAP. Porém,
algumas vezes são encontradas dificuldades no uso de dashboards, que resultam
de um processo mal feito de preparação de dados (por isso a importância de
termos estudado a fundo o processo de Data Warehousing) ou, o caso mais
comum, que é a dificuldade de instalar e utilizar as ferramentas de dashboard.
Embora a maioria das ferramentas de dashboard seja relativamente de
rendimento simples, ao menos em sua instalação e recursos básicos com baixa
curva de aprendizagem, há uma grande dificuldade em se obter indicadores
de valor. Por isso, em sua maioria as empresas geralmente precisam usar
profissionais de TI para implementar a tecnologia. Lembramos que conforme visto
anteriormente, profissionais que têm entendimento de dados são valorizados pelo
mercado, principalmente, pelo fato de poderem preparar os dados e fornecer
dashboards eficientes, em que o tomador de decisões atua com maior precisão.
Houve um tempo em que as ferramentas de dashboards eram limitadas,
com gráficos tradicionais, o que tornava difícil a visualização por parte do gestor.
Atualmente, as ferramentas são extremamente completas, com uma infinidade de
gráficos (barra, lista, geográfico, frequência, entre muitos outros que estudaremos
adiante). E este é um ponto importante, o fato de existirem diversas opções
gráficas pode ser um agravante, uma vez não utilizadas com cautela podem gerar
gráficos desnecessários e errôneos. Assim, o papel de um profissional de dados
é fundamental, não somente na construção de estrutura para armazená-los, mas
para construir os dashboards em si.
Sobre dashboards com diversos tipos de informações no modo gráfico, a
figura a seguir mostra um dashboard de uma determinada organização trazendo
diversas opções.
No dashboard podemos notar um gráfico com números de seguidores em
mídias sociais (I), um gráfico de barras mostra dados do Google Analytcs com
o desempenho do site institucional (II), outro traz informações sobre acessos
normais comparando com acessos pagos (III).
Em outro gráfico os dados dos vídeos acessados (IV), os dados sobre as
ligações recebidas e o tempo médio de ligação são mostrados em um gráfico de
frequência (V), as vendas da empresa podem ser vistas tanto em um valor inteiro
comparando com o anterior (VI) tanto como pode ser exibida na forma dos países
que que mais consomem (VII) e ao final nota-se um gráfico de prováveis clientes
(VIII).
100
Análise de Dados usando Dashboards
Note que este é apenas um exemplo genérico e que como citado
anteriormente até chegar aos dados que serão visualizados é necessário um
trabalho de preparação para que possam ser consumidos.
FIGURA 2 – DASHBOARDS COM MÚLTIPLOS GRÁFICOS
FONTE: O autor (2018)
Os dashboards são cada vez mais vistos como ferramentas essenciais para
que as empresas obtenham insights de longo e curto prazo a partir dos dados
armazenados nos Data Warehouses, que permitam tomada de decisões e análise
de dados mais bem informadas. O emprego destas ferramentas permite que as
empresas tornem os dados gerados diariamente utilizáveis por tomadores de
decisão. Os designs sofisticados e coloridos dos Dashboards fornecem diversas
possibilidades de visualizaçãopara os dados armazenados, tornando o processo
de análise de dados mais amigável para os tomadores de decisão.
Antes de aprofundarmos nosso estudo prático conhecendo as ferramentas,
é importante conhecermos o viés de negócios sob o qual os dashboards são
construídos, para isso vamos conhecer quais os tipos de dashboards existentes.
101
Criação de Dashboards na Prática Capítulo 3
ESTUDANDO “OS TIPOS DE DASHBOARDS”
Um dos maiores desafios das empresas que trabalham
com dados e performance, hoje em dia, é conseguir monitorar
a evolução de todos os resultados de seus negócios de acordo
com métricas e objetivos definidos anteriormente. Isso acontece
porque, sem uma plataforma que permita uma visão mais completa
de todas essas informações, o trabalho do profissional de
business intelligence torna-se muito mais complexo e operacional.
Os dashboards, de maneira geral, são uma ferramenta
de visualização de dados que têm como objetivo visualizar
seus Key Performance Indicators (ou KPIs, como são
chamados os principais indicadores de performance
estabelecidos) e métricas importantes para o seu negócio.
Além disso, os painéis permitem que todos os usuários
entendam as análises realizadas, compilando dados e
visualizando tendências e ocorrências para possíveis insights.
Muitas empresas ainda utilizam vários serviços e
plataformas para rastrearem seus KPIs e suas métricas, o que
consome tempo e recursos para que essa análise seja feita e
entendida da melhor maneira possível. Os dashboards utilizam
dados brutos dessas origens, planilhas e bancos de dados
para criar tabelas, gráficos e medidores que permitem que
seus usuários possam visualizar e entender imediatamente
as principais métricas que estão procurando. Eles simplificam
os relatórios que devem ser gerados no final do mês,
permitindo que os profissionais consultem informações a
qualquer momento, sem uma preparação anterior necessária.
Existem três tipos comuns de dashboards utilizados
atualmente, em que suas diferenças dizem respeito à área de
uso e amplitude da informação. Cada um desses tipos pode
ser utilizado de acordo com uma especialidade específica,
como marketing, vendas, gestão de parceiro de canal, suporte,
finanças, entre outros. São eles:
1. Dashboards operacionais: o que está acontecendo agora?
Dashboards operacionais rastreiam o desempenho das
102
Análise de Dados usando Dashboards
atividades operacionais, que são as atividades diárias que mantêm
seu negócio em funcionamento. Por exemplo, um dashboard de
visão diária da web consegue rastrear o desempenho da internet por
hora em relação a objetivos predeterminados para uma equipe de
marketing digital. A ferramenta, portanto, é utilizada para monitorar
processos de negócios que mudam com frequência, além de
acompanhar o desempenho atual de métricas e KPIs.
Em comparação com os outros tipos de painéis, esses dados
são atualizados com uma frequência muito maior, às vezes até
mesmo de minuto a minuto. Dashboards operacionais são projetados
para serem exibidos ao longo do dia, e utilizados para monitorar
progresso em direção à um alvo. Esse tipo de dashboard pode ser
utilizado de diferentes maneiras em cada área de uma empresa,
como por exemplo:
● Departamento de fabricação: os gerentes possuem dois pontos de vista
para se basearem – no início, a taxa de retorno por exemplo pode ser
considerada como um valor mensal. Então, poderia ser útil compará-la
com o que era esperado ou planejado anteriormente. A comparação das
taxas reais é extremamente importante para as empresas.
● Departamento de vendas: uma das maiores vantagens dos painéis
operacionais é a possibilidade de investigar os mesmos dados de
diversas perspectivas. No caso desse departamento, é possível,
portanto, verificar as vendas reais, compará-las com as de um mês
anterior e, finalmente, indicar se a meta foi atingida ou não. Além disso,
o painel pode agrupar os dados de vendas por pessoas ou também
preparar uma lista dos melhores clientes, além de controlar atividades
como o número de propostas pendentes.
● Departamento de atendimento: por meio dos painéis, funcionários
e gerentes podem verificar o número de chamadas de suporte ou
reclamações por mês, por exemplo. Essas são estatísticas importantes
ao tentar melhorar a eficiência dos serviços e, consequentemente, a
imagem da empresa.
● Departamento de recursos humanos: podemos distinguir vários fatores
mensuráveis, como a taxa de retenção dos funcionários e a pontuação de
satisfação dos colaboradores.
Confira exemplos de dashboards operacionais do nosso Reamp Datahub:
103
Criação de Dashboards na Prática Capítulo 3
FIGURA 3 – DASHBOARD OPERACIONAL
FONTE: <reamp.com.br/blog/2018/09/dashboards-o-que-sao-e-
quais-sao-os-seus-tipos/>. Acesso em: 2 dez. 2018.
2. Dashboards estratégicos: acompanhamento dos KPIs
Os dashboards estratégicos gerenciam atividades de nível
superior, mostrando informações importantes sobre o desempenho
geral de um negócio e oportunidades. Normalmente, incluem
informações relevantes para a equipe executiva, como vendas ano a
ano ou satisfação geral do cliente durante um período de tempo mais
longo. Como estão sendo utilizados no nível mais alto da hierarquia
da empresa, é possível aprofundar-se nos níveis mais baixos para
obter informações detalhadas de cada um deles.
Isso significa que essa ferramenta monitora o status dos
principais KPIs. KPI é a sigla para o termo em inglês Key Performance
Indicator, que significa indicador-chave de Desempenho. Esse
indicador é utilizado para medir o desempenho dos processos de
uma empresa e, com essas informações, colaborar para que alcance
seus objetivos.
Os dados por trás de um dashboard estratégico são atualizados
periodicamente, mas em intervalos menos frequentes do que um
dashboard operacional. Painéis estratégicos podem ser visualizados
uma vez por dia, ajudando os executivos a permanecerem a par dos
KPIs de toda a empresa por meio de visualizações de dados simples.
104
Análise de Dados usando Dashboards
Podemos dividir os usos e métricas mais comuns dos painéis
estratégicos em cada unidade de negócios adequada para eles:
● Departamento de fabricação: nesse caso, as métricas ligadas à produção
parecem as mais importantes. Então, com o painel, podemos verificar a
taxa de retorno do produto, por exemplo, e investigar as tendências – se
a taxa diminui ou não – e com que rapidez.
● Departamento de vendas: os painéis são focados principalmente nos
resultados de vendas e em suas tendências e mudanças.
● Departamento de atendimento: o contato com os clientes é extremamente
importante. Portanto, mais atenção é dada a essa área e os painéis
permitem medir índices como o número de reclamações, por exemplo.
● Departamento de recursos humanos: todas as métricas relativas a
pessoas (funcionários da empresa) são extremamente importantes
para que essa área mantenha o fluxo do negócio. A taxa de retenção de
funcionários, por exemplo, é um dos dados que pode ser monitorado por
esse painel.
FIGURA 4 – DASHBOARD OPERACIONAL
FONTE: <reamp.com.br/blog/2018/09/dashboards-o-que-sao-e-
quais-sao-os-seus-tipos/>. Acesso em: 2 dez. 2018.
105
Criação de Dashboards na Prática Capítulo 3
3. Dashboards analíticos: visão geral dos dados para
descobrir tendências
Permitem que as empresas tenham uma visão granular de
seus dados para descobrir padrões e tendências específicas.
Graças a esse tipo de dashboard, os gerentes têm a possibilidade
de controlar como o mercado está reagindo às ações da empresa.
Por exemplo, o dashboard operacional pode mostrar que 90% das
faturas de clientes da empresa estão sendo pagas a tempo e 10%
estão atrasadas. Por meio do analítico, a empresa pode investigar
esses 10% para entender os padrões e fatores em comum que estão
influenciando no atraso desses pagamentos.Ou seja, essa
ferramenta analisa grandes volumes de dados para permitir que os
usuários investiguem tendências, prevejam resultados e descubram
insights. São mais comuns em ferramentas de business intelligence
porque são normalmente desenvolvidos e projetados por analistas
de dados. Os dados por trás de um dashboard analítico devem ser
precisos e atualizados com pouca frequência.
Há muitos fatores e métricas que podem ser medidos
com os painéis táticos, mas eles têm uma coisa em comum
– todos eles estão sendo medidos em relação à métrica pré-
definida. Então, não é tão importante medir o objetivo em si,
mas verificar quão diferente é o valor planejado da execução
real. Para ilustrar como pode ser utilizado em uma empresa:
● Departamento de fabricação: nele, um sistema de controle completamente
novo pode ser implementado. É realmente um aspecto importante, e
que antes era difícil de ser operado. A qualidade é fundamental no caso
desse setor, e os painéis analíticos podem ser utilizados para estabelecer
reuniões regulares de revisão de qualidade.
● Departamento de vendas: classificações e relatórios detalhados são
indispensáveis para a tomada de decisões. Portanto, graças a esses
painéis, podemos ver não apenas o total, mas também dados sobre a
venda de um produto, como por exemplo o valor da venda de sapatos
da empresa no Brasil. Assim, os gerentes também podem decidir lançar
cada produto no mercado em uma determinada data.
● Departamento de atendimento: os painéis táticos fornecem habilidades
de treinamento ampliadas, o que é importante durante a implementação
de um novo software de help desk, por exemplo.
● Departamento de recursos humanos: suportam a introdução do plano
de participação nos lucros, por exemplo, o que certamente influencia
a moral dos funcionários. Considerando o departamento de recursos
106
Análise de Dados usando Dashboards
humanos, os recrutadores também deveriam ser mencionados
já que são indispensáveis na busca de talentos para a empresa.
FONTE: <reamp.com.br/blog/2018/09/dashboards-o-que-sao-e-quais-
sao-os-seus-tipos/>. Acesso em: 2 dez. 2018.
Acima vimos as abordagens mais gerenciais no que se refere à criação
de dashboards, tendo como objetivo dar continuidade aos estudos envolvendo
a construção de um Data Warehouse e para isso estudaremos as principais
ferramentas de dashboard do mercado levando em consideração a usabilidade,
custo benefício, emprego no mercado de trabalho e trabalhos acadêmicos
relacionados.
DICAS GERAIS SUPERSTORE: Disponível em: <https://www.kaggle.
com/pruthvi1995/superstore-sales>. Acesso em: 23 jan. 2019.
O que é um dashboard? Por que leva esse nome?
Quais são os tipos de dashboard?
2 Ferramentas De Dashboard
Até agora você compreendeu o conceito de coleta, pré-processamento e
visualização de dados. Por último, compreendemos qual é a finalidade de um
dashboard neste cenário. Agora você vai conhecer um arsenal com algumas
ferramentas para geração de Dashboards.
2.1 Pentaho Business
No que se refere ao processo de ETL e de Data Warehousing, um nome
de referência é Pentaho. O que inicialmente era um conjunto de ferramentas
separadas, foi desenvolvido em 2004 pela então Pentaho Corporation, e este
conjunto de aplicações, o software foi considerado uma das melhores aplicações
para inteligência empresarial em 2008. A principal ferramenta denominada Pentaho
Data Integration pode ser considerada o carro chefe da empresa, principalmente
quando integrada com o Pentaho Business, ferramenta que permite a geração de
dashboards em cima dos dados armazenados.
107
Criação de Dashboards na Prática Capítulo 3
Atualmente mantido pela Hitchi, o Pentaho é uma poderosa ferramenta de
business intelligence do mercado, oferecendo muitos recursos: relatórios, tabelas
dinâmicas de OLAP, dashboards e muito mais. O Pentaho está disponível em
diversas versões, você encontrará versões de código aberto até versões pagas,
nós veremos a última versão completa até a publicação deste livro.
Segundo Ferreira (2014), tradicionalmente na suíte do Pentaho estão
disponíveis componentes para execução de processos de ETL, que fazem carga
de Data Warehouses, criação de relatórios pré-formatados e ad hoc, cubos OLAP,
dashboards e mineração de dados. Todos esses recursos podem ser combinados
e acionados sequencialmente para criação de soluções mais sofisticadas. Além
disso, a plataforma executa todas as soluções de business intelligence como
serviços e, por isso, é possível prover acesso às soluções para sistemas externos,
via Web services e outras fontes de dados.
A figura a seguir mostra a tela inicial do Pentaho Business na versão 8.2, a
versão atual da ferramenta, que além das funcionalidades já citadas ainda conta
com ferramentas para Big Data e IoT (Internet of Things – Internet das Coisas). A
partir dessa ferramenta será possível carregar fontes de dados diversas (arquivos
csv, excel, SQL) e principalmente conectar a um servidor OLAP para construir
Dashboards.
FIGURA 5 – PÁGINA PRINCIPAL DO PENTAHO BUSINESS
FONTE: O autor (2018)
108
Análise de Dados usando Dashboards
Se você deseja aprender mais sobre o Pentaho e como construir
todo um ecossistema de business intelligence, utilizando a suíte
completa, esse é um excelente livro.
BOUMAN, Roland; VAN DONGEN, Jos. Pentaho solutions: business
intelligence and data warehousing with pentaho and MySQL. Wiley
Publishing, 2009.
No que se refere à geração dos dashboards, o Pentaho tem uma interface
bem amigável, na tela, visto anteriormente, uma vez clicado em New existem
opções de relatórios, dentre as quais dashboards. O primeiro item para criar um
dashboard é selecionar um datasource, ou fonte de dados, você pode até utilizar
diversos, mas têm de realizar a integração entre eles antes da criação com o
recurso que a própria ferramenta provê.
Os dashboards gerados pelo pentaho são dinâmicos e permitem gerar
diversos gráficos e incluí-los em um dashboard. A figura a seguir apresenta a tela
de criação de dashboards com dois gráficos distintos um de valores de venda por
produto e um outro que contém vendas dispersas geograficamente. Note que na
aba inferior é possível selecionar um objeto, que é um gráfico específico, e nos
parâmetros podem ser aplicados filtros que alteram a exibição dos gráficos de
acordo com parâmetros de entrada.
FIGURA 6 – GERAÇÃO DE DASHBOARDS COM PENTAHO BUSINESS
FONTE: O autor (2018)
109
Criação de Dashboards na Prática Capítulo 3
Pentaho Day - O Pentaho Day é um evento que acontece
anualmente no Brasil e não se limita a ferramenta Pentaho. Este é
um evento da comunidade brasileira e inclui qualquer um que tem
uma paixão por Pentaho (sendo Usuários EE ou CE) e quer ver a
enorme quantidade de coisas incríveis que outras pessoas constroem
ao redor do mundo. Não só dedicado à ferramenta Pentaho, mas
também a estratégias e metodologias de business intelligence. O
evento geralmente acontece durante o mês de maio e você pode
conferir informações atualizadas no site: <http://www.pentahobrasil.
com.br>. Acesso em: 23 jan. 2018.
2.2 tableau
A Tableau é uma empresa que foi fundada em 2003, e dá o nome para o
produto, a ferramenta Tableau. Durante muitos anos, o Tableau conquistou e
manteve seu espaço no mercado. A empresa investe em constantes atualizações
e em múltiplas plataformas de uso, veremos isso em detalhes nesta seção.
Segundo CIÊNCIA E DADOS(2018), estar no mercado há muitos anos
fez com o que o Tableau evoluísse em diversas áreas, tais como: a usabilidade
do produto, a comunidade Tableau (que é bem grande), o suporte ao produto e as
opções de implantação flexíveis. A gama de visualizações, layout da interface do
usuário, compartilhamento de visualização e capacidades intuitivas de exploração
de dados também têm vantagem sobre o Power BI. O Tableau oferece muito mais
flexibilidade quando se trata de projetarseus dashboards. O fato é que, de uma
perspectiva do usuário final, o Tableau está muito além do Power BI, mais do que
o Quadrante Mágico do Gartner dá a entender. Podendo se destacar as seguintes
características sobre a ferramenta de análise de dados:
● O Tableau construiu seu produto na filosofia de “ver e explorar” os dados.
Isso significa que o Tableau é projetado para criar imagens visuais
interativas. Os recursos do Tableau foram implementados de tal forma
que o usuário pode fazer uma pergunta sobre seus dados e receber uma
resposta quase que imediata, manipulando as ferramentas disponíveis.
Se você quiser apenas gerar relatórios, o Tableau é um exagero.
● O Tableau também é muito mais flexível em sua implantação do que o
110
Análise de Dados usando Dashboards
Power BI. O Tableau pode ser comprado em uma assinatura ou em uma
licença perpétua / inicial e depois instalado na nuvem ou em um servidor
local.
● O Tableau é all-in na visualização de dados, e a empresa está sempre
atenta aos desejos mais urgentes da comunidade de visualização de
dados. Você pode esperar melhorias futuras significativas em termos de
desempenho ao carregar grandes conjuntos de dados, novas opções de
visualização e funções ETL.
Ao contrário do Pentaho, não tem seus expectadores do mundo do software
livre, uma vez que nasceu de um ambiente corporativo (não que seus concorrentes
sejam diferentes). Até a publicação deste livro, a licença custa $70,00. No entanto,
a empresa tem apostado em outras maneiras de monetizar, como usuários
que utilizam apenas para visualizar e não criar dashboards, pagarem menos.
Muito da questão de licença e valores tem a ver com as ferramentas.
Segundo o revendedor Five Acts, o Tableau em sua versão atual é composto das
seguintes ferramentas:
TABLEAU DESKTOP: o Tableau Desktop é uma poderosa ferramenta para
construção de análises para apoio a tomada de decisão, que permite a criação
de painéis interativos para exploração e análise dos dados de maneira simples e
intuitiva. A ferramenta é compatível com as principais tecnologias de origens de
dados (planilhas, bancos de dados, dados na nuvem, e muitos mais).
FIGURA 7 – TABLEAU DESKTOP
FONTE: <https://www.tableau.com/pt-br/products/online/
request-trial>. Acesso em: 24 jan. 2018.
https://www.tableau.com/pt-br/products/online/request-trial
https://www.tableau.com/pt-br/products/online/request-trial
111
Criação de Dashboards na Prática Capítulo 3
TABLEAU SERVER: o Tableau Server é o portal para compartilhamento
das análises. Para as áreas de negócio, permite o acesso aos dados a partir de
diversos dispositivos com total interatividade, utilizando filtros, envio de e-mails,
autoria de painéis na web, tudo isso com performance e segurança. Para o time
de TI, possibilita fácil monitoramento e manutenção do ambiente, além de estar
alinhado com os principais requisitos de governança de dados, protocolos de
autenticação seguros.
FIGURA 8 – TABLEAU SERVER
FONTE: <https://onlinehelp.tableau.com/current/server/pt-br/
trusted_auth.htm>. Acesso em: 24 jan. 2018.
TABLEAU ON-LINE: o Tableau On-line é a versão na nuvem do Tableau
Server. Além das características básicas do Tableau Server, o Tableau On-line
conecta-se facilmente em dados hospedados na nuvem como Amazon Redshift e
o Google BigQuery, entre outros.
https://onlinehelp.tableau.com/current/server/pt-br/trusted_auth.htm
https://onlinehelp.tableau.com/current/server/pt-br/trusted_auth.htm
112
Análise de Dados usando Dashboards
FIGURA 9 – TABLEAU ON-LINE
FONTE: <https://www.tableau.com/pt-br/products/cloud-bi>. Acesso em: 24 jan. 2019.
TABLEAU MOBILE: o tableau mobile, disponível para as plataformas IOS e
Android, entrega de maneira muito ágil as informações necessárias para a tomada
de decisões onde quer que você esteja.
FIGURA 10 – TABLEAU MOBILE
FONTE: <https://onlinehelp.tableau.com/current/mobile/mobile-admin/pt-br/
admin_mobile_design.htm>. Acesso em: 24 jan. 2018.
https://www.tableau.com/pt-br/products/cloud-bi
https://onlinehelp.tableau.com/current/mobile/mobile-admin/pt-br/admin_mobile_design.htm
https://onlinehelp.tableau.com/current/mobile/mobile-admin/pt-br/admin_mobile_design.htm
113
Criação de Dashboards na Prática Capítulo 3
TABLEAU READER: aplicativo gratuito para visualizar as análises construídas
no Tableau Desktop. Com ele é possível interagir com as análises fazendo uso
das funcionalidades de filtros, entre outras.
FIGURA 11 – TABLEAU READER
FONTE: <https://i.ytimg.com/vi/1QgJmZm1W60/
maxresdefault.jpg>. Acesso em: 24 jan. 2018.
TABLEAU PUBLIC: versão gratuita do Tableau Server, é a melhor maneira
de tornar pública qualquer análise, contando com as já citadas características de
interatividade. É uma ferramenta gratuita que pode ser utilizada principalmente
como experimentos e aprendizado na plataforma Tableau.
FIGURA 12 – TABLEAU PUBLIC
FONTE: <https://public.tableau.com/pt-br/s/>. Acesso em: 24 jan. 2018.
https://i.ytimg.com/vi/1QgJmZm1W60/maxresdefault.jpg
https://i.ytimg.com/vi/1QgJmZm1W60/maxresdefault.jpg
https://public.tableau.com/pt-br/s/
114
Análise de Dados usando Dashboards
Visando conhecer um pouco mais, assim como fizemos com o Pentaho,
vamos direto ao ponto com a criação de dashboards que é o nosso objetivo
principal do emprego desta ferramenta. Para realizar nosso exemplo, vamos pegar
a versão Web do Tableau, o que muda entre as versões é a maneira com que os
gráficos são exibidos, por exemplo, na Web, são todos juntos, na versão mobile,
será exibido um por vez.
No exemplo a seguir, primeiro, o usuário escolhe as datas de qualquer
período promocional e de comparação (que podem ter comprimentos diferentes)
no seletor superior direito (1).
Como às vezes pode ser difícil encontrar um período “limpo” para usar
como base, o usuário tem total flexibilidade nesse menu. Depois que as datas
são selecionadas, o visual mostra rapidamente se o período base está “limpo”,
mostrando o preço médio de venda (2).
Além disso, os usuários podem escolher Níveis de Produto em um menu
suspenso para selecionar os produtos na Promoção (1), eles podem visualizar a
criação de estoque (Loja e Depósito) na Promoção e durante Promoção (2). Os
usuários podem ver instantaneamente como essas promoções afetaram os níveis
de estoque do produto (3).
FIGURA 13 – GERAÇÃO DE DASHBOARDS COM TABLEAU
FONTE: O autor (2018)
115
Criação de Dashboards na Prática Capítulo 3
2.3 Power Bi
Que a Microsoft é uma das maiores empresas não é segredo e isso gera o
desafio de estar sempre atualizada. Citamos anteriormente o Excel como uma
ferramenta pioneira na análise de dados e que é utilizada atualmente, no entanto,
a gigante da informática não se limitou ao pacote office no que se refere a recurso
de análise de dados, principalmente pela necessidade de recursos avançados e
conectividade com bancos de dados SQL.
Assim surgiu o Microsoft Power BI, o projeto inicial foi desenvolvido por Ron
George no verão de 2010 e nomeado Project Crescent e teve sua primeira versão
disponibilizada para download em 2011, junto com recursos do banco de dados
Microsoft, o Microsoft SQL Server. Mais tarde, recebeu o nome atual, Power BI,
desde 2013, tendo como objetivo que esse aplicativo se tornasse um componente
do suíte de aplicativos para escritório Office 365.
A primeira versão do Power BI foi baseada em recursos de Business
Intelligence do Microsoft Excel (Power Query, Power Pivot e Power View).
Conforme foi avançando em seus releases, a Microsoft também implementou a
ferramenta com novos recursos como perguntas e respostas, conectividade de
dados em nível corporativo e opções de segurança via Power BI Gateways. O
Power BI foi lançado pela primeira vez para o público em geral em 2015 e desde
então tem sido uma das principais ferramentas de dashboards, sendo cada vez
mais requerida nas vagas de empregode análise de dados.
FIGURA 14 – POWER BI TELA INICIAL
FONTE: O autor (2018)
116
Análise de Dados usando Dashboards
O Power BI tem se destacado principalmente com sua fácil integração com
bancos de dados relacionais, principalmente com o Microsoft SQL Server, outro
ponto, que podemos até notar na figura a seguir que apresenta a tela inicial
do programa é o suporte e documentação. A ferramenta tem tomado conta do
mercado por ter uma gama de informação on-line, o que auxilia muito os usuários
novos e antigos a utilizar os recursos do Power BI.
Esta ferramenta atua como um sistema analítico para lidar com um
grande volume de dados e gerar informação com significado na orientação dos
gestores, em geral, remete ao conceito de sistemas de suporte à decisão que
são orientados por dados predominantemente internos da empresa e disponíveis
cumulativamente ao longo do tempo (OLIVEIRA, 2011). O Power BI é uma coleção
de serviços de software, aplicativos e conectores que trabalham juntos para
transformar as fontes de dados não relacionadas em uma base multidimensional
da qual se pode extrair conhecimento.
Para elucidar um primeiro contato com a ferramenta, utilizaremos dados
de venda que foram exportados de um arquivo CSV. A figura a seguir mostra a
tela do Power BI após gerado um dashboard com os dados importados. Após
a seleção dos filtros, foi gerado gráfico de vendas por região, vendas por
produto, distribuição de vendas e venda por estado. É importante frisar que
VISUALIZAÇÕES são gráficos gerados a partir de CAMPOS selecionados,
conforme vão sendo adicionados, formam um dashboard.
FIGURA 15 – POWER BI – EXEMPLO DE DASHBOARD
FONTE: O autor (2018)
117
Criação de Dashboards na Prática Capítulo 3
2.4 Qlik
Fundada em 1993, a Qlik é uma empresa de software sueca e atualmente
sediada na Pensilvânia, Estados Unidos. Os principais produtos são o QlikView
e Qlik Sense, ambos softwares para coleta, análise e visualização de dados,
tendo como objetivo alcançar a inteligência de negócio. A ferramenta de criação
de dashboards da empresa é o QlikView, uma forte concorrente das ferramentas
vistas anteriormente e também muito requisitada pelo mercado.
O QLIKVIEW
Durante muitos anos as organizações geraram inúmeras informações
que não eram aproveitadas, isso porque vinham de diversas fontes de dados
diferentes. Com o passar do tempo, as organizações perceberam que se essas
informações não aproveitadas fossem agrupadas, seriam de suma importância
para elas e, com isso surgiu a necessidade de Softwares que agruparam essas
informações e mostraram de uma forma que as pessoas pudessem usá-las para
tomada de decisões, daí surgiram os tão famosos softwares de B.I.
O QlikView é um software fabricado pela Qlik com uma metodologia inovadora
chamada Business Discovery. Esse conceito significa que todo usuário de negócio
pode utilizar a ferramenta para contribuir nas tomadas de decisões. O QlikView
proporciona rapidez, flexibilidade, facilidade de uso e recursos poderosos, com
isso ele permite transformar dados vindos de fontes diferentes em conhecimento
de negócio, propiciando tomadas de decisões mais precisas e criando novas
oportunidades para a empresa.
O QlikView utiliza uma tecnologia patenteada de associação em memória.
Esta tecnologia associativa permite criar uma interface única simplificando
radicalmente a implantação, o uso e a manutenção das consultas e análises.
Na figura a seguir, nós temos uma ilustração do funcionamento do QlikView,
em que as informações vêm de inúmeras fontes diferentes e nele são unidas em
forma de gráficos e métricas.
118
Análise de Dados usando Dashboards
FIGURA 16 – EXEMPLO DO FUNCIONAMENTO DO QLIKVIEW
FONTE: <https://www.devmedia.com.br/qlikview-conheca-a-
ferramenta-de-b-i/30123>. Acesso em: 15 dez. 2018.
A rapidez na produção de resultados é um fator que chama atenção no
QlikView. Além disso, o software estimula a inteligência do usuário, possui uma
instalação simples com uma arquitetura única para análise, aplicação e geração de
relatórios. Tudo isso reunido em uma interface extremamente amigável.
Ao invés de agregar dados em cubos inflexíveis, o QlikView usa uma tecnologia
inovadora, o sistema de criar um grande arquivo com todas as associações,
conhecido no produto como “Data Cloud”. Desta forma, todos os dados relevantes
em todas as dimensões ficam disponíveis em RAM.
AQL™ (Associative Query Logic) é a tecnologia patenteada usada no software
QlikView para associar dados, enquanto as queries são feitas na estrutura de
dados QlikView. A tecnologia AQL promove análises não hierárquicas de dados, ao
contrário das tecnologias OLAP predominantes usadas na maioria dos softwares
de B.I. disponíveis no mercado hoje. A tecnologia não hierárquica do AQL garante
análises nas quais as queries não foram construídas em uma ordem específica
(como ano/trimestre/mês). Usando AQL, qualquer valor da estrutura de dados pode
ser o ponto de partida para a análise.
Uma das grandes diferenças entre o QlikView e as demais ferramentas de
B.I. está principalmente na facilidade da geração de relatórios gráficos, com as
outras ferramentas torna-se indispensável ter pessoas da área de T.I., pois se
faz necessário conhecimento em linguagem SQL para a criação dos relatórios.
Nessas ferramentas também é de suma importância estarem bem definida todas as
dimensões e métricas necessárias.
O QlikView possui um funcionamento muito simples. Vamos dividir em quatro etapas
para facilitar o entendimento, são elas: instalação, script, nuvens de dados e interface.
1. Instalação: sua instalação é bem simples, basta realizar o download do site,
https://www.devmedia.com.br/qlikview-conheca-a-ferramenta-de-b-i/30123
https://www.devmedia.com.br/qlikview-conheca-a-ferramenta-de-b-i/30123
119
Criação de Dashboards na Prática Capítulo 3
executar e ir prosseguindo até o final dela. A versão trial é válida por um
prazo determinado e não consecutivo, ou seja, ele só conta os dias que você
utiliza o aplicativo. Após o prazo de utilização da versão trial, a ferramenta
continua podendo ser utilizada, porém, você só consegue abrir os arquivos
gerados pela sua instalação, arquivos criados por outro aplicativo na versão
trial. Da versão full você não conseguirá abrir.
2. Script: O desenvolvimento do QlikView começa pelo script e é uma
programação bem simples: sua codificação é proprietária, porém é bem
semelhante ao VBA, por isso é uma ferramenta voltada para o usuário final.
Nesse script é onde você vai realizar a conexão com sua fonte de dados
que pode ser um arquivo txt, xls, ou qualquer outro banco de dados. Não é
necessário se preocupar com a linguagem do script, pois o software possui
wizard que faz toda a conexão para você e gera o script automaticamente.
A ferramenta faz o carregamento de todos os dados da sua fonte na memória
e salva em um arquivo próprio, fazendo com que a fonte seja desnecessária.
Somente em casos de atualizações na fonte será necessário um recarregamento
para atualizar o QlikView. Na figura a seguir, você vê um exemplo de script.
FIGURA 17 – EXEMPLO DE SCRIPT FONTE
FONTE: <https://www.devmedia.com.br/qlikview-conheca-a-
ferramenta-de-b-i/30123>. Acesso em: 15 dez. 2018.
https://www.devmedia.com.br/qlikview-conheca-a-ferramenta-de-b-i/30123
https://www.devmedia.com.br/qlikview-conheca-a-ferramenta-de-b-i/30123
120
Análise de Dados usando Dashboards
3. Nuvens de dados: após fazer o carregamento das suas fontes de dados,
o QlikView constrói todo relacionamento entre eles, isso é chamado de
Nuvem de Dados (Veja a figura a seguir).
4. Interface gráfica: é aqui que você trabalha os dados nas formas
desejadas, podendo utilizar todas as dimensões carregadas no script. Um
detalhe muito importante é que, na criação das métricas, as fórmulas que
o QlikView disponibiliza são idênticas às do Excel, tanto em nome quanto
emsintaxe. O software possui uma rica quantidade de componentes que
são bem intuitivos na hora de utilizar. Existem tabelas, listas, dropdowns,
gráficos de barra, gráficos de linha, gráfico de dispersão, gráfico de
pizza, botões, enfim, tudo o que você precisa para desenvolver uma
interface bastante funcional, além de possuir integração com o google
maps, para poder realizar análises de mercado por região, entre outros
tipos. A utilização dos componentes é fácil, basta escolher, arrastar para
o Painel (Figura a seguir) e configurar quais serão as dimensões, quais
serão as métricas e você vê o resultado em gráficos, tabelas dinâmicas
etc.
FIGURA 18 – NUVEM DE DADOS E DASHBOARD NO QLIKVIEW
FONTE: <https://www.devmedia.com.br/qlikview-conheca-a-
ferramenta-de-b-i/30123>. Acesso em: 15 dez. 2018.
QlikView: conheça a ferramenta de B.I. disponível em:
<https://www.devmedia.com.br/qlikview-conheca-a-ferramenta-de-
b-i/30123>. Acesso em: 23 jan. 2019.
https://www.devmedia.com.br/qlikview-conheca-a-ferramenta-de-b-i/30123
https://www.devmedia.com.br/qlikview-conheca-a-ferramenta-de-b-i/30123
https://www.devmedia.com.br/qlikview-conheca-a-ferramenta-de-b-i/30123
https://www.devmedia.com.br/qlikview-conheca-a-ferramenta-de-b-i/30123
121
Criação de Dashboards na Prática Capítulo 3
Dos serviços em nuvem provêm diversos recursos, desde coleta
de dados, Big Data, ETL, Data Warehouse e entre muitos, também o
serviço de geração de Dashboard. A partir de agora vamos conhecer
alguns serviços de cloud que fornecem dashboards, iremos direto
ao ponto e tratar de algumas das ferramentas de dashboards que
são providas pelos serviços em nuvem. É bom ficar claro que essas
ferramentas foram projetadas para serem executadas utilizando
todos os recursos da arquitetura, o que não impede que você utilize
um banco local, mas com certeza em todos os casos terá melhor
desempenho utilizando todos os recursos da plataforma.
2.5 A NUVEM E OS DASHBOARDS
Se você tem ido ao cinema nos últimos anos com certeza viu a cômica cena
do filme Creed de 2016, viu o lendário Rocky Balboa ao saber que arquivos podem
ser guardados na nuvem se perguntando “Nuvem? Que Nuvem?” A verdade é
que as tecnologias em cloud têm dominado a rotina de todos nós, nós mesmos
enquanto escrevemos este livro, utilizamos uma plataforma em nuvem que nos
permite acessar os textos de qualquer lugar do mundo sem nos preocupar com
backup.
E no cenário de dados não é diferente, aliás, é justamente o cenário de dados
que tem puxado uma frente bilionária em investimento de tecnologias na nuvem.
É claro que o uso de ferramentas como OneDrive, GoogleDrive e Dropbox tem um
conceito interessante no que se refere a um depósito de dados na nuvem, assim
como o fato de se hospedar um site. No entanto, o conceito de serviços na nuvem
é bem maior, trata-se de um conjunto de serviços que permite armazenar e extrair
conhecimento, sem preocupação com instalação de software e muito menos com
recursos de hardware.
Google Data Studio
Além de ter sua plataforma de armazenamento em nuvem, Google Cloud, a
gigante da informática também tem sua plataforma de análise de dados. Baseada
em ferramentas consolidadas para web, como Google Analytics, surge o Google
Data Studio.
122
Análise de Dados usando Dashboards
Você pode dar os seus primeiros passos acessando o Google
Data Studio, você terá um acesso gratuito e também a documentação
completa da ferramenta acompanhada de vídeos.
“Google Data Studio”, disponível em: <https://support.google.com/
datastudio/answer/6283323?hl=pt-BR>. Acesso em: 23 jan. 2019.
Essa ferramenta permite que sejam realizados uploads de arquivos
independentes, bem como que sejam integrados com outras plataformas como
Google Drive, ferramentas de anúncios e o próprio Google Cloud. Segundo o
site do fabricante, o Data Studio transforma seus dados em relatórios e painéis
informativos, fáceis de ler e de compartilhar e totalmente personalizáveis. As
informações dos relatórios no Data Studio derivam de uma ou mais fontes de
dados. Com a ferramenta de fonte de dados, fica fácil se conectar a uma grande
variedade de informações, sem programação. Em alguns instantes, você pode
se conectar a conjuntos de dados como cvs, xml ou até mesmo bancos de dados
multidimensionais.
A figura a seguir mostra a tela de Dashboard do Data Studio, que foi gerada
a partir de um exemplo de acessos de marketing de um site principal, este é um
dos exemplos fornecidos.
FIGURA 19 – GERAÇÃO DE DASHBOARD COM GOOGLE DATA STUDIO
FONTE: O autor (2018)
https://support.google.com/datastudio/answer/6283323?hl=pt-BR
https://support.google.com/datastudio/answer/6283323?hl=pt-BR
123
Criação de Dashboards na Prática Capítulo 3
IBM Cognos Analytics
Outra empresa que disputa o mercado de Cloud Computing tem sido a IBM,
frente a essa puxada está principalmente o famoso supercomputador Watson.
Um recurso independente, que pode ser integrado às demais ferramentas da
empresa, é o Cognos Analytics, a ferramenta de BI na nuvem da IBM. Segundo o
site da fabricante, com a simplicidade da nuvem e sem sacrificar o desempenho,
a próxima geração de BI oferece recursos orientados e intuitivos para iniciar sua
jornada rumo à computação cognitiva e alterar sua maneira de trabalhar com
dados.
Essa ferramenta permite explorar mais profundamente o seu negócio ao
criar relatórios, painéis e visualizações de informações. Essa solução fornece
aos usuários a possibilidade de analisar os dados e extrair os insights por conta
própria, de forma simples e com a segurança da cloud IBM.
FIGURA 20 – DASHBOARD GERADO PELO IBM COGNOS ANALYTICS
FONTE: O autor (2018)
Amazon QuickSight
No mesmo universo das provedoras de serviço da nuvem, a pioneira Amazon,
que fornece diversos recursos em sua plataforma denominada AWS, também tem
a ferramenta denominada Amazon QuickSigth.
O Amazon QuickSight é uma ferramenta de business intelligence, que permite
integração com fontes externas, bem como com outros serviços fornecidos pela
ferramenta. Segundo o fabricante, é um serviço de business intelligence rápido e
124
Análise de Dados usando Dashboards
O Amazon QuickSigth está disponível aqui, bem como outras
ferramentas Amazon. Só use com muita atenção, pois o site irá pedir
um cartão de crédito, a maioria dos recursos do Amazon AWS são
pagos.
“Amazon QuickSigth”, disponível em: <https://aws.amazon.com/pt/
quicksight/>. Acesso em: 23 jan. 2019.
na nuvem permite a criação e publicação de dashboards interativos que podem
ser acessados em navegadores ou dispositivos móveis.
Você pode incorporar painéis em seus aplicativos, fornecendo aos clientes
uma análise avançada de autoatendimento. O QuickSight dimensiona facilmente
para dezenas de milhares de usuários sem nenhum software para instalar,
servidores para implantar nem infraestrutura para gerenciar em relação à maneira
de operacionalizá-lo.
A Amazon se refere a ele como o primeiro modelo de cobrança de pagamento
por sessão do setor, você paga apenas pelo que usar. Isso permite que você
conceda a todos os seus usuários o acesso aos dados de que eles precisam
sem licenças caras por estação. A figura a seguir nos mostra a interface de um
Dashboard dentro dessa plataforma da Amazon, o que você pode notar que não é
muito diferente do que foi visto nas demais ferramentas.
FIGURA 21 – DASHBOARD GERADO PELO AMAZON QUICKSIGHT
FONTE: O autor (2018)
https://aws.amazon.com/pt/quicksight/
https://aws.amazon.com/pt/quicksight/
125
Criação de Dashboards na Prática Capítulo 3
2.6 Crie Sua Própria Ferramenta De
Dashboard E Fique Multimilionário
Espero que você não tenha lido o sumário e pulado direto para essa seção, a
parte do multimilionário ficará por sua conta. No entanto, aqui você conhecerá um
pouco de como construir as próprias ferramentas de dashboard.
Neste momento, você deve se perguntar:“Por que reinventar a roda?”; “Por
que devo criar algo com tantas ferramentas no mercado?”. Você saberá quando
acontecer. O fato é que vimos ferramentas muito poderosas para gerar dashboards
e vamos voltar lá no início quando discutimos a importância de se conhecer o
cenário de dados antes de tudo. Durante sua carreira como profissional de dados
poderá bater de frente com diversos cenários, um deles pode ser a solicitação da
integração do sistema de análise com um software existente.
Outro ponto que pode vir a acontecer é o desejo de gerar algum gráfico muito
atípico ou um cenário de dados que seja assim. Por exemplo, exibir as palavras
que estão sendo mais faladas em determinada região em cima do mapa, isso não
existe implementado em ferramentas prontas.
Você já deve estar aí imaginando como fazer isso com a sua linguagem
preferida. Como você pode perceber, aqui a grande tendência é que os dashboards
sejam gerados na Web o que permite que sejam acessados de qualquer lugar do
mundo. Por isso, recomendamos que para a geração de dashboards, você utilize
javascript.
FIGURA 22 – DASHBOARD GERADO PELO CANVASJS
FONTE: <https://canvasjs.com/>. Acesso em: 24 jan. 2018.
https://canvasjs.com/
126
Análise de Dados usando Dashboards
Esta seção foi dedicada para você conhecer as principais
ferramentas de criação dashboards disponíveis no mercado.
Como atividade de estudo, você deve selecionar três destas
ferramentas, seja on-line ou executável, e discorrer sobre pontos
positivos e negativos em uma análise comparativa entre elas.
“Canvast.js”, disponível em: <https://canvasjs.com>. Acesso em: 23
jan. 2019.
“Chart.js”, disponível em: <https://www.chartjs.org/>. Acesso em: 23
jan. 2019.
“P5.js”, disponível em: <https://p5js.org/>. Acesso em: 23 jan. 2019.
“Total.js”, disponível em: <https://www.totaljs.com/dashboard/>.
Acesso em: 23 jan. 2019.
Mesmo que não domine a linguagem, os passos para construir seus
dashboards serão bem simples:
1. Utilizar uma linguagem servidor (PHP, por exemplo) para conectar com
seu banco de dados multidimensional.
2. Enviar os dados para o javascript em um formato de integração (json ou
xml).
3. Receber os dados e exibir na tela.
4. Criar Dashboards específicos
É claro, por mais que pareça simples, assim como qualquer atividade de
desenvolvimento demanda de tempo e conhecimento. Mas não se assuste, existe
uma gama de bibliotecas na Web que pode auxiliá-lo nessa tarefa. Vamos deixar
algumas sugestões de bibliotecas javascript, o que possibilita diversas integrações
com as demais linguagens.
https://canvasjs.com
https://www.chartjs.org/
https://www.totaljs.com/dashboard/
127
Criação de Dashboards na Prática Capítulo 3
3 Criando Um Dashboard Do Zero
No decorrer deste livro, você absorveu bastantes conteúdos e esta última
etapa tem como objetivo consolidar tudo que foi visto até o momento. Lembre-se
de que este é um livro didático e não um tutorial, por isso deixamos alguns links
para auxiliar na parte prática ao decorrer desta etapa. A figura a seguir mostra a
arquitetura de Kimball adaptada para o roteiro que iremos seguir aqui, em que a
fonte provedora será um banco de dados relacional (OLTP), a etapa de ETL será
a transformação destes dados para o modelo multidimensional, uma vez os dados
sendo apresentados serão consumidos por uma ferramenta de acesso aos dados
(Dashboard com Power BI).
FIGURA 23 – ARQUITETURA DO EXEMPLO DE APLICAÇÃO DE BI
FONTE: O autor (2018)
Nossa fonte provedora será o tradicional banco de dados denominado
Northwind, é uma base de dados tradicional utilizada em diversos artigos, então
facilitará sua jornada de conhecimento. O Northwind é uma base de dados de
exemplos, que se trata de uma empresa fictícia chamada "Northwind Traders".
A base armazena e captura todas as transações de vendas que ocorrem entre
a empresa, ou seja, os operadores da Northwind e seus clientes, bem como
as transações de compra entre a Northwind e seus fornecedores. O modelo
relacional que representa esse banco de dados é mostrado na figura a seguir e
logo em seguida alguns links com diversas opções de download.
128
Análise de Dados usando Dashboards
Northwind para PostgreSQL. Disponível em: <https://github.com/
pthom/northwind_psql>. Acesso em: 23 jan. 2019.
Northwind para Oracle. Disponível em: <http://www.geeksengine.
com/article/northwind-oracle-2.html>. Acesso em: 23 jan. 2019.
Northwind para SQL Server. Disponível em: <https://technet.
microsoft.com/en-us/bb399411(v=vs.91)>. Acesso em: 23 jan. 2019.
Northwind para MySQL. Disponível em: <https://github.com/dalers/
mywind>. Acesso em: 23 jan. 2019.
FIGURA 24 – MODELO RELACIONAL (OLTP) DO NORTHWIND
FONTE: Runtuwene (2018, p. 9)
Nosso roteiro de desenvolvimento não seguirá o fluxo descrito na arquitetura,
afinal para desenvolver um processo de ETL, primeiramente deve se ter um
modelo multidimensional para conhecer quais são as transformações necessárias.
Para isso foi desenvolvido o modelo mostrado na figura a seguir, note que ele
segue o conceito de modelo estrela com uma tabela fato central com as ordens
contento as métricas price e quantity.
129
Criação de Dashboards na Prática Capítulo 3
FIGURA 25 – MODELO MULTIDIMENSIONAL (OLAP) DO NORTHWIND
FONTE: Runtuwene (2018, p. 3)
Uma vez o modelo desenvolvido é a hora de colocá-lo em prática
aplicando sua implementação em um servidor OLAP. Para isto, iremos utilizar a
implementação mais tradicional que é utilizando um servidor ROLAP (Relational
OLAP), que utiliza um sistema gerenciador de banco de dados relacional
(SGBDR) para armazenar um modelo multidimensional de dados. Durante a
escrita do livro, utilizarei o PostgreSQL, este é um SGBD, que é open source e
tem diversos materiais disponíveis, o que auxiliará na sua curva de aprendizagem.
O PostgreSQL conta com diversos recursos para implementação de consultas
OLAP e é considerado um dos mais robustos do mercado.
Se você utilizou o Power Architect para a modelagem de dados, terá a opção
de engenharia reversa. Com isto, basta criar seu banco de dados dentro do SGBD
e dentro do Power Architect na opção de engenharia reversa selecionar o SGBD a
própria ferramenta de modelagem irá criar seu banco de dados multidimensional a
partir do modelo desenvolvido.
Nosso objetivo aqui é compreender todas as etapas de um
projeto de Data Warehouse até o fornecimento dos dados em um
Dashboard. Assim, você pode utilizar qualquer SGBD para realizar
este processo.
130
Análise de Dados usando Dashboards
“PostgreSQL todas as versões e sistemas operacionais”.
Disponível em: <https://www.postgresql.org/download/>. Acesso em:
23 jan. 2019.
Agora que você tem em mãos um banco de dados operacional (OLTP)
populado e um banco de dados multidimensional (OLAP), resta criar o processo
que interliga esses dois: extração, transformação e carga. Para isto, você tem
diversas opções, desde utilizar recursos do próprio SGBD, codificar em uma
linguagem de programação ou utilizar uma ferramenta própria, nós utilizaremos
esta terceira opção. Em nossa seção sobre ETL, você aprendeu um pouco sobre
Pentaho Data Integration e será esta ferramenta utilizada aqui. O Pentaho tem
diversas opções, mas tudo se resume em três, input (fonte de dados – OLTP),
output (origem dos dados – OLAP) e transformações.
FIGURA 26 – EXEMPLO DE ETL UTILIZANDO PENTAHO DATA INTEGRATION
FONTE: O autor (2018)
Ao criar o servidor OLAP com o banco de dados multidimensional, este irá
conter menos tabelas do que a fonte de dados (OLTP). O recurso tradicional
de TABLE para origem (input) e destino (output) pode não ser o ideal. Assim é
necessário utilizar o recurso de QUERY como input. O recurso QUERY permite
realizar consultas realizando junções das diversas tabelas na fonte OLTP e
armazenando os dados nas tabelas do banco de dados multidimensional (OLAP).
https://www.postgresql.org/download/131
Criação de Dashboards na Prática Capítulo 3
Para que você visualize melhor esse processo, nós
recomendamos acompanhar um exemplo prático de como é feito o
processo de ETL no Pentaho. Neste link, você poderá acompanhar
um curso com 22 aulas sobre a ferramenta e é gratuito.
“Get to know Pentaho Kettle PDI – Introduction”. Disponível
em: <https://www.udemy.com/get-to-know-pentaho-kettle-pdi-
introduction>. Acesso em: 23 jan. 2019.
Finalizada a etapa de ETL, significa que os dados já estão armazenados em
um servidor OLAP e já estão aptos a serem consumidos. Assim podemos ir para
a última camada de um ambiente de Data Warehouse, que são as ferramentas de
Dashboard. Para desenvolver essa etapa com o que foi visto até aqui, você pode
optar por qualquer ferramenta das que vimos até o momento. Em nosso exemplo
utilizaremos o Power BI.
Para conectar o seu servidor OLAP ao Power BI, você deve selecionar o
SGBD (PostgreSQL) na opção obter dados e configurar de acordo com os
parâmetros de instalação. Visando otimizar o processo de análise foram criados
agregados (views materializadas) com objetivo de consolidar os objetos de
análise. Os agregados são como grandes tabelas (você pode imaginar como uma
planilha unificando os campos), assim facilitando o processo analítico, que não
necessita fazer consultas em tempo real.
Uma vez que tenha chegado até aqui, você está pronto para explorar o cubo
de dados, criar relatórios, gráficos e principalmente fornecer poderosos dashboards
para os gestores. Durante o capítulo anterior, nós estudamos detalhadamente
alguns elementos de um modelo de dados como campos e métricas. Para auxiliar
você nesta tarefa de Business Intelligence também é necessário compreender o
conceito de indicadores e sua relação com os demais.
https://www.udemy.com/get-to-know-pentaho-kettle-pdi-introduction
https://www.udemy.com/get-to-know-pentaho-kettle-pdi-introduction
132
Análise de Dados usando Dashboards
Diferenças entre métricas e indicadores de desempenho no
Business Intelligence
A todo momento, em projetos e discussões sobre o Business
Intelligence (BI), ouvimos e falamos sobre métricas e indicadores.
São termos bastante utilizados e que são a base para quantificar os
resultados e conduzir a avaliação das análises da organização. Mas
sabemos mesmo a diferença que existe entre cada um?
É importante essa distinção, pois nos auxilia na abstração e
na correta apuração dos resultados empresariais. Esses resultados
podem ser apurados em diferentes perspectivas e níveis dentro da
organização.
As métricas são as medidas brutas, atômicas e de simples
composição. Em uma estrutura de Data Warehouse, são
armazenados na tabela Fato e medem os descritivos armazenados
nas Dimensões. Valores e quantidades são exemplos de formatos
das métricas.
Os indicadores de desempenho são medidas calculadas e
são compostos pelas métricas. Estão um nível acima das métricas,
pois possuem uma visão mais ampla e direcionada da realidade
observada. Além disso, os indicadores avaliam a performance
organizacional, auxiliam a análise de tendência, a melhoria contínua,
a atuação proativa e dão transparência à empresa. Normalmente são
expressados por percentuais, frequência, probabilidade etc.
Exemplo de métrica:
Quantidade de itens X
Exemplo de indicador de desempenho:
Percentual de itens X vendidos em março de 2014.
No exemplo, a métrica é a medida bruta da quantidade de itens de
um determinado produto. O que os diferenciam é o posicionamento que
cada uma possui na tomada de decisão na organização. As métricas
estão no nível operacional e o indicador no nível tático, ambos com o
objetivo de atingir as metas estabelecidas no plano estratégico.
133
Criação de Dashboards na Prática Capítulo 3
FIGURA 27 – PIRÂMIDE VALORES EM BUSINESS INTELLIGENCE
FONTE: <https://canaltech.com.br/business-intelligence/
diferencas-entre-metricas-e-indicadores-de-desempenho-no-
business-intelligence-21110/>. Acesso em: 23 jan. 2019.
Acima temos a pirâmide que contém a exata localização e
posicionamento dos termos. No nível operacional (base) estão as
métricas. Esse nível requer a medida em sua composição simples,
pois dessa forma será melhor utilizada para as decisões operacionais.
Já no nível tático (intermediário) as medidas precisam de uma
maior abstração para a melhor indicação e direcionamento a ser
tomado pelo gestor. E, por fim, no nível estratégico (topo) é importante
a consolidação das métricas e indicadores para a visualização das
metas, verificando se elas estão sendo cumpridas e alcançadas,
portanto, é necessária a percepção das variadas formas que a
informação pode ser oferecida aos diferentes níveis da organização,
em que cada uma possui sua respectiva importância e utilidade.
Dessa forma, é possível que a gestão do conhecimento tenha
efetividade e contribua diretamente nos resultados empresariais.
FONTE: Diferenças entre métricas e indicadores de desempenho no business intelligence.
Disponível em: <https://canaltech.com.br/business-intelligence/diferencas-entre-metricas-
e-indicadores-de-desempenho-no-business-intelligence-21110/>. Acesso em: 23 jan. 2019.
134
Análise de Dados usando Dashboards
Nesse momento é muito importante que todas as etapas
anteriores tenham funcionado conforme o planejado. Mas caso você
tenha tido alguma dificuldade ou até mesmo tenha realizado apenas
a leitura sem construir o modelo multidimensional em si, eu vou dar
uma dica para que consiga acompanhar esta que é a parte final e
mais importante da nossa jornada.
A Microsoft disponibiliza o Northwind on-line como fonte de
dados, para isso você deve ir até obter dados, selecionar a opção
“Feed OData” e inserir a seguinte url <http://services.odata.org/V3/
Northwind/Northwind.svc/>. Feito isso, conseguirá acompanhar na
prática os próximos pontos de estudo.
Uma vez estando com os dados obtidos é a hora de colocar a mão na massa.
Vale lembrar que um dashboard é composto de diversos gráficos, tais gráficos são
denominados visualizações. A parte inicial é a seleção dos campos e das métricas
que serão utilizadas, para isso é utilizado a aba CAMPO.
Ao adicionar uma visualização do tipo MAPA, você terá de definir alguns
campos ao mantê-lo selecionado. Por exemplo:
● Localização: Country
● Legenda: Subtotal
Para gerar um gráfico que consolida as categorias que mais vendem, foi
inserido um gráfico de rosca. Como parâmetros foram utilizados:
● Legenda: Category
● Valores: TotalSale
A figura mostra o dashboard criado com os exemplos citados acima e mais
alguns inseridos. Você irá notar que o Power BI é bem intuitivo no que se refere
à criação de gráficos, conforme vai inserindo. Durante a criação dos gráficos foi
considerado o campo Date em todos, complementar aos gráficos foi inserido uma
visualização denominada FILTRO contendo a Data. Com isto, ao alterar a data no
FILTRO todos os gráficos são alterados de maneira dinâmica.
http://services.odata.org/V3/Northwind/Northwind.svc/
http://services.odata.org/V3/Northwind/Northwind.svc/
135
Criação de Dashboards na Prática Capítulo 3
FIGURA 28 – DESENVOLVIMENTO DE DASHBOARD INTERATIVOS COM POWER BI
FONTE: O autor (2018)
FONTE: O autor (2018)
No início deste capítulo, você aprendeu o conceito de KPI (Key Performance
Indicator – Indicador Chave de Desempenho). Dentro do Power BI esse é um termo
muito comum, inclusive tem um próprio gráfico para isso. Ao inserir um KPI, temos
que definir três itens: indicador (o indicador em si), eixo da tendência (geralmente é
um fator analítico pelo qual o indicador será avaliado, geralmente é um campo de
tempo) e metas de destino. Dependendo do valor da meta um gráfico de KPI irá se
comportar de uma maneira, se for atingido, ficará verde e se estiver abaixo dela,
vermelho, indicando quanto (em %) está em relação à meta estabelecida, podendo
a configuração de coresser alterada de acordo com a preferência do usuário.
FIGURA 29 – GERAÇÃO DE KPI NO POWER BI
136
Análise de Dados usando Dashboards
Outro gráfico que segue a mesma linha do KPI é o indicador do velocímetro,
este é um indicador muito interessante para acompanhar se você está perto ou
longe de uma meta estabelecida. Com esse gráfico, você pode indicar um indicador
e uma meta, uma vez isso sendo realizado, o gráfico irá mostrar a quanto tempo
está de ser alcançado. Uma vez adicionado um filtro complementado ao gráfico
(nesse caso colocamos data), você terá um gráfico interativo que irá mostrar a
evolução do indicador em relação à meta, sendo analisado pela perspectiva de
tempo.
FIGURA 30 – GERAÇÃO DE KPI COM VELOCÍMETRO NO POWER BI
FONTE: O autor (2018)
Nós falamos muito sobre nuvem e dashboards na Web, sendo muito
importante a disponibilização de seus dashboards. A Web é uma alternativa
interessante, pois através dela os gestores podem acessar os dashboards criados
através de qualquer dispositivo.
No caso do Power BI, quando você tiver finalizado o seu relatório, poderá
utilizar a opção “Publicar”. Uma vez publicado, o dashboard criado estará
disponível em um ambiente on-line disponibilizado pela própria plataforma.
A ferramenta disponibiliza recursos visando criar relatórios específicos para
dispositivos móveis. Ao criar esse tipo de relatório, é interessante pensar em
elementos dinâmicos. A inserção de filtros associados aos gráficos tornará o seu
dashboard dinâmico e permitirá que o próprio gestor realize suas análises por
diversas perspectivas.
137
Criação de Dashboards na Prática Capítulo 3
É muito importante saber que a partir do momento que você clicar
em Publicar, o gestor irá visualizar os dados daquela maneira. Caso
seja realizada uma nova carga no banco de dados multidimensional,
esta será desconsiderada até uma nova publicação.
Por uma questão da ferramenta, o seu dashboard ainda não
é um painel, ele se chama RELATÓRIO. Só serão considerados
PAINÉIS após clicar no ícone de fixar. A partir deste momento você
irá encontrá-lo na aba RELATÓRIO no link que foi gerado após a
publicação do relatório.
Uma vez estabelecida uma meta, o seu gestor nem sempre
ficará de hora em hora conferindo se foram atingidas. Por isso se
torna interessante o recurso de alerta, para notificá-lo quando isso
aconteceu, ou se houve alguma anomalia.
No caso do Power BI, os alertas podem ser gerenciados pelo
link on-line, onde o Dashboard fica hospedado após a publicação.
Selecionando a aba Dashboard, existe o recurso de alerta válido
apenas para os gráficos que envolvem indicadores. O alerta é
composto de parâmetros e quando os valores setados forem
atingidos, o gestor receberá um e-mail notificando com um link para
abrir o relatório.
FIGURA 31 – DASHBOARD PUBLICADO NA NUVEM UTILIZANDO POWER BI
FONTE: O autor (2018)
138
Análise de Dados usando Dashboards
Se você seguiu a atividade tendo uma visão prática é bem
provável que nesse momento esteja tudo pronto. Nosso objetivo
aqui é consolidar tudo que foi visto ao decorrer do capítulo. Para
isso:
1. Realize o download de ao menos uma versão do Northwind.
2. Crie o banco de dados OLTP.
3. Crie o banco multidimensional OLAP.
4. Crie o processo de ETL para enviar os dados do OLTP para o OLAP.
5. Utilize um software para se conectar ao banco multidimensional.
6. Crie ao menos quatro gráficos e aplique-os no dashboard.
7. Publique seus dados na Web.
FIGURA 32 – UTILIZANDO A NUVEM DO POWER BI PARA CRIAR ALERTAS
FONTE: O autor (2018)
139
Criação de Dashboards na Prática Capítulo 3
Considerações Finais
Prezado acadêmico!
Esperamos que tenha emergido nesta jornada de conhecimento sobre o
universo dos dados, desde nosso primeiro parágrafo estamos falando sobre o
impacto dos dados na vida das organizações e da sociedade.
No decorrer de nosso livro, você foi contextualizado sobre o que há de novo.
Queremos que reflita sobre esses momentos e nunca pare de ler e de se atualizar.
Afinal, a área que estudamos está entre os principais eixos da tecnologia no
futuro. Todo dia haverá algo novo para aprender.
A partir de agora, você é capaz de analisar cenários de dados e selecionar
as melhores ferramentas para coleta, armazenamento e análise. Com o
conhecimento obtido sobre Data Warehouse, você se tornará um profissional
robusto e muito procurado pelo mercado de trabalho.
Sabendo desenvolver dashboards e extraindo inteligência de negócio,
estará pronto para auxiliar empresas e gestores a tomarem as melhores decisões
possíveis
Com um desejo de um excelente sucesso profissional, nossos mais cordiais
cumprimentos.
Professor Rodrigo Nogueira
Referências
CANAL TECH. Diferenças entre métricas e indicadores de desempenho
no business intelligence. 2014. Disponível em: <https://canaltech.com.br/
business-intelligence/diferencas-entre-metricas-e-indicadores-de-desempenho-
no-business-intelligence-21110/>. Acesso em: 25 nov. 2018.
CIÊNCIA E DADOS. Power BI ou tableau? Disponível em: <www.
cienciaedados.com/power-bi-ou-tableau/>. Acesso em: 6 dez. 2018.
EBAY. A creative visualization of olap cuboids. 2017. Disponível em: <https://
www.ebayinc.com/stories/blogs/tech/a-creative-visualization-of-olap-cuboids/>.
Acesso em: 1 dez. 2018.
https://canaltech.com.br/business-intelligence/diferencas-entre-metricas-e-indicadores-de-desempenho-no-business-intelligence-21110/
https://canaltech.com.br/business-intelligence/diferencas-entre-metricas-e-indicadores-de-desempenho-no-business-intelligence-21110/
https://canaltech.com.br/business-intelligence/diferencas-entre-metricas-e-indicadores-de-desempenho-no-business-intelligence-21110/
http://www.cienciaedados.com/power-bi-ou-tableau/
http://www.cienciaedados.com/power-bi-ou-tableau/
https://www.ebayinc.com/stories/blogs/tech/a-creative-visualization-of-olap-cuboids/
https://www.ebayinc.com/stories/blogs/tech/a-creative-visualization-of-olap-cuboids/
140
Análise de Dados usando Dashboards
FERREIRA, JORGE LUIZ. Pentaho BI – Conhecendo a Plataforma,
Arquitetura e Infraestrutura. Disponível em: <https://www.devmedia.com.br/
pentaho-bi-conhecendo-a-plataforma-arquitetura-e-infraestrutura/31502>. Acesso
em: 8 dez. 2018.
FIVE ACTS. Tableau software: como funciona e quais são os benefícios?. 2016.
Disponível em: <http://www.fiveacts.com.br/tableau-software-como-funciona-e-
quais-sao-os-beneficios/>. Acesso em: 1 dez. 2018.
HAN, Jiawei; PEI, Jian; KAMBER, Micheline. Data mining: concepts and
techniques. Elsevier, 2011.
INMON, William H. Building the data warehouse. John Wiley & sons, 2005.
KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete
guide to dimensional modeling. John Wiley & Sons, 2011.
OLIVEIRA, Adriana Silva de. Sistemas de informações gerenciais em
indústrias multinacionais: um estudo de caso da implementação global do
ERP e BI. São Paulo: USP, 2011. Disponível em: <http://www.teses.usp.br/teses/
disponiveis/12/12136/tde-10082011-191850/ptbr.php>. Acesso em: 1 nov. 2018.
PENTAHO BI. Conhecendo a plataforma, arquitetura e infraestrutura.
Disponível em: <https://www.devmedia.com.br/pentaho-bi-conhecendo-a-
plataforma-arquitetura-e-infraestrutura/31502>. Acesso em: 6 dez. 2018.
RUNTUWENE, J. P. A. et al. A comparative analysis of extract, transformation
and loading (ETL) process. In: IOP Conference Series: Materials Science and
Engineering. IOP Publishing, 2018. p. 012066.
SINGH, Harry; SINGH, Harry S. Data warehousing: concepts, technologies,
implementations, and management. New Jersey: Prentice Hall PTR, 1998.
https://www.devmedia.com.br/pentaho-bi-conhecendo-a-plataforma-arquitetura-e-infraestrutura/31502
https://www.devmedia.com.br/pentaho-bi-conhecendo-a-plataforma-arquitetura-e-infraestrutura/31502
http://www.fiveacts.com.br/tableau-software-como-funciona-e-quais-sao-os-beneficios/
http://www.fiveacts.com.br/tableau-software-como-funciona-e-quais-sao-os-beneficios/http://www.fiveacts.com.br/tableau-software-como-funciona-e-quais-sao-os-beneficios/
http://www.fiveacts.com.br/tableau-software-como-funciona-e-quais-sao-os-beneficios/
http://www.fiveacts.com.br/tableau-software-como-funciona-e-quais-sao-os-beneficios/
http://www.fiveacts.com.br/tableau-software-como-funciona-e-quais-sao-os-beneficios/
https://www.devmedia.com.br/pentaho-bi-conhecendo-a-plataforma-arquitetura-e-infraestrutura/31502
https://www.devmedia.com.br/pentaho-bi-conhecendo-a-plataforma-arquitetura-e-infraestrutura/31502