Buscar

Business intelligence na prática_ modelagem multidimensional e data warehouse - UNIASSELVI


Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 177 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 177 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 177 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Indaial – 2020
Business intelligence 
na prática: ModelageM 
MultidiMensional e data 
Warehouse
Prof. Rodrigo Ramos Nogueira
1a Edição
Copyright © UNIASSELVI 2020
Elaboração:
Prof. Rodrigo Ramos Nogueira
Revisão, Diagramação e Produção:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri 
UNIASSELVI – Indaial.
Impresso por:
N778b
Nogueira, Rodrigo Ramos
Business intelligence na prática: modelagem 
multidimensional e data warehouse. / Rodrigo Ramos Nogueira. – 
Indaial: UNIASSELVI, 2020.
177 p.; il.
ISBN 978-85-515-0454-3
1. Banco de dados. - Brasil. Centro Universitário 
Leonardo Da Vinci.
CDD 005.74
III
apresentação
Caro acadêmico!
Estamos iniciando o estudo da disciplina Business Intelligence na 
Prática: Modelagem Multidimensional e Data Warehouse. Esta disciplina 
objetiva proporcionar uma imersão de conceitos teóricos e principalmente 
práticos de como construir sistemas de Business Intelligence proporcionan-
do um poder decisório nas organizações.
Este livro conta com diversos recursos didáticos externos, por isso, 
recomendamos fortemente que você realize todos os exemplos e exercícios 
para um aproveitamento excepcional da disciplina. Aproveitamos a opor-
tunidade para destacar a importância de desenvolver as autoatividades, 
lembrando que elas não são opcionais, visto que objetivam a fixação dos 
conceitos apresentados. Em caso de dúvida na realização das atividades, su-
gerimos que você entre em contato com seu tutor externo ou com a tutoria 
da UNIASSELVI, não prosseguindo nas atividades sem ter sanado todas as 
dúvidas que, eventualmente, poderão surgir.
Neste contexto, o livro de Business Intelligence na Prática está divi-
dido em três unidades de estudo. A Unidade 1 tratará dos assuntos Progra-
mação para Big Data, tipos de dados e armazenamento e Data Warehouse. 
Na Unidade 2 estudaremos sobre OLAP x OLTP, extração, transformação e 
carga e, por fim, transformações na prática. Já a Unidade 3 abordará sobre 
modelagem multidimensional, operações e servidores OLAP e ferramentas 
de dashboards.
Bom estudo! Sucesso na sua trajetória acadêmica e profissional!
IV
Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para 
você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novi-
dades em nosso material.
Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é 
o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um 
formato mais prático, que cabe na bolsa e facilita a leitura. 
O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagra-
mação no texto, aproveitando ao máximo o espaço da página, o que também contribui para 
diminuir a extração de árvores para produção de folhas de papel, por exemplo.
Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, 
apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade 
de estudá-lo com versatilidade nas telas do celular, tablet ou computador. 
 
Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para apre-
sentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto em 
questão. 
Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas institu-
cionais sobre os materiais impressos, para que você, nossa maior prioridade, possa continuar 
seus estudos com um material de qualidade.
Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de De-
sempenho de Estudantes – ENADE. 
 
Bons estudos!
NOTA
V
VI
Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela 
um novo conhecimento. 
Com o objetivo de enriquecer seu conhecimento, construímos, além do livro 
que está em suas mãos, uma rica trilha de aprendizagem, por meio dela você 
terá contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complemen-
tares, entre outros, todos pensados e construídos na intenção de auxiliar seu crescimento.
Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo.
Conte conosco, estaremos juntos nesta caminhada!
LEMBRETE
VII
UNIDADE 1 - INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE .......1
TÓPICO 1 - BIG DATA – A EXPLOSÃO DOS DADOS ....................................................................3
1 INTRODUÇÃO .......................................................................................................................................3
2 A EXPLOSÃO DOS DADOS ................................................................................................................3
2.1 BUSINESS INTELLIGENCE .............................................................................................................5
2.2 BUSINESS INTELLIGENCE – MECANISMOS PRÁTICOS........................................................8
RESUMO DO TÓPICO 1........................................................................................................................13
AUTOATIVIDADE .................................................................................................................................14
TÓPICO 2 - TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO .................................17
1 INTRODUÇÃO .....................................................................................................................................17
2 DADOS ESTRUTURADOS ................................................................................................................18
3 DADOS SEMIESTRUTURADOS .....................................................................................................21
3.1 DOCUMENTO XML .......................................................................................................................21
3.2 ARQUIVOS CSV ..............................................................................................................................23
3.3 JSON...................................................................................................................................................24
3.4 BSON - MONGODB ........................................................................................................................25
4 DADOS NÃO ESTRUTURADOS .....................................................................................................27
RESUMO DO TÓPICO 2........................................................................................................................30
AUTOATIVIDADE .................................................................................................................................31
TÓPICO 3 - INTRODUÇÃO AO DATA WAREHOUSE ..................................................................35
1 INTRODUÇÃO .....................................................................................................................................35
2 DATA WAREHOUSE ...........................................................................................................................36
2.1 ARQUITETURA PROPOSTA POR INMON ................................................................................38
2.2 ARQUITETURA PROPOSTA POR KIMBALL ............................................................................40
RESUMO DO TÓPICO 3........................................................................................................................51
AUTOATIVIDADE .................................................................................................................................52
UNIDADE 2 - BUSINESS INTELLIGENCE NA PRÁTICA: EXTRAÇÃO, 
 TRANSFORMAÇÃO E CARGA .................................................................................55
TÓPICO 1 - OLAP x OLTP .....................................................................................................................571 INTRODUÇÃO .....................................................................................................................................57
2 OLAP VS OLTP .....................................................................................................................................58
2.1 MODELAGEM E PROGRAMAÇÃO EM AMBIENTES TRANSACIONAIS .........................59
2.2 OLTP - UTILIZANDO SQL ...........................................................................................................60
RESUMO DO TÓPICO 1........................................................................................................................65
AUTOATIVIDADE .................................................................................................................................66
TÓPICO 2 - EXTRAÇÃO, TRANSFORMAÇÃO E CARGA ...........................................................67
1 INTRODUÇÃO .....................................................................................................................................67
2 FERRAMENTAS DE ETL ....................................................................................................................69
suMário
VIII
2.1 ETL E BIG DATA STREAMING ...................................................................................................70
2.2 ETL NA NUVEM .............................................................................................................................73
2.3 PENTAHO DATA INTEGRATION ...............................................................................................74
2.4 PROGRAMANDO UMA FERRAMENTA DE ETL ....................................................................75
2.5 EXTRAÇÃO - REALIZANDO A EXTRAÇÃO DE DADOS ......................................................76
2.6 EXTRAÇÃO COM PENTAHO DATA INTEGRATION .............................................................76
2.7 EXTRAÇÃO UTILIZANDO PYTHON .........................................................................................79
RESUMO DO TÓPICO 2........................................................................................................................81
AUTOATIVIDADE .................................................................................................................................82
TÓPICO 3 - TRANSFORMAÇÕES NA PRÁTICA ...........................................................................85
1 INTRODUÇÃO .....................................................................................................................................85
2 TRANSFORMAÇÃO POR AGRUPAMENTO ...............................................................................86
2.1 TRANSFORMAÇÕES NUMÉRICAS, TEXTUAIS E CONVERSÕES ......................................92
2.2 TRANSFORMAÇÃO UTILIZANDO MACHINE LEARNING PARA ENRIQUECIMENTO 
SEMÂNTICO ....................................................................................................................................96
RESUMO DO TÓPICO 3......................................................................................................................104
AUTOATIVIDADE ...............................................................................................................................105
UNIDADE 3 - VISUALIZAÇÃO DOS DADOS: CONSTRUÇÃO DE DASHBOARDS ........107
TÓPICO 1 - MODELAGEM MULTIDIMENSIONAL ...................................................................109
1 INTRODUÇÃO ...................................................................................................................................109
2 MODELAGEM MULTIDIMENSIONAL .......................................................................................109
2.1 COMPONENTES DA MODELAGEM MULTIDIMENSIONAL ............................................111
2.1.1 Métricas ..................................................................................................................................113
2.1.2 Tipos de Tabelas Fato ...........................................................................................................113
2.2 PREPARANDO O AMBIENTE DE IMPLEMENTAÇÃO DE UM DATA WAREHOUSE ..114
2.2.1 Fato Transacional .................................................................................................................118
2.2.2 Fato por agrupamento de dados: Agregada, Snapshot e Consolidada ..........................119
2.2.3 Tipos de Dimensões .............................................................................................................121
2.2.4 Degenerate Dimension .........................................................................................................121
2.2.5 Slowly Changing Dimensions .............................................................................................122
2.2.6 Role-playing Dimension ......................................................................................................123
2.2.7 A Dimensão Tempo ..............................................................................................................124
2.3 OS MODELOS DE DADOS MULTIDIMENSIONAIS..............................................................125
2.3.1 Modelo Estrela ......................................................................................................................126
2.3.2 Modelo Snowflake ................................................................................................................128
RESUMO DO TÓPICO 1......................................................................................................................135
AUTOATIVIDADE ...............................................................................................................................136
TÓPICO 2 - OPERAÇÕES E SERVIDORES OLAP ........................................................................139
1 INTRODUÇÃO ...................................................................................................................................139
2 SERVIDORES E CLIENTES OLAP ................................................................................................139
2.1 TIPOS DE SERVIDORES OLAP ...................................................................................................140
2.1.1 ROLAP – Relational On Line Analytical Processing .......................................................140
2.1.2 MOLAP – Multidimensional On Line Analytical Processing ........................................141
2.1.3 HOLAP – Hybrid On Line Analytical Processing ...........................................................142
2.1.4 DOLAP – Desktop On Line Analytical Processing ..........................................................142
2.1.5 O Cubo OLAP .......................................................................................................................143
2.1.6 Operações OLAP ..................................................................................................................146
2.1.7 Slice .........................................................................................................................................146
IX
2.1.8 Dice .........................................................................................................................................147
2.1.9 Drill-Down .............................................................................................................................148
2.1.10 Roll-Up .................................................................................................................................149
RESUMO DO TÓPICO 2......................................................................................................................152
AUTOATIVIDADE ...............................................................................................................................153
TÓPICO 3 - FERRAMENTAS DE DASHBOARDS ........................................................................1551 INTRODUÇÃO ...................................................................................................................................155
2 PENTAHO ............................................................................................................................................156
2.1 POWER BI .......................................................................................................................................158
RESUMO DO TÓPICO 3......................................................................................................................160
AUTOATIVIDADE ...............................................................................................................................161
REFERÊNCIAS .......................................................................................................................................163
X
1
UNIDADE 1
INTRODUÇÃO AO BUSINESS 
INTELLIGENCE E DATA WAREHOUSE
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• contextualizar sobre big data e volume de dados;
• conhecer sobre o papel dos usuários na geração de dados;
• saber mais sobre conceitos de Business Intelligence;
• ter uma visão geral sobre projetos de Business Intelligence;
• aprender sobre os tipos de dados;
• conhecer o conceito de Data Warehouse;
• refletir sobre as arquiteturas de Data Warehouse existentes.
Esta unidade de ensino contém três tópicos. No final de cada um deles você 
encontrará autoatividades que contribuirão para a apropriação dos conteúdos.
TÓPICO 1 – BIG DATA – A EXPLOSÃO DOS DADOS
TÓPICO 2 – TIPOS DE DADOS E ARMAZENAMENTO
TÓPICO 3 – INTRODUÇÃO AO DATA WAREHOUSE
Preparado para ampliar seus conhecimentos? Respire e vamos 
em frente! Procure um ambiente que facilite a concentração, assim absorve-
rá melhor as informações.
CHAMADA
2
3
TÓPICO 1
UNIDADE 1
BIG DATA – A EXPLOSÃO DOS DADOS
1 INTRODUÇÃO
Há 20 anos era muito custoso ter um computador e poucos tinham acesso 
a ele. Os que tinham utilizavam internet discada e no máximo 56 kbps/s. Se você 
nasceu antes dos anos 2000, provavelmente conhecia bem o barulhinho para se 
conectar à internet discada, aos que desconhecem, para se conectar, era preciso 
ter uma linha telefônica, que ficava ocupada durante a utilização da internet. Para 
acompanhar as revoluções tecnológicas, eram vendidas revistas sobre o assunto 
nas bancas de jornais.
Em paralelo a isso, a internet vivia sua primeira revolução nos anos 2000. 
Enquanto usuários se preocupavam com o Bug do Milênio, as gigantes da tecno-
logia começavam a ter seus primeiros problemas de armazenamento. As gigantes 
da computação, como Google e Amazon, foram obrigadas a desenvolver suas 
próprias soluções para armazenar seu volume de dados, que passavam de cente-
nas de Terabytes. Em 2009, devido à dimensão desse problema, houve uma reu-
nião com os grandes nomes do armazenamento de dados em busca de soluções.
O volume de dados era tão grande que diversas tecnologias estavam em 
ascensão: a Google com o Big Table, a Amazon com o DynamoDB e o Facebook já 
aparecendo no cenário com suas próprias tecnologias. Você já parou para pensar 
qual é o seu papel durante essa explosão de dados?
2 A EXPLOSÃO DOS DADOS
Você tem noção da quantidade de informação que você gera diariamente? 
Seja pelas mídias sociais, aplicativos de mensagens ou até mesmo softwares espe-
cíficos, diariamente produzimos uma grande massa de dados. 
Durante muitos anos, os usuários foram apenas consumidores de informa-
ção e conteúdo. Um programa de TV, tradicionalmente, mensurava sua audiência 
pelo ibope e o número de pessoas assistindo em capitais. Hoje, enquanto um pro-
grama é transmitido, as pessoas comentam sobre ele na internet, com isso, além do 
envolvimento do público, também é possível aproveitar os dados fornecidos. 
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
4
Todos os comentários sobre determinado programa formam uma grande 
base de dados, sob o qual é possível extrair conhecimento, principalmente saber 
se as pessoas estão ou não gostando do que está sendo transmitido. 
FIGURA 1 – INTERAÇÃO COM REDES SOCIAIS
FONTE: http://bit.ly/2IeY0QX. Acesso em: 1º jan. 2020.
É claro que o uso de smartphones não é o único responsável pela geração 
de dados em larga escala no mundo. Com a utilização de smartwatches, pulsei-
ras, sensores de precisão, entre os mais diversos tipos de conectados, o volume 
de dados aumentou significativamente, complementado pela grande variedade 
de tipos de dados. 
O número de dispositivos conectados à Internet, incluindo as máquinas, 
sensores e câmeras que compõem a Internet das Coisas (IoT), continua crescendo a 
um ritmo constante. Uma nova previsão da International Data Corporation (IDC) 
estima que haverá 41,6 bilhões de dispositivos conectados à IoT, gerando 79,4 zet-
tabytes (ZB) de dados em 2025. À medida que o número de dispositivos IoT co-
nectados aumenta, a quantidade de dados gerados por esses dispositivos também 
cresce. Alguns desses dados são pequenos e intermitentes, indicando uma única 
métrica de integridade de uma máquina, enquanto grandes quantidades de dados 
podem ser geradas por câmeras de vigilância por vídeo usando a visão computa-
cional para analisar multidões de pessoas, por exemplo (SEGINFO, 2020).
Após você compreender o seu papel na geração de dados no seu cotidia-
no, definiremos, a seguir, o conceito de Big Data. 
Big Data é um grande volume de dados, coletado das mais variadas fontes 
e tipos de dados, em que se deseja extrair insights com velocidade, armazenando 
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
5
dados com veracidade, sob o qual se permite extrair informação com valor. Esses 
cinco itens em destaque são definidos como os 5 Vs do Big Data (volume, varia-
das/variedade, velocidade, veracidade e valor). 
Big Data não trata apenas da dimensão volume, como parece à pri-
meira vista, mas existe também uma variedade imensa de dados, não 
estruturados, dentro e fora das empresas (coletados das mídias sociais, 
por exemplo), que precisam ser validados (terem veracidade para se-
rem usados) e tratados em velocidade adequada para terem valor para 
o negócio. A fórmula é, então, Big Data = volume + variedade + veloci-
dade + veracidade, gerando valor (TAURION, 2013 p. 19).
FIGURA 2 – OS Vs DE BIG DATA
FONTE: https://brunovasconcelos.me/2018/02/26/o-que-e-big-data/. Acesso em: 1º jan. 2020.
O volume de dados disponível mais do que dobra a cada dois anos e os 
algoritmos aperfeiçoam-se rapidamente, ao passo que, em razão quase inversa-
mente proporcional, os custos de armazenamento decrescem. Técnicas de análise 
de dados, antes acessíveis apenas às agências de espionagem, laboratórios de pes-
quisa e grandes conglomerados comerciais são, paulatinamente, democratizadas 
(MAYER-SCHONBERGER; CUKIER, 2014).
Quando falamos do papel de Big Data nas organizações, não estamos fala-
mos apenas em gerar um grande volume de dados, mas sim de utilizar estes dados 
para gerar conhecimento organizacional para tomada de decisões estratégicas, sen-
do que, para isso, muitas vezes, utilizamos técnicas de Business Intelligence. 
2.1 BUSINESS INTELLIGENCE
Iniciamos nosso estudo falando do grande volume de dados e da sua im-
portância para as organizações. No entanto, a preocupação com o armazenamen-
to e a extração de conhecimento é algo secular, visto que se nos aprofundarmos 
iremos parar em 18.000 a.C., os quais nossos ancestrais utilizavam ossos de ba-
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
6
buíno para fazer operações matemáticas cravadas (armazenadas) em paredes das 
cavernas. Podemos, também, utilizar como exemplo os desenhos rupestres que 
foram feitos há mais de 40.000 anos e que serviram para armazenar dados sobre 
a história humana. 
FIGURA 3 – ARMAZENAMENTO DE DADOS NO PASSADO
FONTE: O autor
Quando trazemos essa reflexão para a história recente,caminhamos para 
os anos 1980, quando muita coisa aconteceu no mundo da computação, princi-
palmente no que tange à revolução dos computadores pessoais e dos sistemas 
operacionais. No mundo dos dados não foi diferente, muita coisa aconteceu nes-
sa década que impactam na nossa vida até hoje. 
Um destaque especial para os nomes de Edgar Frank Codd e Richard Mil-
ler Devens. Codd, em seu artigo “A relational model of data for large shared data 
banks”, publicado em 1983, explica que sua arquitetura para armazenamento de 
dados relacionais, utilizada majoritariamente em todas as organizações, serve 
como base para o desenvolvimento de novas tecnologias de bancos de dados. 
Já Devens, em seu livro “Cyclopaedia of commercial and business anecdotes”, 
publicado em 1864, descreve que a iniciativa de coletar dados e a capacidade 
de extrair informação nos resultados coletados auxilia as organizações em suas 
tomadas de decisão. Para ele, Business intelligence é a capacidade de coletar in-
formações e reagir a elas.
O conceito de Business Intelligence é utilizado para definir todo o conjun-
to de tecnologias e processos utilizados na coleta, organização, análise, compar-
tilhamento e monitoramento de dados, com ênfase para dar suporte a decisões 
estratégicas. Ainda assim, houve diversos autores que trouxeram suas definições 
para o termo Business Intelligence, o grande ponto é que como Business Intelli-
gence tem como base à coleta de dados para a geração de informações organiza-
cionais, é um termo que já sofreu e pode sofrer mutações, conforme o cenário dos 
dados mudam no mundo. 
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
7
A seguir, o conceito, a definição e os objetivos de Business Intelligence na 
perspectiva de alguns autores.
QUADRO 1 – DEFINIÇÕES DE BUSINESS INTELLIGENCE
Um sistema automático para disseminar informação para vários setores de 
qualquer empresa, utilizando máquinas de processamento de dados (compu-
tadores), autoabstração e autocodificação de documentos e criando perfis para 
cada ponto de ação da organização por palavra padrão (LUHN, 1958).
É a aplicação de um conjunto de técnicas e ferramentas que são propostas para 
auxiliar na administração de um negócio e na tomada de decisões (SANTOS, 2009).
Pode ser definido como o apoio de modelos matemáticos e metodologias de 
análise que explorem os dados disponíveis para gerar informação e conheci-
mento para processos de tomada de decisões complexas (VERCELLIS, 2009).
Refere-se às aplicações e tecnologias para consolidar, analisar e oferecer acesso a 
grandes quantidades de dados, para ajudar os usuários a tomarem melhores de-
cisões empresariais e estratégicas. As aplicações de BI oferecem visões históricas, 
atuais e previsíveis das operações de negócio (RAINER; CEGIELSKI, 2011).
De forma mais ampla, pode ser entendido como a utilização de variadas fontes 
de informação para definir estratégias de competitividade nos negócios da em-
presa. Podem ser incluídos nesta definição os conceitos de estruturas de dados, 
representadas pelos bancos de dados tradicionais, data warehouse e data marts, 
criados objetivando o tratamento relacional e dimensional de informações, bem 
como as técnicas de data mining aplicadas sobre elas, buscando correlações e 
fatos “escondidos” (BARBIERI, 2011).
Une dados, tecnologia, análises e conhecimento humano para otimizar decisões 
nos negócios e ultimamente tem dirigido o sucesso das empresas. Programas de 
BI usualmente combinam um Data Warehouse empresarial (EDW) e uma pla-
taforma de ferramentas de BI para transformar dados em informações usáveis 
para o negócio (TDWI, 2013). 
Refere-se à coleção de SIs e de tecnologias que dão suporte à tomada de decisão 
gerencial ou operacional – controle pelo fornecimento de informações nas ope-
rações internas e externas (TURBAN; VOLONIMO, 2013).
Em alguns momentos deste livro você se deparará com os termos: “suporte à 
tomada de decisão gerencial”, “suporte às decisões da organização” ou algo relacionado 
a empresas, muitas vezes esse tipo de aplicação só existe em grandes corporações. Por 
isso, é muito importante frisar que esses conceitos foram cunhados porque tais tecnolo-
gias surgiram dentro de empresas, no entanto, o emprego de tais tecnologias se aplica a 
qualquer setor. Por exemplo, uma ONG pode ter um sistema de Business Intelligence para 
saber quais os melhores locais para fazer ações de reflorestamento ou um líder comunitá-
rio pode ter um sistema de Business Intelligence para monitorar o rendimento das crianças 
de uma comunidade na escola.
IMPORTANT
E
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
8
É um termo guarda-chuva que inclui aplicações, infraestrutura e ferramentas e 
as melhores práticas que permitem acesso e análise de informações para promo-
ver e otimizar decisões e performance (GARTNER, 2013). 
Refere-se às aplicações e tecnologias que são utilizadas para coletar, acessar 
e analisar dados e informações de apoio à tomada de decisão (BALTZAN; 
PHILLIPS, 2012). 
É o processo de transformação de dados brutos em informações utilizáveis para 
maior efetividade estratégica, insights operacionais e benefícios reais para o 
processo de tomada de decisão nos negócios (DUAN; XU, 2012).
FONTE: Adaptado de Botelho e Razzolini Filho (2014)
Conforme vimos, Business Intelligence pode ser assimilado de diversas 
maneiras, mas ao analisar tais definições, é possível compreender que essa ferra-
menta utiliza os dados da organização para dar suporte à tomada de decisões, ou 
seja, Business Intelligence é o processo de utilizar os dados em favor da organi-
zação, extraindo conhecimento e insights a partir deles. Vamos entender melhor 
como ele se aplica na prática?
2.2 BUSINESS INTELLIGENCE – MECANISMOS PRÁTICOS
Agora que você compreendeu os conceitos e a definição de Business In-
telligence, falaremos um pouco de como isso acontece na prática. De modo geral, 
para entender como um sistema de BI funciona, torna-se essencial a compreensão 
de seus elementos. Para isso, precisamos conhecer o tripé da gestão de sistemas 
inteligentes: dados, informação e conhecimento. 
FIGURA 4 – DADOS, INFORMAÇÃO E CONHECIMENTO
FONTE: <http://bit.ly/2VFdINl>. Acesso em: 1º jan. 2020.
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
9
• Dados: são fatos de um mundo real, que estão armazenados em algum lugar, 
mas que não possuem sentido, pode-se dizer que o dado é a informação em sua 
forma bruta, ou seja, ainda não lapidada. Segundo Valentim (2002), dados são 
simples observações sobre o estado do mundo.
• Informação: são dados dotados de relevância e propósito; são dados organiza-
dos de modo significativo, ou seja, que possuem algum sentido, é aquilo que 
leva à compreensão (VALENTIM, 2002). 
• Conhecimento: vem de discernimento, prática e experiência de vida. O conhe-
cimento é extraído a partir dos dados e informações armazenadas, sendo aqui-
lo que não pode ser visto por uma perspectiva humana, mas sim extraída. Na 
visão de Valentim (2002), o conhecimento é uma informação valiosa da mente 
humana. Inclui reflexão, síntese e contexto.
No cenário de BI, nosso objetivo é justamente coletar dados de uma ou 
várias fontes, armazená-los em uma estrutura organizada que permita extrair in-
formação e executar algoritmos que permitam gerar conhecimento. 
Para compreender melhor, vejamos o exemplo a seguir:
A AgroGama é uma empresa que gerencia um conjunto de fazendas e 
consta com diversos sócios, entre eles donos das terras e acionistas. Os equipa-
mentos utilizados durante o plantio são todos da indústria agro 4.0, ou seja, as 
colheitadeiras inteligentes emitem relatório dos grãos colhidos diretamente para 
um servidor; com isso, é possível saber a qualidade dos produtos, bem como a 
quantidade. Também há o uso de um sistema de informação em cada fazenda 
para controle de funcionários, animais e da produção interna. Os gestores da em-
presa agora precisam que seja desenvolvido um sistema de Business Intelligence 
que permita quese obtenham informações gerenciais sobre todas as fazendas 
para que se possa obter insights e tomar decisões.
 
Com base nesse texto, para aplicarmos o BI, faremos alguns questiona-
mentos:
• Onde estão os dados?
R.: Os dados são oriundos dos sensores, dos aplicativos e dos sistemas já utiliza-
dos. São exemplos de dados: soja, feijão, 3.00, 4000, alto, médio, baixo. 
• Onde está a informação?
R.: A informação acontece visto que há estrutura nesses dados, permitindo com 
que tenham sentido. Por exemplo: o feijão custa R$ 4,50 o kg na venda, a fazenda 
X produz 4000 kg de soja por mês. 
• Onde está o conhecimento?
R.: O conhecimento acontecerá a partir de perguntas que não podem ser formula-
das a partir dos dados armazenados. Por exemplo: “Qual a fazenda mais produti-
va?” é uma questão que pode ser respondida a partir da análise dos dados. O co-
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
10
nhecimento vai além, permitindo retornar coisas como “Todas as quintas-feiras, 
se a temperatura subir e chover a mais do que 30 mm, haverá baixa na produção” 
ou “Todas as fazendas que produzem milho e soja, mas não tem gado, têm uma 
produção abaixo da média”.
Note que, nesse exemplo, falamos sobre o que é feito, mas não como é 
feito. Do ponto de vista de tecnologias empregadas, não há uma exatidão para 
que haja um cenário de Business Intelligence, é importante que os dados sejam 
coletados, que tenha-se uma estrutura sólida de armazenamento e que possamos 
extrair conhecimento em cima do que foi armazenado. 
FIGURA 5 – EXEMPLO DE ARQUITETURA DE UM SISTEMA DE BUSINESS INTELLIGENCE 
FONTE: Siteware (2020, s.p.)
No geral, cada implementação de um Business Intelligence tem três pilares:
• Coleta de dados: no primeiro momento, todas as informações e dados da em-
presa são coletados e analisados. São determinadas características como: pro-
dutividade, oportunidades, reputação etc.
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
11
• Organização e análise: os dados e informações recolhidos e analisados são or-
ganizados em bancos de dados. Para facilitar a visualização dos gestores, po-
de-se apresentá-los visualmente, com o auxílio de ferramentas e plataformas.
• Ação e monitoramento: os responsáveis tomam decisões baseadas nas infor-
mações analisadas e monitoram seus resultados.
Não existe uma arquitetura geral para o desenvolvimento de uma arqui-
tetura de Business Intelligence, o importante é que a arquitetura contenha os pi-
lares de um sistema de BI.
Excel - a Eterna Ferramenta de Business Intelligence
O Microsoft Excel se torna quase imbatível quando o tema é geração de relatórios, neste 
exato momento, milhares de pessoas estão gerando relatórios no Excel enquanto outras 
milhares estão estudando como fazê-lo. 
O Visicalc, desenvolvido por Dan Bricklin, conhecido como o “pai das planilhas eletrôni-
cas”, foi o precursor das planilhas eletrônicas e também pela utilização dos computadores 
pessoais. Naquela época, os computadores existentes custavam cerca de R$ 15 mil, tam-
bém não existia a Internet (pelo menos não como a conhecemos hoje) e havia poucos 
softwares de gestão. Com toda essa explanação, para que se comprava um computador? 
As planilhas eletrônicas justificavam o investimento, pois além de armazenarem os dados 
sobre a gestão das empresas, tornaram-se as primeiras ferramentas de inteligência de 
negócios e suporte à decisão.
Estamos em 2020, passaram-se mais de 30 anos desde a criação das planilhas e há uma 
imensidão de ferramentas computacionais para gestão de empresas e suporte à decisão. 
Por que, então, o Excel ainda é tão utilizado? São diversos fatores que fazem da ferramen-
ta obter tanto número de usuários, o principal com certeza é a sinergia do Pacote Office 
com o sistema operacional Windows, que apenas na versão 10 alcançou 270 milhões de 
usuários em todo mundo. 
A ferramenta é imensamente utilizada pelas empresas para os mais diversos tipos de funcio-
nalidades. Independentemente do porte ou segmento da organização, é uma ferramenta al-
tamente difundida no ambiente empresarial, pois oferece infinitas possibilidades para manter 
os processos automatizados e organizados. Os recursos do Excel permitem que o usuário 
faça cálculos complexos, principalmente aqueles que envolvem a área financeira de um 
negócio. Além disso, é possível criar uma planilha de gastos, uma planilha para controlar o 
fluxo de caixa, calcular preços dos produtos e serviços oferecidos pela empresa, registrar os 
pagamentos, toda a parte contábil da organização, entre outras funcionalidades.
Um outro fator muito impactante no uso da ferramenta é o fato de as empresas comu-
mente utilizarem softwares ERP para realizar a gestão de todos os processos organizacio-
nais, por exemplo, o SAP. Este tipo de software é informalmente chamado de “engessado”, 
pois, ao invés de se adaptar às rotinas da empresa, é a empresa que se adapta ao funcio-
namento do software. 
Muitas vezes, as empresas precisam gerar relatórios específicos que atendam às suas ne-
cessidades particulares e estes relatórios não são fornecidos pelo software ERP, a empresa, 
então, pode até fazer uma requisição e solicitar que seja implementado, mas isso envol-
NOTA
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
12
FONTE: O autor
Uma vez tendo acesso aos dados através de planilhas, estes são integrados, também em 
planilhas, cabendo à empresa gerar seus próprios relatórios, importando várias planilhas, 
consolidando, explorando e utilizando os mais diversos recursos. 
FONTE: Adaptado de: NOGUEIRA, R. Análise de dados usando dashboards. Indaial: 
UNIASSELVI, 2019.
ve tempo e alto custo. Em contrapartida, os ERPs fornecem diversos relatórios sobre os 
módulos (financeiro, comercial, gestão, estoque, entre outros) e estes mesmos relatórios 
podem ser importados no formato de planilhas eletrônicas.
FIGURA 6 – EXEMPLO DE GERAÇÃO DE RELATÓRIOS COM O EXCEL
Nesse momento, você deve estar se perguntando: “Mas se eu já tenho domí-
nio de Excel, então eu já sei tudo sobre BI?”. A grande questão é que o Excel é uma ferra-
menta de relatórios, sob a qual os seus usuários gastam muito tempo preparando os dados 
para poder extrair informações sobre ele. Lembrando que um cenário de BI deve fazer a 
coleta, o armazenamento e a apresentação dos dados, de forma automática.
INTERESSA
NTE
13
Neste tópico, você aprendeu que:
• Big data é composto por volume, velocidade, variedade, veracidade e valor.
• Como usuário, você tem um importante papel na geração de um grande volu-
me de dados.
• A evolução da tecnologia, bem como o surgimento de novas tecnologias, como 
IoT, geram um conjunto expressivo de dados, implicando na Big Data.
• Business Intelligence é um termo que foi cunhado no final dos anos 1980, mas 
vinga até hoje; é um termo que já sofreu e pode sofrer mutações, conforme o 
cenário dos dados mudam no mundo. 
• Para ter um cenário de Business intelligence, é necessário ter coleta, armazena-
mento e processos que permitam sua análise. 
RESUMO DO TÓPICO 1
14
1 Leia o texto a seguir:
O Sistema de Apoio à Decisão (SAD) e Business Intelligence (BI), a partir de da-
dos do ambiente organizacional, seja interno e/ou externo, os transformam em 
informações na forma de relatórios, gráficos, tabela e indicadores, permitindo 
uma análise e um diagnóstico do ambiente e dos processos e proporcionando 
aos gestores condições de antecipar o futuro e reduzir riscos e incertezas na 
tomada de decisão.
Sobre Business Intelligence, assinale a alternativa CORRETA:
FONTE: SILVA, R. A. da; SILVA, F. C. A.; GOMES, C. F. S. O uso do Business Intelligence (BI) em 
sistema de apoio à tomada de decisão estratégica. Revista GEINTEC - Gestão, Inovação e 
Tecnologias, v. 6, n. 1, p. 2780-2798, 2016.
a) O desenvolvimento de Business Intelligence pode acontecer apenas em 
grandes corporações.
b) O desenvolvimento de Business Intelligence acontece apenas na teoria.
c) O desenvolvimento deBusiness Intelligence pode acontecer em qualquer 
organização. 
d) O desenvolvimento de Business Intelligence acontece apenas em organiza-
ções do ramo agrícola.
2 Big Data é o termo em Tecnologia da Informação que trata sobre grandes con-
juntos de dados que precisam ser processados e armazenados. O conceito do 
Big Data se iniciou com 5 Vs: Velocidade, Volume, Veracidade, Valor e Varie-
dade. Um sistema de IoT coleta dados de diversos dispositivos: áudio, vídeo, 
texto, binários. Sobre em qual V o IoT está relacionado, assinale a alternativa 
CORRETA: 
a) Volume. 
b) Velocidade.
c) Valor.
d) Variedade.
Para as próximas questões, considere o cenário a seguir:
“Você integrará à equipe o desenvolvimento de um sistema de Business In-
telligence para Smart Home. O sistema tem como objetivo coletar dados de 
uma casa inteligente, que já está funcionando normalmente, no entanto, cada 
dispositivo está independente. Também deve permitir que o usuário tenha um 
Dashboard com todas as informações da casa e de seus dispositivos pessoais”.
AUTOATIVIDADE
15
FIGURA 7 – SMARTHOME DASHBOARD
FONTE: <https://product.haleema.me/project/smart-home-dashboard/>. Acesso em: 29 fev. 2020.
3 Considerando o cenário do dispositivo indicado e sabendo que os dados são 
a forma mais bruta da informação, assinale a alternativa CORRETA que apre-
senta exemplo(s) de dados sobre esse cenário:
 
a) TV, Relógio, 1, 2000.23, 30 ºC, 200 Mhz.
b) Relatório de dispositivos que mais consomem energia.
c) Previsão do consumo de energia para o próximo dia.
d) Não é possível ter dado neste cenário.
4 Considerando o cenário do dispositivo indicado e sabendo que a informação 
traz organização e sentido aos dados armazenados, assinale a alternativa COR-
RETA que apresenta exemplo(s) de informações sobre esse cenário:
 
a) TV, Relógio, 1, 2000.23, 30 ºC, 200 Mhz.
b) Relatório de dispositivos que mais consomem energia.
c) Previsão do consumo de energia para o próximo dia.
d) Não é possível ter informação neste cenário.
16
5 Considerando o cenário do dispositivo indicado e sabendo que o conheci-
mento é adquirido a partir dos dados armazenados, sendo experiências e práti-
cas além da informação, assinale a alternativa CORRETA que apresenta exem-
plo(s) de conhecimento sobre esse cenário:
 
a) TV, Relógio, 1, 2000.23, 30 ºC, 200 Mhz.
b) Relatório de dispositivos que mais consomem energia.
c) Previsão do consumo de energia para o próximo dia.
d) Não é possível ter dado neste cenário.
17
TÓPICO 2
TIPOS DE DADOS E EXEMPLOS 
DE ARMAZENAMENTO
UNIDADE 1
1 INTRODUÇÃO
Quando falamos sobre Business Intelligence e sobre Big Data, falamos que 
tais tecnologias dependem diretamente de um item para existir: o dado. Logo, 
para que possamos armazená-lo, manutení-lo e analisá-lo é necessário tê-lo ar-
mazenado e preparado.
Por isso se torna interessante que você tenha conhecimento sobre os da-
dos, como gerá-los, como consumi-los e como tratá-los. Para isso, é importante 
conhecer os tipos de dados. 
Durante este tópico você estudará os tipos de dados que se dividem entre 
não estruturados, semiestruturado e estruturados. No contexto de desenvolvi-
mento de sistemas, os dados estruturados são maioria, no entanto, dada a explo-
são de dados que discutimos no mundo, a maioria dos dados são semiestrutura-
dos e não estruturados.
 
FIGURA 8 – SMARTHOME DASHBOARD
FONTE: O autor
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
18
2 DADOS ESTRUTURADOS
 
Quando se lê dados estruturados, logo assume-se que este dado possui 
uma estrutura e isso está correto. No entanto, no contexto dos tipos de dados, 
dizer que um dado é estruturado significa dizer que ele possui uma estrutura 
criada para o seu armazenamento. Precisamente, significa dizer que esta estrutu-
ra foi criada anteriormente à existência dos dados, ou seja, um dado estruturado 
é aquele que já tem uma estrutura antes mesmo do dado existir.
Os tipos estruturados são:
• Dados organizados em blocos semânticos (relações).
• Dados de um mesmo grupo.
• Dados que possuem as mesmas descrições (atributos).
• Dados que possuem descrições para todas as classes de um grupo apresentam 
o mesmo formato (esquema).
• Dados que são tradicionalmente mantidos em um SGBD e são chamados de 
estruturados por manterem a mesma estrutura de representação (rígida), pre-
viamente projetada (esquema).
Os Sistemas Gerenciadores de Bancos de Dados – SGBDs – são softwares 
utilizados para armazenar e manutenir os dados. 
Um sistema gerenciador de banco de dados (SGBD) é uma coleção de 
programas que permite aos usuários criar e manter um banco de da-
dos. O SGBD é, portanto, um sistema de software de propósito geral 
que facilita os processos de definição, construção, manipulação e com-
partilhamento de bancos de dados entre vários usuários e aplicações. 
A definição de um banco de dados implica especificar os tipos de da-
dos, as estruturas e as restrições para os dados a serem armazenados 
em um banco de dados (ELMASRI et al. 2005, p. 10).
Aqui temos um ponto importante, pois quando cunhou-se a terminologia 
SGBD só existia um tipo estrutura de banco de dados conhecida: os bancos de 
dados relacionais. Atualmente são diversos os tipos de gerenciadores de bancos 
de dados, os chamados NoSQL (Not Only SQL - Não Apenas AQL).
 
Os SGBDs do tipo NoSQL contêm diversos tipos de estruturas de armaze-
namento como: orientado a grafos, orientado a documentos, chave-valor, orienta-
do a grafos, orientado a colunas, entre muitos outros que surgem a cada momen-
to. O ponto nesse momento é que os bancos de dados não relacionais (NoSQL) 
são de diversos tipos e muitos deles não contemplam uma estrutura prévia de 
armazenamento.
Por isso dizemos que os dados estruturados se referem aos sistemas ge-
renciadores de bancos de dados relacionais – SGBDR. Lembrando que, na defini-
ção de um dado estruturado, a estrutura deve existir antes de o dado ser inserido. 
Vamos compreender como isso funciona na prática? 
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
19
Tendo com objetivo executar um exemplo prático, precisamos utilizar um 
SGBDR, nesse caso utilizaremos o PostgreSQL para construção do exemplo, no 
entanto, os comandos utilizados são ANSI-SQL e devem funcionar em todos os 
SGBDRs.
Para instalar o PostgreSQL na sua máquina, você pode obter os insta-
ladores e os arquivos binários no site https://www.postgresql.org/download/. 
No entanto, nesse primeiro momento, vamos utilizar uma opção em nuvem, o 
ElephantSQL. 
O ElephantSQL é uma ferramenta on-line para criação e manutenção de 
bancos de dados PostgreSQL, a ferramenta pode ser acessada em: https://www.
elephantsql.com/. Na tela de acesso inicial são apresentadas diversas opções, com 
diversos espaços em disco, bem como um preço associado.
Em sua opção FREE, o ElephantSQL permite criar um banco de dados de 
até 20 Mb de maneira gratuita sem a necessidade de fornecer dados de cartão de 
crédito, sendo essa opção utilizada para construir os exemplos desta Unidade.
FIGURA 9 – ELEPHANTSQL
FONTE: O autor
No ElephantSQL do navegador é possível executar comandos de acesso 
aos dados pela aba Browser. Será nessa caixa de texto que executaremos os co-
mandos para execução do nosso exemplo. 
 
https://www.elephantsql.com/
https://www.elephantsql.com/
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
20
Primeiramente, é bom saber que os SGBDRs se comunicam por uma mes-
ma linguagem, denominada SQL (Structured Query Language - Linguagem de 
Consulta Estruturada). A SQL pode ser dividida em dois tipos:
• DML (Data Definition Language - Linguagem de Definição de Dados): a lin-
guagem de definição está relacionada à definição da estrutura de um banco 
de dados, a partir dela que são definidas as estruturas, as tabelas e os campos, 
bem como a manutenção da estrutura.
• DML (Data Manipulation Language - Linguagem de Manipulação de Dados): 
a linguagem de manipulação está relacionada aos dados; a partir do momentoque a estrutura é criada, será possível com uma DML inserir, excluir, atualizar 
e consultar dados em um SGBD. 
Note que em sua definição, os dados estruturados devem ter uma estrutu-
ra definida antes da inserção dos dados, justamente o que acontece com a DML. 
Vejamos um exemplo de comandos que criam estruturas, em específico, o Qua-
dro 2 cria uma tabela. 
QUADRO 2 – DDL - CRIANDO UMA TABELA
create table aluno 
(
 id_pessoa integer primary key,
 nome varchar(100),
 cpf varchar(11)
)
FONTE: O autor
Uma vez tendo criado a tabela pelo comando do Quadro 2, para entender 
o conceito de um dado estruturado, execute os comandos mostrados pelo Quadro 
3, digitando cada comando na sequência, linha por linha.
QUADRO 3 – DML - INSERINDO REGISTROS
insert into aluno (id_pessoa, nome, cpf) values (1,"Rodrigo", "51255584896");
insert into aluno (id_pessoa, nome, cpf) values (2,"João", "125555848969");
insert into aluno (id_pessoa, nome, cpf, sexo) values (3,"Luiz", "125528848969", "M");
insert into aluno (id_pessoa, nome, cpf, idade) values (4,"Maria", "125578948969", 35);
FONTE: O autor
Ocorreu tudo bem durante a execução? O que aconteceu nas linhas 3 e 
4? Repare que ao executar essas linhas aconteceu um erro, o erro indica que os 
campos idade e sexo não existem, o que é verdade, pois a estrutura de um banco 
de dados não pode ser alterada durante sua execução. Caso se deseje inserir uti-
lizando esses campos, deve-se alterar a estrutura da tabela.
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
21
QUADRO 4 – DML E DML - ALTERANDO TABELA E INSERINDO REGISTROS
alter table aluno add sexo varchar(1); 
alter table aluno add idade integer;
insert into aluno (id_pessoa, nome, cpf, sexo) values (3,'Luiz', '12552884896', 'M');
insert into aluno (id_pessoa, nome, cpf, idade) values (4,'Maria', '25578948969', 35);
FONTE: O autor
Agora que pudemos compreender mais do conceito de dados estrutura-
dos e como esse conceito funciona na prática, na próxima seção será visto sobre 
os dados semiestruturados.
3 DADOS SEMIESTRUTURADOS
 
Não há como ter metade de um banco de dados com estrutura e outra 
sem. Quando falamos de bancos de dados semiestruturados, estamos falando de 
um tipo de dados que não tem estrutura definida previamente. 
Os dados semiestruturados permitem alteração da estrutura em tempo 
de execução, isto significa que campos podem ser adicionados ou removidos a 
qualquer momento. 
Os tipos semiestruturados são:
• Dados em sua maioria da Web.
• Dados que apresentam uma organização bastante heterogênea.
• A alta heterogeneidade dificulta as consultas a estes dados.
• Os dados semiestruturados são dados em que o esquema de representação está 
presente (de forma explícita ou implícita).
Conforme já discutimos, a Web e os dispositivos IoT são grandes respon-
sáveis pela geração de dados no mundo. A grande característica desses dados é o 
fato de terem uma estrutura dinâmica, que pode ser alterada em execução.
Conhecendo um pouco sobre o conceito de dados semiestruturados, veja-
mos alguns exemplos deste tipo de dados.
3.1 DOCUMENTO XML
O XML (eXtensive Markup Language - Linguagem de Marcação Exten-
sível) é uma linguagem de marcação que tem uma estrutura muito similar ao 
HTML (Hypertext Markup Language - Linguagem de Marcação de Hipertexto).
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
22
Tanto o XML quanto o HTML têm sua organização e sintaxe dada por 
<tags>. A principal diferença é que o HTML é utilizado para criação e exibição de 
conteúdo na Web, enquanto o XML é utilizado para armazenamento de dados. 
O XML é recomendado pela W3C para a criação de documentos com dados 
organizados hierarquicamente. Vejamos um exemplo de um documento XML.
QUADRO 5 – EXEMPLO DE XML
<?xml version="1.0" ?>
<pedidos>
 <pedido id="1">
 <produto id="1">
 <descricao>Jaleco</descricao>
 <preco>3.50</preco>
 <quantidade>3</quantidade>
 </produto>
 </pedido>
</pedidos>
FONTE: O autor
Para validar se a sintaxe do documento anterior está correta, basta usar o 
seguinte validador: https://www.w3schools.com/xml/xml_validator.asp. Criare-
mos, agora, um outro documento, baseado no anterior, mas utilizando recursos 
de dados semiestruturados.
QUADRO 6 – ADICIONANDO ELEMENTOS AO XML
<?xml version="1.0" ?>
<pedidos>
 <pedido id="1">
 <produto id="1">
 <descricao>Jaleco</descricao>
 <preco>3.50</preco>
 <quantidade>3</quantidade>
 </produto>
 <produto id="2">
 <descricao>Jaleco</descricao>
 <quantidade>3</quantidade>
 <totalproduto>10,5</totalproduto>
 </produto>
 </pedido>
</pedidos>
FONTE: O autor
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
23
Note que alteramos a estrutura do documento passando a mesma infor-
mação que há em pedido 1 para o pedido 2, dito isto, você percebe que ambos 
produtos contêm a mesma informação, mas estruturada de maneira diferente. 
Qual o problema disso? O grande problema será na hora de consumir esses da-
dos, afinal a mesma consulta não retornará para a mesma informação.
O XML compreende um padrão adotado pelo W3 Consortium, que possi-
bilita a troca de dados na Internet, além de representar dados semiestruturados. 
Uma grande quantidade de dados é atualmente publicada em páginas HTML 
(ALMEIDA, 2002).
Documentos XML são tradicionalmente utilizados para integração entre 
sistemas, nas quais organizações utilizam esse tipo de documento para enviar e 
receber dados. Tendo em vista validar dados nessa troca de informação, existem 
a DTD XMLSchema, que são mecanismos para conferir se os XMLs seguem um 
padrão definido durante a troca.
3.2 ARQUIVOS CSV
Os documentos deste tipo se assemelham muito a tabelas ou a um docu-
mento Excel. O termo “CSV” tem como significado Comma Separated Values, ou 
seja, é um arquivo separado por vírgula (ou ponto e vírgula). Assim como o XML, 
este é um formato de arquivo que permite realizar o intercâmbio de dados entre 
sistemas que utilizam SGBDs diferentes. 
QUADRO 7 – CSV
id_produto, descricao, preco, estoque
1,Jaleco, 3.50,30
2,Chapéu, 13.50,100
3,Calça , 33.50,130
FONTE: O autor
Leia o artigo “DTDs versus XML schema: a practical study”, dos autores Geert 
Jan Bex, Frank Neven e Jan Van den Bussche. Disponível em: https://www.researchgate.
net/publication/2938069_DTDs_versus_XML_schema_a_practical_study.
DICAS
https://www.researchgate.net/profile/Geert_Bex
https://www.researchgate.net/profile/Geert_Bex
https://www.researchgate.net/profile/Frank_Neven
https://www.researchgate.net/profile/Jan_Van_den_Bussche
https://www.researchgate.net/publication/2938069_DTDs_versus_XML_schema_a_practical_study
https://www.researchgate.net/publication/2938069_DTDs_versus_XML_schema_a_practical_study
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
24
Os documentos deste tipo têm grande importância nesse curso, pois mui-
tas bases de dados públicas disponibilizam seus dados nesse formato.
3.3 JSON
O formato JSON é um dos mais utilizados na Web para troca de informa-
ções, seja em aplicações de interoperabilidade ou até mesmo para desenvolver 
aplicações Ajax (Asynchronous Javascript and XML, em português “Javascript 
Assíncrono e XML”).
JSON significa “Javascript Object Notation”, do qual nada mais é que o 
formato leve ideal para transferência/intercâmbio de dados. Isto se dá pelo fato 
de sua estrutura ser igual a um objeto da linguagem javascript (FILLIPI, 2017).
A seguir, um exemplo de como é a estrutura de um documento JSON para 
realizar o armazenamento de produtos. 
QUADRO 8 – JSON
[
 {
 “cliente”: “João Fernandes”,
 “produto”: “Jaleco”,
 “valor_total”: “3.5”,
 “metodo”: “cartão”, 
 “promocao”:”sim”
 }
 
]
FONTE: O autor
A dinâmica de alteração de elementos de um documento JSON é muito 
similar ao XML, a cada novo elemento pode-se alterar a estrutura. Perceba que ao 
inserir o novo elemento em produto,ainda que a estrutura tenha ficado próxima, 
o elemento promoção foi removido, bem como os elementos produto e método 
foram alterados para que recebam um array com vários produtos. 
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
25
QUADRO 9 – ALTERAÇÃO DE UM DOCUMENTO JSON
[
 {
 “cliente”: “João Fernandes”,
 “produto”: “Jaleco”,
 “valor_total”: “3.5”,
 “metodo”: “cartão”
 },
 {
 “cliente”: “João Henrique”,
 “produto”: [“Jaleco”,”lentes”,”óculos”],
 “valor_total”: “256.78”,
 “metodo”: [“cartão”, “dinheiro”]
 }
 
]
 FONTE: O autor
3.4 BSON - MONGODB
A seção sobre MongoDb pode ser considerada uma continuação da abor-
dagem com JSON, uma vez que o sistema de armazenamento do Mongodb é 
baseado em BSON, uma versão binária do JSOn como o conhecemos. 
O MongoDB é um banco de dados NoSQL de código aberto sob a li-
cença GNU AGPL v3.0, escrito em C++, orientado a documentos e livre 
de schemas. Seu nome é derivado da expressão em inglês humongous, 
que pode ser traduzido como “enorme” ou “monstruoso”. O Mon-
goDB inicialmente foi desenvolvido como um componente de serviço 
pela empresa 10gen em outubro de 2007, passando a ser um software 
open source em 2009. Atualmente, o MongoDB é um dos mais popula-
res banco de dados NoSQL (senão o mais popular) e está na versão 2.6. 
O projeto ainda é mantido pela 10gen que oferece suporte comercial e 
demais serviços (NASCIMENTO, 2020, p. 15).
Para obter o instalador no MongoDB em seu computador, você pode aces-
sar o link: https://www.mongodb.com/download-center. Uma vez instalado, va-
mos colocar em prática, antes disso, é preciso compreender que o MongoDB é 
NoSQL e em uma associação com os bancos de dados relacionais seus elementos 
principais são:
• Banco de Dados (SGBDR) → Banco de Dados (MongoDB).
• Tabelas (SGBDR) → Coleções (MongoDB).
• Linhas (SGBDR) → Documentos (MongoDB).
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
26
O primeiro passo é criar o seu banco de dados, para isso, no terminal do 
MongoDB digite Use BDLoja. Com este comando, você criará um banco de da-
dos chamado loja.
Uma vez criado um banco de dados, o processo de criação de uma collec-
tion é dinâmica e aqui conseguiremos ver a definição de dados semiestruturados 
na prática, ao contrário dos bancos de dados relacionais, em que se deve primei-
ramente criar uma tabela e, posteriormente, inserir dados a ela. 
Repetiremos no MongoDB os mesmos dados utilizados inseridos em 
JSON, veja como ficará o código completo.
QUADRO 10 – COMANDOS MONGODB
1 Use 
2 db.CollectionProduto.insertOne({cliente: “João Fernandes”,produto: “Jale-
co”, valor_total: “3.5”, metodo: “cartão” } )
3 db.CollectionProduto.insertOne({ cliente: "João Henrique", produto: ["Jale-
co","lentes","óculos"], valor_total: 256.78, metodo: ["cartão", "dinheiro"] })
4 db.CollectionProduto.find()
FONTE: O autor
Ao executar o código mostrado no Quadro 10, na linha 1 você criará o 
banco de dados. Na linha 2, a Collection é criada e o primeiro pedido é inserido, 
na linha 3, o segundo pedido é inserido. Por fim, na linha 4, é executada uma 
consulta que retornará todos os elementos da CollectionProduto. O resultado es-
perado será algo como mostra a Figura 10.
FIGURA 10 – MONGODB
FONTE: O autor
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
27
4 DADOS NÃO ESTRUTURADOS
 
Você aprendeu que os dados estruturados são aqueles que têm uma estru-
tura criada antes do armazenamento dos dados e que os dados semiestruturados 
vão definindo a estrutura do banco de dados conforme os dados vão sendo inse-
ridos. O que esses dois tipos têm em comum? Para cada dado armazenado você 
sabe o que ele é, você reconhece o valor, o nome, o preço, isso significa estrutura. 
Já os dados não estruturados são aqueles que não possuem nenhuma estrutura, 
nem prévia, nem criada em execução.
Os tipos não estruturados são:
• São os dados que não possuem uma estrutura definida.
• São os dados que estruturas são descritas implicitamente. 
• A maioria dos dados na Web são deste tipo.
Os dados não estruturados são aqueles em que há a necessidade de um 
pré-processamento para que haja uma compreensão dos dados armazenados. Em 
geral, os dados não estruturados são textos, áudios e imagens.
Vamos pegar o exemplo de uma imagem: como saber o que há em uma 
imagem? Nós como humanos temos esse conhecimento, mas para que o compu-
tador possa compreender, no geral, uma imagem é quebrada pixel a pixel, para 
cada pixel são coletados metadados sobre cada pixel, por exemplo: cor, curva, 
profundidade.
Tendo como objetivo obter mais conhecimento, bem como poder executar o 
MongoDB, você poderá acessar: https://docs.mongodb.com/manual/tutorial/. O site possui 
um guia completo sobre os principais comandos do MongoDB e também um terminal 
on-line em que você poderá executar seus comandos.
DICAS
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
28
FIGURA 11 – IMAGEM EM PIXELS
FONTE: <https://gartic.com.br/t4nk_b0y/desenho-livre/super-mario-pixels-2>. Acesso 
em: 1º jan. 2020.
Os textos também são amplamente utilizados em cenários de gestão do 
conhecimento, no entanto, são compreensíveis para os humanos, mas não para a 
máquina. 
Para que se possam realizar operações de sistemas inteligentes utilizando 
dados de textos, utilizam-se técnicas que convertem textos para linguagem de 
máquina. A técnica mais conhecida é denominada Bag-of-Words, que consiste 
em transformar um texto em um conjunto de dados binários.
A Figura 12 traz um exemplo de um texto em sua forma inteira e sua trans-
crição para Bag-of-words, à esquerda os textos completos e à direita as palavras 
e suas ocorrências na forma de Bag-of-words. Note que a partir da transformação 
em Bag-of-words, o texto agora tem uma estrutura e a partir deste momento po-
derá ser compreendido pela máquina. 
https://gartic.com.br/t4nk_b0y/desenho-livre/super-mario-pixels-2
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
29
FIGURA 12 – EXEMPLO DE BAG OF WORDS
FONTE: <https://www.quora.com/What-is-the-bag-of-words-algorithm>. Acesso em: 1º jan. 
2020.
https://www.quora.com/What-is-the-bag-of-words-algorithm
30
RESUMO DO TÓPICO 2
Neste tópico, você aprendeu que:
• Os dados são divididos em estruturados, não estruturados e semiestruturados.
• Os dados estruturados têm uma estrutura predefinida e são tradicionalmente 
SBGDR.
• A estrutura dos dados semiestruturados são definidas no decorrer da execu-
ção; são exemplos de dados semiestruturados: XML, CSV, JSON e MongoDb 
(BSON).
• Os dados não estruturados não têm nenhuma estrutura; são exemplos de da-
dos não estruturados: imagens, textos, áudios e vídeos.
31
1 Os dados são o novo petróleo, são essenciais para a implementação de um 
sistema de Business Intelligence. Observe a figura a seguir.
FIGURA 13 – TIPO DE DADO
FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado contemplado 
pela imagem anterior:
a) É um dado do tipo estruturado.
b) É um dado do tipo semiestruturado.
c) É um dado do tipo não estruturado.
d) Nenhuma das alternativas.
2 Os dados são o novo petróleo, são essenciais para a implementação de um 
sistema de Business Intelligence. Observe o quadro a seguir.
QUADRO 11 – TIPO DE DADO
Os Lusíadas
Os Lusíadas é uma obra de poesia épica do escritor português Luís Vaz de 
Camões, considerada a "epopeia portuguesa por excelência". Provavelmen-
te concluída em 1556, foi publicada pela primeira vez em 1572 no período 
literário do Humanismo, três anos após o regresso do autor do Oriente.
FONTE: O autor
AUTOATIVIDADE
32
Assinale a alternativa CORRETA que apresenta o tipo de dado contemplado 
pelo quadro anterior:
a) É um dado do tipo estruturado.
b) É um dado do tipo semiestruturado.
c) É um dado do tipo não estruturado.
d) Nenhuma das alternativas.
3 Os dados são o novo petróleo, são essenciais para a implementação de um 
sistema de Business Intelligence. Observe o quadro a seguir.
QUADRO12 – TIPO DE DADO
CREATE TABLE Pessoa (
 ID int,
 Nome varchar(255),
 Sonrenome varchar(255),
 Endereco varchar(255),
 Cidade varchar(255) 
);
FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado contemplado 
pelo quadro anterior:
a) É um dado do tipo estruturado.
b) É um dado do tipo semiestruturado.
c) É um dado do tipo não estruturado.
d) Nenhuma das alternativas.
4 Os dados são o novo petróleo, são essenciais para a implementação de um 
sistema de Business Intelligence. Observe o quadro a seguir.
QUADRO 13 - TIPO DE DADO
{ nome:"João", Idade: 20, Sexo: 'M', Cursos:["Big Data", "IoT" , "ADS"]};
FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado contemplado 
pelo quadro anterior:
a) É um dado do tipo estruturado.
b) É um dado do tipo semiestruturado.
c) É um dado do tipo não estruturado.
d) Nenhuma das alternativas.
33
5 Os dados são o novo petróleo, são essenciais para a implementação de um 
sistema de Business Intelligence. Observe o quadro a seguir.
QUADRO 14 – TIPO DE DADO
<bilhetee>
<data>
 <dia>12</dia>
 <mês>11</mês>
 <ano>2020</ano>
</data>
<para>José</para>
<de>Maria</de>
<título>Lembrete</título>
<corpo>Ir ao cinema</corpo>
</bilhete>
FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado contemplado 
pelo quadro anterior:
a) É um dado do tipo estruturado.
b) É um dado do tipo semiestruturado.
c) É um dado do tipo não estruturado.
d) Nenhuma das alternativas.
34
35
TÓPICO 3
INTRODUÇÃO AO DATA 
WAREHOUSE
UNIDADE 1
1 INTRODUÇÃO
Durante esta Unidade estudamos diversos itens, começamos com uma 
reflexão sobre a explosão dos dados e com o grande volume de dados que há no 
mundo atualmente. Discorremos pelos tipos de dados e em como funcionam e 
passamos pelos conceitos essenciais de Business Intelligence e como ele deve ser 
implementado. 
Durante o desenvolvimento de um sistema de Business Intelligence não 
há particularidades técnicas, como é o caso do desenvolvimento de sistemas, que 
são compostos de todo um conjunto de metodologias e documentos. Quando 
falamos em desenvolver um Business Intelligence na prática, estamos falando de 
um sistema que consolidará os dados da empresa de tal modo que permitirá dar 
suporte à tomada de decisões. O ideal de um sistema é que contemple os pilares 
de Business Intelligence.
FIGURA 14 – PILARES DO BUSINESS INTELLIGENCE
FONTE: <https://www.goedert.com.br/business-intelligence/>. Acesso em: 1º jan. 2020.
https://www.goedert.com.br/business-intelligence/
36
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
Para a implementação de um processo de inteligência de negócios dentro 
de uma organização existem diversas ferramentas, no entanto, são poucas as ar-
quiteturas e metodologias. Isso acontece porque a principal arquitetura para um 
projeto de BI está dando certo há quase 40 anos. Vamos aprender mais sobre ela. 
2 DATA WAREHOUSE
Data Warehouse é um termo que nasceu nos anos 1970 e tem sua paterni-
dade dividida entre Ralph Kimball e Bill Inmon, autores que diferem em pontos 
específicos, mas que convergem na importância do seu desenvolvimento para 
alcançar a eficiência em um projeto de Business Intelligence. Data Warehouse tem 
como tradução literal Armazém de Dados e seu objetivo é realmente esse. 
FIGURA 15 – RALPH KIMBALL E BILL INMON
FONTE: O autor.
Segundo Nogueira (2019), Bill Inmon começou a discutir os principais fatores 
em torno do Data Warehouse e o termo já começou a existir a partir dos anos 1970. In-
mon trabalhou extensivamente na aprimoração de suas experiências em todas as formas 
de modelagem de dados relacionais. O trabalho de Bill Inmon como pioneiro do Data 
Warehouse foi o livro intitulado “Building the Data Warehouse”, um dos principais sobre 
tecnologia sobre desenvolvimento de projetos de dados na prática. Ralph Kimball, com a 
publicação de “The Data Warehouse Toolkit”, divide com Inmon a paternidade dos concei-
tos sobre o que é um Data Warehouse.
IMPORTANT
E
O data warehouse é o processo de coletar dados de sistemas de banco de 
dados herdados e de transações e transformá-los em informações organizadas 
em um formato amigável para incentivar a análise de dados e apoiar a tomada de 
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
37
decisões de negócios baseada em fatos. O processo que envolve a transformação 
de dados de seu formato original em um armazenamento de dados dimensional 
representa pelo menos 70% do tempo, esforço e despesa da maioria dos projetos 
de data warehouse (KIMBALL; CASERTA, 2011).
De modo geral, você pode compreender o Data Warehouse como um 
grande banco de dados analíticos, que é alimentado pelas mais diversas fontes de 
dados de uma empresa e tem a missão de integrar todos eles. 
Em sua definição do conceito de Data Warehouse, Kimball e Ross (2011) 
afirmam que data warehouse é um sistema que extrai, limpa, conforma e entrega 
os dados de origem em um armazenamento de dados dimensional e, em seguida, 
suporta e implementa consultas e análises para fins de tomada de decisão.
Inmon (2005), por sua vez, traz uma definição mais completa, na qual um 
Data Warehouse é formado por uma coleção de dados, orientado a um assunto, 
integrado, com tempo variável e não volátil, para suporte ao gerenciamento dos 
processos de tomada de decisão. Segundo Nogueira (2019), esses itens significam:
• Orientado a assunto: uma vez notando-se a necessidade da implementação 
de um Data Warehouse em uma organização, este terá um tema e um objeto 
de análise. Um Data Warehouse é orientado a assunto pelo fato de que este 
sempre estará relacionado a um tema, o qual consultas serão realizadas. Isso 
significa que ele sempre será direcionado a um tema, seja vendas, financeiro, 
fiscal ou compras. Ainda neste livro falaremos sobre o tema data mart, que é 
quando podemos ter vários assuntos integrados.
• Integrado: nesta Unidade falamos sobre diversos tipos de dados (XML, JSON, 
CSV, SGBDR), ou seja, uma das principais características de um Data Warehou-
se é a integração. Um Data Warehouse pode integrar vários sistemas internos 
que usam SGBD e ao mesmo tempo integrar com redes sociais via JSON, fazen-
do dessa dinâmica nas fontes de dados sua principal característica, bem como 
um dos principais desafios. 
• Variável em relação ao tempo: o fator temporal é, na maioria dos casos, de-
terminante na análise dos dados armazenados em um Data Warehouse. Desse 
modo, a cada carga de um novo conjunto de dados, este será associado com 
um determinado tempo. Vejamos a importância do tempo, por exemplo: em 
um Data Warehouse de ações, na bolsa de valores obtém-se os meses nos quais 
há uma maior queda nas ações e os meses em que há um número maior de 
vendas. Sendo assim, é necessário que os dados de Data Warehouse sejam ar-
mazenados em relação ao tempo.
• Não volátil: este fator também está relacionado ao tempo, uma vez que todo 
registro que é inserido em um Data Warehouse é associado a um tempo. Não 
devem haver exclusões, por isso é não volátil. Isso não significa que o registro 
não constará como removido, mas que haverá duas ocorrências, uma primeira 
na data de sua inserção indicando que existiu e uma segunda indicando a data 
que foi removido. 
38
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
Quando analisamos as duas definições como um todo, podemos perceber 
que o Data Warehouse é tratado como um grande banco de dados analítico, ali-
mentado pelas mais diversas fontes de dados da organização.
Uma vez conhecendo melhor as definições e os conceitos, entenderemos 
um pouco mais sobre as principais arquiteturas utilizadas. 
2.1 ARQUITETURA PROPOSTA POR INMON
Agora que conhecemos um pouco mais sobre o conceito de um Data Wa-
rehouse e seu papel dentro de uma organização, nos aprofundaremos em como 
ele pode ser implementado. Quando falamos em arquitetura, estamos falando de 
uma visão geral de como um Data Warehouse se comportará. 
FIGURA 16 – ARQUITETURA DE BILL INMONFONTE: Adaptada de Carvalho (2010)
Nesta figura, os elementos representam:
• Dados operacionais e externos: o termo dados operacionais remete aos dados 
dos sistemas transacionais utilizados pela empresa (sistema de venda, de gestão 
etc.) que utilizam sistemas gerenciadores de banco de dados. Os dados externos 
são dados da Web, dispositivos externos ou até mesmo de sistemas de terceiros. 
• Extração dos Dados, Limpeza dos Dados e Carga dos Dados: refere-se ao 
processo de tratamento dos dados, que devem ser preparados para serem ar-
mazenados. Como há a possibilidade de existirem dados externos, essa etapa 
também é responsável por fazer a integração destes. Por fim, os dados são car-
regados no Data Warehouse.
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
39
• Data Warehouse e Data Marts: são os locais onde os dados são armazenados 
em si. A diferença é que os data marts são setoriais, remetem-se a setores da 
empresa, Marketing, por exemplo. Já o Data Warehouse pode ser compreendi-
do como a consolidação de todos os data marts.
• Sistemas de Entrega de Informações: referem-se a mecanimos para fornecer 
dados para aplicações terceiras, como um web service que permite a realização 
de consultas.
• Aplicações e Ferramentas: são os meios de visualização e consumo dos dados 
armazenados; a partir das ferramentas, os dados armazenados em um Data 
Warehouse são utilizados para a produção de informação e conhecimento.
Uma característica da abordagem de Inmon está relacionada à estratégia 
de modelagem de dados proposta pelo autor, tal estratégia é denominada Snow-
Flake. O modelo SnowFlake é muito próximo do que é conhecido da modelagem 
tradicional de banco de dados, ainda que seja orientado a consultas, o modelo de 
Inmon aplica a normalizado, por isso as tabelas formam ramificações no formato 
de flocos de neve (SnowFlake).
FIGURA 17 – MODELO FLOCO DE NEVE
FONTE: Adaptada de Nogueira (2019)
40
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
2.2 ARQUITETURA PROPOSTA POR KIMBALL
A arquitetura de um Data Warehouse mostra o comportamento e os ele-
mentos essenciais para que um cenário de Business Intelligence possa acontecer 
e dar suporte à decisão. 
Em uma abordagem similar ao que vimos anteriormente, a arquitetura 
proposta por Kimball tem sido amplamente utilizada pela literatura e em pro-
jetos reais. A Figura a seguir mostra uma visão geral do funcionamento desta 
arquitetura.
FIGURA 18 – ARQUITETURA DE KIMBALL
FONTE: Adaptada de Kimball e Ross (2011)
Pode-se dizer que a arquitetura proposta por Kimball e Ross (2011) é com-
posta por camadas de dados: fontes de dados, área de trabalho, área de apresen-
tação e ferramentas de acesso aos dados. Tais camadas podem ser descritas como:
• Fontes Provedoras: um Data Warehouse é composto por dados oriundos dos 
sistemas transacionais de uma organização, mas também pode receber dados 
externos. Esta camada contém todos os dados possíveis de serem armazenados 
no Data Warehouse (banco de dados relacional, orientado a objetos, não estru-
turados, textual, Web etc.) que serão armazenados no modelo multidimensio-
nal desenvolvido, permitindo que sejam realizadas as análises.
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
41
• Área de Trabalho: será aqui que o maior esforço computacional deverá acon-
tecer, cerca de 80% do tempo do projeto deve ser gasto na área de trabalho, 
visto que são realizados os processos de integração das fontes de dados, bem 
como as transformações necessárias para armazenar os dados de acordo com o 
modelo definido para Data Warehouse. Nesta camada são realizados os prin-
cipais procedimentos da chamada ETL (Extract, Transform and Load - Extração 
Transformação e Carga).
• Área de Apresentação de Dados: esta camada é responsável pela criação do 
Data Warehouse em si, não somente do armazenamento, mas de mecanismos 
para o consumo de dados com ênfase na sua principal tarefa: análise dos dados. 
• Ferramentas de Acesso aos Dados: essa camada será responsável por consu-
mir os dados de um Data Warehouse, gerando informação e conhecimento. 
Será aqui que as ferramentas de visualização de dados farão uso do servidor 
para submeter requisições de acesso aos dados armazenados. 
Assim como visto anteriormente, Kimball tem sua proposta de uma mo-
delagem para os dados que serão armazenados no Data Warehouse. O modelo 
proposto por Kimball é denominado modelo estrela, o nome se dá justamente 
pelo formato que as tabelas ficam dispostas. Ao contrário do modelo SnowFlake, 
o modelo estrela não apresenta normalização dos dados. A Figura 18 mostra um 
exemplo do modelo estrela.
FIGURA 19 – MODELO ESTRELA
FONTE: O Autor
42
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
Você pode notar que as duas abordagens são próximas, com algumas 
particularidades em suas arquiteturas, apesar dos modelos oferecerem modelos 
diferentes. 
A principal diferença entre as modelagens é que apesar do modelo floco 
de neves oferecer mais integridade aos dados, ele será mais custoso. O modelo 
estrela, por sua vez, atende à ideia de um banco de dados analítico. Com poucas 
tabelas, permite que as consultas sejam executadas de maneira mais rápida.
No que se refere às arquiteturas, você não precisa se apegar, afinal pode 
adaptar a arquitetura dependendo do problema a ser desenvolvido. No caso de 
Nogueira (2017), por exemplo, no desenvolvimento de uma aplicação de coleta 
de notícias em tempo real, que coleta notícias e armazena em um sistema de Data 
Warehouse determinado Newsminer, para fazer a coleta, a análise e a implemen-
tação de algoritmos de machine learning ele utilizou uma arquitetura proposta 
por ele mesmo.
FIGURA 20 – EXEMPLO DE ARQUITETURA 
FONTE: Adaptado de Nogueira (2017)
Em um sistema para coleta de dados da rede social Twitter, tendo como 
objetivo utilizar algoritmos de machine learning para analisar os sentimentos so-
bre os candidatos à eleição em 2018, Suter et al. (2019) propõe uma arquitetura 
de Data Warehouse para realizar o armazenamento dos textos, bem como da sua 
recuperação. 
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
43
FIGURA 21 – EXEMPLO DE ARQUITETURA 
FONTE: Adaptado de Suter et al. (2019)
LEITURA COMPLEMENTAR
Desenvolvimento de Dashboards interativos utilizando ferramentas
de Business Intelligence para descoberta de fatores determinantes
da evasão universitária
Introdução 
A evasão escolar tem se mostrado um problema que impacta a educação 
sob variadas perspectivas e afeta os discentes, as instituições de ensino, os siste-
mas de ensino e a sociedade em geral. De outro lado, ferramentas de Business 
Intelligence são amplamente utilizadas nos mais diversos cenários de suporte à 
decisão como uma oportunidade de organização de dados e eventos, em especial 
para a projeção de cenários e possibilidades futuras.
No ensino superior, a evasão é um problema que atinge até mesmo o ce-
nário internacional, afetando os resultados dos sistemas educacionais, além dis-
so, são desperdícios sociais, acadêmicos e econômicos (PRIM; FÁVERO, 2012). 
Um levantamento realizado pelo Ministério da Educação e Cultura (MEC) com 
dados do censo relativos ao ano de 2015 revelou um crescimento nas taxas de 
desistências dos cursos de ingresso, na avaliação do fluxo de alunos entre 2010 e 
2014. Em 2010, 11,4% dos alunos abandonaram o curso para o qual foram admiti-
dos. Em 2014, esse número chegou a 49%.
Para tanto, este trabalho tem por finalidade de estudo a implementação 
de um banco de dados multidimensional com a utilização de dashboards intera-
tivos, a fim de compilar os dados relevantes à evasão do Curso de Bacharelado 
de Sistemas de Informação (BSI) do Instituto Federal Catarinense de uma forma 
organizada e analítica para a gestão do Campus, permitindo a realização de con-
sultas por diversas perspectivas do perfil acadêmico; coletar e analisar dados re-
44
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
ferentes à evasão dos alunos do curso de Bacharelado

Mais conteúdos dessa disciplina