Buscar

Extração de Conhecimento no Comércio Eletrônico da Livraria Embrapa

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 152 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 152 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 152 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

EXTRAÇÃO DE CONHECIMENTO NO SISTEMA DE COMÉRCIO ELETRÔNICO DA 
LIVRARIA EMBRAPA 
 
 
 
 
Natália Santos Fois 
Dissertação de Mestrado apresentada ao Programa 
de Pós-graduação em Engenharia Civil, COPPE, da 
Universidade Federal do Rio de Janeiro, como parte 
dos requisitos necessários à obtenção do título de 
Mestre em Engenharia Civil. 
Orientador: Nelson Francisco Favilla Ebecken 
 
 
 
Rio de Janeiro 
Setembro de 2011 
 
EXTRAÇÃO DE CONHECIMENTO NO SISTEMA DE COMÉRCIO ELETRÔNICO DA 
LIVRARIA EMBRAPA 
 
Natália Santos Fois 
 
DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO 
LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) 
DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS 
REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM 
CIÊNCIAS EM ENGENHARIA CIVIL. 
 
Examinada por: 
 
 
 
________________________________________________ 
Prof. Nelson Francisco Favilla Ebecken, D.Sc. 
 
 
 
________________________________________________ 
 Profª Beatriz de Souza Leite Pires de Lima, D.Sc. 
 
 
 
________________________________________________ 
Prof. Elton Fernandes, Ph.D. 
 
 
 
 
RIO DE JANEIRO, RJ - BRASIL 
SETEMBRO DE 2011 
 
 iii 
 
 
 
 
 
 
 
 
Fois, Natália Santos 
Extração de Conhecimento no Sistema de Comércio 
Eletrônico da Livraria Embrapa / Natália Santos Fois. – 
Rio de Janeiro: UFRJ/COPPE, 2011. 
XIII, 139 p.: il.; 29,7 cm. 
Orientador: Nelson Francisco Favilla Ebecken. 
Dissertação (mestrado) – UFRJ/ COPPE/ Programa de 
Engenharia Civil, 2011. 
 Referências Bibliográficas: p. 85-88. 
1. Business Intelligence. 2. Regras de Associação 3. 
Metodologia CRISP-DM. I. Ebecken, Nelson Francisco 
Favilla. II. Universidade Federal do Rio de Janeiro, 
COPPE, Programa de Engenharia Civil. III. Título. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 iv 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Dedico este trabalho à minha filha Lívia que, com seus três meses de vida, sorri, e faz 
tudo valer a pena... 
 v 
AGRADECIMENTOS 
 
 
Agradeço ao meu marido, Virgílio, pela paciência em momentos impacientes. 
 
Aos meus pais, Antônio e Vera, por tudo o que já fizeram e ainda fazem por 
mim. Um agradecimento especial à minha mãe Vera, pela grande e fundamental ajuda 
nesses meses de incertezas. 
 
Ao meu amigo Valmir dos Santos Sobral, um dos responsáveis e incentivador 
constante deste Mestrado. 
 
À gerência da Embrapa Informação Tecnológica, pelo apoio sem restrições 
dado ao projeto. 
 
Aos colegas da Embrapa, pelo trabalho em equipe e pela amizade. 
 
Aos colegas do Mestrado, especialmente, à amiga Ângela Moulin, pelo 
incentivo e horas de estudo. 
 
Ao meu orientador, Nelson Francisco Favilla Ebecken, pelo apoio. 
 
Acima de tudo, a Deus, que me presenteia a cada dia com o que eu jamais 
imaginei poder ter. 
 
E, finalmente, meus agradecimentos a todos os que colaboraram, direta ou 
indiretamente, para a realização deste trabalho. 
 
 
 
 
 
 
 
 
 
 vi 
Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos 
necessários para a obtenção do grau de Mestre em Ciências (M.Sc.) 
 
 
EXTRAÇÃO DE CONHECIMENTO NO SISTEMA DE COMÉRCIO ELETRÔNICO DA 
LIVRARIA EMBRAPA 
 
 
Natália Santos Fois 
 
Setembro/2011 
 
Orientador: Nelson Francisco Favilla Ebecken 
 
Programa: Engenharia Civil 
 
Este trabalho descreve a implementação de um sistema de Inteligência de 
Negócios, envolvendo a construção de um repositório de dados e a aplicação de 
ferramentas OLAP (On-Line Analytical Processing), para o processo de negócio da 
Livraria Embrapa, operacionalizado por seu sistema de comércio eletrônico. O estudo 
é complementado pela aplicação de regras de associação para a análise da cesta de 
compras da Livraria. O objetivo é obter, ao final, informações e conhecimento úteis ao 
negócio e aos seus complexos processos de tomada de decisão. 
Além disso, o presente estudo baseia-se na metodologia CRISP-DM (Cross-
Industry Standard Process for Data Mining) como orientadora e direcionadora do 
trabalho, e demonstra como esta metodologia, criada originalmente para os processos 
de mineração de dados, pode ser customizada para ser utilizada na implementação de 
sistemas de inteligência de negócios. 
Os resultados mostraram que a aplicação conjunta das técnicas de mineração 
de dados e de inteligência de negócios amplia, de forma significativa, a gama de 
possibilidades de análises, contribuindo para a melhoria do negócio e sua evolução da 
fase de controles quantitativos para a análise qualitativa da gestão, em tempo hábil 
para a tomada de decisão. 
 
 vii 
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the 
requirements for the degree of Master of Science (M.Sc.) 
 
 
KNOWLEDGE EXTRACTION FOR ELECTRONIC COMMERCE SYSTEM OF 
EMBRAPA BOOKSTORE 
 
 
Natália Santos Fois 
 
September/2011 
 
Advisor: Nelson Francisco Favilla Ebecken 
 
Department: Civil Engineering 
 
 
This paper describes the implementation of a Business Intelligence system, 
involving a data warehouse construction and the application of OLAP (On-Line 
Analytical Processing) tools, to the Embrapa Bookstore’s business processes operated 
by its e-commerce system. The study is complemented by the application of 
association rules in the market-basket analysis. The aim is to get, in the end, useful 
information and knowledge to the business and its complex decision-making 
processes. 
Furthermore, this study is based on the CRISP-DM (Cross-Industry Standard 
Process for Data Mining) methodology to guide and direct the work, and demonstrates 
how this methodology, originally developed for data mining processes, can be 
customized to be used in the implementation of business intelligence systems. 
The results showed that the joint application of data mining and business 
intelligence’s techniques expands, in a significant way, the range of possibilities for 
analysis, helping to improve the business and its evolution from quantitative control 
analysis phase to the management qualitative analysis phase, in a timely manner for 
decision-making. 
 
 viii 
SUMÁRIO 
 
RESUMO........................................................................................................................vi 
ABSTRACT........................................... ........................................................................vii 
LISTA DE FIGURAS................................... ....................................................................x 
LISTA DE TABELAS................................... .................................................................xii 
LISTA DE SÍMBOLOS OU NOMENCLATURA.................. .........................................xiii 
 
CAPÍTULO 1. INTRODUÇÃO ......................................................................................1 
1.1. Motivação......................................................................................................2 
1.2. Metodologia e Recursos Tecnológicos ..........................................................3 
1.3. Organização do Trabalho ..............................................................................3 
 
CAPÍTULO 2. A LIVRARIA EMBRAPA ................................. ......................................4 
 
CAPÍTULO 3. METODOLOGIA........................................ ............................................6 
3.1. A Metodologia CRISP-DM.............................................................................6 
3.1.1. Entendimento do Negócio......................................................................7 
3.1.2. Entendimento dos Dados.......................................................................8 
3.1.3. Preparação dos Dados ..........................................................................93.1.4. Modelagem............................................................................................9 
3.1.5. Avaliação............................................................................................. 10 
3.1.6. Disponibilização................................................................................... 10 
 
CAPÍTULO 4. APLICAÇÃO NA LIVRARIA EMBRAPA...................... ....................... 12 
4.1. Entendimento do Negócio ........................................................................... 12 
4.1.1. Determinar os objetivos do negócio..................................................... 12 
4.1.1.1. A Estrutura Organizacional .................................................................. 12 
4.1.1.2. O Problema e a Solução Atual............................................................. 13 
4.1.1.3. Os Objetivos do Negócio ..................................................................... 14 
4.1.1.4. A Proposta do Estudo de Caso............................................................ 15 
4.1.2. Avaliar a situação atual........................................................................ 15 
4.1.2.1. Avaliação dos Recursos Computacionais e Sistemas.......................... 15 
4.1.2.2. Avaliação dos Recursos Humanos ...................................................... 16 
4.1.3. Determinar as metas do projeto........................................................... 17 
4.1.3.1. Objetivos específicos do Sistema de BI ............................................... 17 
4.1.3.2. Objetivos específicos da Mineração de Dados .................................... 18 
4.1.4. Produzir o Plano de Projeto ................................................................. 19 
4.1.4.1. Escrever o Plano de Projeto ................................................................ 19 
4.1.4.2. Avaliar Técnicas .................................................................................. 20 
4.1.4.3. Avaliar Ferramentas ............................................................................ 22 
4.2. Entendimento dos Dados ............................................................................ 23 
4.2.1. Coletar dados iniciais........................................................................... 23 
4.2.2. Explorar os dados................................................................................ 26 
4.2.3. Verificar a qualidade dos dados........................................................... 26 
4.3. BI Livraria Embrapa – Preparação dos Dados............................................. 27 
4.3.1. Selecionar os dados ............................................................................ 28 
 ix 
4.3.2. Limpar os dados .................................................................................. 29 
4.4. BI Livraria Embrapa – Modelagem .............................................................. 30 
4.4.1. Selecionar a técnica de modelagem .................................................... 30 
4.4.2. Construir o modelo .............................................................................. 31 
4.4.2.1. Construção do Modelo Dimensional .................................................... 31 
4.4.2.1.1. FATO VENDA DIÁRIA ......................................................................... 31 
4.4.2.1.2. FATO PEDIDO DIÁRIO ....................................................................... 34 
4.4.2.1.3. FATO VENDA DIREITO AUTORAL DIÁRIA ........................................ 36 
4.4.2.2. Implementação do Modelo Dimensional .............................................. 39 
4.4.2.3. Criação dos Universos......................................................................... 43 
4.5. BI Livraria Embrapa – Avaliação ................................................................. 44 
4.5.1. Avaliar os resultados ........................................................................... 44 
4.5.1.1. Gerar os resultados ............................................................................. 44 
4.5.1.2. Avaliar os resultados e revisar o processo........................................... 51 
4.6. Regras de Associação – Preparação dos Dados......................................... 53 
4.6.1. Selecionar os dados ............................................................................ 53 
4.6.2. Formatar os dados............................................................................... 58 
4.7. Regras de Associação – Modelagem .......................................................... 61 
4.7.1. Selecionar a técnica de modelagem .................................................... 61 
4.7.2. Construir o modelo .............................................................................. 61 
4.7.2.1. Análise PRODUTO x PRODUTO......................................................... 61 
4.7.2.2. Análise REGIÃO x PRODUTO............................................................. 65 
4.7.2.3. Análise UF x PRODUTO...................................................................... 68 
4.7.2.4. Análise LINHA PRODUTO x PRODUTO ............................................. 70 
4.7.2.5. Análise LINHA PRODUTO x LINHA PRODUTO .................................. 73 
4.7.2.6. Análise REGIÃO x LINHA PRODUTO ................................................. 74 
4.8. Regras de Associação – Avaliação ............................................................. 77 
4.9. Disponibilização .......................................................................................... 81 
4.9.1. Revisar o projeto.................................................................................. 81 
 
CAPÍTULO 5. CONSIDERAÇÕES FINAIS ............................... ................................. 82 
5.1. Conclusão ................................................................................................... 82 
5.2. Trabalhos Futuros ....................................................................................... 84 
 
REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................... 85 
 
ANEXO 01 – ARTEFATOS DO PROJETO ................................................................ 89 
ANEXO 02 – ESTATÍSTICAS BÁSICAS .................................................................... 91 
ANEXO 03 – SCRIPTS LIMPEZA DOS DADOS ...................................................... 117 
ANEXO 04 – PROCESSAMENTO REGRAS DE ASSOCIAÇÃO ............................. 119 
ANEXO 05 – DICIONÁRIO DE DADOS ................................................................... 126 
 
 x 
LISTA DE FIGURAS 
 
Figura 2.1: Organograma da Embrapa Informação Tecnológica. Fonte: Website SCT 
<http://www.sct.embrapa.br> ........................................................................................4 
Figura 2.2: Website Livraria Embrapa. Fonte: <http://vendasliv.sct.embrapa.br/liv3/>...5 
Figura 3.1: Fases do modelo de referência CRISP-DM. Fonte: IBM, 1994, 2011..........6 
Figura 3.2: Tarefas genéricas e as saídas do modelo de referência do CRISP-DM. 
Fonte: IBM, 1994, 2011. ...............................................................................................7 
Figura 4.1: Organograma Embrapa Informação Tecnológica: destaque para os setores 
impactados pela Livraria Embrapa. Fonte: Website SCT <http://www.sct.embrapa.br>.
................................................................................................................................... 12 
Figura 4.2: Modelo Entidade-Relacionamento Livraria Embrapa: domínio de dados a 
ser explorado.............................................................................................................. 25 
Figura 4.3: ETL origem (SQL Server) – destino (Repositório), usando a ferramenta 
SAP BO Data Services Designer. ............................................................................... 29 
Figura 4.4: Modelo Dimensional: Fato Venda Diária. ..................................................34 
Figura 4.5: Modelo Dimensional: Fato Pedido Diário. ................................................. 36 
Figura 4.6: Modelo Dimensional: Fato Venda Direito Autoral Diária............................ 39 
Figura 4.7: ETL dimensão “Nota_Fiscal_Pedido”, utilizando a ferramenta SAP BO Data 
Services Designer....................................................................................................... 40 
Figura 4.8: SQL de extração dados origem para dimensão “Nota_Fiscal_Pedido”, 
utilizando a ferramenta SAP BO Data Services Designer. .......................................... 41 
Figura 4.9: ETL “Fato Venda Diária”, utilizando a ferramenta SAP BO Data Services 
Designer. .................................................................................................................... 42 
Figura 4.10: SQL de criação “Fato Venda Diária”, utilizando a ferramenta SAP BO Data 
Services Designer....................................................................................................... 42 
Figura 4.11: Cálculo de medida para “Fato Venda Diária”, utilizando a ferramenta SAP 
BO Data Services Designer. ....................................................................................... 43 
Figura 4.12: Universo “Venda Direito Autoral Diária” no ambiente de desenvolvimento 
da ferramenta SAP BO Universe Designer. ................................................................ 44 
Figura 4.13: Ambiente de desenvolvimento da ferramenta SAP BO Web Intelligence.45 
Figura 4.14: Relatório: Análise Mensal das Vendas no Período.................................. 46 
Figura 4.15: Relatório: Análise das Vendas por Tema no Período. ............................. 46 
Figura 4.16: Gráfico de barras verticais: Análise das Vendas por Tema no Período. .. 47 
Figura 4.17: Relatório: Pedidos realizados no Período por Tipo de Origem. ............... 47 
Figura 4.18: Relatório: Produtos mais vendidos no Período........................................ 48 
Figura 4.19: Relatório: Ranking de Vendas por Tema no Ano. ................................... 49 
 xi 
Figura 4.20: Relatório: Vendas por País no Período. .................................................. 49 
Figura 4.21: Relatório: Vendas por Localidade no Período (Drill Down País-Região). 50 
Figura 4.22: Relatório: Vendas por UF no Período. .................................................... 50 
Figura 4.23: Relatório: Vendas por Tipo de Pagamento no Período. .......................... 51 
Figura 4.24: Exemplo arquivo Formato ARFF para a relação Produto x Produto. ....... 60 
Figura 4.25: Ferramenta WEKA: Análise Produto x Produto. ...................................... 61 
Figura 4.26: Ferramenta WEKA: Algoritmo Apriori (Parâmetros padrão). ................... 62 
Figura 4.27: Ferramenta WEKA: Análise Região x Produto. ....................................... 66 
Figura 4.28: Ferramenta WEKA: Análise UF x Produto............................................... 69 
Figura 4.29: Ferramenta WEKA: Análise Linha Produto x Produto. ............................ 71 
Figura 4.30 Ferramenta WEKA: Análise Linha Produto x Linha Produto..................... 73 
Figura 4.31 Ferramenta WEKA: Análise Região x Linha Produto................................ 75 
Figura 4.32 Ferramenta WEKA: Visualização gráfica Região x demais atributos........ 77 
 
 
 
 
 
 xii
LISTA DE TABELAS 
 
Tabela 4.1: Matriz de Responsabilidades ................................................................... 16 
Tabela 4.2: Estrutura da consulta: Transações de vendas da Livraria Embrapa. ........ 57 
Tabela 4.3: Intervalo de dados do atributo “Ano de Edição” do Produto. .................... 59 
Tabela 4.4: Intervalo de dados do atributo “Preço” do Produto. .................................. 59 
Tabela 4.5: Estrutura da consulta Produto x Produto. ................................................. 60 
Tabela 4.6: Resumo dos Resultados: Análise Produto x Produto (Modelo 2). ............ 63 
Tabela 4.7: Resumo dos Resultados: Análise Produto x Produto (Modelo 3). ............ 64 
Tabela 4.8: Resumo dos Resultados: Análise Região x Produto (Modelo 2)............... 66 
Tabela 4.9: Resumo dos Resultados: Análise Região x Produto (Modelo 3)............... 68 
Tabela 4.10: Resumo dos Resultados: Análise UF x Produto (Modelo 2). .................. 70 
Tabela 4.11: Resumo dos Resultados: Análise Linha Produto x Produto (Modelo 2). . 72 
Tabela 4.12: Resumo dos Resultados: Análise Linha Produto x Linha Produto .......... 74 
(Modelo 2). ................................................................................................................. 74 
Tabela 4.13: Resumo dos Resultados: Análise Região x Linha Produto (Modelo 1). .. 76 
 
 
 
 
 
 xiii 
LISTA DE SÍMBOLOS OU NOMENCLATURA 
 
BI Business Intelligence (Inteligência de Negócios); 
 
BO Business Objects; 
 
CRISP-DM Cross-Industry Standard Process for Data Mining; 
 
CSV Comma-Separated Values (Valores separados por vírgulas); 
 
DSS Decision Support Systems (Sistemas de Apoio à Decisão); 
 
DW Data Warehouse (Repositório de Dados); 
 
EMBRAPA Empresa Brasileira de Pesquisa Agropecuária; 
 
ETL Extract, Transform, Load (Extração, Transformação, Carga); 
 
OLAP On-Line Analytical Processing; 
 
PDE Plano Diretor Embrapa; 
 
PD&I Pesquisa, Desenvolvimento e Inovação; 
 
PDTI Plano Diretor de Tecnologia da Informação; 
 
PDU Plano Diretor da Unidade; 
 
SGV Sistema de Gerenciamento de Vendas; 
 
SQL Structured Query Language; 
 
WEKA Waikato Environment for Knowledge Analysis. 
 
 
 
 
1 
CAPÍTULO 1. INTRODUÇÃO 
 
 
Existem grandes forças em jogo que estão mudando a forma como as 
empresas operam: os processos de negócio estão se tornando mais integrados e 
complexos, pressões econômicas estão forçando as organizações a fazerem mais 
com menos, e a quantidade de informação disponível cresce de forma exponencial 
(FORRESTER CONSULTING, 2009). 
 
Com a popularização da Internet, transações comerciais baseadas na Web tem 
se tornado o centro do atual impulso ao desenvolvimento do comércio eletrônico. 
Enquanto novos ambientes de negócios oferecem novas oportunidades de negócios 
para as empresas, eles trazem também novos desafios (GE, 2009). 
 
Neste cenário de rápida evolução e complexidade, ter informação é ter poder. 
Segundo TAPSCOTT & BARTER (2009), se você tem a vantagem das informações 
pode obter vantagens de mercado. Isso é verdadeiro principalmente quando se trata 
de identificar novas e diferentes oportunidades no mercado e responder a elas. 
 
As empresas de comércio eletrônico acumulam um grande número de usuários 
e dados sobre seus comportamentos ao longo da operação. Entretanto, elas se 
deparam com uma constrangedora situação de riqueza de dados e pobreza de 
conhecimento (QU & LIANG, 2009). 
 
Segundo VERCELLIS (2009), as empresas que forem capazes de transformar 
dados em informação e conhecimento podem usá-los para tomar decisões mais 
rápidas e mais efetivas e ainda adquirir vantagem competitiva. 
 
Para isso, um grande esforço tem sido feito na busca por técnicas, 
metodologias analíticas e modelos matemáticos que auxiliem a extração de 
conhecimento em grandes bases de dados, evitando, assim, uma abordagem 
puramente intuitiva no tratamento dos complexos processos de tomada de decisão. 
 
Neste sentido, inteligência de negócios (Business Intelligence), definida por 
LARSON (2009) como “a entrega de informação precisa e útil aos tomadores de 
decisão apropriados, no tempo necessário para auxiliar a efetiva tomada de decisão”, 
2 
envolve tecnologias como data warehouse (repositório de dados) e ferramentas OLAP 
(On-Line Analytical Processing), as quais, aliadas às técnicas de mineração de dados 
(Data Mining), constituem um poderoso sistema capaz de transformar dados em 
conhecimentos úteis aos processos de negócios das organizações. 
 
1.1. MotivaçãoA motivação para este trabalho ocorre em dois contextos distintos. 
 
Em um contexto local, focado nos processos de negócios da Livraria Embrapa, 
observa-se que, nos últimos anos, o volume de clientes e de vendas da Livraria tem 
crescido consideravelmente, devido à sua popularização, às participações em feiras e 
eventos diversos, bem como ao aumento das parcerias e consignações. Junto com 
esse crescimento vem a necessidade de uma gestão pró-ativa e, portanto, mais 
efetiva da Livraria. Ambos os sistemas que, hoje, atendem a Livraria, foram 
concebidos com foco operacional, assim como tantos sistemas de informação 
existentes no Mercado. Apesar de prover informações consolidadas aos seus usuários 
internos, estas ainda são insuficientes quando se pensa em níveis estratégicos e de 
gestão, que requerem informações mais trabalhadas, que alterem o perfil da demanda 
por informações. 
 
Em um contexto mais amplo, dentre as tendências e implicações estratégicas 
de PD&I (Pesquisa, Desenvolvimento e Inovação) para a Agricultura, citadas pela 
Embrapa em seu V Plano Diretor (EMBRAPA, 2008), está prevista a crescente 
incorporação de informação, conhecimento e tecnologia. Segundo este estudo, o 
conhecimento e a capacidade de inovar e operar com a informação serão cada vez 
mais determinantes para a geração de riqueza, para a capacidade de estabelecer 
relações de poder e para a criação de novos códigos culturais. Assim, as tecnologias 
que facilitam o acesso à informação e aceleram a sua disseminação serão 
amplamente incorporadas de modo que contribuam para o desenvolvimento dos 
países (EMBRAPA, 2008). 
 
Diante destes contextos, o presente estudo tem como desafios a transformação 
de informação em conhecimento e sua disponibilização aos usuários finais, auxiliando 
o processo de tomada de decisão, direcionando as ações estratégicas e contribuindo 
3 
para uma gestão mais efetiva da Livraria Embrapa, visando, em última instância, o 
alcance das metas e objetivos estratégicos da organização. 
1.2. Metodologia e Recursos Tecnológicos 
 
Este estudo se baseia na metodologia CRISP-DM, que direcionará o trabalho 
de extração de conhecimento para o sistema de comércio eletrônico da Livraria 
Embrapa. 
 
O estudo utilizou como recursos tecnológicos: Microsoft SQL Server 2008 
Management Studio para a obtenção e limpeza dos dados; SAP BusinessObjects Data 
Services Designer para o processo de ETL (extração, transformação e carga); SAP 
BusinessObjects Universe Designer para a criação dos Universos; SAP 
BusinessObjects Web Intelligence para consulta, análise e construção de relatórios 
pelos usuários finais; Microsoft Excel 2003 para avaliação estatística dos dados; e a 
ferramenta WEKA 3.6 para a mineração de dados. 
 
1.3. Organização do Trabalho 
 
O presente trabalho está dividido em 05 capítulos. 
 
Este primeiro capítulo contextualiza o estudo e descreve a motivação para sua 
realização, bem como a metodologia e os recursos tecnológicos utilizados no projeto. 
 
O Capítulo 02 apresenta a Livraria Embrapa e a Embrapa Informação 
Tecnológica. 
 
O Capítulo 03 descreve a metodologia CRISP-DM e suas etapas. 
 
O Capítulo 04 descreve a aplicação da metodologia CRISP-DM na 
implementação do sistema de BI da Livraria Embrapa e na geração das regras de 
associação para as transações de venda da Livraria. A execução dos modelos, os 
resultados obtidos e sua avaliação também são descritos neste capítulo. 
 
O Capítulo 05 descreve as considerações finais e os trabalhos futuros previstos 
para o projeto. 
4 
CAPÍTULO 2. A LIVRARIA EMBRAPA 
 
O processo de negócio da Livraria Embrapa é uma das principais 
responsabilidades do Setor de Marketing e Comercialização da Embrapa Informação 
Tecnológica, uma Unidade Descentralizada de Serviço da EMBRAPA (Empresa 
Brasileira de Pesquisa Agropecuária). A figura 2.1 ilustra o organograma da Unidade. 
 
 
Figura 2.1: Organograma da Embrapa Informação Tecnológica. Fonte: Website SCT 
<http://www.sct.embrapa.br> 
 
A princípio chamada de Serviço de Produção de Informação e, mais tarde, em 
2001, de Embrapa Comunicação para Transferência de Tecnologia, esta Unidade, 
criada em 1991 e hoje denominada Embrapa Informação Tecnológica, responsabiliza-
se pela gestão, pelo tratamento editorial, pela disponibilização e pela publicação - 
impressa e eletrônica - de informações e de dados tecnológicos, científicos e 
socioeconômicos obtidos em pesquisa; incumbe-se da coordenação de tais atividades 
no âmbito da Embrapa e busca também integrar as demais Unidades da Empresa. 
 
Dada a sua diversificada produção: programas televisivo e radiofônico (Dia de 
Campo na TV e Prosa Rural, respectivamente), vídeos, periódicos, cartazes, etc., 
utiliza modernos instrumentos de tecnologia da informação e da comunicação; dispõe 
de gráfica e de estúdios de vídeo e de áudio; e possui a Livraria Embrapa para a 
venda de produtos. 
 
Além de organizar e de construir bases de dados técnico-científicas e 
socioeconômicas, supervisiona o trabalho de gestão dos arquivos e do Sistema 
Embrapa de Bibliotecas e apoia a transferência de tecnologia mediante realização e 
coordenação de eventos técnicos (Website EMBRAPA INFORMAÇÃO 
TECNOLÓGICA <http://www.sct.embrapa.br>). 
5 
Desde sua criação em 1991, a Unidade tem como um dos objetivos 
institucionais a comercialização como um meio para a disseminação das novas 
tecnologias geradas pela Embrapa, transformadas em produtos por meio de 
periódicos, livros e mídias eletrônicas. Na época, existiam apenas alguns pontos de 
venda nas próprias Unidades da Embrapa, para atender a um público formado por: 
agricultores; pecuaristas; grandes e pequenos produtores rurais; estudantes; 
instituições públicas e particulares de ensino fundamental, médio e superior; órgãos 
governamentais e não-governamentais; empregados e Unidades da Embrapa; 
Administração superior e demais Gestores da Embrapa; autores; consignatários 
fornecedores e prestadores de serviços; e demais pessoas físicas e jurídicas 
interessadas nos produtos e serviços da Empresa. 
 
Vislumbrando uma forma de melhorar o atendimento e disseminar de forma 
mais efetiva e irrestrita esse conhecimento ao seu público-alvo, foi criado, em 1997, o 
site da Livraria Virtual da Embrapa, ilustrado na Figura 2.2. 
 
 
Figura 2.2: Website Livraria Embrapa. Fonte: <http://vendasliv.sct.embrapa.br/liv3/> 
 
Em 2007, o site passou por um processo de reformulação e reestruturação, a 
fim de atender às novas diretrizes do governo eletrônico (e-gov), a evolução do 
mercado de e-business, bem como as novas exigências do mercado mundial 
referentes às Editoras de Livros. 
A Livraria Embrapa, atualmente, é operacionalizada pelo seu site, para 
atendimento ao cliente externo, e pelo sistema de informação SGV (Sistema de 
Gerenciamento de Vendas) que trata de toda a parte administrativa e financeira do 
negócio. 
6 
CAPÍTULO 3. METODOLOGIA 
 
3.1. A Metodologia CRISP-DM 
 
CRISP-DM (Cross-Industry Standard Process for Data Mining) é uma 
metodologia padrão, não-proprietária, criada no final de 1996 por três veteranos do 
mercado de mineração de dados: DaimlerChrysler AG (Alemanha), SPSS Inc. (EUA) 
e NCR Systems Engineering Copenhagen (EUA e Dinamarca). A metodologia CRISP-
DM é uma forma comprovada de guiar os esforços de mineração de dados. 
 
Como uma metodologia, inclui descrições das fases típicas de um projeto, das 
tarefas envolvidas em cada fase e dos relacionamentos entre elas. Como um modelo 
de processo, CRISP-DM fornece uma visão geral do ciclo de vida da mineração de 
dados. O ciclo de vida de um projeto de mineração de dados consiste em seis fases, 
com setas indicando as dependências mais importantes e frequentes entre as fases, 
conforme ilustrado na Figura 3.1 (IBM, 1994, 2011). 
 
Figura 3.1: Fases do modelo de referência CRISP-DM. Fonte: IBM, 1994, 2011. 
 
A sequênciade fases não é rígida. A metodologia CRISP-DM é flexível e pode 
ser facilmente customizada, conforme a necessidade do projeto. A figura 3.2 
7 
apresenta um esboço das fases acompanhadas pelas tarefas genéricas (em negrito) e 
saídas (em itálico). 
 
 
Figura 3.2: Tarefas genéricas e as saídas do modelo de referência do CRISP-DM. 
Fonte: IBM, 1994, 2011. 
 
3.1.1. Entendimento do Negócio 
 
Esta fase inicial visa o entendimento dos objetivos e requisitos do projeto a 
partir da perspectiva do negócio. 
 
Nesta fase as seguintes tarefas serão realizadas: 
 
• Determinar os objetivos do negócio a partir da visão dos tomadores de 
decisão, dos patrocinadores do projeto e de outras unidades de negócio 
impactadas pelo projeto. É importante, neste momento, entender a 
situação do negócio da organização, sua estrutura e recursos, bem 
como descrever o problema e determinar os requisitos de negócios 
necessários; 
 
• Avaliar a situação atual, observando os dados disponíveis para o 
projeto, os recursos humanos existentes, bem como os riscos 
8 
envolvidos e contingências previstas e, finalmente, as premissas e 
restrições existentes; 
 
• Determinar as metas do projeto, com base nos objetivos de negócio 
predeterminados; 
 
• Produzir um Plano de Projeto a fim de documentar os objetivos, 
recursos, riscos e prazos para todas as fases do trabalho a ser 
realizado. 
3.1.2. Entendimento dos Dados 
 
A fase de entendimento dos dados sugere uma visão mais detalhada sobre os 
dados disponíveis para o projeto. O entendimento dos dados envolve acessar os 
dados e explorá-los para determinar sua qualidade e documentar os resultados. 
 
Nesta fase as seguintes tarefas serão realizadas: 
 
• Coletar os dados iniciais, os quais podem originar de uma variedade de 
fontes distintas. Devem ser analisados, por exemplo, quais atributos 
(colunas) podem ser aproveitados, quais são irrelevantes e podem ser 
excluídos, se eles são suficientes para gerar previsões confiáveis e 
como serão tratados os valores ausentes; 
 
• Descrever os dados, focando na quantidade e na qualidade dos dados 
disponíveis; 
 
• Explorar os dados, gerando gráficos e estatísticas sobre os dados 
disponíveis, visando formar hipóteses sobre como os dados podem 
responder aos objetivos técnicos e de negócio; 
 
• Verificar a qualidade dos dados antes de realizar a modelagem. 
Verificar valores ausentes ou nulos, dados com valores incorretos e 
inconsistentes. 
 
9 
3.1.3. Preparação dos Dados 
 
A fase de preparação dos dados é uma das mais importantes e a que 
geralmente consome maior tempo e esforço do projeto, em torno de 50 a 70%. Esta 
fase envolve unir dados e registros, selecionar uma amostra do subconjunto de dados, 
agregar registros, derivar novos atributos, ordenar os dados, excluir ou substituir 
valores ausentes, brancos ou nulos (IBM, 1994, 2011). 
 
Nesta fase as seguintes tarefas serão realizadas: 
 
• Selecionar os dados considerados relevantes para os objetivos 
predeterminados. Geralmente as formas de selecionar dados envolve 
selecionar itens ou linhas, como por exemplo quais clientes incluir, e 
selecionar atributos ou colunas; 
 
• Limpar os dados que foram selecionados para serem incluídos na 
análise. Valores ausentes, dados com erros ou inconsistentes podem 
ser excluídos ou substituídos por valores estimados ou considerados 
corretos; 
 
• Construir novos dados a partir de dados já existentes. Há duas formas 
de se fazer isso: derivando atributos (colunas) e/ou gerando registros 
(linhas); 
 
• Integrar os dados realizando a união (merge) ou a adição (appending) 
de dois ou mais conjuntos de dados. A união envolve unir dois 
conjuntos de dados contendo registros similares, mas atributos 
distintos, usando a mesma chave identificadora de cada registro. A 
adição envolve integrar dois ou mais conjuntos de dados com atributos 
similares e registros distintos; 
 
• Formatar ou ordenar os dados disponíveis antes de modelar. 
 
3.1.4. Modelagem 
 
A fase de modelagem geralmente é conduzida em múltiplas iterações. 
10 
 
Nesta fase as seguintes tarefas serão realizadas: 
 
• Selecionar, dentre as técnicas de modelagem existentes, a mais 
apropriada para as necessidades da organização; 
 
• Gerar um plano de teste, descrevendo os critérios para um modelo ser 
considerado bom e definindo os dados nos quais os critérios serão 
testados; 
 
• Construir os modelos previstos; 
 
• Avaliar os modelos e determinar qual será o modelo final. Considere, 
neste momento, fazer uma revisão dos resultados com base no seu 
entendimento dos problemas de negócio, consultar analistas de dados 
ou outros especialistas que consigam perceber a relevância de 
resultados particulares, e avaliar se os resultados obtidos vão ao 
encontro dos objetivos de negócios estabelecidos durante a fase de 
entendimento do negócio. O modelo poderá passar por várias iterações 
sofrendo ajustes até que atenda aos requisitos predeterminados. 
 
3.1.5. Avaliação 
 
Nesta fase as seguintes tarefas serão realizadas: 
 
• Avaliar os resultados, verificando se eles estão claros e se alcançaram 
ou não os objetivos do negócio; 
 
• Revisar o processo, verificando as possíveis falhas e erros de cada 
fase, a fim de evitá-las em futuros projetos. 
 
3.1.6. Disponibilização 
 
É importante, neste momento, unir-se aos especialistas para realizar a 
avaliação do projeto. 
11 
 
Nesta fase as seguintes tarefas serão realizadas: 
 
• Planejar a implantação, sumarizando os resultados do projeto (modelos 
e descobertas). Desta forma será possível determinar, por exemplo, 
quais modelos podem ser integrados aos sistemas da organização e 
quais descobertas devem ser apresentadas às pessoas certas das 
organizações; 
 
• Planejar o monitoramento e manutenção dos modelos e descobertas 
geradas pelo projeto; 
 
• Realizar uma revisão final do projeto, coletando as impressões finais e 
registrando as lições aprendidas. 
 
12 
CAPÍTULO 4. APLICAÇÃO NA LIVRARIA EMBRAPA 
 
Neste capítulo é apresentado o estudo de caso aplicado ao sistema de 
comércio eletrônico da Livraria Embrapa, orientado pela metodologia CRISP-DM. 
 
4.1. Entendimento do Negócio 
 
Durante esta etapa de entendimento do negócio serão realizadas as seguintes 
tarefas: determinar os objetivos do negócio; avaliar a situação atual; determinar as 
metas do projeto; e produzir o plano do projeto. 
 
4.1.1. Determinar os objetivos do negócio 
 
Para melhor contextualizar os objetivos do negócio estabelecidos para este 
estudo de caso, é importante entender a situação atual da estrutura organizacional, 
seus recursos, problemas e atuais soluções. 
 
4.1.1.1. A Estrutura Organizacional 
 
O Setor de Marketing e Comercialização da Embrapa Informação Tecnológica 
é o principal responsável pela Livraria Embrapa. No entanto, o processo de negócio da 
Livraria transita e impacta diversos setores da Unidade, destacados na figura 4.1. 
 
 
Figura 4.1: Organograma Embrapa Informação Tecnológica: destaque para os setores 
impactados pela Livraria Embrapa. Fonte: Website SCT <http://www.sct.embrapa.br>. 
 
13 
Cada setor impactado tem suas responsabilidades e cumpre um papel 
específico no processo de venda de um produto pela Livraria Embrapa: 
 
• Setor de Marketing e Comercialização: responsável pela gestão da 
Livraria Embrapa. Realiza o atendimento ao cliente, promoções e 
publicidades dos produtos da Livraria, sua comercialização 
diretamente no balcão ou pelo site, em feiras e eventos, vendas 
para consignatárias, vendas para consignantes e vendas por 
assinatura; 
 
• Setor de Orçamento e Finanças: responsável pelo 
acompanhamento e controle dos recebimentos e pagamentos 
efetuados no processo de compra na Livraria; 
 
• Setor de Patrimônio e Material: responsável pelo controle do 
estoque, pelo tratamento do pedido do cliente para despachoda 
mercadoria; 
 
• Setor da Gráfica: responsável pela confecção de novos produtos 
(livros, periódicos, etc.) ou de produtos para reposição em estoque; 
 
• Setor de Mídia Eletrônica: responsável pela confecção de novos 
produtos de mídia eletrônica (CDs, DVDs, etc.), ou de produtos de 
mídia para reposição em estoque; 
 
• Gerências: responsáveis pela gestão dos setores que controlam e 
realizam todo o processo de venda e pela gestão em níveis 
estratégicos da Livraria Embrapa. 
 
4.1.1.2. O Problema e a Solução Atual 
 
A Embrapa Informação Tecnológica, assim como grande parte das 
organizações, tem passado por mudanças em seus processos de negócio e 
observado, nos últimos anos, um aumento exponencial no volume dos dados, 
principalmente no que diz respeito à Livraria Embrapa. 
 
14 
O negócio, com o passar do tempo, tem se tornado cada vez mais complexo, 
envolvendo pedidos feitos na Internet pelo site da Livraria, controle de consignações e 
assinaturas. O volume de clientes e de vendas da Livraria tem crescido 
consideravelmente, devido à sua popularização, às participações em feiras e eventos 
diversos, bem como ao aumento das parcerias e consignações. Junto com esse 
crescimento vem a necessidade de uma gestão pró-ativa e, portanto, mais efetiva da 
Livraria. 
 
Os sistemas de informação que, atualmente, operam a Livraria Embrapa, foram 
concebidos com foco operacional, assim como tantos sistemas de informação 
existentes no mercado. Apesar de prover informações consolidadas aos seus usuários 
internos, estas ainda são insuficientes quando se pensa em níveis estratégicos e de 
gestão, que requerem informações mais trabalhadas. 
 
O setor de Marketing e Comercialização é o maior demandante desse tipo de 
informação, e seus especialistas, juntamente com os gestores tem, cada vez mais, 
procurado obter informação e conhecimento que possam contribuir para uma gestão 
mais efetiva da Livraria. 
 
4.1.1.3. Os Objetivos do Negócio 
 
Os objetivos gerais levantados para este projeto a partir da perspectiva do 
negócio são: 
 
1. Prover, aos usuários, ferramentas que os possibilitem: construir suas 
próprias consultas, respondendo a abordagens sobre assuntos diversos; 
fazer análises estatísticas e cruzar informações, em formatos e sob 
perspectivas distintas; e evoluir da fase de controles quantitativos para a 
análise qualitativa da gestão, em tempo hábil para a tomada de decisão; 
 
2. Permitir o acesso às informações corporativas relacionadas à Livraria, por 
meio da integração dos sistemas de informação; 
 
3. Identificar oportunidades de vendas cruzadas por meio de melhores 
recomendações e/ou aplicando ações de marketing a partir do 
conhecimento adquirido; 
15 
 
4. Promover o aperfeiçoamento das atividades de gestão e de difusão da 
informação. 
 
4.1.1.4. A Proposta do Estudo de Caso 
 
O presente estudo pretende: 
 
a. Demonstrar a implementação de um sistema de Business 
Intelligence envolvendo a construção de um repositório de dados, e 
a aplicação de ferramentas OLAP (On-Line Analytical Processing) 
para o processo de negócio da Livraria Embrapa, com foco em 
comercialização e marketing; 
 
b. Demonstrar uma aplicação do processo de descoberta de 
conhecimento, utilizando técnicas de mineração de dados sobre a 
base de dados da Livraria Embrapa. 
 
4.1.2. Avaliar a situação atual 
 
Nesta fase avaliaremos a situação atual da organização em termos dos 
recursos (sistemas, pessoas) existentes e disponibilizados para o projeto, ou que 
possam influenciar, de alguma forma, o alcance dos objetivos do projeto. 
 
4.1.2.1. Avaliação dos Recursos Computacionais e Sistemas 
 
A Livraria Embrapa, atualmente, é operacionalizada por meio dos seguintes 
sistemas e recursos computacionais da Embrapa Informação Tecnológica: 
 
• O site da Livraria Virtual da Embrapa, desenvolvido em Java e 
disponibilizado no servidor de aplicações da Unidade; 
 
• O Sistema de Gerenciamento de Vendas (SGV), desenvolvido em 
Delphi; 
 
16 
Os dados estão armazenados no banco de dados Microsoft SQL Server 2005, 
em um servidor de banco de dados da Unidade. O acesso aos dados, sistemas e 
servidores é disponibilizado pelo supervisor do setor de Informática da Embrapa 
Informação Tecnológica. 
 
Dados corporativos que podem ser integrados à Livraria Embrapa como, por 
exemplo, dados dos autores dos livros que são funcionários da Embrapa, estão 
armazenados em um Data Warehouse corporativo, no setor de Informática da 
Embrapa Sede. 
 
A ferramenta de BI adotada pela Sede é a suíte de ferramentas da SAP 
BusinessObjects (BO). O acesso aos dados corporativos é disponibilizado pelo 
supervisor de BI (Business Intelligence) da Embrapa Sede. 
 
4.1.2.2. Avaliação dos Recursos Humanos 
 
As áreas e pessoas envolvidas e disponibilizadas para o estudo de caso estão 
resumidas na matriz de responsabilidades apresentada na tabela 4.1: 
 
Tabela 4.1: Matriz de Responsabilidades 
Unidade Setor Pessoas Responsabilidades 
Embrapa 
Informação 
Tecnológica 
Marketing e 
Comercialização 
Supervisor do 
Setor 
• Definir nível de segurança de 
acesso aos dados do universo 
analítico. 
• Garantir o comprometimento 
dos usuários com a demanda. 
• Garantir disponibilidade dos 
usuários para homologação do 
produto. 
• Informar a origem dos dados. 
• Informar as regras que serão 
aplicadas. 
• Homologar o trabalho. 
Embrapa 
Informação 
Tecnológica 
Marketing e 
Comercialização 
Atendentes e 
gestores da 
Livraria 
• Informar a origem dos dados. 
• Informar as regras que serão 
aplicadas. 
17 
Embrapa • Homologar o trabalho. 
Embrapa 
Informação 
Tecnológica 
Informática Analista de BI 
• Elaborar os modelos 
dimensionais. 
• Criar os Universos. 
• Treinar usuários. 
• Homologar o trabalho. 
Embrapa 
Sede 
Informática 
Administrador 
de Banco de 
Dados 
• Validar, criar e manter os 
Universos fisicamente. 
 
4.1.3. Determinar as metas do projeto1 
 
Visando atender aos objetivos de negócio pré-determinados, objetivos 
específicos serão estabelecidos para o projeto. Os objetivos serão divididos em dois 
grupos: objetivos do sistema de BI da Livraria Embrapa; e objetivos da mineração de 
dados aplicada sobre a base de dados da Livraria Embrapa. 
 
4.1.3.1. Objetivos específicos do Sistema de BI 
 
Os seguintes objetivos foram determinados para o Sistema de BI proposto para 
a Livraria Embrapa: 
 
1. Apurar as vendas e estornos/ devoluções de vendas de produtos: 
 
• Quantidades e valores líquidos arrecadados ou estornados/ 
devolvidos; 
 
• Por período (dia, semana, mês, ano), por localidade (país, região, 
estado, cidade), por categoria ou tema, por produto, por tipo de 
cliente (consignatário, consignante), por cliente, por tipo de produto, 
por unidade autora, por forma de pagamento (boleto bancário; cartão 
 
1 A metodologia CRISP-DM denomina esta tarefa como “Deterninar as metas da mineração de dados”. 
No entanto, este estudo pretende utilizar esta metodologia em um contexto mais amplo, adaptando-a de 
forma que seja utilizada não só para a mineração de dados mas, também, para a construção de um sistema 
de Business Intelligence para a Livraria Embrapa. Por este motivo, especificamente para este estudo de 
caso, alteramos para “determinar as metas do projeto” o que na metodologia está como “determinar as 
metas da mineração de dados”. 
18 
de crédito), por tipo de venda (venda direta; venda por evento; venda 
por consignatária; venda por consignante; venda por assinatura). 
 
2. Apurar os pedidos (efetivados em compras ou não) de publicações da 
Livraria: 
 
• Quantidades e valores líquidos; 
 
• Por período (dia, semana, mês, ano), por localidade (país, região, 
estado, cidade), por categoria ou tema, por produto, por cliente, por 
unidade autora, por tipo de produto, por forma de pagamento,por 
origem do pedido. 
 
3. Apurar as vendas de publicações da Livraria para as quais incidem o 
pagamento de direitos autorais: 
 
• Quantidades e valores líquidos arrecadados; 
 
• Por período (dia, mês, trimestre, semestre, ano), por localidade 
(país, região, estado, cidade), por produto, por cliente. 
 
4. Apurar os valores a pagar de direitos autorais: 
 
• Calcular a comissão autoral a pagar; 
 
• Por período (ano), por autor, por produto. 
 
4.1.3.2. Objetivos específicos da Mineração de Dados 
 
A essência da mineração de dados é a capacidade de antecipar o mercado, 
alcançando uma oportunidade de mercado. Por meio do uso de correlações, o analista 
de negócios utiliza a correlação, de forma criativa, para posicionar produtos e pacotes 
de forma a tirar vantagem da informação sobre hábitos dos consumidores (INMON, 
TECH TOPIC 6, 1997). 
 
A aplicação da mineração de dados na Livraria Embrapa tem como objetivo: 
19 
 
1. Utilizar informação histórica sobre transações de compras realizadas 
para gerar um modelo que associe itens relacionados (análise da cesta 
de compras) de forma que: 
 
a. Seja possível entender melhor o comportamento de compras do 
consumidor, para tentar direcionar as oportunidades de venda; 
 
b. Quando usuários acessarem um determinado item, possam ser 
disponibilizados links para outros itens relacionados; 
 
c. Possam ser criados novos pacotes e novos produtos a partir de 
itens já existentes e relacionados; 
 
d. Possam ser criadas promoções de vendas para itens relacionados. 
 
4.1.4. Produzir o Plano de Projeto 
 
Esta fase envolve a elaboração de documentos formais que servirão de 
orientação para todo o projeto. Nesta fase serão realizadas as seguintes tarefas: 
escrever o Plano de Projeto; avaliar técnicas e ferramentas. 
 
4.1.4.1. Escrever o Plano de Projeto 
 
Para a realização do estudo de caso proposto, foi necessária a criação de 
documentos formais (memorandos) justificando o projeto e solicitando sua aprovação 
junto às Gerências da Embrapa Sede e da Embrapa Informação Tecnológica. 
 
Além disso, todo o planejamento e detalhes do projeto foram descritos em 
documentos padrão da organização, tais como o “Termo de Abertura” e o documento 
de “Especificação de Requisitos”. Estes documentos foram analisados, revisados e 
aprovados pelos responsáveis, visando a viabilização do projeto na Embrapa. 
 
O Anexo 01 apresenta apenas algumas partes de alguns desses documentos, 
a fim de preservar a confidencialidade dos dados da empresa. 
 
20 
4.1.4.2. Avaliar Técnicas 
 
1. Técnica analisada para a Mineração de Dados: 
 
A mineração de dados prevista para a Livraria Embrapa envolve a análise da 
cesta de compras (market basket analysis), pressupondo o uso da técnica de regras 
de associação, que permite a descoberta de padrões locais interessantes nos dados. 
 
As regras de associação, também conhecidas como grupos de afinidade, são 
usadas para identificar associações interessantes e recorrentes entre grupos de 
registros de um conjunto de dados. Por exemplo, é possível determinar quais produtos 
são adquiridos juntos em uma única transação e com que freqüência. (...) Os 
agrupamentos por elementos relacionados são também utilizados para promover a 
venda cruzada ou para criar e promover combinações de produtos e serviços 
(VERCELLIS, 2009). 
 
A análise de afinidade é o estudo de atributos ou características que “ocorrem 
juntos”. Os métodos para análise de afinidade, também conhecidos como análise do 
cesto de compras (market basket analysis), procuram descobrir associações entre 
estes atributos; ou seja, eles procuram descobrir regras para quantificar o 
relacionamento entre dois ou mais atributos. As regras de associação assumem a 
forma de “Se antecendente, então conseqüente”, junto com uma medida de suporte e 
confiança associados à regra. Por exemplo, um determinado supermercado pode 
achar que dos 1000 clientes que fazem compras em uma noite de quinta-feira, 200 
compraram fraldas e, desses 200, 50 compraram cerveja. Assim, a regra de 
associação seria: “Se comprou fraldas, então comprou cerveja”, com um suporte de 
50/1000 = 5% e uma confiança de 50/200 = 25%. 
 
Seja D um conjunto de transações, onde cada transação T em D representa 
um conjunto de itens contidos em I. Suponha que tenhamos um conjunto particular de 
itens A (por exemplo, feijão e abóbora), e um outro conjunto de itens B (por exemplo, 
aspargos). Então a regra de associação assume a forma se A, então B (isto é, A ⇒ B), 
onde o antecedente A e o conseqüente B são subconjuntos de I, e A e B são 
mutuamente exclusivos. Esta definição excluiria, por exemplo, regras triviais tais como: 
se feijão e abóbora, então feijão. 
 
21 
O suporte s para uma determinada regra de associação A ⇒ B é a proporção 
de transações em D que contém ambos A e B. Isto é, 
 
suporte = P(A∩B) = nº de transações contendo ambos A e B / nº total de transações 
 
A confiança c da regra de associação A ⇒ B é a medida de acurácia da regra, 
determinada pelo percentual de transações em D contendo A que também contém B. 
Em outras palavras, 
 
confiança = P(B | A) = P(A∩B) / P(A) 
 = nº de transações contendo ambos A e B / nº de transações contendo A. 
 
Os analistas podem preferir regras que tenham um alto suporte ou uma alta 
confiança, e geralmente ambos. Regras fortes são aquelas que atendem ou superam 
os critérios de suporte e confiança mínimos (LAROSE, 2005). 
 
O algoritmo Apriori é um método mais eficiente de extrair regras fortes contidas 
em um conjunto de transações. Durante a primeira fase o algoritmo gera os conjuntos 
de dados (itemsets) mais freqüentes de uma forma sistemática, sem explorar o espaço 
de todos os candidatos, enquanto que na segunda fase ele extrai as regras fortes. 
O pressuposto teórico em que o algoritmo Apriori se baseia consiste em uma 
propriedade chamada princípio Apriori: Se um itemset é freqüente, então todos os 
seus subconjuntos (subsets) também serão freqüentes (VERCELLIS, 2009). 
 
A mineração de regras de associação para grandes bases de dados é um 
processo de dois passos: 
1. Encontre todos os conjuntos de itens (itemsets) mais freqüentes; isto é, 
procure todos os itemsets com freqüência >= φ. 
2. A partir dos itemsets mais freqüentes, gere regras de associação que 
satisfaçam as condições de suporte mínimo e confiança mínima. 
 
O algoritmo Apriori tira vantagem do princípio Apriori de reduzir o espaço de 
busca. Este princípio ajuda a reduzir significativamente o espaço de busca para o 
algoritmo Apriori (LAROSE, 2005). 
 
 
22 
4.1.4.3. Avaliar Ferramentas 
 
De acordo com as necessidades do negócio predeterminadas, a estrutura da 
organização, seus recursos disponíveis, bem como os objetivos específicos 
levantados para o projeto, as seguintes ferramentas foram consideradas mais 
apropriadas para este estudo de caso: 
 
3. Ferramentas selecionadas para o sistema BI da Livraria Embrapa: 
 
A oportunidade de aproveitamento de recursos já existentes foi uma das 
estratégias adotadas para a viabilidade do projeto dentro da organização. A existência 
de um Data Warehouse (DW) corporativo utilizando uma ferramenta robusta, como a 
suíte de ferramentas SAP BusinessObjects, de licença corporativa mantida pela 
Embrapa Sede, foi sem dúvida a opção mais apropriada para o estudo de caso 
proposto. 
 
Esta escolha implica em uma parceria entre Embrapa Sede e Embrapa 
Informação Tecnológica para a realização do projeto. 
 
Dentre as ferramentas disponibilizadas pela suíte SAP BO, serão utilizadas: 
 
o SAP BusinessObjects Data Services: fornece os processos de 
integração dos dados e de qualidade dos dados em tempo de 
execução, entregando desempenho e escalabilidade. Os processos de 
integração dos dados facilitam a exploração, extração, transformação, e 
entrega de qualquer tipo de dado em qualquer lugar darede. (SAP, 
2009); 
 
o SAP BusinessObjects Universe Designer: oferece uma representação 
de negócios dos dados da organização que auxilia os usuários finais a 
terem acesso aos dados de forma autônoma, utilizando os termos de 
negócios comuns e isolando os usuários de negócio de detalhes 
técnicos das bases de dados onde são armazenados os dados de 
origem. Universos são compostos de objetos e classes mapeados para 
a fonte de dados no banco de dados e acessados por meio de 
consultas e relatórios. (SAP, 2009-2010); 
 
23 
o SAP BusinessObjects Web Intelligence é uma ferramenta de análise, 
consultas e relatórios ad hoc, voltada para o usuário de negócios. Com 
essa ferramenta, os usuários podem ter acesso self-service aos dados 
da empresa por meio de uma interface amigável de portal Web 
conhecida como InfoView (BROGDEN et al., 2010). 
 
4. Ferramenta selecionada para a Mineração de Dados: 
 
A ferramenta selecionada para aplicação da regra de associação foi a WEKA 
(The Waikato Environment for Knowledge Analysis) em sua versão 3.6. 
 
WEKA é um produto da Universidade de Waikato (Nova Zelândia) e foi 
implementada pela primeira vez na sua forma atual em 1997. É um software 
desenvolvido na linguagem Java™ e com uma interface GUI para interagir com os 
arquivos de dados e produzir resultados visuais. (ABERNETHY, 2010). É uma coleção 
de algoritmos de aprendizagem para tarefas de mineração de dados. Contém 
ferramentas para o pré-processamento dos dados, classificação, regressão, 
agrupamento, regras de associação, e visualização (Website WEKA 
<http://www.cs.waikato.ac.nz/ml/weka/>). 
 
Apesar da limitação do volume de dados, WEKA foi selecionada para este 
estudo de caso por ser uma ferramenta simples de usar, e que implementa o algoritmo 
Apriori para a técnica de regras de associação. 
 
4.2. Entendimento dos Dados 
 
Nesta etapa serão realizadas as seguintes tarefas: coletar os dados iniciais; 
explorar os dados; e verificar a qualidade dos dados. 
 
4.2.1. Coletar dados iniciais 
 
O estudo de caso será aplicado sobre a base de dados da Livraria Embrapa, 
cujo modelo de dados é composto, atualmente, por um total de 94 tabelas. 
 
24 
Para efetuar a coleta dos dados iniciais que serão utilizados para o estudo de 
caso proposto é necessário resgatar os objetivos de negócio e os objetivos específicos 
predeterminados para o projeto. 
 
Levando em conta esses objetivos, observa-se que os dados que devem ser 
considerados relevantes para este estudo de caso são aqueles que estiverem 
relacionados aos pedidos e às transações de vendas realizadas. 
 
Após análise detalhada do modelo de dados da Livraria, concluímos que, das 
94 tabelas que fazem parte deste modelo, somente 34 podem ser consideradas 
relevantes para este estudo de caso. 
 
O novo modelo lógico, representando o domínio de dados a ser explorado, está 
ilustrado na figura 4.2. 
 
 
 
 
 
 
 
 
 
 
 
25 
 
 
 
 
Figura 4.2: Modelo Entidade-Relacionamento Livraria Embrapa: domínio de dados a ser explorado. 
26 
4.2.2. Explorar os dados 
 
As principais estatísticas das entidades, apresentadas no modelo de dados da 
figura 4.2, estão descritas no Anexo 02.a. 
 
4.2.3. Verificar a qualidade dos dados 
 
A qualidade dos dados da base de dados da Livraria, em alguns casos, está 
bastante comprometida. Os seguintes tipos de problemas foram observados: 
 
• Dados ausentes: foram encontrados valores nulos ou em branco para os 
seguintes campos: 
 
o O campo “tipo de pessoa” da tabela de Cliente que indica se o 
cliente é pessoa física ou jurídica. O correto é que este campo 
esteja preenchido com o valor 1 para pessoa física e 2 para jurídica; 
 
o Os campos “código do município”, “código do estado” e “código do 
país” da tabela de Cliente. Estes campos foram inseridos 
recentemente nesta tabela. Antigamente, o endereço do cliente não 
era de preenchimento obrigatório; 
 
o Os campos “profissão”, “sexo” e “data de nascimento” na tabela 
Pessoa Física, os quais também não eram de preenchimento 
obrigatório. 
 
• Dados com erros: alguns valores com erros ou inconsistentes também 
foram observados, tais como: 
 
o Na tabela de Cliente os campos “cidade cliente”, “estado cliente” e 
“pais cliente”, por terem sido, durante um tempo, campos de 
preenchimento livre, continham informações inconsistentes (Ex.: 
cidade cliente = Rio de Janeiro; e estado cliente = DF). Esses 
mesmos campos também apresentaram valores escritos de formas 
distintas (Ex.: cidade cliente = Belo Horizonte; e cidade cliente = 
BH); 
27 
 
o Também foram encontrados muitos clientes duplicados, com o 
mesmo email, mas nomes escritos de forma distinta (Ex.: nome 
cliente = Antônio de Jesus; e nome cliente = Antonio de Jesus). O 
correto, nesse caso, é unificar os cadastros desse cliente; 
 
o A duplicação de registros também acontece no cadastro de autores; 
 
o Foram detectados alguns lixos na base de dados, originados de 
testes feitos em momentos anteriores. Por exemplo, clientes que só 
existem na tabela de clientes e não possuem acesso cadastrado, 
não fizeram pedidos ou compras, etc.; 
 
o Clientes que não possuem email cadastrado. Atualmente o email é 
obrigatório para um cliente se cadastrar e ter acesso à Livraria; 
 
o Clientes com data de nascimento inválida (Ex.: 01/12/1500); 
 
o Na tabela de Pedidos, os campos “valor do frete”, “valor do pedido”, 
“valor da assinatura”, e “desconto” apresentaram valores com 
separador de decimal registrados com “,” e outros registrados com 
“.”. Também havia registros com “R$”, “$” ou somente “R”. 
 
4.3. BI Livraria Embrapa – Preparação dos Dados 
 
Por apresentarem diferenças relevantes, a tarefa de preparação dos dados 
para o sistema de BI será tratada separadamente da tarefa de preparação dos dados 
para a mineração de dados. 
 
Neste momento iremos tratar a tarefa de preparação dos dados somente para 
o BI da Livraria Embrapa. 
 
Para esta etapa destacaremos as seguintes tarefas: selecionar os dados; e 
limpar os dados. 
 
28 
4.3.1. Selecionar os dados 
 
A partir do modelo lógico definido na tarefa “4.2.4. Coletar dados iniciais”, 
podemos iniciar a criação do sistema de BI para a Livraria Embrapa. 
 
O primeiro passo é efetuar a importação desses dados para dentro do 
repositório de dados corporativo (data warehouse), em uma área intermediária 
chamada de data staging area. 
Essa área de preparação dos dados do data warehouse é uma área de 
armazenamento e de execução de um conjunto de processos chamado ETL (Extract, 
Transform, Load) (KIMBALL & ROSS, 2002). 
 
Para isso, foi necessário configurar a ferramenta SAP BusinessObjects Data 
Services para realizar o processo de extração, transfomação e carga dos dados da 
base origem, armazenada no Microsoft SQL Server, para o repositório de dados 
destino da Livraria. 
 
Uma vez configurada, a ferramenta se encarrega de: 
 
• Estabelecer a conexão com a base de dados origem, no caso com a 
base da Livraria no Microsoft SQL Server; 
• Extrair os dados selecionados da base de dados da Livraria. 
• Efetuar a transformação e limpeza dos dados, aplicando regras 
automáticas e pré-configuradas para corrigir erros recorrentes; 
• Efetuar a carga dos dados no repositório de dados destino. 
 
A figura 4.3 ilustra parte do processo de ETL (Extract, Transform, Load) para o 
repositório de dados destino, utilizando a ferramenta SAP BO Data Services Designer. 
 
29 
 
Figura 4.3: ETL origem (SQL Server) – destino (Repositório), usando a ferramenta 
SAP BO Data Services Designer. 
 
4.3.2. Limpar os dados 
 
Geralmente, os dados armazenados em um Data Warehouse são processados 
em tempo de carga, de forma a remover quaisquer inconsistências sintáticas, como já 
foi dito anteriormente. 
 
No entanto, para este estudo de caso, ocorreu também um processo de 
limpeza anterior a este, realizadodiretamente na base de dados original da Livraria, 
armazenada no SGBD Microsoft SQL Server. A limpeza dos dados foi feita via script 
desenvolvido em linguagem SQL, visando solucionar alguns dos problemas 
identificados durante a fase de entendimento dos dados, na tarefa “4.2.7. Verificar a 
qualidade dos dados”. 
 
A limpeza foi realizada para os seguintes casos: 
 
• Para dados nulos, incorretos ou inconsistentes, e considerados críticos 
para o bom funcionamento dos sistemas de informação atuais. Por 
exemplo, o campo “tipo de pessoa” nulo na tabela de clientes estava 
gerando erro no site da Livraria. 
 
30 
• Para casos considerados de maior complexidade, gerando um trabalho 
quase que manual de análise dos dados anterior à limpeza. Por 
exemplo, o campo “código município” preenchido de forma incorreta no 
cadastro de clientes. 
 
É relevante observar que, a partir desta análise, os sistemas de informação da 
Livraria foram alterados para contemplar funções consideradas críticas ao processo de 
negócio da Livraria. Por exemplo, alguns campos que anteriormente eram de livre 
preenchimento pelos usuários, agora passaram a mostrar listas de opção para 
seleção. 
 
O Anexo 03 ilustra alguns scripts SQL utilizados para a limpeza dos dados 
diretamente na base de dados da Livraria. 
 
4.4. BI Livraria Embrapa – Modelagem 
 
Para a fase de Modelagem, destacaremos as seguintes tarefas: selecionar a 
técnica de modelagem; construir o modelo; e avaliar o modelo. 
 
4.4.1. Selecionar a técnica de modelagem 
 
O tipo de modelo multidimensional utilizado para a modelagem do repositório 
de dados da Livraria Embrapa é o modelo estrela. Neste modelo, todas as tabelas se 
relacionam diretamente com a tabela Fato, por meio de uma chave única de 
identificação. 
 
O benefício de criar o esquema estrela é agilizar o processamento de dados 
dos sistemas de suporte à decisão (DSS). Pela união prévia dos dados e pela criação 
de redundância seletiva, o acesso e a análise dos dados são amplamente 
simplificados e otimizados (INMON, 2002). 
 
Outro aspecto muito importante no projeto é a questão da granularidade. 
A granularidade se refere ao nível de detalhe ou de resumo das unidades de 
dados no data warehouse (INMON, 2002). 
 
31 
Para este estudo de caso, o modelo dimensional foi desenvolvido com a 
informação diária, ou seja, com um maior nível de detalhe e, portanto, baixa 
granularidade. 
 
A granularidade é o problema de projeto mais importante no ambiente do data 
warehouse porque ele afeta profundamente o volume dos dados que residem no 
repositório e o tipo de consulta que pode ser respondida. (INMON, 2002) 
 
4.4.2. Construir o modelo 
 
Uma vez definido o esquema e a granularidade a ser aplicada ao modelo, a 
etapa de construção inicia com a identificação das tabelas fato, suas dimensões e 
medidas. 
 
4.4.2.1. Construção do Modelo Dimensional 
 
4.4.2.1.1. FATO VENDA DIÁRIA 
 
Esta tabela tem como objetivo a manipulação de dados referentes às 
transações de vendas diárias realizadas na Livraria Embrapa. 
 
• Medidas (ou fatos) 
 
As principais medidas criadas para a tabela Fato Venda Diária são: 
 
o Quantidade item: corresponde à quantidade vendida do item 
naquela transação de venda; 
 
o Valor bruto item: corresponde ao valor bruto de venda do item 
naquela transação de venda; 
 
o Valor líquido item: é igual ao valor líquido de venda do item menos o 
valor do desconto aplicado ao item naquela transação de venda; 
 
32 
o Quantidade vendida item Venda Direta2: corresponde à quantidade 
vendida do item para a transação de venda direta; 
 
o Valor bruto vendido item Venda Direta: corresponde ao valor bruto 
de venda do item para a transação de venda direta; 
 
o Valor líquido vendido item Venda Direta: é igual ao valor bruto de 
venda direta do item menos o valor do desconto aplicado ao item 
para a transação de venda direta; 
 
o Quantidade estorno item Venda Direta: corresponde à quantidade 
estornada / devolvida do item para a transação de venda direta; 
 
o Valor bruto estorno item Venda Direta: corresponde ao valor bruto 
estornado / devolvido do item para a transação de venda direta; 
 
o Valor líquido estorno item Venda Direta: é igual ao valor bruto 
estornado / devolvido do item menos o valor do desconto aplicado 
ao item para a transação de venda direta; 
 
o Quantidade apurada item Venda Direta: é igual à quantidade 
vendida do item menos a quantidade estornada / devolvida do item 
para a transação de venda direta; 
 
o Valor bruto apurado item Venda Direta: é igual ao valor bruto 
vendido do item menos o valor bruto estornado / devolvido do item 
para a transação de venda direta; 
 
o Valor líquido apurado item Venda Direta: é igual ao valor líquido 
vendido do item menos o valor líquido estornado / devolvido do item 
para a transação de venda direta. 
 
Outras medidas similares às medidas definidas para Venda Direta foram 
definidas também para Vendas por Evento3, Vendas por Consignatária4, Vendas por 
Consignante5 e Vendas por Assinatura6. 
 
2 É considerada “Venda Direta” qualquer venda realizada via site da Livraria ou em ambiente interno da 
Embrapa. 
33 
 
• Dimensões 
 
As dimensões que se relacionam com a Fato Venda Diária são: 
 
o Tempo_Diário: Esta dimensão pertence ao Data Warehouse 
corporativo da Embrapa e foi integrada ao repositório de dados da 
Livraria Embrapa. Ela permite visualizar as vendas realizadas por 
dia, semana, quinzena, mês, bimestre, trimestre, semestre e ano; 
 
o Localidade: Esta dimensão permite visualizar as vendas realizadas 
por município, estado, região e país; 
 
o Produto_Categoria_Pacote: Esta dimensão corresponde a uma 
agregação das entidades Produto, Categoria e Pacote do modelo 
original da Livraria. Ela permite visualizar as informações do 
produto, as categorias (ou temas) às quais ele pertence, e se ele faz 
parte de algum pacote de venda da Livraria. 
 
o Nota_Fiscal_Pedido: Esta dimensão corresponde a uma agregação 
de um conjunto de entidades do modelo original da Livraria, tais 
como: Pedido, Nota Fiscal, Meio de Transporte, Forma de 
Pagamento, Tipo de Remessa, Origem do Pedido, Tipo de 
Movimento. Ela permite visualizar os dados do pedido e as 
informações das notas fiscais geradas para a solicitação de venda. 
 
o Cliente: Esta dimensão permite a visualização dos dados do cliente 
que realizou a compra. 
 
o Tipo_Pagamento: Esta dimensão descreve os tipos de pagamento 
possíveis para uma transação de compra na Livraria, tais como 
depósito bancário, cartão de crédito, e outros. 
 
3 É considerada “Venda por Evento” a venda realizada em feiras ou eventos externos ao ambiente da 
Embrapa. 
4 É considerada “Venda por Consignatária” a venda realizada em consignação por Consignatária. 
5 É considerada “Venda por Consignante” a venda realizada em consignação por Consignante. 
6 É considerada “Venda por Assinatura” a venda realizada por meio de assinatura de periódicos, revistas e 
demais produtos da Livraria vendidos nesta modalidade. 
34 
 
A figura 4.4 ilustra o modelo dimensional para a tabela fato Venda Diária. 
 
 
 
Figura 4.4: Modelo Dimensional: Fato Venda Diária. 
 
4.4.2.1.2. FATO PEDIDO DIÁRIO 
 
Esta tabela fato tem como objetivo a manipulação de dados referentes às 
transações de pedidos diários, efetivados em compras ou não, realizados na Livraria 
Embrapa. 
 
• Medidas (ou fatos) 
 
As principais medidas criadas para a tabela Fato Pedido Diário são: 
 
35 
o Quantidade item: corresponde à quantidade solicitada do item 
naquela transação de pedido de compra; 
 
o Valor bruto item: corresponde ao valor bruto do item naquela 
transação de pedido de compra;o Valor líquido item: é igual ao valor líquido do item menos o valor do 
desconto aplicado ao item naquela transação de pedido de compra; 
 
• Dimensões 
 
As dimensões que se relacionam com a Fato Pedido Diário são: 
 
o Tempo_Diário: Esta dimensão pertence ao Data Warehouse 
corporativo da Embrapa e foi integrada ao repositório de dados da 
Livraria Embrapa. Ela permite visualizar os pedidos realizados por 
dia, semana, quinzena, mês, bimestre, trimestre, semestre e ano; 
 
o Localidade: Esta dimensão permite visualizar os pedidos realizados 
por município, estado, região e país; 
 
o Produto_Categoria_Pacote: Esta dimensão corresponde a uma 
agregação das entidades Produto, Categoria e Pacote do modelo 
original da Livraria. Ela permite visualizar as informações do 
produto, as categorias (ou temas) às quais ele pertence, e se ele faz 
parte de algum pacote de venda da Livraria. 
 
o Pedido: Esta dimensão permite visualizar os detalhes do pedido de 
compra realizado. 
 
o Cliente: Esta dimensão permite a visualização dos dados do cliente 
que realizou o pedido de compra. 
 
A figura 4.5 ilustra o modelo dimensional para a tabela fato Pedido Diário. 
 
 
 
36 
 
 
Figura 4.5: Modelo Dimensional: Fato Pedido Diário. 
 
4.4.2.1.3. FATO VENDA DIREITO AUTORAL DIÁRIA 
 
Esta tabela fato tem como objetivo a manipulação de dados referentes às 
transações de vendas diárias realizados na Livraria Embrapa, sobre as quais incidem 
o pagamento de direitos autorais. 
 
• Medidas (ou fatos) 
 
As principais medidas criadas para a tabela Fato Venda Direito Autoral Diária 
são: 
 
37 
o Quantidade vendida item Direito Autoral: corresponde à quantidade 
vendida do item para a transação de venda sobre a qual incidem 
direitos autorais; 
 
o Valor bruto vendido item Direito Autoral: corresponde ao valor bruto 
de venda do item para a transação de venda sobre a qual incidem 
direitos autorais; 
 
o Valor líquido vendido item Direito Autoral: é igual ao valor bruto de 
venda do item menos o valor do desconto aplicado ao item para a 
transação de venda sobre a qual incidem direitos autorais; 
 
o Quantidade estorno item Direito Autoral: corresponde à quantidade 
estornada / devolvida do item para a transação de venda sobre a 
qual incidem direitos autorais; 
 
o Valor bruto estorno item Direito Autoral: corresponde ao valor bruto 
estornado / devolvido do item para a transação de venda sobre a 
qual incidem direitos autorais; 
 
o Valor líquido estorno item Direito Autoral: é igual ao valor bruto 
estornado / devolvido do item menos o valor do desconto aplicado 
ao item para a transação de venda sobre a qual incidem direitos 
autorais; 
 
o Quantidade apurada item Direito Autoral: é igual à quantidade 
vendida do item menos a quantidade estornada / devolvida do item 
para a transação de venda sobre a qual incidem direitos autorais; 
 
o Valor bruto apurado item Direito Autoral: é igual ao valor bruto 
vendido do item menos o valor bruto estornado / devolvido do item 
para a transação de venda sobre a qual incidem direitos autorais; 
 
o Valor líquido apurado item Direito Autoral: é igual ao valor líquido 
vendido do item menos o valor líquido estornado / devolvido do item 
para a transação de venda sobre a qual incidem direitos autorais; 
 
38 
o Valor da Comissão Autoral: equivale ao valor a ser pago ao autor, 
calculado a partir da taxa percentual do autor aplicada sobre o valor 
líquido apurado do item vendido. 
 
• Dimensões 
 
As dimensões que se relacionam com a Fato Venda Direito Autoral Diária são: 
 
o Tempo_Diário: Esta dimensão pertence ao Data Warehouse 
corporativo da Embrapa e foi integrada ao repositório de dados da 
Livraria Embrapa. Ela permite visualizar as vendas sobre as quais 
incidem direitos autorais realizadas por dia, semana, quinzena, mês, 
bimestre, trimestre, semestre e ano; 
 
o Localidade: Esta dimensão permite visualizar as vendas sobre as 
quais incidem direitos autorais realizadas por município, estado, 
região e país; 
 
o Produto_Autoria_Consignataria: Esta dimensão corresponde a uma 
agregação das entidades Produto, Autoria, Autor e Produto 
Consignado do modelo original da Livraria. Ela permite visualizar as 
informações do produto, detalhes dos seus autores, e detalhes da 
venda em consignação do produto. 
 
o Nota_Fiscal_Pedido Esta dimensão corresponde a uma agregação 
de um conjunto de entidades do modelo original da Livraria, tais 
como: Pedido, Nota Fiscal, Meio de Transporte, Forma de 
Pagamento, Tipo de Remessa, Origem do Pedido, Tipo de 
Movimento. Ela permite visualizar os dados do pedido e as 
informações das notas fiscais geradas para a venda sobre a qual 
incidem direitos autorais. 
 
o Cliente: Esta dimensão permite a visualização dos dados do cliente 
que realizou a compra sobre a qual incidem direitos autorais. 
 
A figura 4.6 ilustra o modelo dimensional para a tabela fato Venda Direito 
Autoral Diária. 
39 
 
 
 
Figura 4.6: Modelo Dimensional: Fato Venda Direito Autoral Diária. 
 
4.4.2.2. Implementação do Modelo Dimensional 
 
Para a implementação do modelo dimensional foi utilizada a ferramenta SAP 
BO Data Services Designer, ou seja, todo o trabalho de definição dos atributos, 
extração dos dados a partir das tabelas origem, transformação e carga para cada uma 
das tabelas Fato e dimensões descritas anteriormente, foram implementados por meio 
desta ferramenta. 
 
Para ilustrar o ambiente de desenvolvimento da ferramenta, utilizaremos como 
exemplo alguns detalhes da construção da dimensão Nota_Fiscal_Pedido e da tabela 
Fato Venda Diária. 
 
• Dimensão Nota_Fiscal_Pedido 
 
40 
A figura 4.7 mostra a criação da dimensão Nota_Fiscal_Pedido utilizando a 
ferramenta, que executa o ETL das tabelas de origem para a dimensão destino. Note 
que esta dimensão é criada a partir de diversas tabelas do modelo relacional origem. 
 
 
Figura 4.7: ETL dimensão “Nota_Fiscal_Pedido”, utilizando a ferramenta SAP BO Data 
Services Designer. 
 
 
Os detalhes do SQL de extração dos dados das tabelas origem para esta 
dimensão destino são mostrados na figura 4.8. 
. 
41 
 
Figura 4.8: SQL de extração dados origem para dimensão “Nota_Fiscal_Pedido”, 
utilizando a ferramenta SAP BO Data Services Designer. 
 
• Fato Venda Diária 
 
A configuração da ferramenta para implementação do ETL de criação da tabela 
Fato Venda Diária é ilustrado na figura 4.9. 
 
42 
 
Figura 4.9: ETL “Fato Venda Diária”, utilizando a ferramenta SAP BO Data Services 
Designer. 
 
A figura 4.10 mostra o exemplo de um dos SQL’s criados para o ETL da Fato 
Venda Diária. 
 
 
Figura 4.10: SQL de criação “Fato Venda Diária”, utilizando a ferramenta SAP BO Data 
Services Designer. 
 
Detalhes do cálculo de uma das medidas da Fato Venda Diária são ilustrados 
na figura 4.11. 
 
43 
 
Figura 4.11: Cálculo de medida para “Fato Venda Diária”, utilizando a ferramenta SAP 
BO Data Services Designer. 
 
4.4.2.3. Criação dos Universos 
 
Para tornar os modelos criados acessíveis aos usuários finais, é necessário 
construir os Universos na chamada área de apresentação dos dados. 
 
A área de apresentação dos dados (data presentation area) é o local onde os 
dados são organizados, armazenados, e disponibilizados para serem consultados por 
usuários e outras aplicações analíticas (KIMBALL & ROSS, 2002). 
 
Para a criação dos Universos foi utilizada a ferramenta SAP BO Universe 
Designer. Foram criados três Universos distintos, um para cada tabela fato: o Universo 
“Venda Diária”; o Universo “Pedido Diário”; e o Universo “Venda Direito Autoral Diária”. 
Todos os três Universos são interligados, o que significa que os usuários conseguem 
fazer cruzamentos entre suas tabelas. 
 
Para ilustrar o ambiente de desenvolvimento da ferramenta, utilizaremos, como 
exemplo, detalhes da construção do Universo “Venda Direito

Outros materiais