Baixe o app para aproveitar ainda mais
Prévia do material em texto
EXTRAÇÃO DE CONHECIMENTO NO SISTEMA DE COMÉRCIO ELETRÔNICO DA LIVRARIA EMBRAPA Natália Santos Fois Dissertação de Mestrado apresentada ao Programa de Pós-graduação em Engenharia Civil, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Engenharia Civil. Orientador: Nelson Francisco Favilla Ebecken Rio de Janeiro Setembro de 2011 EXTRAÇÃO DE CONHECIMENTO NO SISTEMA DE COMÉRCIO ELETRÔNICO DA LIVRARIA EMBRAPA Natália Santos Fois DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA CIVIL. Examinada por: ________________________________________________ Prof. Nelson Francisco Favilla Ebecken, D.Sc. ________________________________________________ Profª Beatriz de Souza Leite Pires de Lima, D.Sc. ________________________________________________ Prof. Elton Fernandes, Ph.D. RIO DE JANEIRO, RJ - BRASIL SETEMBRO DE 2011 iii Fois, Natália Santos Extração de Conhecimento no Sistema de Comércio Eletrônico da Livraria Embrapa / Natália Santos Fois. – Rio de Janeiro: UFRJ/COPPE, 2011. XIII, 139 p.: il.; 29,7 cm. Orientador: Nelson Francisco Favilla Ebecken. Dissertação (mestrado) – UFRJ/ COPPE/ Programa de Engenharia Civil, 2011. Referências Bibliográficas: p. 85-88. 1. Business Intelligence. 2. Regras de Associação 3. Metodologia CRISP-DM. I. Ebecken, Nelson Francisco Favilla. II. Universidade Federal do Rio de Janeiro, COPPE, Programa de Engenharia Civil. III. Título. iv Dedico este trabalho à minha filha Lívia que, com seus três meses de vida, sorri, e faz tudo valer a pena... v AGRADECIMENTOS Agradeço ao meu marido, Virgílio, pela paciência em momentos impacientes. Aos meus pais, Antônio e Vera, por tudo o que já fizeram e ainda fazem por mim. Um agradecimento especial à minha mãe Vera, pela grande e fundamental ajuda nesses meses de incertezas. Ao meu amigo Valmir dos Santos Sobral, um dos responsáveis e incentivador constante deste Mestrado. À gerência da Embrapa Informação Tecnológica, pelo apoio sem restrições dado ao projeto. Aos colegas da Embrapa, pelo trabalho em equipe e pela amizade. Aos colegas do Mestrado, especialmente, à amiga Ângela Moulin, pelo incentivo e horas de estudo. Ao meu orientador, Nelson Francisco Favilla Ebecken, pelo apoio. Acima de tudo, a Deus, que me presenteia a cada dia com o que eu jamais imaginei poder ter. E, finalmente, meus agradecimentos a todos os que colaboraram, direta ou indiretamente, para a realização deste trabalho. vi Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Mestre em Ciências (M.Sc.) EXTRAÇÃO DE CONHECIMENTO NO SISTEMA DE COMÉRCIO ELETRÔNICO DA LIVRARIA EMBRAPA Natália Santos Fois Setembro/2011 Orientador: Nelson Francisco Favilla Ebecken Programa: Engenharia Civil Este trabalho descreve a implementação de um sistema de Inteligência de Negócios, envolvendo a construção de um repositório de dados e a aplicação de ferramentas OLAP (On-Line Analytical Processing), para o processo de negócio da Livraria Embrapa, operacionalizado por seu sistema de comércio eletrônico. O estudo é complementado pela aplicação de regras de associação para a análise da cesta de compras da Livraria. O objetivo é obter, ao final, informações e conhecimento úteis ao negócio e aos seus complexos processos de tomada de decisão. Além disso, o presente estudo baseia-se na metodologia CRISP-DM (Cross- Industry Standard Process for Data Mining) como orientadora e direcionadora do trabalho, e demonstra como esta metodologia, criada originalmente para os processos de mineração de dados, pode ser customizada para ser utilizada na implementação de sistemas de inteligência de negócios. Os resultados mostraram que a aplicação conjunta das técnicas de mineração de dados e de inteligência de negócios amplia, de forma significativa, a gama de possibilidades de análises, contribuindo para a melhoria do negócio e sua evolução da fase de controles quantitativos para a análise qualitativa da gestão, em tempo hábil para a tomada de decisão. vii Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Master of Science (M.Sc.) KNOWLEDGE EXTRACTION FOR ELECTRONIC COMMERCE SYSTEM OF EMBRAPA BOOKSTORE Natália Santos Fois September/2011 Advisor: Nelson Francisco Favilla Ebecken Department: Civil Engineering This paper describes the implementation of a Business Intelligence system, involving a data warehouse construction and the application of OLAP (On-Line Analytical Processing) tools, to the Embrapa Bookstore’s business processes operated by its e-commerce system. The study is complemented by the application of association rules in the market-basket analysis. The aim is to get, in the end, useful information and knowledge to the business and its complex decision-making processes. Furthermore, this study is based on the CRISP-DM (Cross-Industry Standard Process for Data Mining) methodology to guide and direct the work, and demonstrates how this methodology, originally developed for data mining processes, can be customized to be used in the implementation of business intelligence systems. The results showed that the joint application of data mining and business intelligence’s techniques expands, in a significant way, the range of possibilities for analysis, helping to improve the business and its evolution from quantitative control analysis phase to the management qualitative analysis phase, in a timely manner for decision-making. viii SUMÁRIO RESUMO........................................................................................................................vi ABSTRACT........................................... ........................................................................vii LISTA DE FIGURAS................................... ....................................................................x LISTA DE TABELAS................................... .................................................................xii LISTA DE SÍMBOLOS OU NOMENCLATURA.................. .........................................xiii CAPÍTULO 1. INTRODUÇÃO ......................................................................................1 1.1. Motivação......................................................................................................2 1.2. Metodologia e Recursos Tecnológicos ..........................................................3 1.3. Organização do Trabalho ..............................................................................3 CAPÍTULO 2. A LIVRARIA EMBRAPA ................................. ......................................4 CAPÍTULO 3. METODOLOGIA........................................ ............................................6 3.1. A Metodologia CRISP-DM.............................................................................6 3.1.1. Entendimento do Negócio......................................................................7 3.1.2. Entendimento dos Dados.......................................................................8 3.1.3. Preparação dos Dados ..........................................................................93.1.4. Modelagem............................................................................................9 3.1.5. Avaliação............................................................................................. 10 3.1.6. Disponibilização................................................................................... 10 CAPÍTULO 4. APLICAÇÃO NA LIVRARIA EMBRAPA...................... ....................... 12 4.1. Entendimento do Negócio ........................................................................... 12 4.1.1. Determinar os objetivos do negócio..................................................... 12 4.1.1.1. A Estrutura Organizacional .................................................................. 12 4.1.1.2. O Problema e a Solução Atual............................................................. 13 4.1.1.3. Os Objetivos do Negócio ..................................................................... 14 4.1.1.4. A Proposta do Estudo de Caso............................................................ 15 4.1.2. Avaliar a situação atual........................................................................ 15 4.1.2.1. Avaliação dos Recursos Computacionais e Sistemas.......................... 15 4.1.2.2. Avaliação dos Recursos Humanos ...................................................... 16 4.1.3. Determinar as metas do projeto........................................................... 17 4.1.3.1. Objetivos específicos do Sistema de BI ............................................... 17 4.1.3.2. Objetivos específicos da Mineração de Dados .................................... 18 4.1.4. Produzir o Plano de Projeto ................................................................. 19 4.1.4.1. Escrever o Plano de Projeto ................................................................ 19 4.1.4.2. Avaliar Técnicas .................................................................................. 20 4.1.4.3. Avaliar Ferramentas ............................................................................ 22 4.2. Entendimento dos Dados ............................................................................ 23 4.2.1. Coletar dados iniciais........................................................................... 23 4.2.2. Explorar os dados................................................................................ 26 4.2.3. Verificar a qualidade dos dados........................................................... 26 4.3. BI Livraria Embrapa – Preparação dos Dados............................................. 27 4.3.1. Selecionar os dados ............................................................................ 28 ix 4.3.2. Limpar os dados .................................................................................. 29 4.4. BI Livraria Embrapa – Modelagem .............................................................. 30 4.4.1. Selecionar a técnica de modelagem .................................................... 30 4.4.2. Construir o modelo .............................................................................. 31 4.4.2.1. Construção do Modelo Dimensional .................................................... 31 4.4.2.1.1. FATO VENDA DIÁRIA ......................................................................... 31 4.4.2.1.2. FATO PEDIDO DIÁRIO ....................................................................... 34 4.4.2.1.3. FATO VENDA DIREITO AUTORAL DIÁRIA ........................................ 36 4.4.2.2. Implementação do Modelo Dimensional .............................................. 39 4.4.2.3. Criação dos Universos......................................................................... 43 4.5. BI Livraria Embrapa – Avaliação ................................................................. 44 4.5.1. Avaliar os resultados ........................................................................... 44 4.5.1.1. Gerar os resultados ............................................................................. 44 4.5.1.2. Avaliar os resultados e revisar o processo........................................... 51 4.6. Regras de Associação – Preparação dos Dados......................................... 53 4.6.1. Selecionar os dados ............................................................................ 53 4.6.2. Formatar os dados............................................................................... 58 4.7. Regras de Associação – Modelagem .......................................................... 61 4.7.1. Selecionar a técnica de modelagem .................................................... 61 4.7.2. Construir o modelo .............................................................................. 61 4.7.2.1. Análise PRODUTO x PRODUTO......................................................... 61 4.7.2.2. Análise REGIÃO x PRODUTO............................................................. 65 4.7.2.3. Análise UF x PRODUTO...................................................................... 68 4.7.2.4. Análise LINHA PRODUTO x PRODUTO ............................................. 70 4.7.2.5. Análise LINHA PRODUTO x LINHA PRODUTO .................................. 73 4.7.2.6. Análise REGIÃO x LINHA PRODUTO ................................................. 74 4.8. Regras de Associação – Avaliação ............................................................. 77 4.9. Disponibilização .......................................................................................... 81 4.9.1. Revisar o projeto.................................................................................. 81 CAPÍTULO 5. CONSIDERAÇÕES FINAIS ............................... ................................. 82 5.1. Conclusão ................................................................................................... 82 5.2. Trabalhos Futuros ....................................................................................... 84 REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................... 85 ANEXO 01 – ARTEFATOS DO PROJETO ................................................................ 89 ANEXO 02 – ESTATÍSTICAS BÁSICAS .................................................................... 91 ANEXO 03 – SCRIPTS LIMPEZA DOS DADOS ...................................................... 117 ANEXO 04 – PROCESSAMENTO REGRAS DE ASSOCIAÇÃO ............................. 119 ANEXO 05 – DICIONÁRIO DE DADOS ................................................................... 126 x LISTA DE FIGURAS Figura 2.1: Organograma da Embrapa Informação Tecnológica. Fonte: Website SCT <http://www.sct.embrapa.br> ........................................................................................4 Figura 2.2: Website Livraria Embrapa. Fonte: <http://vendasliv.sct.embrapa.br/liv3/>...5 Figura 3.1: Fases do modelo de referência CRISP-DM. Fonte: IBM, 1994, 2011..........6 Figura 3.2: Tarefas genéricas e as saídas do modelo de referência do CRISP-DM. Fonte: IBM, 1994, 2011. ...............................................................................................7 Figura 4.1: Organograma Embrapa Informação Tecnológica: destaque para os setores impactados pela Livraria Embrapa. Fonte: Website SCT <http://www.sct.embrapa.br>. ................................................................................................................................... 12 Figura 4.2: Modelo Entidade-Relacionamento Livraria Embrapa: domínio de dados a ser explorado.............................................................................................................. 25 Figura 4.3: ETL origem (SQL Server) – destino (Repositório), usando a ferramenta SAP BO Data Services Designer. ............................................................................... 29 Figura 4.4: Modelo Dimensional: Fato Venda Diária. ..................................................34 Figura 4.5: Modelo Dimensional: Fato Pedido Diário. ................................................. 36 Figura 4.6: Modelo Dimensional: Fato Venda Direito Autoral Diária............................ 39 Figura 4.7: ETL dimensão “Nota_Fiscal_Pedido”, utilizando a ferramenta SAP BO Data Services Designer....................................................................................................... 40 Figura 4.8: SQL de extração dados origem para dimensão “Nota_Fiscal_Pedido”, utilizando a ferramenta SAP BO Data Services Designer. .......................................... 41 Figura 4.9: ETL “Fato Venda Diária”, utilizando a ferramenta SAP BO Data Services Designer. .................................................................................................................... 42 Figura 4.10: SQL de criação “Fato Venda Diária”, utilizando a ferramenta SAP BO Data Services Designer....................................................................................................... 42 Figura 4.11: Cálculo de medida para “Fato Venda Diária”, utilizando a ferramenta SAP BO Data Services Designer. ....................................................................................... 43 Figura 4.12: Universo “Venda Direito Autoral Diária” no ambiente de desenvolvimento da ferramenta SAP BO Universe Designer. ................................................................ 44 Figura 4.13: Ambiente de desenvolvimento da ferramenta SAP BO Web Intelligence.45 Figura 4.14: Relatório: Análise Mensal das Vendas no Período.................................. 46 Figura 4.15: Relatório: Análise das Vendas por Tema no Período. ............................. 46 Figura 4.16: Gráfico de barras verticais: Análise das Vendas por Tema no Período. .. 47 Figura 4.17: Relatório: Pedidos realizados no Período por Tipo de Origem. ............... 47 Figura 4.18: Relatório: Produtos mais vendidos no Período........................................ 48 Figura 4.19: Relatório: Ranking de Vendas por Tema no Ano. ................................... 49 xi Figura 4.20: Relatório: Vendas por País no Período. .................................................. 49 Figura 4.21: Relatório: Vendas por Localidade no Período (Drill Down País-Região). 50 Figura 4.22: Relatório: Vendas por UF no Período. .................................................... 50 Figura 4.23: Relatório: Vendas por Tipo de Pagamento no Período. .......................... 51 Figura 4.24: Exemplo arquivo Formato ARFF para a relação Produto x Produto. ....... 60 Figura 4.25: Ferramenta WEKA: Análise Produto x Produto. ...................................... 61 Figura 4.26: Ferramenta WEKA: Algoritmo Apriori (Parâmetros padrão). ................... 62 Figura 4.27: Ferramenta WEKA: Análise Região x Produto. ....................................... 66 Figura 4.28: Ferramenta WEKA: Análise UF x Produto............................................... 69 Figura 4.29: Ferramenta WEKA: Análise Linha Produto x Produto. ............................ 71 Figura 4.30 Ferramenta WEKA: Análise Linha Produto x Linha Produto..................... 73 Figura 4.31 Ferramenta WEKA: Análise Região x Linha Produto................................ 75 Figura 4.32 Ferramenta WEKA: Visualização gráfica Região x demais atributos........ 77 xii LISTA DE TABELAS Tabela 4.1: Matriz de Responsabilidades ................................................................... 16 Tabela 4.2: Estrutura da consulta: Transações de vendas da Livraria Embrapa. ........ 57 Tabela 4.3: Intervalo de dados do atributo “Ano de Edição” do Produto. .................... 59 Tabela 4.4: Intervalo de dados do atributo “Preço” do Produto. .................................. 59 Tabela 4.5: Estrutura da consulta Produto x Produto. ................................................. 60 Tabela 4.6: Resumo dos Resultados: Análise Produto x Produto (Modelo 2). ............ 63 Tabela 4.7: Resumo dos Resultados: Análise Produto x Produto (Modelo 3). ............ 64 Tabela 4.8: Resumo dos Resultados: Análise Região x Produto (Modelo 2)............... 66 Tabela 4.9: Resumo dos Resultados: Análise Região x Produto (Modelo 3)............... 68 Tabela 4.10: Resumo dos Resultados: Análise UF x Produto (Modelo 2). .................. 70 Tabela 4.11: Resumo dos Resultados: Análise Linha Produto x Produto (Modelo 2). . 72 Tabela 4.12: Resumo dos Resultados: Análise Linha Produto x Linha Produto .......... 74 (Modelo 2). ................................................................................................................. 74 Tabela 4.13: Resumo dos Resultados: Análise Região x Linha Produto (Modelo 1). .. 76 xiii LISTA DE SÍMBOLOS OU NOMENCLATURA BI Business Intelligence (Inteligência de Negócios); BO Business Objects; CRISP-DM Cross-Industry Standard Process for Data Mining; CSV Comma-Separated Values (Valores separados por vírgulas); DSS Decision Support Systems (Sistemas de Apoio à Decisão); DW Data Warehouse (Repositório de Dados); EMBRAPA Empresa Brasileira de Pesquisa Agropecuária; ETL Extract, Transform, Load (Extração, Transformação, Carga); OLAP On-Line Analytical Processing; PDE Plano Diretor Embrapa; PD&I Pesquisa, Desenvolvimento e Inovação; PDTI Plano Diretor de Tecnologia da Informação; PDU Plano Diretor da Unidade; SGV Sistema de Gerenciamento de Vendas; SQL Structured Query Language; WEKA Waikato Environment for Knowledge Analysis. 1 CAPÍTULO 1. INTRODUÇÃO Existem grandes forças em jogo que estão mudando a forma como as empresas operam: os processos de negócio estão se tornando mais integrados e complexos, pressões econômicas estão forçando as organizações a fazerem mais com menos, e a quantidade de informação disponível cresce de forma exponencial (FORRESTER CONSULTING, 2009). Com a popularização da Internet, transações comerciais baseadas na Web tem se tornado o centro do atual impulso ao desenvolvimento do comércio eletrônico. Enquanto novos ambientes de negócios oferecem novas oportunidades de negócios para as empresas, eles trazem também novos desafios (GE, 2009). Neste cenário de rápida evolução e complexidade, ter informação é ter poder. Segundo TAPSCOTT & BARTER (2009), se você tem a vantagem das informações pode obter vantagens de mercado. Isso é verdadeiro principalmente quando se trata de identificar novas e diferentes oportunidades no mercado e responder a elas. As empresas de comércio eletrônico acumulam um grande número de usuários e dados sobre seus comportamentos ao longo da operação. Entretanto, elas se deparam com uma constrangedora situação de riqueza de dados e pobreza de conhecimento (QU & LIANG, 2009). Segundo VERCELLIS (2009), as empresas que forem capazes de transformar dados em informação e conhecimento podem usá-los para tomar decisões mais rápidas e mais efetivas e ainda adquirir vantagem competitiva. Para isso, um grande esforço tem sido feito na busca por técnicas, metodologias analíticas e modelos matemáticos que auxiliem a extração de conhecimento em grandes bases de dados, evitando, assim, uma abordagem puramente intuitiva no tratamento dos complexos processos de tomada de decisão. Neste sentido, inteligência de negócios (Business Intelligence), definida por LARSON (2009) como “a entrega de informação precisa e útil aos tomadores de decisão apropriados, no tempo necessário para auxiliar a efetiva tomada de decisão”, 2 envolve tecnologias como data warehouse (repositório de dados) e ferramentas OLAP (On-Line Analytical Processing), as quais, aliadas às técnicas de mineração de dados (Data Mining), constituem um poderoso sistema capaz de transformar dados em conhecimentos úteis aos processos de negócios das organizações. 1.1. MotivaçãoA motivação para este trabalho ocorre em dois contextos distintos. Em um contexto local, focado nos processos de negócios da Livraria Embrapa, observa-se que, nos últimos anos, o volume de clientes e de vendas da Livraria tem crescido consideravelmente, devido à sua popularização, às participações em feiras e eventos diversos, bem como ao aumento das parcerias e consignações. Junto com esse crescimento vem a necessidade de uma gestão pró-ativa e, portanto, mais efetiva da Livraria. Ambos os sistemas que, hoje, atendem a Livraria, foram concebidos com foco operacional, assim como tantos sistemas de informação existentes no Mercado. Apesar de prover informações consolidadas aos seus usuários internos, estas ainda são insuficientes quando se pensa em níveis estratégicos e de gestão, que requerem informações mais trabalhadas, que alterem o perfil da demanda por informações. Em um contexto mais amplo, dentre as tendências e implicações estratégicas de PD&I (Pesquisa, Desenvolvimento e Inovação) para a Agricultura, citadas pela Embrapa em seu V Plano Diretor (EMBRAPA, 2008), está prevista a crescente incorporação de informação, conhecimento e tecnologia. Segundo este estudo, o conhecimento e a capacidade de inovar e operar com a informação serão cada vez mais determinantes para a geração de riqueza, para a capacidade de estabelecer relações de poder e para a criação de novos códigos culturais. Assim, as tecnologias que facilitam o acesso à informação e aceleram a sua disseminação serão amplamente incorporadas de modo que contribuam para o desenvolvimento dos países (EMBRAPA, 2008). Diante destes contextos, o presente estudo tem como desafios a transformação de informação em conhecimento e sua disponibilização aos usuários finais, auxiliando o processo de tomada de decisão, direcionando as ações estratégicas e contribuindo 3 para uma gestão mais efetiva da Livraria Embrapa, visando, em última instância, o alcance das metas e objetivos estratégicos da organização. 1.2. Metodologia e Recursos Tecnológicos Este estudo se baseia na metodologia CRISP-DM, que direcionará o trabalho de extração de conhecimento para o sistema de comércio eletrônico da Livraria Embrapa. O estudo utilizou como recursos tecnológicos: Microsoft SQL Server 2008 Management Studio para a obtenção e limpeza dos dados; SAP BusinessObjects Data Services Designer para o processo de ETL (extração, transformação e carga); SAP BusinessObjects Universe Designer para a criação dos Universos; SAP BusinessObjects Web Intelligence para consulta, análise e construção de relatórios pelos usuários finais; Microsoft Excel 2003 para avaliação estatística dos dados; e a ferramenta WEKA 3.6 para a mineração de dados. 1.3. Organização do Trabalho O presente trabalho está dividido em 05 capítulos. Este primeiro capítulo contextualiza o estudo e descreve a motivação para sua realização, bem como a metodologia e os recursos tecnológicos utilizados no projeto. O Capítulo 02 apresenta a Livraria Embrapa e a Embrapa Informação Tecnológica. O Capítulo 03 descreve a metodologia CRISP-DM e suas etapas. O Capítulo 04 descreve a aplicação da metodologia CRISP-DM na implementação do sistema de BI da Livraria Embrapa e na geração das regras de associação para as transações de venda da Livraria. A execução dos modelos, os resultados obtidos e sua avaliação também são descritos neste capítulo. O Capítulo 05 descreve as considerações finais e os trabalhos futuros previstos para o projeto. 4 CAPÍTULO 2. A LIVRARIA EMBRAPA O processo de negócio da Livraria Embrapa é uma das principais responsabilidades do Setor de Marketing e Comercialização da Embrapa Informação Tecnológica, uma Unidade Descentralizada de Serviço da EMBRAPA (Empresa Brasileira de Pesquisa Agropecuária). A figura 2.1 ilustra o organograma da Unidade. Figura 2.1: Organograma da Embrapa Informação Tecnológica. Fonte: Website SCT <http://www.sct.embrapa.br> A princípio chamada de Serviço de Produção de Informação e, mais tarde, em 2001, de Embrapa Comunicação para Transferência de Tecnologia, esta Unidade, criada em 1991 e hoje denominada Embrapa Informação Tecnológica, responsabiliza- se pela gestão, pelo tratamento editorial, pela disponibilização e pela publicação - impressa e eletrônica - de informações e de dados tecnológicos, científicos e socioeconômicos obtidos em pesquisa; incumbe-se da coordenação de tais atividades no âmbito da Embrapa e busca também integrar as demais Unidades da Empresa. Dada a sua diversificada produção: programas televisivo e radiofônico (Dia de Campo na TV e Prosa Rural, respectivamente), vídeos, periódicos, cartazes, etc., utiliza modernos instrumentos de tecnologia da informação e da comunicação; dispõe de gráfica e de estúdios de vídeo e de áudio; e possui a Livraria Embrapa para a venda de produtos. Além de organizar e de construir bases de dados técnico-científicas e socioeconômicas, supervisiona o trabalho de gestão dos arquivos e do Sistema Embrapa de Bibliotecas e apoia a transferência de tecnologia mediante realização e coordenação de eventos técnicos (Website EMBRAPA INFORMAÇÃO TECNOLÓGICA <http://www.sct.embrapa.br>). 5 Desde sua criação em 1991, a Unidade tem como um dos objetivos institucionais a comercialização como um meio para a disseminação das novas tecnologias geradas pela Embrapa, transformadas em produtos por meio de periódicos, livros e mídias eletrônicas. Na época, existiam apenas alguns pontos de venda nas próprias Unidades da Embrapa, para atender a um público formado por: agricultores; pecuaristas; grandes e pequenos produtores rurais; estudantes; instituições públicas e particulares de ensino fundamental, médio e superior; órgãos governamentais e não-governamentais; empregados e Unidades da Embrapa; Administração superior e demais Gestores da Embrapa; autores; consignatários fornecedores e prestadores de serviços; e demais pessoas físicas e jurídicas interessadas nos produtos e serviços da Empresa. Vislumbrando uma forma de melhorar o atendimento e disseminar de forma mais efetiva e irrestrita esse conhecimento ao seu público-alvo, foi criado, em 1997, o site da Livraria Virtual da Embrapa, ilustrado na Figura 2.2. Figura 2.2: Website Livraria Embrapa. Fonte: <http://vendasliv.sct.embrapa.br/liv3/> Em 2007, o site passou por um processo de reformulação e reestruturação, a fim de atender às novas diretrizes do governo eletrônico (e-gov), a evolução do mercado de e-business, bem como as novas exigências do mercado mundial referentes às Editoras de Livros. A Livraria Embrapa, atualmente, é operacionalizada pelo seu site, para atendimento ao cliente externo, e pelo sistema de informação SGV (Sistema de Gerenciamento de Vendas) que trata de toda a parte administrativa e financeira do negócio. 6 CAPÍTULO 3. METODOLOGIA 3.1. A Metodologia CRISP-DM CRISP-DM (Cross-Industry Standard Process for Data Mining) é uma metodologia padrão, não-proprietária, criada no final de 1996 por três veteranos do mercado de mineração de dados: DaimlerChrysler AG (Alemanha), SPSS Inc. (EUA) e NCR Systems Engineering Copenhagen (EUA e Dinamarca). A metodologia CRISP- DM é uma forma comprovada de guiar os esforços de mineração de dados. Como uma metodologia, inclui descrições das fases típicas de um projeto, das tarefas envolvidas em cada fase e dos relacionamentos entre elas. Como um modelo de processo, CRISP-DM fornece uma visão geral do ciclo de vida da mineração de dados. O ciclo de vida de um projeto de mineração de dados consiste em seis fases, com setas indicando as dependências mais importantes e frequentes entre as fases, conforme ilustrado na Figura 3.1 (IBM, 1994, 2011). Figura 3.1: Fases do modelo de referência CRISP-DM. Fonte: IBM, 1994, 2011. A sequênciade fases não é rígida. A metodologia CRISP-DM é flexível e pode ser facilmente customizada, conforme a necessidade do projeto. A figura 3.2 7 apresenta um esboço das fases acompanhadas pelas tarefas genéricas (em negrito) e saídas (em itálico). Figura 3.2: Tarefas genéricas e as saídas do modelo de referência do CRISP-DM. Fonte: IBM, 1994, 2011. 3.1.1. Entendimento do Negócio Esta fase inicial visa o entendimento dos objetivos e requisitos do projeto a partir da perspectiva do negócio. Nesta fase as seguintes tarefas serão realizadas: • Determinar os objetivos do negócio a partir da visão dos tomadores de decisão, dos patrocinadores do projeto e de outras unidades de negócio impactadas pelo projeto. É importante, neste momento, entender a situação do negócio da organização, sua estrutura e recursos, bem como descrever o problema e determinar os requisitos de negócios necessários; • Avaliar a situação atual, observando os dados disponíveis para o projeto, os recursos humanos existentes, bem como os riscos 8 envolvidos e contingências previstas e, finalmente, as premissas e restrições existentes; • Determinar as metas do projeto, com base nos objetivos de negócio predeterminados; • Produzir um Plano de Projeto a fim de documentar os objetivos, recursos, riscos e prazos para todas as fases do trabalho a ser realizado. 3.1.2. Entendimento dos Dados A fase de entendimento dos dados sugere uma visão mais detalhada sobre os dados disponíveis para o projeto. O entendimento dos dados envolve acessar os dados e explorá-los para determinar sua qualidade e documentar os resultados. Nesta fase as seguintes tarefas serão realizadas: • Coletar os dados iniciais, os quais podem originar de uma variedade de fontes distintas. Devem ser analisados, por exemplo, quais atributos (colunas) podem ser aproveitados, quais são irrelevantes e podem ser excluídos, se eles são suficientes para gerar previsões confiáveis e como serão tratados os valores ausentes; • Descrever os dados, focando na quantidade e na qualidade dos dados disponíveis; • Explorar os dados, gerando gráficos e estatísticas sobre os dados disponíveis, visando formar hipóteses sobre como os dados podem responder aos objetivos técnicos e de negócio; • Verificar a qualidade dos dados antes de realizar a modelagem. Verificar valores ausentes ou nulos, dados com valores incorretos e inconsistentes. 9 3.1.3. Preparação dos Dados A fase de preparação dos dados é uma das mais importantes e a que geralmente consome maior tempo e esforço do projeto, em torno de 50 a 70%. Esta fase envolve unir dados e registros, selecionar uma amostra do subconjunto de dados, agregar registros, derivar novos atributos, ordenar os dados, excluir ou substituir valores ausentes, brancos ou nulos (IBM, 1994, 2011). Nesta fase as seguintes tarefas serão realizadas: • Selecionar os dados considerados relevantes para os objetivos predeterminados. Geralmente as formas de selecionar dados envolve selecionar itens ou linhas, como por exemplo quais clientes incluir, e selecionar atributos ou colunas; • Limpar os dados que foram selecionados para serem incluídos na análise. Valores ausentes, dados com erros ou inconsistentes podem ser excluídos ou substituídos por valores estimados ou considerados corretos; • Construir novos dados a partir de dados já existentes. Há duas formas de se fazer isso: derivando atributos (colunas) e/ou gerando registros (linhas); • Integrar os dados realizando a união (merge) ou a adição (appending) de dois ou mais conjuntos de dados. A união envolve unir dois conjuntos de dados contendo registros similares, mas atributos distintos, usando a mesma chave identificadora de cada registro. A adição envolve integrar dois ou mais conjuntos de dados com atributos similares e registros distintos; • Formatar ou ordenar os dados disponíveis antes de modelar. 3.1.4. Modelagem A fase de modelagem geralmente é conduzida em múltiplas iterações. 10 Nesta fase as seguintes tarefas serão realizadas: • Selecionar, dentre as técnicas de modelagem existentes, a mais apropriada para as necessidades da organização; • Gerar um plano de teste, descrevendo os critérios para um modelo ser considerado bom e definindo os dados nos quais os critérios serão testados; • Construir os modelos previstos; • Avaliar os modelos e determinar qual será o modelo final. Considere, neste momento, fazer uma revisão dos resultados com base no seu entendimento dos problemas de negócio, consultar analistas de dados ou outros especialistas que consigam perceber a relevância de resultados particulares, e avaliar se os resultados obtidos vão ao encontro dos objetivos de negócios estabelecidos durante a fase de entendimento do negócio. O modelo poderá passar por várias iterações sofrendo ajustes até que atenda aos requisitos predeterminados. 3.1.5. Avaliação Nesta fase as seguintes tarefas serão realizadas: • Avaliar os resultados, verificando se eles estão claros e se alcançaram ou não os objetivos do negócio; • Revisar o processo, verificando as possíveis falhas e erros de cada fase, a fim de evitá-las em futuros projetos. 3.1.6. Disponibilização É importante, neste momento, unir-se aos especialistas para realizar a avaliação do projeto. 11 Nesta fase as seguintes tarefas serão realizadas: • Planejar a implantação, sumarizando os resultados do projeto (modelos e descobertas). Desta forma será possível determinar, por exemplo, quais modelos podem ser integrados aos sistemas da organização e quais descobertas devem ser apresentadas às pessoas certas das organizações; • Planejar o monitoramento e manutenção dos modelos e descobertas geradas pelo projeto; • Realizar uma revisão final do projeto, coletando as impressões finais e registrando as lições aprendidas. 12 CAPÍTULO 4. APLICAÇÃO NA LIVRARIA EMBRAPA Neste capítulo é apresentado o estudo de caso aplicado ao sistema de comércio eletrônico da Livraria Embrapa, orientado pela metodologia CRISP-DM. 4.1. Entendimento do Negócio Durante esta etapa de entendimento do negócio serão realizadas as seguintes tarefas: determinar os objetivos do negócio; avaliar a situação atual; determinar as metas do projeto; e produzir o plano do projeto. 4.1.1. Determinar os objetivos do negócio Para melhor contextualizar os objetivos do negócio estabelecidos para este estudo de caso, é importante entender a situação atual da estrutura organizacional, seus recursos, problemas e atuais soluções. 4.1.1.1. A Estrutura Organizacional O Setor de Marketing e Comercialização da Embrapa Informação Tecnológica é o principal responsável pela Livraria Embrapa. No entanto, o processo de negócio da Livraria transita e impacta diversos setores da Unidade, destacados na figura 4.1. Figura 4.1: Organograma Embrapa Informação Tecnológica: destaque para os setores impactados pela Livraria Embrapa. Fonte: Website SCT <http://www.sct.embrapa.br>. 13 Cada setor impactado tem suas responsabilidades e cumpre um papel específico no processo de venda de um produto pela Livraria Embrapa: • Setor de Marketing e Comercialização: responsável pela gestão da Livraria Embrapa. Realiza o atendimento ao cliente, promoções e publicidades dos produtos da Livraria, sua comercialização diretamente no balcão ou pelo site, em feiras e eventos, vendas para consignatárias, vendas para consignantes e vendas por assinatura; • Setor de Orçamento e Finanças: responsável pelo acompanhamento e controle dos recebimentos e pagamentos efetuados no processo de compra na Livraria; • Setor de Patrimônio e Material: responsável pelo controle do estoque, pelo tratamento do pedido do cliente para despachoda mercadoria; • Setor da Gráfica: responsável pela confecção de novos produtos (livros, periódicos, etc.) ou de produtos para reposição em estoque; • Setor de Mídia Eletrônica: responsável pela confecção de novos produtos de mídia eletrônica (CDs, DVDs, etc.), ou de produtos de mídia para reposição em estoque; • Gerências: responsáveis pela gestão dos setores que controlam e realizam todo o processo de venda e pela gestão em níveis estratégicos da Livraria Embrapa. 4.1.1.2. O Problema e a Solução Atual A Embrapa Informação Tecnológica, assim como grande parte das organizações, tem passado por mudanças em seus processos de negócio e observado, nos últimos anos, um aumento exponencial no volume dos dados, principalmente no que diz respeito à Livraria Embrapa. 14 O negócio, com o passar do tempo, tem se tornado cada vez mais complexo, envolvendo pedidos feitos na Internet pelo site da Livraria, controle de consignações e assinaturas. O volume de clientes e de vendas da Livraria tem crescido consideravelmente, devido à sua popularização, às participações em feiras e eventos diversos, bem como ao aumento das parcerias e consignações. Junto com esse crescimento vem a necessidade de uma gestão pró-ativa e, portanto, mais efetiva da Livraria. Os sistemas de informação que, atualmente, operam a Livraria Embrapa, foram concebidos com foco operacional, assim como tantos sistemas de informação existentes no mercado. Apesar de prover informações consolidadas aos seus usuários internos, estas ainda são insuficientes quando se pensa em níveis estratégicos e de gestão, que requerem informações mais trabalhadas. O setor de Marketing e Comercialização é o maior demandante desse tipo de informação, e seus especialistas, juntamente com os gestores tem, cada vez mais, procurado obter informação e conhecimento que possam contribuir para uma gestão mais efetiva da Livraria. 4.1.1.3. Os Objetivos do Negócio Os objetivos gerais levantados para este projeto a partir da perspectiva do negócio são: 1. Prover, aos usuários, ferramentas que os possibilitem: construir suas próprias consultas, respondendo a abordagens sobre assuntos diversos; fazer análises estatísticas e cruzar informações, em formatos e sob perspectivas distintas; e evoluir da fase de controles quantitativos para a análise qualitativa da gestão, em tempo hábil para a tomada de decisão; 2. Permitir o acesso às informações corporativas relacionadas à Livraria, por meio da integração dos sistemas de informação; 3. Identificar oportunidades de vendas cruzadas por meio de melhores recomendações e/ou aplicando ações de marketing a partir do conhecimento adquirido; 15 4. Promover o aperfeiçoamento das atividades de gestão e de difusão da informação. 4.1.1.4. A Proposta do Estudo de Caso O presente estudo pretende: a. Demonstrar a implementação de um sistema de Business Intelligence envolvendo a construção de um repositório de dados, e a aplicação de ferramentas OLAP (On-Line Analytical Processing) para o processo de negócio da Livraria Embrapa, com foco em comercialização e marketing; b. Demonstrar uma aplicação do processo de descoberta de conhecimento, utilizando técnicas de mineração de dados sobre a base de dados da Livraria Embrapa. 4.1.2. Avaliar a situação atual Nesta fase avaliaremos a situação atual da organização em termos dos recursos (sistemas, pessoas) existentes e disponibilizados para o projeto, ou que possam influenciar, de alguma forma, o alcance dos objetivos do projeto. 4.1.2.1. Avaliação dos Recursos Computacionais e Sistemas A Livraria Embrapa, atualmente, é operacionalizada por meio dos seguintes sistemas e recursos computacionais da Embrapa Informação Tecnológica: • O site da Livraria Virtual da Embrapa, desenvolvido em Java e disponibilizado no servidor de aplicações da Unidade; • O Sistema de Gerenciamento de Vendas (SGV), desenvolvido em Delphi; 16 Os dados estão armazenados no banco de dados Microsoft SQL Server 2005, em um servidor de banco de dados da Unidade. O acesso aos dados, sistemas e servidores é disponibilizado pelo supervisor do setor de Informática da Embrapa Informação Tecnológica. Dados corporativos que podem ser integrados à Livraria Embrapa como, por exemplo, dados dos autores dos livros que são funcionários da Embrapa, estão armazenados em um Data Warehouse corporativo, no setor de Informática da Embrapa Sede. A ferramenta de BI adotada pela Sede é a suíte de ferramentas da SAP BusinessObjects (BO). O acesso aos dados corporativos é disponibilizado pelo supervisor de BI (Business Intelligence) da Embrapa Sede. 4.1.2.2. Avaliação dos Recursos Humanos As áreas e pessoas envolvidas e disponibilizadas para o estudo de caso estão resumidas na matriz de responsabilidades apresentada na tabela 4.1: Tabela 4.1: Matriz de Responsabilidades Unidade Setor Pessoas Responsabilidades Embrapa Informação Tecnológica Marketing e Comercialização Supervisor do Setor • Definir nível de segurança de acesso aos dados do universo analítico. • Garantir o comprometimento dos usuários com a demanda. • Garantir disponibilidade dos usuários para homologação do produto. • Informar a origem dos dados. • Informar as regras que serão aplicadas. • Homologar o trabalho. Embrapa Informação Tecnológica Marketing e Comercialização Atendentes e gestores da Livraria • Informar a origem dos dados. • Informar as regras que serão aplicadas. 17 Embrapa • Homologar o trabalho. Embrapa Informação Tecnológica Informática Analista de BI • Elaborar os modelos dimensionais. • Criar os Universos. • Treinar usuários. • Homologar o trabalho. Embrapa Sede Informática Administrador de Banco de Dados • Validar, criar e manter os Universos fisicamente. 4.1.3. Determinar as metas do projeto1 Visando atender aos objetivos de negócio pré-determinados, objetivos específicos serão estabelecidos para o projeto. Os objetivos serão divididos em dois grupos: objetivos do sistema de BI da Livraria Embrapa; e objetivos da mineração de dados aplicada sobre a base de dados da Livraria Embrapa. 4.1.3.1. Objetivos específicos do Sistema de BI Os seguintes objetivos foram determinados para o Sistema de BI proposto para a Livraria Embrapa: 1. Apurar as vendas e estornos/ devoluções de vendas de produtos: • Quantidades e valores líquidos arrecadados ou estornados/ devolvidos; • Por período (dia, semana, mês, ano), por localidade (país, região, estado, cidade), por categoria ou tema, por produto, por tipo de cliente (consignatário, consignante), por cliente, por tipo de produto, por unidade autora, por forma de pagamento (boleto bancário; cartão 1 A metodologia CRISP-DM denomina esta tarefa como “Deterninar as metas da mineração de dados”. No entanto, este estudo pretende utilizar esta metodologia em um contexto mais amplo, adaptando-a de forma que seja utilizada não só para a mineração de dados mas, também, para a construção de um sistema de Business Intelligence para a Livraria Embrapa. Por este motivo, especificamente para este estudo de caso, alteramos para “determinar as metas do projeto” o que na metodologia está como “determinar as metas da mineração de dados”. 18 de crédito), por tipo de venda (venda direta; venda por evento; venda por consignatária; venda por consignante; venda por assinatura). 2. Apurar os pedidos (efetivados em compras ou não) de publicações da Livraria: • Quantidades e valores líquidos; • Por período (dia, semana, mês, ano), por localidade (país, região, estado, cidade), por categoria ou tema, por produto, por cliente, por unidade autora, por tipo de produto, por forma de pagamento,por origem do pedido. 3. Apurar as vendas de publicações da Livraria para as quais incidem o pagamento de direitos autorais: • Quantidades e valores líquidos arrecadados; • Por período (dia, mês, trimestre, semestre, ano), por localidade (país, região, estado, cidade), por produto, por cliente. 4. Apurar os valores a pagar de direitos autorais: • Calcular a comissão autoral a pagar; • Por período (ano), por autor, por produto. 4.1.3.2. Objetivos específicos da Mineração de Dados A essência da mineração de dados é a capacidade de antecipar o mercado, alcançando uma oportunidade de mercado. Por meio do uso de correlações, o analista de negócios utiliza a correlação, de forma criativa, para posicionar produtos e pacotes de forma a tirar vantagem da informação sobre hábitos dos consumidores (INMON, TECH TOPIC 6, 1997). A aplicação da mineração de dados na Livraria Embrapa tem como objetivo: 19 1. Utilizar informação histórica sobre transações de compras realizadas para gerar um modelo que associe itens relacionados (análise da cesta de compras) de forma que: a. Seja possível entender melhor o comportamento de compras do consumidor, para tentar direcionar as oportunidades de venda; b. Quando usuários acessarem um determinado item, possam ser disponibilizados links para outros itens relacionados; c. Possam ser criados novos pacotes e novos produtos a partir de itens já existentes e relacionados; d. Possam ser criadas promoções de vendas para itens relacionados. 4.1.4. Produzir o Plano de Projeto Esta fase envolve a elaboração de documentos formais que servirão de orientação para todo o projeto. Nesta fase serão realizadas as seguintes tarefas: escrever o Plano de Projeto; avaliar técnicas e ferramentas. 4.1.4.1. Escrever o Plano de Projeto Para a realização do estudo de caso proposto, foi necessária a criação de documentos formais (memorandos) justificando o projeto e solicitando sua aprovação junto às Gerências da Embrapa Sede e da Embrapa Informação Tecnológica. Além disso, todo o planejamento e detalhes do projeto foram descritos em documentos padrão da organização, tais como o “Termo de Abertura” e o documento de “Especificação de Requisitos”. Estes documentos foram analisados, revisados e aprovados pelos responsáveis, visando a viabilização do projeto na Embrapa. O Anexo 01 apresenta apenas algumas partes de alguns desses documentos, a fim de preservar a confidencialidade dos dados da empresa. 20 4.1.4.2. Avaliar Técnicas 1. Técnica analisada para a Mineração de Dados: A mineração de dados prevista para a Livraria Embrapa envolve a análise da cesta de compras (market basket analysis), pressupondo o uso da técnica de regras de associação, que permite a descoberta de padrões locais interessantes nos dados. As regras de associação, também conhecidas como grupos de afinidade, são usadas para identificar associações interessantes e recorrentes entre grupos de registros de um conjunto de dados. Por exemplo, é possível determinar quais produtos são adquiridos juntos em uma única transação e com que freqüência. (...) Os agrupamentos por elementos relacionados são também utilizados para promover a venda cruzada ou para criar e promover combinações de produtos e serviços (VERCELLIS, 2009). A análise de afinidade é o estudo de atributos ou características que “ocorrem juntos”. Os métodos para análise de afinidade, também conhecidos como análise do cesto de compras (market basket analysis), procuram descobrir associações entre estes atributos; ou seja, eles procuram descobrir regras para quantificar o relacionamento entre dois ou mais atributos. As regras de associação assumem a forma de “Se antecendente, então conseqüente”, junto com uma medida de suporte e confiança associados à regra. Por exemplo, um determinado supermercado pode achar que dos 1000 clientes que fazem compras em uma noite de quinta-feira, 200 compraram fraldas e, desses 200, 50 compraram cerveja. Assim, a regra de associação seria: “Se comprou fraldas, então comprou cerveja”, com um suporte de 50/1000 = 5% e uma confiança de 50/200 = 25%. Seja D um conjunto de transações, onde cada transação T em D representa um conjunto de itens contidos em I. Suponha que tenhamos um conjunto particular de itens A (por exemplo, feijão e abóbora), e um outro conjunto de itens B (por exemplo, aspargos). Então a regra de associação assume a forma se A, então B (isto é, A ⇒ B), onde o antecedente A e o conseqüente B são subconjuntos de I, e A e B são mutuamente exclusivos. Esta definição excluiria, por exemplo, regras triviais tais como: se feijão e abóbora, então feijão. 21 O suporte s para uma determinada regra de associação A ⇒ B é a proporção de transações em D que contém ambos A e B. Isto é, suporte = P(A∩B) = nº de transações contendo ambos A e B / nº total de transações A confiança c da regra de associação A ⇒ B é a medida de acurácia da regra, determinada pelo percentual de transações em D contendo A que também contém B. Em outras palavras, confiança = P(B | A) = P(A∩B) / P(A) = nº de transações contendo ambos A e B / nº de transações contendo A. Os analistas podem preferir regras que tenham um alto suporte ou uma alta confiança, e geralmente ambos. Regras fortes são aquelas que atendem ou superam os critérios de suporte e confiança mínimos (LAROSE, 2005). O algoritmo Apriori é um método mais eficiente de extrair regras fortes contidas em um conjunto de transações. Durante a primeira fase o algoritmo gera os conjuntos de dados (itemsets) mais freqüentes de uma forma sistemática, sem explorar o espaço de todos os candidatos, enquanto que na segunda fase ele extrai as regras fortes. O pressuposto teórico em que o algoritmo Apriori se baseia consiste em uma propriedade chamada princípio Apriori: Se um itemset é freqüente, então todos os seus subconjuntos (subsets) também serão freqüentes (VERCELLIS, 2009). A mineração de regras de associação para grandes bases de dados é um processo de dois passos: 1. Encontre todos os conjuntos de itens (itemsets) mais freqüentes; isto é, procure todos os itemsets com freqüência >= φ. 2. A partir dos itemsets mais freqüentes, gere regras de associação que satisfaçam as condições de suporte mínimo e confiança mínima. O algoritmo Apriori tira vantagem do princípio Apriori de reduzir o espaço de busca. Este princípio ajuda a reduzir significativamente o espaço de busca para o algoritmo Apriori (LAROSE, 2005). 22 4.1.4.3. Avaliar Ferramentas De acordo com as necessidades do negócio predeterminadas, a estrutura da organização, seus recursos disponíveis, bem como os objetivos específicos levantados para o projeto, as seguintes ferramentas foram consideradas mais apropriadas para este estudo de caso: 3. Ferramentas selecionadas para o sistema BI da Livraria Embrapa: A oportunidade de aproveitamento de recursos já existentes foi uma das estratégias adotadas para a viabilidade do projeto dentro da organização. A existência de um Data Warehouse (DW) corporativo utilizando uma ferramenta robusta, como a suíte de ferramentas SAP BusinessObjects, de licença corporativa mantida pela Embrapa Sede, foi sem dúvida a opção mais apropriada para o estudo de caso proposto. Esta escolha implica em uma parceria entre Embrapa Sede e Embrapa Informação Tecnológica para a realização do projeto. Dentre as ferramentas disponibilizadas pela suíte SAP BO, serão utilizadas: o SAP BusinessObjects Data Services: fornece os processos de integração dos dados e de qualidade dos dados em tempo de execução, entregando desempenho e escalabilidade. Os processos de integração dos dados facilitam a exploração, extração, transformação, e entrega de qualquer tipo de dado em qualquer lugar darede. (SAP, 2009); o SAP BusinessObjects Universe Designer: oferece uma representação de negócios dos dados da organização que auxilia os usuários finais a terem acesso aos dados de forma autônoma, utilizando os termos de negócios comuns e isolando os usuários de negócio de detalhes técnicos das bases de dados onde são armazenados os dados de origem. Universos são compostos de objetos e classes mapeados para a fonte de dados no banco de dados e acessados por meio de consultas e relatórios. (SAP, 2009-2010); 23 o SAP BusinessObjects Web Intelligence é uma ferramenta de análise, consultas e relatórios ad hoc, voltada para o usuário de negócios. Com essa ferramenta, os usuários podem ter acesso self-service aos dados da empresa por meio de uma interface amigável de portal Web conhecida como InfoView (BROGDEN et al., 2010). 4. Ferramenta selecionada para a Mineração de Dados: A ferramenta selecionada para aplicação da regra de associação foi a WEKA (The Waikato Environment for Knowledge Analysis) em sua versão 3.6. WEKA é um produto da Universidade de Waikato (Nova Zelândia) e foi implementada pela primeira vez na sua forma atual em 1997. É um software desenvolvido na linguagem Java™ e com uma interface GUI para interagir com os arquivos de dados e produzir resultados visuais. (ABERNETHY, 2010). É uma coleção de algoritmos de aprendizagem para tarefas de mineração de dados. Contém ferramentas para o pré-processamento dos dados, classificação, regressão, agrupamento, regras de associação, e visualização (Website WEKA <http://www.cs.waikato.ac.nz/ml/weka/>). Apesar da limitação do volume de dados, WEKA foi selecionada para este estudo de caso por ser uma ferramenta simples de usar, e que implementa o algoritmo Apriori para a técnica de regras de associação. 4.2. Entendimento dos Dados Nesta etapa serão realizadas as seguintes tarefas: coletar os dados iniciais; explorar os dados; e verificar a qualidade dos dados. 4.2.1. Coletar dados iniciais O estudo de caso será aplicado sobre a base de dados da Livraria Embrapa, cujo modelo de dados é composto, atualmente, por um total de 94 tabelas. 24 Para efetuar a coleta dos dados iniciais que serão utilizados para o estudo de caso proposto é necessário resgatar os objetivos de negócio e os objetivos específicos predeterminados para o projeto. Levando em conta esses objetivos, observa-se que os dados que devem ser considerados relevantes para este estudo de caso são aqueles que estiverem relacionados aos pedidos e às transações de vendas realizadas. Após análise detalhada do modelo de dados da Livraria, concluímos que, das 94 tabelas que fazem parte deste modelo, somente 34 podem ser consideradas relevantes para este estudo de caso. O novo modelo lógico, representando o domínio de dados a ser explorado, está ilustrado na figura 4.2. 25 Figura 4.2: Modelo Entidade-Relacionamento Livraria Embrapa: domínio de dados a ser explorado. 26 4.2.2. Explorar os dados As principais estatísticas das entidades, apresentadas no modelo de dados da figura 4.2, estão descritas no Anexo 02.a. 4.2.3. Verificar a qualidade dos dados A qualidade dos dados da base de dados da Livraria, em alguns casos, está bastante comprometida. Os seguintes tipos de problemas foram observados: • Dados ausentes: foram encontrados valores nulos ou em branco para os seguintes campos: o O campo “tipo de pessoa” da tabela de Cliente que indica se o cliente é pessoa física ou jurídica. O correto é que este campo esteja preenchido com o valor 1 para pessoa física e 2 para jurídica; o Os campos “código do município”, “código do estado” e “código do país” da tabela de Cliente. Estes campos foram inseridos recentemente nesta tabela. Antigamente, o endereço do cliente não era de preenchimento obrigatório; o Os campos “profissão”, “sexo” e “data de nascimento” na tabela Pessoa Física, os quais também não eram de preenchimento obrigatório. • Dados com erros: alguns valores com erros ou inconsistentes também foram observados, tais como: o Na tabela de Cliente os campos “cidade cliente”, “estado cliente” e “pais cliente”, por terem sido, durante um tempo, campos de preenchimento livre, continham informações inconsistentes (Ex.: cidade cliente = Rio de Janeiro; e estado cliente = DF). Esses mesmos campos também apresentaram valores escritos de formas distintas (Ex.: cidade cliente = Belo Horizonte; e cidade cliente = BH); 27 o Também foram encontrados muitos clientes duplicados, com o mesmo email, mas nomes escritos de forma distinta (Ex.: nome cliente = Antônio de Jesus; e nome cliente = Antonio de Jesus). O correto, nesse caso, é unificar os cadastros desse cliente; o A duplicação de registros também acontece no cadastro de autores; o Foram detectados alguns lixos na base de dados, originados de testes feitos em momentos anteriores. Por exemplo, clientes que só existem na tabela de clientes e não possuem acesso cadastrado, não fizeram pedidos ou compras, etc.; o Clientes que não possuem email cadastrado. Atualmente o email é obrigatório para um cliente se cadastrar e ter acesso à Livraria; o Clientes com data de nascimento inválida (Ex.: 01/12/1500); o Na tabela de Pedidos, os campos “valor do frete”, “valor do pedido”, “valor da assinatura”, e “desconto” apresentaram valores com separador de decimal registrados com “,” e outros registrados com “.”. Também havia registros com “R$”, “$” ou somente “R”. 4.3. BI Livraria Embrapa – Preparação dos Dados Por apresentarem diferenças relevantes, a tarefa de preparação dos dados para o sistema de BI será tratada separadamente da tarefa de preparação dos dados para a mineração de dados. Neste momento iremos tratar a tarefa de preparação dos dados somente para o BI da Livraria Embrapa. Para esta etapa destacaremos as seguintes tarefas: selecionar os dados; e limpar os dados. 28 4.3.1. Selecionar os dados A partir do modelo lógico definido na tarefa “4.2.4. Coletar dados iniciais”, podemos iniciar a criação do sistema de BI para a Livraria Embrapa. O primeiro passo é efetuar a importação desses dados para dentro do repositório de dados corporativo (data warehouse), em uma área intermediária chamada de data staging area. Essa área de preparação dos dados do data warehouse é uma área de armazenamento e de execução de um conjunto de processos chamado ETL (Extract, Transform, Load) (KIMBALL & ROSS, 2002). Para isso, foi necessário configurar a ferramenta SAP BusinessObjects Data Services para realizar o processo de extração, transfomação e carga dos dados da base origem, armazenada no Microsoft SQL Server, para o repositório de dados destino da Livraria. Uma vez configurada, a ferramenta se encarrega de: • Estabelecer a conexão com a base de dados origem, no caso com a base da Livraria no Microsoft SQL Server; • Extrair os dados selecionados da base de dados da Livraria. • Efetuar a transformação e limpeza dos dados, aplicando regras automáticas e pré-configuradas para corrigir erros recorrentes; • Efetuar a carga dos dados no repositório de dados destino. A figura 4.3 ilustra parte do processo de ETL (Extract, Transform, Load) para o repositório de dados destino, utilizando a ferramenta SAP BO Data Services Designer. 29 Figura 4.3: ETL origem (SQL Server) – destino (Repositório), usando a ferramenta SAP BO Data Services Designer. 4.3.2. Limpar os dados Geralmente, os dados armazenados em um Data Warehouse são processados em tempo de carga, de forma a remover quaisquer inconsistências sintáticas, como já foi dito anteriormente. No entanto, para este estudo de caso, ocorreu também um processo de limpeza anterior a este, realizadodiretamente na base de dados original da Livraria, armazenada no SGBD Microsoft SQL Server. A limpeza dos dados foi feita via script desenvolvido em linguagem SQL, visando solucionar alguns dos problemas identificados durante a fase de entendimento dos dados, na tarefa “4.2.7. Verificar a qualidade dos dados”. A limpeza foi realizada para os seguintes casos: • Para dados nulos, incorretos ou inconsistentes, e considerados críticos para o bom funcionamento dos sistemas de informação atuais. Por exemplo, o campo “tipo de pessoa” nulo na tabela de clientes estava gerando erro no site da Livraria. 30 • Para casos considerados de maior complexidade, gerando um trabalho quase que manual de análise dos dados anterior à limpeza. Por exemplo, o campo “código município” preenchido de forma incorreta no cadastro de clientes. É relevante observar que, a partir desta análise, os sistemas de informação da Livraria foram alterados para contemplar funções consideradas críticas ao processo de negócio da Livraria. Por exemplo, alguns campos que anteriormente eram de livre preenchimento pelos usuários, agora passaram a mostrar listas de opção para seleção. O Anexo 03 ilustra alguns scripts SQL utilizados para a limpeza dos dados diretamente na base de dados da Livraria. 4.4. BI Livraria Embrapa – Modelagem Para a fase de Modelagem, destacaremos as seguintes tarefas: selecionar a técnica de modelagem; construir o modelo; e avaliar o modelo. 4.4.1. Selecionar a técnica de modelagem O tipo de modelo multidimensional utilizado para a modelagem do repositório de dados da Livraria Embrapa é o modelo estrela. Neste modelo, todas as tabelas se relacionam diretamente com a tabela Fato, por meio de uma chave única de identificação. O benefício de criar o esquema estrela é agilizar o processamento de dados dos sistemas de suporte à decisão (DSS). Pela união prévia dos dados e pela criação de redundância seletiva, o acesso e a análise dos dados são amplamente simplificados e otimizados (INMON, 2002). Outro aspecto muito importante no projeto é a questão da granularidade. A granularidade se refere ao nível de detalhe ou de resumo das unidades de dados no data warehouse (INMON, 2002). 31 Para este estudo de caso, o modelo dimensional foi desenvolvido com a informação diária, ou seja, com um maior nível de detalhe e, portanto, baixa granularidade. A granularidade é o problema de projeto mais importante no ambiente do data warehouse porque ele afeta profundamente o volume dos dados que residem no repositório e o tipo de consulta que pode ser respondida. (INMON, 2002) 4.4.2. Construir o modelo Uma vez definido o esquema e a granularidade a ser aplicada ao modelo, a etapa de construção inicia com a identificação das tabelas fato, suas dimensões e medidas. 4.4.2.1. Construção do Modelo Dimensional 4.4.2.1.1. FATO VENDA DIÁRIA Esta tabela tem como objetivo a manipulação de dados referentes às transações de vendas diárias realizadas na Livraria Embrapa. • Medidas (ou fatos) As principais medidas criadas para a tabela Fato Venda Diária são: o Quantidade item: corresponde à quantidade vendida do item naquela transação de venda; o Valor bruto item: corresponde ao valor bruto de venda do item naquela transação de venda; o Valor líquido item: é igual ao valor líquido de venda do item menos o valor do desconto aplicado ao item naquela transação de venda; 32 o Quantidade vendida item Venda Direta2: corresponde à quantidade vendida do item para a transação de venda direta; o Valor bruto vendido item Venda Direta: corresponde ao valor bruto de venda do item para a transação de venda direta; o Valor líquido vendido item Venda Direta: é igual ao valor bruto de venda direta do item menos o valor do desconto aplicado ao item para a transação de venda direta; o Quantidade estorno item Venda Direta: corresponde à quantidade estornada / devolvida do item para a transação de venda direta; o Valor bruto estorno item Venda Direta: corresponde ao valor bruto estornado / devolvido do item para a transação de venda direta; o Valor líquido estorno item Venda Direta: é igual ao valor bruto estornado / devolvido do item menos o valor do desconto aplicado ao item para a transação de venda direta; o Quantidade apurada item Venda Direta: é igual à quantidade vendida do item menos a quantidade estornada / devolvida do item para a transação de venda direta; o Valor bruto apurado item Venda Direta: é igual ao valor bruto vendido do item menos o valor bruto estornado / devolvido do item para a transação de venda direta; o Valor líquido apurado item Venda Direta: é igual ao valor líquido vendido do item menos o valor líquido estornado / devolvido do item para a transação de venda direta. Outras medidas similares às medidas definidas para Venda Direta foram definidas também para Vendas por Evento3, Vendas por Consignatária4, Vendas por Consignante5 e Vendas por Assinatura6. 2 É considerada “Venda Direta” qualquer venda realizada via site da Livraria ou em ambiente interno da Embrapa. 33 • Dimensões As dimensões que se relacionam com a Fato Venda Diária são: o Tempo_Diário: Esta dimensão pertence ao Data Warehouse corporativo da Embrapa e foi integrada ao repositório de dados da Livraria Embrapa. Ela permite visualizar as vendas realizadas por dia, semana, quinzena, mês, bimestre, trimestre, semestre e ano; o Localidade: Esta dimensão permite visualizar as vendas realizadas por município, estado, região e país; o Produto_Categoria_Pacote: Esta dimensão corresponde a uma agregação das entidades Produto, Categoria e Pacote do modelo original da Livraria. Ela permite visualizar as informações do produto, as categorias (ou temas) às quais ele pertence, e se ele faz parte de algum pacote de venda da Livraria. o Nota_Fiscal_Pedido: Esta dimensão corresponde a uma agregação de um conjunto de entidades do modelo original da Livraria, tais como: Pedido, Nota Fiscal, Meio de Transporte, Forma de Pagamento, Tipo de Remessa, Origem do Pedido, Tipo de Movimento. Ela permite visualizar os dados do pedido e as informações das notas fiscais geradas para a solicitação de venda. o Cliente: Esta dimensão permite a visualização dos dados do cliente que realizou a compra. o Tipo_Pagamento: Esta dimensão descreve os tipos de pagamento possíveis para uma transação de compra na Livraria, tais como depósito bancário, cartão de crédito, e outros. 3 É considerada “Venda por Evento” a venda realizada em feiras ou eventos externos ao ambiente da Embrapa. 4 É considerada “Venda por Consignatária” a venda realizada em consignação por Consignatária. 5 É considerada “Venda por Consignante” a venda realizada em consignação por Consignante. 6 É considerada “Venda por Assinatura” a venda realizada por meio de assinatura de periódicos, revistas e demais produtos da Livraria vendidos nesta modalidade. 34 A figura 4.4 ilustra o modelo dimensional para a tabela fato Venda Diária. Figura 4.4: Modelo Dimensional: Fato Venda Diária. 4.4.2.1.2. FATO PEDIDO DIÁRIO Esta tabela fato tem como objetivo a manipulação de dados referentes às transações de pedidos diários, efetivados em compras ou não, realizados na Livraria Embrapa. • Medidas (ou fatos) As principais medidas criadas para a tabela Fato Pedido Diário são: 35 o Quantidade item: corresponde à quantidade solicitada do item naquela transação de pedido de compra; o Valor bruto item: corresponde ao valor bruto do item naquela transação de pedido de compra;o Valor líquido item: é igual ao valor líquido do item menos o valor do desconto aplicado ao item naquela transação de pedido de compra; • Dimensões As dimensões que se relacionam com a Fato Pedido Diário são: o Tempo_Diário: Esta dimensão pertence ao Data Warehouse corporativo da Embrapa e foi integrada ao repositório de dados da Livraria Embrapa. Ela permite visualizar os pedidos realizados por dia, semana, quinzena, mês, bimestre, trimestre, semestre e ano; o Localidade: Esta dimensão permite visualizar os pedidos realizados por município, estado, região e país; o Produto_Categoria_Pacote: Esta dimensão corresponde a uma agregação das entidades Produto, Categoria e Pacote do modelo original da Livraria. Ela permite visualizar as informações do produto, as categorias (ou temas) às quais ele pertence, e se ele faz parte de algum pacote de venda da Livraria. o Pedido: Esta dimensão permite visualizar os detalhes do pedido de compra realizado. o Cliente: Esta dimensão permite a visualização dos dados do cliente que realizou o pedido de compra. A figura 4.5 ilustra o modelo dimensional para a tabela fato Pedido Diário. 36 Figura 4.5: Modelo Dimensional: Fato Pedido Diário. 4.4.2.1.3. FATO VENDA DIREITO AUTORAL DIÁRIA Esta tabela fato tem como objetivo a manipulação de dados referentes às transações de vendas diárias realizados na Livraria Embrapa, sobre as quais incidem o pagamento de direitos autorais. • Medidas (ou fatos) As principais medidas criadas para a tabela Fato Venda Direito Autoral Diária são: 37 o Quantidade vendida item Direito Autoral: corresponde à quantidade vendida do item para a transação de venda sobre a qual incidem direitos autorais; o Valor bruto vendido item Direito Autoral: corresponde ao valor bruto de venda do item para a transação de venda sobre a qual incidem direitos autorais; o Valor líquido vendido item Direito Autoral: é igual ao valor bruto de venda do item menos o valor do desconto aplicado ao item para a transação de venda sobre a qual incidem direitos autorais; o Quantidade estorno item Direito Autoral: corresponde à quantidade estornada / devolvida do item para a transação de venda sobre a qual incidem direitos autorais; o Valor bruto estorno item Direito Autoral: corresponde ao valor bruto estornado / devolvido do item para a transação de venda sobre a qual incidem direitos autorais; o Valor líquido estorno item Direito Autoral: é igual ao valor bruto estornado / devolvido do item menos o valor do desconto aplicado ao item para a transação de venda sobre a qual incidem direitos autorais; o Quantidade apurada item Direito Autoral: é igual à quantidade vendida do item menos a quantidade estornada / devolvida do item para a transação de venda sobre a qual incidem direitos autorais; o Valor bruto apurado item Direito Autoral: é igual ao valor bruto vendido do item menos o valor bruto estornado / devolvido do item para a transação de venda sobre a qual incidem direitos autorais; o Valor líquido apurado item Direito Autoral: é igual ao valor líquido vendido do item menos o valor líquido estornado / devolvido do item para a transação de venda sobre a qual incidem direitos autorais; 38 o Valor da Comissão Autoral: equivale ao valor a ser pago ao autor, calculado a partir da taxa percentual do autor aplicada sobre o valor líquido apurado do item vendido. • Dimensões As dimensões que se relacionam com a Fato Venda Direito Autoral Diária são: o Tempo_Diário: Esta dimensão pertence ao Data Warehouse corporativo da Embrapa e foi integrada ao repositório de dados da Livraria Embrapa. Ela permite visualizar as vendas sobre as quais incidem direitos autorais realizadas por dia, semana, quinzena, mês, bimestre, trimestre, semestre e ano; o Localidade: Esta dimensão permite visualizar as vendas sobre as quais incidem direitos autorais realizadas por município, estado, região e país; o Produto_Autoria_Consignataria: Esta dimensão corresponde a uma agregação das entidades Produto, Autoria, Autor e Produto Consignado do modelo original da Livraria. Ela permite visualizar as informações do produto, detalhes dos seus autores, e detalhes da venda em consignação do produto. o Nota_Fiscal_Pedido Esta dimensão corresponde a uma agregação de um conjunto de entidades do modelo original da Livraria, tais como: Pedido, Nota Fiscal, Meio de Transporte, Forma de Pagamento, Tipo de Remessa, Origem do Pedido, Tipo de Movimento. Ela permite visualizar os dados do pedido e as informações das notas fiscais geradas para a venda sobre a qual incidem direitos autorais. o Cliente: Esta dimensão permite a visualização dos dados do cliente que realizou a compra sobre a qual incidem direitos autorais. A figura 4.6 ilustra o modelo dimensional para a tabela fato Venda Direito Autoral Diária. 39 Figura 4.6: Modelo Dimensional: Fato Venda Direito Autoral Diária. 4.4.2.2. Implementação do Modelo Dimensional Para a implementação do modelo dimensional foi utilizada a ferramenta SAP BO Data Services Designer, ou seja, todo o trabalho de definição dos atributos, extração dos dados a partir das tabelas origem, transformação e carga para cada uma das tabelas Fato e dimensões descritas anteriormente, foram implementados por meio desta ferramenta. Para ilustrar o ambiente de desenvolvimento da ferramenta, utilizaremos como exemplo alguns detalhes da construção da dimensão Nota_Fiscal_Pedido e da tabela Fato Venda Diária. • Dimensão Nota_Fiscal_Pedido 40 A figura 4.7 mostra a criação da dimensão Nota_Fiscal_Pedido utilizando a ferramenta, que executa o ETL das tabelas de origem para a dimensão destino. Note que esta dimensão é criada a partir de diversas tabelas do modelo relacional origem. Figura 4.7: ETL dimensão “Nota_Fiscal_Pedido”, utilizando a ferramenta SAP BO Data Services Designer. Os detalhes do SQL de extração dos dados das tabelas origem para esta dimensão destino são mostrados na figura 4.8. . 41 Figura 4.8: SQL de extração dados origem para dimensão “Nota_Fiscal_Pedido”, utilizando a ferramenta SAP BO Data Services Designer. • Fato Venda Diária A configuração da ferramenta para implementação do ETL de criação da tabela Fato Venda Diária é ilustrado na figura 4.9. 42 Figura 4.9: ETL “Fato Venda Diária”, utilizando a ferramenta SAP BO Data Services Designer. A figura 4.10 mostra o exemplo de um dos SQL’s criados para o ETL da Fato Venda Diária. Figura 4.10: SQL de criação “Fato Venda Diária”, utilizando a ferramenta SAP BO Data Services Designer. Detalhes do cálculo de uma das medidas da Fato Venda Diária são ilustrados na figura 4.11. 43 Figura 4.11: Cálculo de medida para “Fato Venda Diária”, utilizando a ferramenta SAP BO Data Services Designer. 4.4.2.3. Criação dos Universos Para tornar os modelos criados acessíveis aos usuários finais, é necessário construir os Universos na chamada área de apresentação dos dados. A área de apresentação dos dados (data presentation area) é o local onde os dados são organizados, armazenados, e disponibilizados para serem consultados por usuários e outras aplicações analíticas (KIMBALL & ROSS, 2002). Para a criação dos Universos foi utilizada a ferramenta SAP BO Universe Designer. Foram criados três Universos distintos, um para cada tabela fato: o Universo “Venda Diária”; o Universo “Pedido Diário”; e o Universo “Venda Direito Autoral Diária”. Todos os três Universos são interligados, o que significa que os usuários conseguem fazer cruzamentos entre suas tabelas. Para ilustrar o ambiente de desenvolvimento da ferramenta, utilizaremos, como exemplo, detalhes da construção do Universo “Venda Direito
Compartilhar