Baixe o app para aproveitar ainda mais
Prévia do material em texto
Conceitos em Banco de Dados Material Teórico Responsável pelo Conteúdo: Prof. Ms. Rodrigo da Rosa Revisão Técnica: Prof. Me. Douglas Almendro Revisão Textual: Profa. Esp. Kelciane da Rocha Campos Data Warehouse e Data Mining • Business Intelligence • Data Warehouse • Ferramentas OLAP • Data Mining · O aluno deverá, ao final deste módulo, entender a importância de Data Warehouse e de Data Mining no ambiente corporativo. Além disso, deverá ter uma noção das principais características destes termos e sua importância na tomada de decisões. OBJETIVO DE APRENDIZADO Data Warehouse e Data Mining Orientações de estudo Para que o conteúdo desta Disciplina seja bem aproveitado e haja uma maior aplicabilidade na sua formação acadêmica e atuação profissional, siga algumas recomendações básicas: Assim: Organize seus estudos de maneira que passem a fazer parte da sua rotina. Por exemplo, você poderá determinar um dia e horário fixos como o seu “momento do estudo”. Procure se alimentar e se hidratar quando for estudar, lembre-se de que uma alimentação saudável pode proporcionar melhor aproveitamento do estudo. No material de cada Unidade, há leituras indicadas. Entre elas: artigos científicos, livros, vídeos e sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você também encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão sua interpretação e auxiliarão no pleno entendimento dos temas abordados. Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discussão, pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e aprendizagem. Organize seus estudos de maneira que passem a fazer parte Mantenha o foco! Evite se distrair com as redes sociais. Mantenha o foco! Evite se distrair com as redes sociais. Determine um horário fixo para estudar. Aproveite as indicações de Material Complementar. Procure se alimentar e se hidratar quando for estudar, lembre-se de que uma Não se esqueça de se alimentar e se manter hidratado. Aproveite as Conserve seu material e local de estudos sempre organizados. Procure manter contato com seus colegas e tutores para trocar ideias! Isso amplia a aprendizagem. Seja original! Nunca plagie trabalhos. UNIDADE Data Warehouse e Data Mining Caso Business Intelligence A matéria da ComputerWorld, de 31 de agosto de 2015 (COMPUTERWORLD. COM.BR, 2015), apresenta a notícia de que a empresa Catho migrou seu data warehouse para a nuvem da empresa Birst. Mesmo sendo uma matéria antiga vale a pena verificar que o armazenamento em nuvem é muito eficaz e atual. Importante! A empresa Catho, localizada em Barueri, São Paulo, conta com um site que contém classificados de empregos. Funciona intermediando contratações de candidatos por parte de outras empresas. A empresa Birst é uma multinacional que atua no ramo de BI (Inteligência de Negócios) na nuvem. Seu primeiro grande contrato no mercado brasileiro foi com a Catho. Você Sabia? O texto traz pensamentos interessantes da coordenação de BI (Business Intelligence) da empresa: “Estávamos em busca de uma ferramenta que atendesse nossas necessidades de ter um sistema on demand, pensando no usuário final, e o armazenamento de todos os dados em nuvem”, comenta Natália Vinci, coordenadora de Business Intelligence da plataforma de recrutamento. “Desde que iniciamos o uso, além dos ganhos que já estávamos esperando, também pudemos observar um aumento expressivo na velocidade da extração dos dados e na criação de relatórios e dashboards, que ajudam toda a empresa em tomadas de decisões estratégicas”, adiciona. Acesse o texto completo deste artigo - COMPUTER WORLD. Catho migra data warehouse para a nuvem da Birst. https://goo.gl/qkyTDh Ex pl or A respeito deste material, podemos perceber alguns pontos-chaves que nos ajudarão a compreender mais profundamente a ideia de Data Warehouse. Sabemos que a Catho necessita gerenciar grande volume de dados e percebemos que um dos benefícios foi o auxílio que tiveram na tomada de decisões. Business Intelligence (BI) As empresas que ocupam posições de destaque no mercado, que é cada vez mais competitivo, necessitam de ferramentas que as capacitam a acertar cada vez mais (de preferência sempre), para que obtenham resultados cada vez mais satisfatórios. A BI é um recurso conceitual (não um produto) que as organizações têm utilizado para tornarem-se diferenciais por meio de análise de seus dados. 8 9 Business Inteligence (BI): BI é um termo utilizado para descrever um conjunto amplo, coeso e integrado de ferramentas e processos utilizados para captar, coletar, integrar, armazenar e analisar dados para a geração e a apresentação de informações que deem suporte à tomada de decisões (ROB; CORONEL, 2011). Business Intelligence ou Inteligência de Negócios refere-se ao processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil para tomadas de decisões estratégicas. Ex pl or OFICINA DA NET. O que é business intelligence? - https://goo.gl/0qr8CA Ex pl or Imagine que você, gestor(a) de uma empresa, tenha recebido uma proposta de parceria que lhe despertou certo interesse, porém precisará dar uma resposta rápida desta parceria para que não corra o risco de perder para a concorrência uma excelente oportunidade. Entretanto, a resposta fornecida não deve ser fruto de um ato impulsivo, mas deve estar pautada em análises que se farão a partir de ferramentas de Inteligência de Negócio, para que a decisão seja correta no contexto da realidade da empresa. A figura a seguir apresenta um modelo de Business Intelligence proposto por ROB e CORONEL (2011). Figura 1. Modelo de Business Intelligence. Fonte: ROB e CORONEL, 2011 9 UNIDADE Data Warehouse e Data Mining De acordo com os autores: Gerenciamento mestre dos dados (MDM – Master Data Management) refere- se ao conjunto de conceitos, técnicas e processos para a identificação, definição e gerenciamento adequados de elementos de dados em uma organização; Governança é um método ou processo de administração, neste caso, para controle e monitoramento da saúde dos negócios e de tomada de decisões consistentes. Data Warehouse, On-Line Analytical Processing e Data Mining são as principais ferramentas de banco de dados incluídas na definição de Business Intelligence e que dão suporte à tomada de decisão. Data Warehouse Bill Inmon, conhecido como o “pai” do Data Warehouse, define o termo como um conjunto de dados integrados, orientado por assunto, variável no tempo e não volátil que fornece suporte à tomada de decisões (INMON; KELLEY, 1994 apud ROB; CORONEL, 2011). Rob e Coronel (2011) detalham da seguinte forma estes componentes: » Integrado: integração significa que todas as entidades comerciais, elementos e características de dados e métricas de negócios estão descritas do mesmo modo em toda a empresa. Por exemplo, a classificação de um aluno pode ser definida como “calouro”, “segundoanista”, “terceiroanista” ou “quartoanista” no departamento de contabilidade e como “1A”, “2A”, “3A” ou “4A” no departamento de sistemas de informação computacional. Os dados em data warehouse devem adequar-se a um formato aceito por toda organização; » Orientado por Assunto: os dados em data warehouse devem ser organizados e resumidos por temas como vendas, marketing, finanças, distribuição e transporte. Para cada tema há assuntos de interesses específicos, como produtos, clientes, departamentos, regiões e promoções; » Variável no Tempo: uma vez que os dados são carregados periodicamente no data warehouse,todas as agregações dependentes do tempo são recalculadas. Por exemplo, quando os dados de vendas da semana passada são carregados no data warehouse, são atualizados também os agregados semanais, mensais, anuais e de outras periodicidades para produtos, clientes, lojas e outras variáveis; » Não Volátil: uma vez inserido um dado no data warehouse, ele nunca será removido. Os dados no data warehouse representam um histórico da empresa. 10 11 Podemos notar que o data warehouse é uma ferramenta muito importante para análises de que a alta gestão de uma empresa necessita para gerenciar o crescimento da organização ao longo do tempo. A partir das análises realizadas, é possível corrigir falhas e criar estratégias para que a empresa continue evoluindo em seus negócios, tendendo sempre ao sucesso que tanto almeja. Importante! Data Mart é um termo utilizado para defi nir uma pequena porção de um data warehouse. Nele são armazenados subconjuntos e dados necessários para um departamento ou equipe de trabalho, por exemplo. Você Sabia? Vejamos, a seguir, as doze regras que definem um Data Warehouse (INMON; KELLEY, 1994 apud ROB; CORONEL, 2011). 1. Os ambientes operacional e de data warehouse são separados; 2. Os dados em data warehouse são integrados; 3. O data warehouse contém dados históricos por um longo tempo; 4. Os dados em data warehouse constituem um retrato instantâneo tirado em determinado ponto do tempo; 5. Os dados em data warehouse são orientados por assunto; 6. Os dados em data warehouse são essencialmente apenas para leitura, com atualizações periódicas em batch dos dados operacionais. Não são permitidas atualizações on-line; Batch signifi ca lote. Um arquivo batch, por exemplo, é utilizado para realizar tarefas de maneira automática, sem a intervenção do usuário no momento de sua execução.Ex pl or 7. O ciclo de vida do desenvolvimento de um data warehouse difere do desenvolvimento dos sistemas tradicionais. O desenvolvimento do data warehouse é orientado para dados, e a abordagem para processos; 8. O data warehouse contém dados com vários níveis de detalhes: dados atuais em detalhes, dados antigos em detalhes, dados levemente resumidos e dados altamente consumidos; 9. O ambiente de data warehouse é caracterizado por transações de apenas leitura para conjunto de dados muito grandes. O ambiente operacional é caracterizado por numerosas transações de atualização para poucas entidades de dados ao mesmo tempo; 11 UNIDADE Data Warehouse e Data Mining 10. O ambiente de data warehouse possui um sistema que rastreia fontes, transformações e armazenamento; 11. Os metadados de data warehouse são um componente fundamental desse ambiente. Eles identificam e definem todos os elementos de dados. Os metadados fornecem fonte, transformação, integração, armazenamento, utilização, relacionamentos e histórico de cada elemento de dados; Metadados são dados que descrevem outros dados, ou seja, informações úteis para identificar, localizar, compreender e gerenciar dados (IBGE.gov.br, 2017). Exemplo: podemos ter uma tabela que armazena as tabelas criadas por cada usuário do sistema e outra tabela que irá armazenar o nome do criador da tabela, horário da criação, proprietário da tabela, entre outros dados. Ex pl or 12. O data warehouse contém um mecanismo de retorno da utilização dos recursos que leva à aplicação ideal dos dados pelos usuários finais. A empresa Oracle, por exemplo, possui uma ferramenta de Data Warehouse, o Oracle Data Warehouse. Acesse o site da Oracle e conheça mais sobre sua ferramenta de Data Warehouse https://goo.gl/RhrJhUEx pl or Já a Microsoft possui o Azure SQL Data Warehouse, um serviço de data warehouse em nuvem. Oferece mais liberdade para dimensionamento conforme o crescimento e as mudanças dos negócios dos usuários. Acesse o site da Microsoft e conheça mais sobre o Azure SQL Data Warehouse https://goo.gl/qTaagIEx pl or Processamento Analítico On-Line (OLAP – Online Analytical Processing) Ferramentas OLAP admitem análise interativa de informações de resumo. Várias extensões da SQL foram desenvolvidas para dar suporte a ferramentas OLAP. Existem muitas tarefas comumente utilizadas que não podem ser feitas com as facilidades básicas da SQL para agregação e agrupamento, como, por exemplo, encontrar percentis, ou distribuições cumulativas, entre outros (SILBERSCHATZ; KORTH; SUDARSHAN, 2012). O termo OLAP foi criado por E. F. Codd. 12 13 Por meio de OLAP, os dados podem ser analisados sob variados pontos de vistas. Os gestores de uma empresa recebem dados a respeito de determinado assunto e podem realizar comparações que contribuirão para a tomada de decisões. Em 1993, Codd criou um conjunto de regras que definem este termo OLAP (OLAP.COM, 2017). 1. Visão Conceitual Multidimensional: usuários possuem visão mutidimen- sional dos negócios de uma empresa. Por exemplo, os lucros poderiam ser vistos por região, produto, período de tempo ou cenário (real, orçamento ou previsão); 2. Transparência: o OLAP deve interagir facilmente com recursos cotidianos dos usuários, como processadores de textos e planilhas eletrônicas; 3. Acessibilidade: a ferramenta OLAP deve ser capaz de aplicar sua própria estrutura lógica para acessar fontes heterogêneas (composto por elementos diferentes) de dados e realizar as conversões necessárias para apresentar uma visão coerente aos usuários. A ferramenta (e não o usuário) deve se preocupar com a origem dos dados físicos; 4. Desempenho consistente de relatórios: o desempenho da ferramenta OLAP não deve sofrer queda com o aumento das dimensões do banco de dados; 5. Arquitetura cliente/servidor: o servidor deve ser capaz de mapear e consolidar dados entre banco de dados diferentes; 6. Dimensionalidade genérica: cada dimensão de dados deve ser equivalente em sua estrutura e capacidade operacional; 7. Manuseio dinâmico de matriz esparsa: a estrutura física do servidor OLAP deve ter manipulação de matriz esparsa ótima. Uma matriz esparsa é aquela em que a maioria dos seus elementos tem valor igual a zero. Figura 2 - Exemplo de matriz esparsa. 13 UNIDADE Data Warehouse e Data Mining 8. Suporte a multiusuário: as ferramentas OLAP devem fornecer acesso simul- tâneo de muitos usuários à recuperação e atualização, integridade e segurança; 9. Operações cruzadas não dimensionadas: as instalações computacionais devem permitir o cálculo e a manipulação de dados em qualquer número de dimensões de dados e não devem restringir qualquer relação entre cé- lulas de dados; 10. Manipulação intuitiva de dados: os processos de manipulação de dados devem estar consolidados de maneira intuitiva, como, por exemplo, por meio de um clique com o mouse; 11. Relatórios flexíveis: os relatórios devem apresentar informações de qualquer forma que o usuário desejar; 12. Dimensões e níveis de agregação ilimitados: o número de dimensões de dados suportado deve ser, para todos os efeitos, ilimitado. Cada dimensão genérica deve permitir um número ilimitado de níveis de agregação definidos pelo utilizador dentro de qualquer caminho de consolidação. Processamento Analítico On-Line Relacional (ROLAP – Relational On-Line Analytical Processing) fornece recursos de OLAP utilizando banco de dados relacionais e ferramentas familiares de consulta relacional para armazenar e analisar dados multidimensionais (ROB; CORONEL, 2011). Fornece suporte a banco de dados muito grandes. Ex pl or A empresa Oracle, por exemplo, possui uma ferramenta de OLAP, o Oracle OLAP. É um mecanismo analítico multidimensional de classe mundial embutido no Oracle Database 12c. Os cubos OLAP da Oracle oferecem cálculos sofisticados usando consultas SQL simples - produzindo resultados com tempos de resposta da velocidade do pensamento. O Oracle OLAP facilita a produção de medidas analíticas, incluindo cálculos de séries temporais, modelos financeiros, previsões, alocações, regressões, entre outras. Acesseo site da Oracle e conheça mais sobre o Oracle OLAP: https://goo.gl/RhrJhUEx pl or Já a Microsoft possui o Microsoft SQL Server 2008 Analysis Services, mecanismo OLAP que combina seus dados para facilitar a análise, além de armazenar centralmente sua lógica de negócios institucional e seus indicadores chave de desempenho, que são as fórmulas e os cálculos usados pela organização para medir o desempenho. Além disso, é possível usar o Microsoft Office Excel 2007 e o Office PerformancePoint Server 2007 para acessar e analisar os dados e ainda gerar relatórios. 14 15 Acesse o site da Microsoft e conheça mais sobre o SQL Server 2008 Analysis Services: https://goo.gl/j3Hs8MEx pl or Data Mining Data Mining ou Mineração de Dados refere-se, em geral, ao processo de analisar grandes bancos de dados de forma semiautomática para encontrar padrões úteis a partir dos dados (SILBERSCHATZ; KORTH; SUDARSHAN, 2012). Data Mining utiliza-se de algoritmos de aprendizagem, recursos estatísticos e até mesmo Redes Neurais Artificiais. Rede Neural Artifi cial se baseia na estrutura neural de seres humanos para que possam gerar, a partir de técnicas de computação, modelos matemáticos e estatísticos.Ex pl or A ideia por trás de um Data Mining é extrair conhecimento a partir de um banco de dados. O computador deve ser capaz de localizar correlações nos dados e apresentar hipóteses promissoras para que o usuário leve em consideração (TEOREY; LIGHTSTONE; NADEAU, 2007). Imagine que você, gestor(a) de uma loja de calçados, necessita ter o conheci- mento de quais são os cintos que as pessoas compram juntamente com um deter- minado sapato. Desta forma, você pode colocar estes cintos bem próximos a tal sapato na prateleira em que ele se encontrar. Outras aplicações são descritas por SILBERSCHATZ, KORTH e SUDAR- SHAN (2012). » Uma pessoa se candidata a um cartão de crédito. A empresa deseja prever se esta pessoa tem bom crédito. Renda, idade, históricos de negociação devem ser os indicadores desta previsão; » Quais são os clientes que podem passar para um concorrente? Um indicador pode ser aqueles que respondem aos correios promocionais; » Quais são os livros que costumam ser comprados juntos? A empresa pode sugerir outros livros para a pessoa que compra determinada obra; » Se uma pessoa compra uma máquina fotográfica, o sistema pode sugerir acessórios que costumam ser comprados juntamente com as câmeras. 15 UNIDADE Data Warehouse e Data Mining A Oracle, por exemplo, é uma empresa que comercializa sistema de Data Mining. Trata-se do Oracle Data Mining 12c. Acesse o site da Oracle Data Mining 12c e conheça um pouco mais desta ferramenta: https://goo.gl/VVz5hZEx pl or A ferramenta contribui para prever o comportamento de clientes, identificar os melhores clientes, desenvolver perfis de clientes, identificar oportunidades de venda, entre outros. A Microsoft possui o SQL Server Data Mining, que inclui vários algoritmos padrão como redes neurais, regressão logística e regressão linear, árvores de decisão, entre outros. Todos os modelos têm visualizações integradas para ajudar os usuários a desenvolverem, refinarem e avaliarem seus modelos. Acesse o site da Microsoft e conheça um pouco mais sobre a ferramenta SQL Server Data Mining: https://goo.gl/DbgTlNEx pl or Casos de Sucesso 1. Alemanha e a vitória na Copa do Mundo 2014 (KNOWSOLUTION. COM.BR, 2017): o assunto Business Intelligence veio à tona em nível mundial, mostrando que a solução pode auxiliar em alcance de objetivos nos mais diversos ramos de desempenho e busca de resultados. O software desenvolvido na Alemanha analisava dados extraídos numericamente, como velocidade de corrida e número de passes. Também escaneava comporta- mentos individuais de atletas e do time como um todo. Para adquirir esses dados, foram utilizadas oito câmeras que rastreavam os movimentos de to- dos os jogadores, milhões de pontos de dados por minuto, devidamente registrados e organizados para uma melhor compreensão dos envolvidos. Os relatórios foram passados aos jogadores e à comissão técnica. Com a utiliza- ção deles, o grupo preparou-se para executar mais rapidamente as jogadas, envolver as outras equipes e reter a bola. 16 17 Figura 3. Solução desenvolvida pela Federação Alemã de Futebol. A equipe da Alemanha se tornou campeã do mundo de futebol em 2014. 2. Em 2010, a companhia de seguros Farmers Mutual Group (FMG) deci- diu atualizar sua solução de Business Intelligence, implementada há mais de cinco anos. A solução foi posta à prova em circunstâncias extremas. Em 4 de setembro, um terremoto atingiu Canterbury, na Nova Zelândia. Na época, a FMG efetuou um contato pró-ativo com todos os segurados que poderiam ser afetados pelo desastre. Em duas horas, os assessores da FMG foram direcionados para a área e, fazendo uso da ferramenta de BI, a empresa foi capaz de identificar rapidamente quem eram os clientes com maior risco. As vendas nacionais e o centro de serviços em Palmerston North também foram munidos com os detalhes de contato de cada cliente que poderia ser afetado. Nessa situação incomum, como no relatório de vendas de rotina, a BI pro- vou ser uma ferramenta valiosa para a companhia (COMPUTERWORLD. COM.BR, 2017). 17 UNIDADE Data Warehouse e Data Mining Importante! Data Warehouse, OLAP e Data Mining são três áreas da ciência da computação que são altamente interligadas e comercializadas sob o título de Business Intelligence. As funcionalidades destas três áreas se complementam entre si (TEOREY; LIGHTSTONE; NADEAU, 2007). BI é um termo utilizado para descrever um conjunto amplo, coeso e integrado de ferramentas e processos utilizados para captar, coletar, integrar, armazenar e analisar dados para a geração e a apresentação de informações que deem suporte à tomada de decisões (ROB; CORONEL, 2011). Data Warehouse é um conjunto de dados integrado, orientado por assunto, variável no tempo e não volátil que fornece suporte à tomada de decisões (INMON; KELLEY, 1994 apud ROB; CORONEL, 2011). Por meio de OLAP, os dados podem ser analisados sob variados pontos de vistas. Os gestores de uma empresa recebem dados a respeito de determinado assunto e podem realizar comparações que contribuirão para a tomada de decisões. A ideia por trás de um Data Mining é extrair conhecimento a partir de um banco de dados. O computador deve ser capaz de localizar correlações nos dados e apresentar hipóteses promissoras para que o usuário leve em consideração (TEOREY; LIGHTSTONE; NADEAU, 2007). Em Síntese 18 19 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Sites Computerworld https://goo.gl/0EK1 Microsoft https://goo.gl/jtMlS4 OFICINADANET. O que é business intelligence? https://goo.gl/0qr8CA OLAP https://goo.gl/3crsAO ORACLE https://goo.gl/PgYH6e 19 UNIDADE Data Warehouse e Data Mining Referências COMPUTERWORLD. Catho migra data warehouse para a nuvem da Birst. 2015. Disponível em: <http://computerworld.com.br/catho-migra-e-automatiza- data-warehouse-na-nuvem-da-birst>. Acesso em: 15 jan. 2018. COMPUTERWORLD. O poder da inteligência dos negócios. Disponível em: <http://computerworld.com.br/tecnologia/2011/10/07/o-poder-da-inteligen- cia-nos-negocios>. Acesso em: 15 jan. 2018. INMON, Bill; KELLEY, Chuck. The twelve rules of data warehouse for a client/ serv- er world. Data Management Review, maio de 1994, p. 6-16. KNOWSOLUTION. 4 casos de sucesso em Business Intelligence que você precisa conhecer. Disponível em: <http://knowsolution.com.br/4-casos-de-suces- so-em-business-intelligence-que-voce-precisa-conhecer>. Acesso em: 15 jan. 2018. OLAP. As 12 regras de Codd para a gestão relacional de bases de dados. Dis- ponível em: <http://olap.com/learn-bi-olap/codds-paper>. Acesso em: 15 jan. 2018. ROB, Peter; CORONEL, Carlos. Sistemas de banco de dados – projeto, imple- mentação e administração. 8ª ed. São Paulo: Cengage Learning, 2011. 711p.SILBERSCHATZ, Abraham; KORTH, Henry F.; SUDARSHAN, S. Sistema de banco de dados. 6ª ed. Elsevier, 2012. 904p. TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e modelagem de banco de dados. Rio de Janeiro: Elsevier, 2007. 20
Compartilhar