Baixe o app para aproveitar ainda mais
Prévia do material em texto
Brasília-DF. Tópicos AvAnçAdos em BAnco de dAdos Elaboração Ibsen Gebrim Reis Produção Equipe Técnica de Avaliação, Revisão Linguística e Editoração Sumário APRESENTAÇÃO .................................................................................................................................. 4 ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA ..................................................................... 5 INTRODUÇÃO ..................................................................................................................................... 7 UNIDADE I BANCO DE DADOS AVANÇADOS ......................................................................................................... 9 CAPÍTULO 1 SEGURANÇA E AUTORIZAÇÃO ................................................................................................. 9 CAPÍTULO 2 EXTENSÕES DE MODELOS DE DADOS PARA APLICAÇÕES AVANÇADAS ................................... 14 UNIDADE II DATA MINING .................................................................................................................................... 16 CAPÍTULO 1 VISÃO GERAL: REGRAS, CLASSIFICAÇÃO, AGRUPAMENTO E APLICAÇÃO ............................... 16 UNIDADE III DATA WAREHOUSING ......................................................................................................................... 22 CAPÍTULO 1 VISÃO GERAL: DEFINIÇÃO, CARACTERÍSTICAS, FUNCIONALIDADE E COMPARAÇÃO ................ 22 PARA (NÃO) FINALIZAR ...................................................................................................................... 26 4 Apresentação Caro aluno A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se entendem necessários para o desenvolvimento do estudo com segurança e qualidade. Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como pela interatividade e modernidade de sua estrutura formal, adequadas à metodologia da Educação a Distância – EaD. Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos específicos da área e atuar de forma competente e conscienciosa, como convém ao profissional que busca a formação continuada para vencer os desafios que a evolução científico-tecnológica impõe ao mundo contemporâneo. Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na profissional. Utilize-a como instrumento para seu sucesso na carreira. Conselho Editorial 5 Organização do Caderno de Estudos e Pesquisa Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de textos básicos, com questões para reflexão, entre outros recursos editoriais que visam a tornar sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta, para aprofundar os estudos com leituras e pesquisas complementares. A seguir, uma breve descrição dos ícones utilizados na organização dos Cadernos de Estudos e Pesquisa. Provocação Textos que buscam instigar o aluno a refletir sobre determinado assunto antes mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor conteudista. Para refletir Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As reflexões são o ponto de partida para a construção de suas conclusões. Sugestão de estudo complementar Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo, discussões em fóruns ou encontros presenciais quando for o caso. Praticando Sugestão de atividades, no decorrer das leituras, com o objetivo didático de fortalecer o processo de aprendizagem do aluno. Atenção Chamadas para alertar detalhes/tópicos importantes que contribuam para a síntese/conclusão do assunto abordado. 6 Saiba mais Informações complementares para elucidar a construção das sínteses/conclusões sobre o assunto abordado. Sintetizando Trecho que busca resumir informações relevantes do conteúdo, facilitando o entendimento pelo aluno sobre trechos mais complexos. Exercício de fixação Atividades que buscam reforçar a assimilação e fixação dos períodos que o autor/ conteudista achar mais relevante em relação a aprendizagem de seu módulo (não há registro de menção). Avaliação Final Questionário com 10 questões objetivas, baseadas nos objetivos do curso, que visam verificar a aprendizagem do curso (há registro de menção). É a única atividade do curso que vale nota, ou seja, é a atividade que o aluno fará para saber se pode ou não receber a certificação. Para (não) finalizar Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem ou estimula ponderações complementares sobre o módulo estudado. 7 Introdução Quando falamos em armazenar, tratar e conservar informações, obrigatoriamente falamos em Banco de Dados, por isso o tema ora abordado toma proporções tais, que podemos pensar que tratar-se de uma questão difícil de assimilar. Mas temos que levar em conta sempre que, os dados ou informações, dos quais somos responsáveis, podem significar o sucesso ou o fracasso de uma empresa. Por isso, a segurança seja talvez a questão mais importante depois dos próprios dados. Óbvio que existem questões legais e éticas que devemos abordar e o trabalho que desenvolveremos abordará esse tema também, além de tentar mostrar e conduzir o aluno no perfeito entendimento do que se chama Segurança em Banco de Dados. Outros assuntos que abordaremos são a mineração de dados (Data Mining) e Data Warehousing, que vem a ser a utilização do conceito de gerenciamento de banco de dados no mais alto grau. Esse estudo pretende despertar no cursista a capacidade de divisar novas alternativas sobre o tema, apesar de tratar-se de um estudo em que veremos caminhos já traçados. Objetivos » Aprofundar os conhecimentos sobre segurança e autorização em Banco de Dados. » Discutir Segurança em Banco de Dados. » Conceituar Banco de Dados Ativos. » Definir Bancos de Dados Temporais e multimídias. » Definir Data Mining. » Conceituar Data Warehousing. 8 9 UNIDADE IBANCO DE DADOS AVANÇADOS CAPÍTULO 1 Segurança e autorização “O fator que sempre me ajuda a vencer um obstáculo tem sido o obstáculo anterior.” Henry Ford Não devemos confundir segurança de dados com integridade de dados. Segurança vem a ser a capacidade de preservar os dados contra eventuais adulterações, divulgações indevidas ou perdas. Integridade é a capacidade de manter o dado com a precisão e validade exigidas. Segundo, C. J. Date (1990, p. 457): “A Segurança garante que os usuários tenham permissão para fazer o que estiverem tentando fazer.” “A Integridade garante que as coisas que estão tentando fazer são corretas.” Tipos de segurança Os perfis de segurança de acesso aos dados devem ser traçados levando-se em conta os seguintes tipos de segurança existentes. Legais, sociais e éticos: » Informações podem ser consideradas privadas, tanto legalmente quanto por questões sociais ou éticas. » Exemplo: quem faz uma solicitação referente a um crédito tem direito a acessar essa informação? 10 UNIDADE I │ BANCO DE DADOS AVANÇADOS Políticas: » As informações podem sofrer restrições conforme a política da empresa. » Exemplo: quem acessa o quê em um Banco de Dados? Pertinentes ao sistema: » O sistema determina qual o nível de acesso. » Exemplo: qual o critério de acesso do sistema de arquivos do sistema? Necessidades da organização: » Confunde-se com o tipo político, mas difere-se por se tratar de necessidadee não de estratégia política. » Exemplo: quem tem que acessar a informação? Quando ocorre um uso indevido do Banco de Dados, podemos considerar como intencional ou acidental. A perda acidental pode resultar de: » quedas durante o processamento de transações; » defeitos causados por acesso simultâneo (concorrência) aos dados; » anormalidades na distribuição do Banco de Dados. Em se tratando de perdas acidentais, o controle é mais fácil do que contra acessos indevidos ou maldosos ao Banco de Dados. Como exemplos de formas maldosas, podemos citar: » leitura não autorizada de dados (roubo de informações); » modificação não autorizada de dados; » destruição não autorizada de dados; » inserção não autorizada de dados. As empresas costumam encarecer o custo da invasão, para tentar desmotivar qualquer acesso insidioso. Com a finalidade de proteger o BD, medidas de segurança devem ser tomadas em diversos níveis. » Físico – torna o sistema fisicamente seguro contra entradas de intrusos. 11 BANCO DE DADOS AVANÇADOS │ UNIDADE I » Humano – os controles dos acessos dos usuários são cuidadosamente estudados. » Sistema operacional – a fragilidade na segurança do SO pode ser uma porta de acesso não-autorizado ao banco de dados. » Sistema de BD – os usuários de sistemas de BD devem ter autorização de acesso somente a porções limitadas; outros usuários deverão ser habilitados a emitir consultas, com proibição de modificação de dados. Visões As visões podem ser um excelente meio de limitar o acesso aos dados, fazendo com que os usuários só acessem aquilo que realmente podem acessar. Uma visão pode esconder dados que o usuário não necessita ver. Elas tanto servem para facilitar o uso do Banco de Dados como para ajudar na proteção das informações. Autorizações de acesso ao Banco de Dados » De Leitura – (read) permite somente a leitura dos dados. » De Inserção – (insert) permite a inserção de novos dados, mas não a alteração de dados já existentes. » De Atualização – (update) permite a alteração dos dados, mas não a exclusão (delete). » De Exclusão – (delete) permite a exclusão. Existem outras formas de autorizações que podem permitir ou proibir a estrutura das relações. » De Índice – (index) concede ao usuário a permissão para criação e/ou remoção de índices. » De Recursos – (resource) permite a criação de novas relações, gatilhos, procedures. » De Alteração – (alteration) permite a adição ou remoção de atributos na relação. » De Remoção – (drop) permite a remoção das relações. Segurança do Banco e o DBA O Administrador de Banco de Dados (DBA) é o responsável pelo gerenciamento de um sistema de Banco de Dados.Ele é o responsável pela concessão de privilégios de acesso e classificação dos usuários do sistema de acordo com as determinações das políticas de segurança. O DBA possui uma conta própria com direitos de acesso a toda e qualquer instância do Banco de Dados. Seu papel é manter a integridade do Banco, tanto com relação às contas de acesso quanto à 12 UNIDADE I │ BANCO DE DADOS AVANÇADOS consistência dos dados, além de se encarregar do tunning do Banco, no que se refere a performance do mesmo, cópia de segurança dos dados, criação de índices, triggers, stored procedures etc. Proteção, contas e auditoria Todas as vezes que for necessário o acesso de um novo usuário ou a modificação do perfil de acesso de um já existente, o DBA criará uma nova conta com as permissões ou modificará as configurações de um já existente. Especificação de segurança em SQL Usamos o comando grant cuja sintaxe-padrão é a seguinte. Grant <lista de autorizações> on <nome da relação> to <lista de usuários>. Exemplos: » Permissão de seleção (select) sobre uma relação de clientes, para os usuários [USR0, USR1]. » Grant select on [clientes] to [USR0], [USR1]. » Conferindo a permissão de alteração (update): » Grant update [nome] on [clientes] to [USR0], [USR1]. Podemos especificar somente os campos em que o usuário pode realizar a alteração. » A permissão de inserção (insert) tem a mesma estrutura do update. » Grant insert [nome] on [clientes] to [USR0], [USR1]. » Podemos eventualmente utilizar a instrução all privileges, que concede todos direitos ao usuário. » Grant all privileges on cliente to [USR0]. » Normalmente, um usuário não pode transmitir seus direitos a outro, mas o DBA pode, de acordo as políticas de segurança adotadas no sistema de Banco de Dados, conceder essa permissão: » Grant select on [financiamento] to [USR0] with grant option. » Para a revogação de privilégios, o DBA pode utilizar os seguintes comandos: 13 BANCO DE DADOS AVANÇADOS │ UNIDADE I » Revoke all privileges on [clientes] from [USR0]. » Revoke select on [financiamento] from [USR0], [USR1], [USR2] cascade. A título de fixação, elabore um plano de concessão de permissões que podem ser concedidas a um usuário, tendo como parâmetro um sistema de conta corrente. 14 CAPÍTULO 2 Extensões de modelos de dados para aplicações avançadas com o crescente uso de sistemas de gerenciamento de Banco de Dados, o usuário passa a ficar mais exigente em relação ao que deseja obter de retorno dos sistemas Bancos de Dados e, com isso, a tecnologia tende a acompanhar as necessidades do mercado. Surgem, então, diversas correntes tecnológicas que possibilitam a implementação de aplicações mais avançadas e complexas. Vamos discutir neste capítulo, esses avanços em Banco de Dados: ativos, multimídia, temporais e dedutivos. Conceitos de banco de dados ativos Esse conceito passa a existir quando os Bancos, até então, passivos, precisam tomar decisões, serem ativos com base em eventos. Modelo generalizado para Banco de Dados Ativos Gatilhos em Banco de Dados Ativos seguem o modelo ECA (evento-condição-ação). » Evento é o agente que ativa a regra, normalmente operações explícitas em um Banco de Dados, mas podendo ser disparado por eventos temporais e/ou eventos externos. » Condição é uma condição de opcionalidade que determina (quando verdadeira) se a regra será disparada, quando da ocasião do evento. » Ação é o que ocorre quando o evento satisfaz a condição, podendo ser um sequência de comandos SQL, uma transação ou mesmo um programa externo. Conceitos de banco de dados temporais Em geral, todo sistema de Banco de Dados trata de informações relativas a tempo. Um exemplo clássico é um controle acadêmico onde se deve armazenado o histórico de cada aluno, como ano e semestre cursado. Mas os desenvolvedores normalmente não se preocupam especificamente com esse conceito. Devido, talvez, a sua complexidade, tratam essa informação como algo que não mereça atenção especial. 15 BANCO DE DADOS AVANÇADOS │ UNIDADE I Tempo, calendários e dimensões temporais O tempo é considerado como “uma sucessão ordenada de pontos, com alguma granulidade que é determinada pela aplicação”. (ELMASRI, 2006, p. 553). Não havendo um limite para o que vem a ser tempo, temos que adotar um ponto de referência. Em Banco de Dados Temporais, a ideia é termos um a sequência cronológica com o que se passa com o dado, e só conseguimos isso associando dados temporais ao mesmo. Bancos de dados multimídias As imagens (fotografias, desenhos, filmes etc.) também precisam ser guardadas e recuperadas, com isso surge o conceito de Banco de Dados Multimídia, que vem a ser a capacidade do Banco em tratar imagens. A grande dificuldade é o reconhecimento e para isso existem dois métodos conhecidos. » Análise automática – Consiste em uma análise da imagem por meio da identificação de características matemáticas de seus conteúdos. » Identificação manual – Identifica objetos e atividades em cada imagem, onde se faz necessário um préprocessamento manual, em que o usuário cria “marcas” que, posteriormente, servirão para a recuperação da imagem. Introdução aos bancos de dados dedutivos Vem a ser a capacidade de um sistema de Banco de Dados poder deduzir a informação a serrecuperada, a partir de uma análise da base já existente. Suas regras são especificadas por meio de alguma linguagem declarativa, em que especificamos o que queremos ao invés de como queremos. O Banco interpreta essas regras usando o que se chama máquina de inferência ou mecanismo de dedução, que deduz os fatos novos. 16 UNIDADE IIDATA MINING CAPÍTULO 1 Visão geral: regras, classificação, agrupamento e aplicação A mineração de dados ou Data Mining é uma tecnologia emergente e uma das mais promissoras, segundo relatório do Gartner Group. O Knowledge Discovery in Databases (KDD) – Processo de Descoberta de Conhecimento em Banco de Dados – é composto de seis outras fases: seleção de dados, limpeza, enriquecimento, transformação ou codificação, data mining, construção de relatórios e apresentação da informação descoberta. Figura 1 – Visão geral das etapas que constituem o processo KDD Data Seleção Pré-Processamento Transformação Data Mining Avaliação Dados alvo Dados Pré- processados Dados Transformados Padrões Conhecimento (Fayyad et al., 1996b). O Data Mining é uma das aplicações da tecnologia de Data Warehousing. Alguns tipos de informação podem ser descobertas pela aplicação dessa tecnologia. » Regras de associação – Analisa por associação o comportamento de um consumidor. Por exemplo, se um cliente compra cerveja ele pode comprar refrigerante também. » Padrões sequenciais – Analisa o comportamento de consumidores que compram em uma sequência predeterminada. Se um cliente compra um rádio e depois de dois 17 DATA MINING │ UNIDADE II meses compra uma televisão, ele provavelmente comprará algum eletroeletrônico nos próximos 6 meses. » Árvore de classificação – Os consumidores podem ser classificados pela frequência com que visitam lojas, por tipo de financiamento utilizado, por quantidade comprada ou simplesmente por afinidade com determinados tipos de itens. As empresas estão utilizando Data Mining para tentar antecipar o comportamento do consumidor, principalmente para enfrentar uma forte concorrência. Podemos citar como metas do Data Mining: » Predição – Prever o comportamento de consumidores em relação a políticas de desconto, como o volume de vendas gerado em um determinado período, e se um linha de produto for descontinuada irá gerar lucro. » Identificação – Utilizar padrões de dados para identificar a existência de um item, um evento ou uma atividade. » Classificação – Classificar diferentes categorias de consumidores motivados por descontos fiéis, aficionados em uma marca e até eventuais, combinando parâmetros, a partir da segmentação de dados. » Otimização – Otimizar o uso de recursos limitados como tempo, espaço, dinheiro ou materiais, bem como, as variáveis de saída, como vendas ou o lucro sobre determinado número de restrições, com o uso da tecnologia de Data Mining. Usar Data Mining é induzir descobertas e não deduzi-las. Descobrem-se novas regras e/ ou padrões e projetam-se comportamentos por meio da análise do comportamento de dados existentes. » Regras de Associação – Ocorre a correlação de um item com outros de outra faixa de valores, de outro leque de variáveis. Exemplo: associa-se a compra de uma calça a compra de um cinto, um sapato, uma gravata. » Hierarquia de Classificação – Cria-se uma hierarquia de classes a partir de um conjunto de eventos ou transações. Exemplo: dividir uma população em faixas de risco de créditos, utilizando-se histórico de transações anteriores. » Padrões Sequenciais – Investiga-se uma sequência de eventos ou ações, que induzirá a ações a serem tomadas. » Padrões com Séries Temporais – Exemplo: análise, em intervalos regulares, de uma sequência de vendas diárias ou preço diário de fechamento de ações. 18 UNIDADE II │ DATA MINING » Clustering (agrupando) – Ocorre segmentação de dados similares a partir de eventos ou novos itens. Exemplo: o acesso pela internet de um conjunto de documentos feito por um grupo de usuários pode ser analisado em termos de palavras-chave dos documentos, permitindo identificar grupos ou categorias de usuários. Regras de associação Para que possamos utilizar as regras de associação, algumas perguntas têm que ser respondidas a priori. » O que caracteriza a ação de comprar um produto específico? » Por que um produto é sempre comprado junto com outro? » Quais produtos são adquiridos aos pares? » O determinou a sequência de aquisição? Um exemplo clássico é o citado em Hammer (1995), que relata a experiência de um supermercado que descobre, depois de uma análise por associação, que vendia mais cervejas quando estas estavam próximas à seção de fraldas.Se o cliente comprou o produto A e o produto B, então ele também compra o produto C. Isso ocorre em cerca de 20% (vinte por cento) dos casos. Assim podemos definir as regras de associação: A => B, onde A e B são conjuntos que contém um ou mais elementos e o total damos o nome de T. Surgindo, então, dois parâmetros para analisar. O primeiro é a frequência com que o A aparece. Na regra apresentada acima, o valor 20% indica o suporte, pois é dito que a regra é aplicada em 20% dos casos estudados. O segundo é a credibilidade fornecida pelo percentual de 20%. No exemplo acima, indica que na maioria dos casos quem comprou A e B também, comprou C. Classificação Consiste na análise preditiva com o intuito de estabelecer padrões que podem determinar tendências futuras. Também chamado de aprendizado supervisionado (ELMASRI, 2006, p. 634), pois, após montado, pode ser utilizado para classificação de novos dados. Esse processo procura encontrar um modelo que descreva classes diferentes de dados. Por exemplo, em uma empresa, clientes podem ser classificados como de “risco baixo” ou “risco justo”. 19 DATA MINING │ UNIDADE II Utiliza-se primeiramente um treinamento com um conjunto de dados que já foram classificados. Cada registro nos dados de treinamento, chamado rótulo de classe, indica a classe a qual o registro pertence O modelo criado, normalmente, ficará na forma de uma árvore de decisão ou um conjunto de regras. Existe uma preocupação em relação ao modelo e o algoritmo que vem a ser a habilidade do modelo prever a classe correta dos novos dados, o custo computacional associado ao algoritmo e a sua escalabilidade. Uma árvore de decisão é uma representação gráfica da descrição de cada classe ou, em outras palavras, uma representação das regras de classificação. Analise o exemplo abaixo: Algoritmo para indução de árvore de decisão Input: conjunto de dados de treinamento Registros: R1, R2,.........., Rm e conjunto de atributos; A1, A2,..........An. Output: árvore de decisão. Procedure Constrói_árvore (Registros, Atributos) Início Criar um nó N; Se todos os registros pertencem à mesma classe, C, então Retorna N como um nó-folha com rótulo de classe C; Se Atributos está vazio então Retorna N como um nó-folha com rótula de classe C, com a maioria dos registros pertencentes a ela; Seleciona o Atributo A1 (com o maior ganho de informação) de atributos; Rotula nó N com A; Para cada valor conhecido, Vj, de A1 faça Início Some um marca do nó N para a condição A1 = Vj; Sj = subconjunto de Registros onde A1 = Vj; Se Sj está vazio então Adicione uma folha, L, com rótulo de classe C, como a maioria dos registros pertencentes a ela e retorna L 20 UNIDADE II │ DATA MINING Senão some o nó retornado por Constói_árvore (Sj, Atributos - A); fim. Figura 2 – Exemplo de árvore de decisão para aplicações de cartão de crédito. sim casado salário renda idade não risco alto risco baixo risco justo risco justo risco baixo risco alto < 20.000 > = 20.000 < = 50.000 > = 50.000 <20.000< = 5.000 < = 25 > = 25 (Elmasri, 2006, p. 553). Agrupamento (Clustering) Este processo procura colocar em grupos os dados similares, mas não havendo classes preexistentes Na sua definição mais comum Cluster – É uma coleção de objetos de dados, similares, mas nãosimilares aos objetos externos. Algoritmos: K-means – Inicia com uma escolha randômica de k registros para representar a centroide, (média) m1,.....mk, dos grupamentos, C1,.....Ck. Todos os registros são colocados em um dado grupamento, baseados na distância entre os registros e a média do grupamento. Se a distância entre m1 e o registro RJ é a menor entre todas as médias do grupamento, então o registro RJ é colocado no grupamento Ci. Uma vez que todos os registros tenham sido colocados inicialmente em um grupamento, a média para cada grupamento é recalculada e assim sucessivamente. Aplicação de Data Mining O Data Mining, enquanto tecnologia aplicada no contexto da tomada de decisão, tem ganhando crescente espaço no meio empresarial, particularmente nas áreas a seguir. Marketing – Aplicações como análises de comportamento do consumidor baseadas em padrões de consumos e definição de estratégias de marketing incluem propaganda, localização de lojas e mala direta direcionada, segmentação de clientes, lojas ou produtos, projetos de catálogos, layouts de lojas e campanhas de publicidade. 21 DATA MINING │ UNIDADE II Finanças – Análise de crédito de clientes, segmentação de contas a receber, análise de performance de investimentos financeiros como ações e fundos mútuos, avaliação de opções de financiamentos e detecção de fraudes. Produção – Aplicações que envolvem otimização de recursos como máquinas, força de trabalho e materiais; projetos ótimos de processos de fabricação, layouts de chão de fábrica, e projeto de produto, como de automóveis baseados nos requisitos de clientes. Saúde – Aplicações que incluem descobertas de padrões em imagens radiológicas, análise de dados experimentais em microarray (gene chip) para relação com doenças, análise de efeitos colaterais de remédios e efetividade de certos tratamentos, otimização de processos dentro de um hospital, relação de saúde do paciente com qualificações do médico. 22 UNIDADE IIIDATA WAREHOUSING CAPÍTULO 1 Visão geral: definição, características, funcionalidade e comparação Data warehouse é uma coleção de informações, um sistema de apoio focado na média e alta gerência das empresas, na recuperação de informações e não no processamento das mesmas. Embora a mídia tenha “pegado carona” na popularidade do nome e colocado diversos produtos sob a bandeira da tecnologia de Data WareHouse, devemos ter em mente que ele não é um Banco de Dados como os tradicionais. Elmasri (2006) apud W.H. INMON (1992) caracterizou um Data Warehouse como “uma coleção de dados orientada por assunto, integrada, não volátil, variante no tempo, que dá apoio às decisões da administração”. Esse sistema dá suporte a demanda de alto desempenho por dados e informações, proporcionando acesso aos dados para análise complexa, descoberta de conhecimento e tomada de decisão. Figura 3 Conhecimento Avaliação Visualização Data Mining Seleção Detabases Limpeza DWh As Bases de Dados são: » Dinâmicas » Incompletas » Redundantes » Ruidosas » Esparasas 23 DATA WAREHOUSING │ UNIDADE III Existem vários tipos de aplicações. OLAP (On-line Analytical Processing – Processamento Analítico), termo utilizado para descrever a análise de dados complexos em um sistema de Data Warehouse. Ferramentas OLAP empregam as capacidades de computação distribuídas para análises que requerem mais armazenamento e poder de processamento. DSS (Decision-Support Systems – Sistemas de Apoio à Decisão), também conhecido como EIS (Executive Information Systems – Sistemas de Informação Executiva). Como o nome diz é uma ferramenta de apoio à decisão, e o Data Mining, como visto anteriormente, caracteriza esse tipo de aplicação. Os bancos Data Warehouses são projetados para tratar grande quantidade de informação e oferecer fontes múltiplas, podendo extrair dados de Bancos distintos e/ou até de sistemas e plataformas diferentes. Características de Data Warehouse É característica primordial de Data Warehouse o modelo de dados multidimensional, o que faz com que se encaixe bem com o OLAP e com as demais aplicações voltadas para o apoio à decisão. Trabalhando com mais informações de temporalidade, o Data Warehouse, ao contrário dos Bancos de Dados Relacionais, dão apoio às análises de série temporal e de tendências, que requerem mais dados históricos do que os que são mantidos em Banco de Dados Transacionais. Eles não são voláteis, isto é, a informação em um Data Warehouse muda com pouca ou nenhuma frequência e têm que ser atualizadas, periodicamente. Em um Data Warehouse, a informação tem uma granulidade muito espessa e é atualizada de acordo com a escolha da política de atualização. Funcionalidade típica de um Data Warehouse O Data Warehouse proporciona maior suporte às consultas e de maneira mais eficiente do que um Banco Transacional. Existem funcionalidades aperfeiçoadas de planilha eletrônica, de processamento eficiente de consultas (estruturadas, ad hoc), data mining e de visões materializadas. Há funcionalidades pré-programadas, tais como as citadas a seguir. » Roll-up: resumo de dados com generalização crescente (semanal para trimestral e depois para anual), visão do detalhe para o nível mais alto. 24 UNIDADE III │ DATA WAREHOUSING Fabricação 2008 Carros Caminhões GM FIAT GM FIAT São Paulo São Bernardo do Campo 2300 1600 300 550 São Caetano do Sul 1500 1650 400 640 Fabricação 2008 Carros Caminhões GM FIAT GM FIAT Região Sudeste São Paulo 3800 3250 700 1190 Rio de Janeiro 2500 3000 500 800 » Drill-down: níveis mais detalhados (complementando o roll-up), um item de resumo é dividido em componentes, possibilitando a exploração em níveis de detalhes da informação, visão do nível mais alto para o detalhe. Fabricação Carros e Caminhões 1º TRIM 2º TRIM 3º TRIM Região Sudeste São Paulo 9000 11000 8500 Rio de Janeiro 11280 5500 8600 Fabricação Carros e Caminhões Jan Fev Mar Região Sudeste São Paulo 2600 4500 3000 Rio de Janeiro 3600 1850 3200 » Slice and dice (fatiar/cortar o cubo): execução de operações de projeção nas dimensões, possibilitando a troca de linhas por colunas (como se estivéssemos girando um cubo). » Exemplo: » Slice: Divide-se o cubo, mas mantém se a perspectiva de visualização dos dados. Fabricação Carros e Caminhões Jan Fev Mar Região Sudeste São Paulo 4500 1900 4200 Rio de Janeiro 1280 3250 3200 Fabricação Carros Jan Fev Mar Região Sudeste São Paulo 3300 1000 3205 Rio de Janeiro 600 1980 2300 25 DATA WAREHOUSING │ UNIDADE III » Dice: Visualização por outra perspectiva. Comparação entre Data Warehouse e Visões Fabricação 2008 Carros Caminhões GM FIAT GM FIAT Região Sudeste São Paulo 2300 1600 300 550 Rio de Janeiro 1500 1650 400 640 Fabricação 2008 Região Sudeste São Paulo Rio de Janeiro Carros GM 2300 1500 FIAT 1600 1650 Caminhões GM 300 400 FIAT 400 640 Embora as visões melhorem o desempenho, sejam somente para leituras e sejam orientadas por assunto, elas diferem da tecnologia de Data Warehouse, das seguintes maneiras. » O Data WareHouse existe como armazenamento permanente em vez de ser criado sobre demanda. » Os Data Warehouses são multidimensionais e não relacionais. » A indexação no Data Warehouse é explicita e proprietária, para otimização de desempenho. » Data Warehouse, em princípio, é uma visão de vários Bancos de Dados que trabalham integrados e frequentemente com dados temporais, enquanto views vêm a ser somente um extrato de um Banco de Dados. 26 Para (não) Finalizar Devemos aqui dar um pausa para pensar no que temos pela frente em se tratando do estudo de um tópico dito avançado. As possibilidades são imensas e não devemos nos ater somente ao que vimos no programa da disciplina. » Será que se esgotou o assunto Tópicos Avançados em Banco de Dados? » Quais sãos as janelas e/ou portas que abrimos com o conhecimento adquirido? Sim, devemos sempre pensar e agir com o intuito de querermos mais. Esteé o verdadeiro aprendizado: sempre querer subir o próximo degrau, depois de vencermos o último. Desejar que a escada nunca termine, pois significaria o fim do estudo e consequentemente do nosso crescimento. 27 Referências CASTANO, Silvana; FUGINI, Mariagrazia; MARTELLA, Giancarlo; SAMARATI, Pierangela. Database Security. New York: ACM Press/Reading, Mass.: Addilson-Wesley, 1995. CERT COORDINATION CENTER. CERT Annual Reports. Software Engineering Institute, Carnegie Mellon University, s.d. Pittsburgh. U.S.A Disponível em: <http://www.cert.org> Acesso em: 16 jan. 2009. CHUNG. DataBase Security. Department of Computer Science and Engineering, Wright State University, s.d. Disponível em: <http://www.cs.wright.edu/> Acesso em 16 jan. 2009. DATE, C. J. Introdução a sistemas de banco de dados. Rio de Janeiro: Campus, 1990. ELMASRI, Rames; NAVATHE, Shamkant B. Sistemas de Banco de Dados. 4o ed. Editora Pearson, 2006. HAMMER, Michael; CHAMPY, James, Reengenharia. 1o ed. Editora Campus, 1995. INMON, W. H. Building the data warehouse. Editora Wiley. 1992.
Compartilhar