Prévia do material em texto
Modelagem e arquitetura do DW (Data Warehouse) Professor(a): Anderson da Silva Marcolino (Doutorado) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! A modelagem multidimensional representa uma abstração dos dados armazenados, consistindo em um modelo composto por tabelas de Fatos e de Dimensões, que proporcionam uma visão multidimensional de grande quantidade de dados. Existem algumas abordagens específicas para modelagem multidimensional, derivadas da aparência do esquema traçado, a partir do Diagrama de Entidades e Relacionamentos (DER), sendo o ___________________ composto de uma tabela dominante no centro, chamada de Fatos, rodeada por tabelas auxiliares, chamadas de tabelas de Dimensões, o qual a tabela de Fatos conecta-se às tabelas de Dimensões por várias junções e cada tabela de Dimensão se conecta com apenas uma junção à tabela de Fatos. E uma variante deste esquema é denominado de ___________________. Assinale a alternativa correta que indica os termos que preenchem as lacunas acima: Alternativas: Esquema Floco de Neve; Esquema Cubo. Esquema MER; Esquema Cubo. Esquema Estrela; Esquema Floco de Neve. CORRETO Esquema Floco de Neve; Esquema Estrela. Esquema Estrela; Esquema Cubo. Código da questão: 42591 Segundo Kimball (1998), o esquema de dados mais utilizado na especificação de um Data Warehouse é o Esquema Estrela (Star Schema) composto por tabelas de Fatos e de Dimensões que proporcionam uma visão multidimensional de grande volume de dados. (KIMBALL, R. et al. The data warehouse lifecycle toolkit. New York: John Wiley & Sons, 1998). Sobre as características das tabelas de Fatos e de Dimensões, julgue os itens a seguir: I. O contexto das funcionalidades que determinam os processos de negócio de uma empresa é especificado em tabelas de Fatos. II. A tabela de Fatos é a principal tabela de um esquema dimensional que geralmente contém vários fatos que indicam valores para análise dimensional. III. A tabela de Fatos relaciona-se com as tabelas de Dimensões, que representam as entidades de negócio e constituem as estruturas de entrada que realizam os filtros de valores aplicados na manipulação dos fatos. IV. As tabelas de Dimensões contêm a descrição textual do negócio, representada pelos atributos e com a indicação da chave primária, que serve como base para manter a integridade referencial quando relacionada com a tabela de Fatos. V. As tabelas de Dimensões representam as características numéricas e classificatórias que fornecem as perspectivas adicionais a um determinado fato por meio de seus atributos. Estão corretos os itens: Alternativas: I – II – III – IV – V. II – IV – V. I – II – III. I – II – III – IV. CORRETO I – III – V. Resolução comentada: o Esquema Estrela (Star Schema) é a abordagem, proposta por Kimball (1998), que visa criar esquemas físicos mais simples e incremental. O nome estrela se dá devido à disposição em que se encontram as tabelas, sendo a tabela de Fatos, centralizada no esquema, e as tabelas de Dimensões são relacionandas nas pontas do esquema. Elmasri e Navathe (2005) descrevem que o “esquema floco de neve é uma variação do esquema estrela em que as tabelas dimensões de um esquema estrela são organizadas em uma hierarquia ao normalizá-las” (ELMASRI; NAVATHE, 225, p. 725). Resolução comentada: 3) 4) Código da questão: 42592 O banco de dados analítico é diferente do banco de dados operacional, transacional ou OLTP (Online Transaction Processing), usado para processar as transações. Embora os bancos de dados transacionais possam ser usados para suportar o armazenamento de dados e as aplicações de BI, não se recomenda seu uso por questões de integridade e escalabilidade. I. O banco de dados convencional deve ser preservado, e o banco de dados analíticos deve estar em outro schema. PORQUE II. Um banco de dados analítico tem uma estrutura baseada em coluna, tornando os cálculos individuais muito rápidos. Já os bancos de dados transacionais dependem de armazenamento de dados baseado em linha, impróprio para operar com grandes volumes de dados. Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas: Alternativas: A primeira asserção está correta e a segunda está incorreta. A primeira e a segunda asserções estão incorretas. A primeira e a segunda asserções estão corretas, e a segunda complementa a primeira. CORRETO A primeira asserção está incorreta e a segunda está correta A primeira e a segunda asserções estão corretas, mas a segunda não tem relação com a primeira. Código da questão: 50534 As informações assumem o papel do principal patrimônio ativo de uma organização. Assim, tornar as informações corporativas acessíveis para entendimento e utilização das áreas estratégicas das organizações é um fator fundamental para a tomada de decisão assertiva. As ferramentas Online Analytical Processing (OLAP) surgiram com os sistemas de apoio à decisão para viabilização e extração eficaz de informações de um ambiente de Data Warehouse (DW). Sobre as características das ferramentas OLAP, julgue os itens a seguir: I. Os dados são processados e visualizados em uma estrutura multidimensional. II. Estrutura logicamente dados multidimensionais na forma de um cubo. III. Efetua operações de manipulação de dados individuais, por meio dos comandos de inserção, atualização e exclusão. IV. Proporciona respostas rápidas e consistentes às consultas interativas executadas pelos usuários. Estão corretos os itens: Alternativas: III – IV. I – II. II – III. I – II – IV. CORRETO I – II – III. Código da questão: 42606 os itens corretos são I, II, III e IV. O item V está errado porque as tabelas de Dimensões representam as características descritivas/textuais que fornecem as perspectivas adicionais a um determinado fato por meio de seus atributos. Resolução comentada: Os bancos de dados transacionais são bancos baseados em armazenamento por linha, o que impossibilita o desempenho quando submetido a cálculos em processos analíticos. Isto deteriora o desempenho para a finalidade base ao qual foi projetado, que é armazenar, acessar, incluir e excluir os registros ali depositados. Portanto, para projetos que envolvam cálculos analíticos outro banco com processo de armazenamento por coluna é mais eficiente, como os bancos de dados analíticos, pois os registros ficam livres para serem submetidos aos cálculos volumétricos, essenciais para BI e Big Data. Resolução comentada: o item III está errado, porque os sistemas transacionais, Online Transaction Processing (OLTP – Processamento de Transações On-line, que efetuam operações de manipulação de dados individuais, por meio dos comandos de inserção, atualização e exclusão. 5) 6) Na concepção de Poe, Klauer, Brobst (1998), o Esquema Estrela possui uma estrutura simples com poucas tabelas e associações bem definidas, aproximando do contexto do modelo de negócio e facilitando a geração de consultas complexas de forma intuitiva e interativa, por meio dos vários parâmetros de consultas. Neste esquema, o assunto principal fica ao centro do esquema, representada pela tabela de Fatos, e suas características, as dimensões, representadas por tabelas de Dimensões, ficam posicionadas ao seu redor, permitindo a leitura e compreensão até mesmo de usuários finais que não estão adaptados com estruturas de banco de dados. (POE V.; KLAUER P.; BROBST S. Building a data warehouse for decision support. New Jersey: Prentice Hall PTR, 1998). Sobre as principais vantagens do Esquema Estrela, julgue os itens a seguir, indicando “V” para o item verdadeiro e “F” para o item falso: 1. ( ) A estrutura padronizada e regular do esquema é bastantesimples, faciliatando a apresentação, o desempenho das consultas geradas e a compreensão até mesmo de usuários finais que não estão adaptados com estruturas de banco de dados. 2. ( ) As consultas ocorrem inicialmente nas tabelas de Dimensões e depois nas tabelas de Fatos, assegurando a consistência dos dados por meio de uma estrutura de chaves que garante o acesso aos dados com melhor desempenho. 3. ( ) A aplicação da técnica de normalização nas tabelas de Dimensões aumenta o número de dimensões, consequentemente diminuindo a performance das consultas dinâmicas. 4. ( ) A facilidade e a flexibilidade da inclusão de novos elementos de dados, a partir do relacionamento da tabela de Fatos com uma nova tabela de Dimensão, bem como o acréscimo de novas colunas às mesmas tabelas de Dimensões. 5. O suporte para transformar e proceder à carga dos dados, para recuperar, analisar e extrair os dados dos sistemas transacionais. Assinale a alternativa correta: Alternativas: V – V – V – V – V. V – V – F – V – F. CORRETO F – F – V – F – V. F – F – F – F – F. F – V – F – V – F. Código da questão: 42602 A mineração de dados é comumente classificada pela sua capacidade em realizar tarefas para diferentes domínios. A literatura indica que não existe um consenso de denominação quanto à classificação, funcionalidades, tarefas, métodos ou técnicas de mineração de dados. Contudo, Fayyad et al. (1996) apresentam alguns métodos de mineração de dados que têm como objetivo a predição ou descrição dos resultados: (FAYYAD, U.M. et al. Advances in knowledge discovery and data mining. California: AAAI Press, 1996). Sobre as técnicas de Data Mining, julgue os itens a seguir, indicando “V” para o item verdadeiro e “F” para o item falso: 1. ( ) Regressão: usa-se para associar ou classificar um item a uma ou a várias categorias pré-definidas, derivando uma regra que possa ser usada para classificar uma observação, referente a um conjunto de dados identificados que são categorizados por um assunto. 2. ( ) Análise de Séries Temporais: refere-se a tarefa similar à classificação, porém é usada quando os dados são identificados por predição de valores numéricos, considerados variáveis independentes ou exploratórias, e não pela categorização dos itens analisados, sendo possível verificar o eventual relacionamento funcional que possa existir entre duas ou mais variáveis quantitativas. 3. ( ) Agrupamentos (Clusters): refere-se à tarefa de segmentar um conjunto de dados em grupos diferentes, cujos itens são semelhantes, ou seja, subdivide o conjunto de dados em um conjunto menor, sendo similar no comportamento dos atributos de segmentação, descobrindo grupos diferentes entre o conjunto de dados selecionado. 4. ( ) Sumarização: refere-se à tarefa de descrever padrões e tendências que são reveladas por subconjuntos de dados compactados, a partir de um subconjunto de dados com características similares, demostrando as relações funcionais entre as variáveis definidas para a análise exploratória do subconjunto de dados 5. ( ) Análise de Séries Temporais: refere-se a tarefa similar à regra de associação com objetivo de aplicar algum tipo de padrão (tendências, variações sazonais, variações cíclicas e variações irregulares) no conjunto de dados, para determinar que tipos de sequências podem ocorrer em um determinado período. Assinale a alternativa que indica a sequência correta: Alternativas: V – V – V – V – V Resolução comentada: o item 3 é falso, porque é o Esquema Floco de Neve que separa as hierarquias das dimensões em tabelas diferentes, especificando variantes da dimensão principal. Considera-se que a aplicação da técnica de normalização nas tabelas de Dimensões aumenta consideravelmente o número de dimensões e, consequentemente, diminuindo a performance das consultas dinâmicas. O item 5 é falso, porque o processo de transformar e proceder à carga dos dados, para recuperar, analisar e extrair os dados dos sistemas transacionais refere-se a uma etapa do processo de criação de um Data Warehouse, conhecido como ETL. 7) 8) V – V – F – V – F. F – V – F – V – F. F – F – F – F – F. F – F – V – V – V. CORRETO Código da questão: 42615 Os ambientes de Data Warehouses (DW) integram sofisticadas ferramentas para análises complexas de dados históricos e descoberta de conhecimento, assegurando o suporte à tomada de decisão. Um ________________ organizacional pode manter um armazém central de dados da organização inteira, ou pode manter armazéns menores, descentralizados, denominados ________________. Assinale a alternativa que completa adequadamente as lacunas acima: Alternativas: Data Mining; Data Warehouse. Data Warehouse; Data Marts. CORRETO Data Mining; Data Source. Data Mining; Data Marts. Data Warehouse; Data Mining. Código da questão: 42581 Um modelo é uma __________utilizada como técnica para refletir a realidade. Ao modelar os dados de uma organização, sejam operacionais ou analíticos, busca-se o que se quer realizar ou fazer com os dados. Armazenar dados em bancos relacionais para manter o histórico não reflete a realidade da empresa. É necessário desenhar uma organização desses dados e, para isso, um modelo _____________ funciona como uma ferramenta que auxilia na análise dos requisitos e no desenho da estrutura dos dados relacionada a esse negócio. Assinale a alternativa que completa adequadamente a lacuna acima: Alternativas: Granular; Abstração. Abstração; Transacional. Abstração; Entidade relacionamento. CORRETO Entidade relacionamento; Dimensional. Entidade; Sumarizado. Código da questão: 42586 Resolução comentada: o Item 1 é falso, porque refere-se ao método classificação usado para associar ou classificar um item a uma ou a várias categorias pré- definidas, derivando uma regra que possa ser usada para classificar uma observação, referente a um conjunto de dados identificados que são categorizados por um assunto. O item 2 é falso, porque descreve o método de Regressão que se refere a tarefa similar à classificação, porém é usada quando os dados são identificados por predição de valores numéricos, considerados variáveis independentes ou exploratórias, e não pela categorização dos itens analisados, sendo possível verificar o eventual relacionamento funcional que possa existir entre duas ou mais variáveis quantitativas. Resolução comentada: os ambientes de Data Warehouses (DW) integram sofisticadas ferramentas para análises complexas de dados históricos e descoberta de conhecimento, assegurando o suporte à tomada de decisão. Um Data Warehouse organizacional pode manter um armazém central de dados da organização inteira, ou pode manter armazéns menores, descentralizados, denominados Data Mart. Resolução comentada: O modelo entidade relacionamento é uma abstração, e tenta refletir o mundo real, que vislumbra o que ser quer realizar ou fazer. Este modelo é uma ferramenta que ajuda na análise de requisitos de negócio e no design da estrutura de dados relacionada com esse negócio e sua base histórica. O modelo ER descreve as operações relacionadas ao negócio e as ligações entre as entidades do modelo. 9) 10) As organizações precisam responder de maneira ágil e eficiente às mudanças e oportunidades de mercado. Muitas empresas iniciam o desenvolvimento de um Data Warehouse (DW), contemplando conjuntos de dados mais gerenciáveis e categorizados por assunto, para atenderem às necessidades de pequenos grupos de usuários ou níveis funcionais da empresa, investindo, assim, na implementação de Data Marts. Sobre Data Marts, assinale a alternativa correta: Alternativas: Um Data Mart é um ambiente de processamento analítico, caracterizado por consultas complexas, estruturadas e frequentes, envolvendo agregação ou relacionamento de dados para gerar informações que apoiam processos decisórios. Um Data Mart são sistemas transacionais que registram todas as transações operacionais das organizações, sendo utilizados no processamento dos dados que são gerados diariamente por meio dos sistemasinformacionais das empresas. Um Data Mart refere-se ao processo de explorar grandes quantidades de informações, a partir de um conjunto de ferramentas de mineração de dados que se utilizam de algoritmos de aprendizagem baseados em redes neurais e estatísticas. Um Data Mart é um ambiente intermediário de armazenamento e processamento dos dados para o processo de extração, transformação e carga ETL (Extraction, Transformation and Load). Um Data Mart é um depósito de dados especializado, orientado por assunto, integrado, volátil e variável no tempo, a partir de dados extraídos de um DW, com o objetivo específico de dar suporte a rápido determinado grupo ou função de usuários. CORRETO Código da questão: 42580 As fontes de dados são armazenadas segundo um modelo de banco de dados, em geral organizados de acordo com uma estrutura lógica. Essas fontes de dados, além de serem mantidas em repositórios organizados, também incluem características determinantes quanto ao armazenamento e acesso. Aponte a alternativa que estabelece essas características. Alternativas: As características associadas às fontes de dados são os relacionamentos, os índices de armazenamento e as tabelas dos repositórios. As fontes de dados podem ser armazenadas e acessadas sem a necessidade de caracterização quanto ao tipo de dados. Somente as restrições são associadas às fontes de dados. As características associadas às fontes de dados são os relacionamentos, os tipos e as restrições desses dados. CORRETO As características associadas às fontes de dados são somente os relacionamentos entre os dados. Código da questão: 42570 Resolução comentada: considerando as inúmeras definições de Data Marts, na concepção de Rob e Coronel (2011), um Data Mart é um pequeno subconjunto de um DW, sobre um único assunto, que fornece suporte às decisões de um pequeno grupo de pessoas, que pode ser criado a partir de dados extraídos de um DW maior, com o objetivo específico de dar suporte a acessos mais rápido para determinado grupo ou função. A definição apresentada na alternativa a) refere-se ao conceito de Online Transaction Processing (OLTP – Processamento de Transações em Tempo Real). A definição apresentada na alternativa “Um Data Mart é um ambiente de processamento analítico...” refere-se ao conceito de Online Analytical Pocessing (OLAP – Processamento Analítico On-line. A definição apresentada na alternativa “Um Data Mart refere-se ao processo de explorar...” refere-se ao conceito de Data Mining. A definição apresentada na alternativa e) refere-se a uma parte do processo de funcionamento de um ambiente de Data Warehouse. Resolução comentada: Toda fonte de dados que será armazenada e acessada em um banco de dados deve manter a integridade do conteúdo. A exemplo, como um dado de número de RG, deve estar relacionado à pessoa a qual pertence esse documento, o dado precisa ter consistência quanto ao tipo, se numérico ou texto, para viabilizar cálculos ou buscas, e as restrições, dado em determinado campo não pode ser nulo. Arquivos e Links