Baixe o app para aproveitar ainda mais
Prévia do material em texto
Modelagem e arquitetura do DW (Data Warehouse) Professor(a): Marise de Barros Miranda Gomes (Doutorado) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! A modelagem multidimensional representa uma abstração dos dados armazenados, permitindo a visualização de grande quantidade de dados, por meio de consultas dinâmicas de ferramentas Online Analytical Processing (OLAP – Processamento Analítico On-line) que exibem as informações no formato de um cubo. Assinale a alternativa correta que indica os elementos básicos da modelagem multidimensional: Alternativas: Tabelas normalizadas e tabelas não-normalizadas. Tabela de dados e tabelas de consultas. Tabela de dados e tabelas de Dimensões Tabela de Fatos e tabelas de Dimensões. CORRETO Tabela de Fatos e tabelas de consultas. Código da questão: 42590 As ferramentas que apresentam características OLAP passaram a ser referenciadas como ferramentas OLAP. As ferramentas OLAP podem ser classificadas de acordo com a estratégia de armazenamento, sendo chamadas de OLAP Multidimensional (MOLAP), OLAP Relacional (ROLAP), OLAP Híbrido e OLAP Web. Assinale a alternativa correta que descreve as características das ferramentas do tipo MOLAP. Alternativas: O MOLAP refere-se à utilização da ferramenta OLAP em ambiente remoto, disparando consultas via um navegador web para o servidor que, por sua vez, retorna o cubo processado para análise do usuário. O MOLAP refere-se à utilização de banco de dados com características multidimensionais, permitindo operações que ocorrem quando o usuário navega pelas informações contidas entre dimensões de esquemas diferentes, acessados remotamente. O MOLAP refere-se à abordagem de uso combinado de um banco de dados relacional com um banco de dados orientado a objetos, onde as estruturas relacionais são utilizadas para os dados com maior granularidade e as estruturas orientadas a objetos são utilizadas para dados com menor granularidade. Resolução comentada: a modelagem multidimensional representa uma abstração dos dados armazenados, consistindo em um modelo composto por tabelas de Fatos e de Dimensões que proporcionam uma visão multidimensional de grande quantidade de dados. Fatos: é uma coleção de itens de dados, composta de dados de medidas, representando uma transação ou um evento de negócio. Um fato é representado por valores numéricos em um esquema, e implementado em tabelas denominadas tabelas de Fatos. Dimensões: são os elementos que participam de um fato, ou seja, são as possíveis formas de visualizar os dados de forma descritiva e classificatória, determinando o contexto de um assunto de negócio. Os elementos que representam uma dimensão são especificados em um esquema e implementados em tabelas denominadas de tabelas de Dimensões. 3) 4) O MOLAP refere-se à utilização de banco de dados com características multidimensionais, permitindo a navegação com níveis de detalhamento em tempo real, a partir da combinação das dimensões do cubo, proporcionando análises sofisticadas com ótimo desempenho. CORRETO O MOLAP refere-se à utilização de banco de dados relacional para implementar soluções OLAP, permitindo análise multidimensional dos dados que estão armazenados em uma base de dados relacional, sendo feito todo o processamento no servidor da base de dados e depois gerados os comandos SQL e as tabelas temporárias. Código da questão: 42604 Segundo Rob e Coronel (2011), a característica mais marcante das modernas ferramentas OLAP é a capacidade de análise multidimensional. Os dados são processados e visualizados em uma estrutura multidimensional, sendo especialmente atrativos para os tomadores de decisões de negócios, sendo que, enquanto o DW mantém dados de suporte, a decisões integrados, orientados por assunto, variáveis no tempo e não voláteis, o sistema OLAP fornece o front end por meio do qual os usuários finais acessam e analisam esses dados. (ROB, P.; CORONEL, C. Sistemas de banco de dados: projeto, implementação e administração. 8. ed. São Paulo: Cengage Learning, 2011). Sobre os critérios que uma ferramenta OLAP deve ter, julgue os itens a seguir: I. Dimensionalidade genérica: a ferramenta deve proporcionar condições ao usuário para executar manipulações ou cálculos entre as dimensões. II. Manipulação de matriz esparsa dinâmica: para qualquer matriz esparsa de dados, existe um e somente um esquema físico, o qual provê a máxima eficiência e operacionalidade. III. Flexibilidade nas consultas: a análise e a apresentação dos dados tornam-se mais simples quando linhas, colunas e células, que vão ser comparadas visualmente, são organizados por agrupamentos lógicos. IV. Dimensões e níveis de agregação limitados: um modelo analítico comum deve conter uma matriz com dimensões de dados definidas entre quatro a cinco dimensões. Estão corretos os itens: Alternativas: I – II – III – IV. II – III. I – II. I – II – III. CORRETO III – IV. Código da questão: 42607 As informações assumem o papel do principal patrimônio ativo de uma organização. Assim, tornar as informações corporativas acessíveis para entendimento e utilização das áreas estratégicas das organizações é um fator fundamental para a tomada de decisão Resolução comentada: O MOLAP refere-se à utilização de banco de dados com características multidimensionais, permitindo a navegação com níveis de detalhamento em tempo real, a partir da combinação das dimensões do cubo, proporcionando análises sofisticadas com ótimo desempenho. Segundo Machado (2013), em um banco de dados multidimensional, os cruzamentos de valores são realizados automaticamente, agilizando a visualização multidimensional das informações sob o ponto de vista de todas as dimensões. A forma de acesso e de agregação dos dados faz com que esta ferramenta tenha um excelente desempenho. Resolução comentada: o item IV está errado, porque as dimensões e níveis de agregação são ilimitados: um modelo analítico comum pode conter de quinze a vinte dimensões de dados. 5) assertiva. As ferramentas Online Analytical Processing (OLAP) surgiram com os sistemas de apoio à decisão para viabilização e extração eficaz de informações de um ambiente de Data Warehouse (DW). Sobre as características das ferramentas OLAP, julgue os itens a seguir: I. Os dados são processados e visualizados em uma estrutura multidimensional. II. Estrutura logicamente dados multidimensionais na forma de um cubo. III. Efetua operações de manipulação de dados individuais, por meio dos comandos de inserção, atualização e exclusão. IV. Proporciona respostas rápidas e consistentes às consultas interativas executadas pelos usuários. Estão corretos os itens: Alternativas: II – III. I – II. I – II – IV. CORRETO I – II – III. III – IV. Código da questão: 42606 Para implementar projetos de Data Warehouse, são necessárias algumas considerações conceituais que permitem manter o foco nas referências analíticas como finalidade. Nesse sentido, analise as afirmações a seguir. I. DW é uma coleção orientada por assuntos, integrada, variante no tempo e não volátil. II. Os resultados do DW servem para apoiar o processo de tomada de decisão das organizações. III. DW é a cópia específica de tabelas do banco analítico para consultas e análises, criando visões funcionais. IV. A construção de um DW depende fundamentalmente de arquitetura. V. DW é uma arquitetura e não uma tecnologia. São verdadeiras: Alternativas: I – IV – V. II – III – V. I – II – IV – V. CORRETO I – II – III. I – IV. Resolução comentada: o item III está errado, porque os sistemas transacionais, Online Transaction Processing (OLTP – Processamento de Transações On-line, que efetuam operaçõesde manipulação de dados individuais, por meio dos comandos de inserção, atualização e exclusão. Resolução comentada: na conceituação dada por Inmonn (2005), DW é uma coleção orientada por assuntos, integrada, variante no tempo e não volátil, para apoiar o processo de tomada de decisão das organizações. Na definição de Kimball (2002), DW é a cópia específica de tabelas do banco transacional para consultas e análises, criando visões funcionais. Um projeto de construção de um DW depende, fundamentalmente, de arquitetura. 6) 7) Código da questão: 42577 O modelo multidimensional permite encontrar respostas de comportamento do desempenho dos negócios, por meio dos aspectos a seguir. I. Realizar simulações de cenários. II. Embasar análises estratégicas e alocar decisões. III. Podem ser realizadas abstrações de localidade (onde). IV. Permite resumir a temporalidade (quando). V. Não associa responsabilidades (quem) e classificações (o quê). São verdadeiras: Alternativas: I – II – III. I - II – III – IV. CORRETO I – III, somente. I – IV – V. II – III – V. Código da questão: 42587 Na concepção de Poe, Klauer, Brobst (1998), o Esquema Estrela possui uma estrutura simples com poucas tabelas e associações bem definidas, aproximando do contexto do modelo de negócio e facilitando a geração de consultas complexas de forma intuitiva e interativa, por meio dos vários parâmetros de consultas. Neste esquema, o assunto principal fica ao centro do esquema, representada pela tabela de Fatos, e suas características, as dimensões, representadas por tabelas de Dimensões, ficam posicionadas ao seu redor, permitindo a leitura e compreensão até mesmo de usuários finais que não estão adaptados com estruturas de banco de dados. (POE V.; KLAUER P.; BROBST S. Building a data warehouse for decision support. New Jersey: Prentice Hall PTR, 1998). Sobre as principais vantagens do Esquema Estrela, julgue os itens a seguir, indicando “V” para o item verdadeiro e “F” para o item falso: 1. ( ) A estrutura padronizada e regular do esquema é bastante simples, faciliatando a apresentação, o desempenho das consultas geradas e a compreensão até mesmo de usuários finais que não estão adaptados com estruturas de banco de dados. 2. ( ) As consultas ocorrem inicialmente nas tabelas de Dimensões e depois nas tabelas de Fatos, assegurando a consistência dos dados por meio de uma estrutura de chaves que garante o acesso aos dados com melhor desempenho. 3. ( ) A aplicação da técnica de normalização nas tabelas de Dimensões aumenta o número de dimensões, consequentemente diminuindo a performance das consultas dinâmicas. 4. ( ) A facilidade e a flexibilidade da inclusão de novos elementos de dados, a partir do relacionamento da tabela de Fatos com uma nova tabela de Dimensão, bem como o acréscimo de novas colunas às mesmas tabelas de Dimensões. 5. O suporte para transformar e proceder à carga dos dados, para recuperar, analisar e extrair os dados dos sistemas transacionais. Assinale a alternativa correta: Por isso, Machado (2010) deixa claro que “DW é uma arquitetura e não uma tecnologia”. A tecnologia sim ajuda a construir, operar e monitorar um projeto DW implantado. Resolução comentada: a abordagem do modelo multidimensional permite que respostas sobre o comportamento do desempenho do negócio sejam encontradas por meio de simulações de cenários para embasar as análises estratégicas e alocar decisões. Esta abordagem remete à necessidade de construir um modelo dimensional, em que são feitas perguntas sob abstrações de localidade (onde), temporalidade (quando), responsabilidade (quem) e classificação (o quê). 8) Alternativas: V – V – F – V – F. CORRETO V – V – V – V – V. F – F – V – F – V. F – F – F – F – F. F – V – F – V – F. Código da questão: 42602 Ferramentas de mineração de dados (Data Mining) são integradas aos ambientes de Data Warehouse para gerarem informações em conhecimento potencialmente útil. Sua função principal é a extração de grande volume de dados com o objetivo de encontrarem padrões e correlações significativas, estimarem tendências e novas perspectivas que agreguem, satisfatoriamente, com contexto do negócio explorado. Sobre as técnicas de Data Mining, julgue os itens a seguir: I. Árvores de Decisão (Decision Tree): caracterizam-se pelo método de classificação de dados, sendo conveniente adotar essa técnica quando o objetivo é gerar regras que possam ser entendidas, explicadas e traduzidas para a linguagem natural. II. Redes Neurais Artificiais: caracterizam-se em resolver problemas complexos e construir representações internas de modelos ou padrões detectados nos dados que envolvem o desenvolvimento de estruturas matemáticas com habilidade de aprendizado, por meio de experiências de operações da própria máquina. III. Predição com Séries Temporais: caracteriza-se em identificar a existência de diferentes grupos dentro de um conjunto de dados e, constatada está existência, agrupa-se os elementos estudados de acordo com suas similaridades, podendo refiná-los e definir a priorização entre eles. IV. Análise de Regressão: utiliza-se algoritmos genéticos para encontrar soluções de problemas dinâmicos e complexos que envolvem centenas ou milhares de variáveis e/ou fórmulas para identificar as descobertas, gerando possíveis soluções simultaneamente. Estão corretos os itens: Alternativas: III – IV. I – II. CORRETO I – II – III – IV. I – II – III. II – III. Código da questão: 42614 Resolução comentada: o item 3 é falso, porque é o Esquema Floco de Neve que separa as hierarquias das dimensões em tabelas diferentes, especificando variantes da dimensão principal. Considera-se que a aplicação da técnica de normalização nas tabelas de Dimensões aumenta consideravelmente o número de dimensões e, consequentemente, diminuindo a performance das consultas dinâmicas. O item 5 é falso, porque o processo de transformar e proceder à carga dos dados, para recuperar, analisar e extrair os dados dos sistemas transacionais refere-se a uma etapa do processo de criação de um Data Warehouse, conhecido como ETL. Resolução comentada: o Item III está errado porque refere-se a técnica de Análise de Aglomerações (Cluster Analysis): caracteriza-se em identificar a existência de diferentes grupos dentro de um conjunto de dados e, constatada esta existência, agrupa-se os elementos estudados de acordo com suas similaridades, podendo refiná-los e definir a priorização entre eles. O item IV está errado, porque refere-se à técnica de Algoritmos Genéticos: utiliza-se algoritmos genéticos para encontrar soluções de problemas dinâmicos e complexos que envolvem centenas ou milhares de variáveis e/ou fórmulas para identificar as descobertas, gerando possíveis soluções simultaneamente. 9) 10) A mineração de dados é comumente classificada pela sua capacidade em realizar tarefas para diferentes domínios. A literatura indica que não existe um consenso de denominação quanto à classificação, funcionalidades, tarefas, métodos ou técnicas de mineração de dados. Contudo, Fayyad et al. (1996) apresentam alguns métodos de mineração de dados que têm como objetivo a predição ou descrição dos resultados: (FAYYAD, U.M. et al. Advances in knowledge discovery and data mining. California: AAAI Press, 1996). Sobre as técnicas de Data Mining, julgue os itens a seguir, indicando “V” para o item verdadeiro e “F” para o item falso: 1. ( ) Regressão: usa-se para associar ou classificar um item a uma ou a várias categorias pré-definidas, derivando uma regra que possa ser usada para classificar uma observação, referente a um conjunto de dados identificados que são categorizados por um assunto. 2. ( ) Análise de Séries Temporais: refere-se a tarefa similar à classificação, porém é usada quando os dados são identificados por predição de valores numéricos, considerados variáveis independentes ou exploratórias, e não pela categorização dos itens analisados, sendo possível verificar o eventual relacionamento funcional que possa existirentre duas ou mais variáveis quantitativas. 3. ( ) Agrupamentos (Clusters): refere-se à tarefa de segmentar um conjunto de dados em grupos diferentes, cujos itens são semelhantes, ou seja, subdivide o conjunto de dados em um conjunto menor, sendo similar no comportamento dos atributos de segmentação, descobrindo grupos diferentes entre o conjunto de dados selecionado. 4. ( ) Sumarização: refere-se à tarefa de descrever padrões e tendências que são reveladas por subconjuntos de dados compactados, a partir de um subconjunto de dados com características similares, demostrando as relações funcionais entre as variáveis definidas para a análise exploratória do subconjunto de dados 5. ( ) Análise de Séries Temporais: refere-se a tarefa similar à regra de associação com objetivo de aplicar algum tipo de padrão (tendências, variações sazonais, variações cíclicas e variações irregulares) no conjunto de dados, para determinar que tipos de sequências podem ocorrer em um determinado período. Assinale a alternativa que indica a sequência correta: Alternativas: V – V – V – V – V F – F – F – F – F. F – V – F – V – F. F – F – V – V – V. CORRETO V – V – F – V – F. Código da questão: 42615 Em um banco de dados relacional, a granularidade é baixa, mas é muito importante, o que significa que ela é inversamente proporcional ao detalhe do dado armazenado lá. Para se obter granularidade alta, a importância do detalhe não pode ser considerada. Marque a alternativa que relaciona a granularidade em diferentes níveis e a disponibilidade de detalhamento dos dados. Alternativas: Resolução comentada: o Item 1 é falso, porque refere-se ao método classificação usado para associar ou classificar um item a uma ou a várias categorias pré-definidas, derivando uma regra que possa ser usada para classificar uma observação, referente a um conjunto de dados identificados que são categorizados por um assunto. O item 2 é falso, porque descreve o método de Regressão que se refere a tarefa similar à classificação, porém é usada quando os dados são identificados por predição de valores numéricos, considerados variáveis independentes ou exploratórias, e não pela categorização dos itens analisados, sendo possível verificar o eventual relacionamento funcional que possa existir entre duas ou mais variáveis quantitativas. Sumarização. CORRETO Entidade. Relacionamento. Tabela Fato. Dimensão. Código da questão: 42585 Resolução comentada: um DW tem níveis de granularidade elevados por conta da necessidade de sumarizações para refletir a realidade dos dados do negócio. As sumarizações são necessárias, pois refletem medidas resumidas ou condessadas, com alguma transformação dos dados originais. Sem essa técnica, seria impraticável obter respostas que refletem o comportamento de um conjunto de dados. Sumarizações podem ser somas, médias, medianas, quartis, etc. Arquivos e Links
Compartilhar