Prévia do material em texto
Modelagem e arquitetura do DW (Data Warehouse) Professor(a): Anderson da Silva Marcolino (Doutorado) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! Segundo Rob e Coronel (2011), a característica mais marcante das modernas ferramentas OLAP é a capacidade de análise multidimensional. Os dados são processados e visualizados em uma estrutura multidimensional, sendo especialmente atrativos para os tomadores de decisões de negócios, sendo que, enquanto o DW mantém dados de suporte, a decisões integrados, orientados por assunto, variáveis no tempo e não voláteis, o sistema OLAP fornece o front end por meio do qual os usuários finais acessam e analisam esses dados. (ROB, P.; CORONEL, C. Sistemas de banco de dados: projeto, implementação e administração. 8. ed. São Paulo: Cengage Learning, 2011). Sobre os critérios que uma ferramenta OLAP deve ter, julgue os itens a seguir: I. Dimensionalidade genérica: a ferramenta deve proporcionar condições ao usuário para executar manipulações ou cálculos entre as dimensões. II. Manipulação de matriz esparsa dinâmica: para qualquer matriz esparsa de dados, existe um e somente um esquema físico, o qual provê a máxima eficiência e operacionalidade. III. Flexibilidade nas consultas: a análise e a apresentação dos dados tornam-se mais simples quando linhas, colunas e células, que vão ser comparadas visualmente, são organizados por agrupamentos lógicos. IV. Dimensões e níveis de agregação limitados: um modelo analítico comum deve conter uma matriz com dimensões de dados definidas entre quatro a cinco dimensões. Estão corretos os itens: Alternativas: I – II. II – III. I – II – III – IV. I – II – III. CORRETO III – IV. Código da questão: 42607 A mineração de dados é comumente classificada pela sua capacidade em realizar tarefas para diferentes domínios. A literatura indica que não existe um consenso de denominação quanto à classificação, funcionalidades, tarefas, métodos ou técnicas de mineração de dados. Contudo, Fayyad et al. (1996) apresentam alguns métodos de mineração de dados que têm como objetivo a predição ou descrição dos resultados: (FAYYAD, U.M. et al. Advances in knowledge discovery and data mining. California: AAAI Press, 1996). Sobre as técnicas de Data Mining, julgue os itens a seguir, indicando “V” para o item verdadeiro e “F” para o item falso: 1. ( ) Regressão: usa-se para associar ou classificar um item a uma ou a várias categorias pré-definidas, derivando uma regra que possa ser usada para classificar uma observação, referente a um conjunto de dados identificados que são categorizados por um assunto. 2. ( ) Análise de Séries Temporais: refere-se a tarefa similar à classificação, porém é usada quando os dados são identificados por predição de valores numéricos, Resolução comentada: o item IV está errado, porque as dimensões e níveis de agregação são ilimitados: um modelo analítico comum pode conter de quinze a vinte dimensões de dados. 3) considerados variáveis independentes ou exploratórias, e não pela categorização dos itens analisados, sendo possível verificar o eventual relacionamento funcional que possa existir entre duas ou mais variáveis quantitativas. 3. ( ) Agrupamentos (Clusters): refere-se à tarefa de segmentar um conjunto de dados em grupos diferentes, cujos itens são semelhantes, ou seja, subdivide o conjunto de dados em um conjunto menor, sendo similar no comportamento dos atributos de segmentação, descobrindo grupos diferentes entre o conjunto de dados selecionado. 4. ( ) Sumarização: refere-se à tarefa de descrever padrões e tendências que são reveladas por subconjuntos de dados compactados, a partir de um subconjunto de dados com características similares, demostrando as relações funcionais entre as variáveis definidas para a análise exploratória do subconjunto de dados 5. ( ) Análise de Séries Temporais: refere-se a tarefa similar à regra de associação com objetivo de aplicar algum tipo de padrão (tendências, variações sazonais, variações cíclicas e variações irregulares) no conjunto de dados, para determinar que tipos de sequências podem ocorrer em um determinado período. Assinale a alternativa que indica a sequência correta: Alternativas: V – V – V – V – V V – V – F – V – F. F – F – V – V – V. CORRETO F – V – F – V – F. F – F – F – F – F. Código da questão: 42615 Ferramentas de mineração de dados (Data Mining) são utilizadas nos diferentes segmentos do mercado para sustentar e consolidar estratégias que auxiliem no processo de tomada de decisão, a partir da geração das informações em conhecimento potencialmente útil. Sobre o conceito de Data Mining, assinale a alternativa correta Alternativas: Refere-se à abordagem de uso combinado de banco de dados relacional com banco de dados orientado a objetos, onde as estruturas relacionais são utilizadas para os dados com maior granularidade e as estruturas orientadas a objetos são utilizadas para dados com menor granularidade. Refere-se à descrição de padrões e tendências que são reveladas por subconjuntos de dados compactados de diferentes bases de dados, a partir de um subconjunto de dados com características idênticas, demostrando as relações funcionais entre as variáveis definidas. Refere-se às atividades que analisam grande volume de dados, descobrem problemas e oportunidades ocultas em seus relacionamentos, formam modelos computacionais com base nessas descobertas e, então, utilizam esses modelos para prever o comportamento do negócio. CORRETO Resolução comentada: o Item 1 é falso, porque refere-se ao método classificação usado para associar ou classificar um item a uma ou a várias categorias pré-definidas, derivando uma regra que possa ser usada para classificar uma observação, referente a um conjunto de dados identificados que são categorizados por um assunto. O item 2 é falso, porque descreve o método de Regressão que se refere a tarefa similar à classificação, porém é usada quando os dados são identificados por predição de valores numéricos, considerados variáveis independentes ou exploratórias, e não pela categorização dos itens analisados, sendo possível verificar o eventual relacionamento funcional que possa existir entre duas ou mais variáveis quantitativas. 4) 5) Refere-se a um pequeno subconjunto de um Data Warehouse, sobre um único assunto, que fornece suporte às decisões para um grupo de pessoas, podendo ser criado a partir de dados extraídos de um DW maior, com o objetivo específico de dar suporte a acessos mais rápido para determinado grupo ou função. Refere-se à utilização de banco de dados com características multidimensionais, permitindo a navegação com níveis de detalhamento em tempo real, a partir da combinação das dimensões do cubo, proporcionando análises sofisticadas com ótimo desempenho. Código da questão: 42609 O DW tem uma composição que separa a carga de trabalho para análise da carga de trabalho para transações. No primeiro caso, permite a consolidação de diferentes fontes nessa carga de trabalho analítica. I. Um DW possui um conjunto característico personalizado, distintamente dos ambientes convencionais das organizações. PORQUE II. Há como replicar um DW de uma empresa para outra. Cada projeto de DW não é único em sua essência, mas no seu modo de operação e aplicação. Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas: Alternativas: A primeira asserção está correta e a segunda incorreta. CORRETO A primeira e a segunda asserções estão corretas, mas a segunda não justifica a primeira. A primeira e a segunda asserções estão incorretas. A primeira asserção está incorreta e a segunda está correta. A primeiraasserção está incorreta e a segunda justifica a primeira. Código da questão: 42579 A decisão de optar pelo Esquema Estrela ou pelo Esquema Floco de Neve deve ser tomada levando-se em consideração, principalmente, pela complexidade da solução e o volume de dados a ser manipulado. Sobre as características dos Esquemas Estrela e Floco de Neve, julgue os itens a seguir: I. O Esquema Estrela possui uma estrutura razoavelmente simples, com poucas tabelas e relacionamentos bem definidos, aproximando bastante do modelo de negócio. II. O Esquema Floco de Neve é uma variação do Esquema Estrela, em que as tabelas dimensões de um Esquema Estrela são organizadas em uma hierarquia ao normalizá- las. III. O Esquema Estrela é composto por uma tabela dominante no centro, chamada de Fatos, relacionada com tabelas auxiliares, chamadas de tabelas de Dimensões, sendo Resolução comentada: Segundo Rob e Coronel (2011, p. 580), a mineração de dados refere-se às atividades que analisam os dados, descobrem problemas e oportunidades ocultas em seus relacionamentos, formam modelos computacionais com base nessas descobertas e, então, utilizam esses modelos para prever o comportamento do negócio – exigindo a mínima intervenção do usuário final. Resolução comentada: DW tem uma composição que separa a carga de trabalho para sua análise para transações. No primeiro caso, permite a consolidação de diferentes fontes nessa carga de trabalho analítica. Um DW possui um conjunto característico personalizado, distintamente dos ambientes convencionais das organizações. Por este motivo, não há como replicar um DW de uma empresa para outra. Cada projeto de DW não na essência mas no seu modo de operação e aplicação. 6) que a tabela de Fatos é relacionada com cada tabela de Dimensão em um relacionamento “muitos para um”. IV. O Esquema Floco de Neve separa as hierarquias das dimensões em tabelas normalizadas, aumentando consideravelmente o número de dimensões, consequentemente aumenta-se a performance das consultas dinâmicas. Estão corretos os itens: Alternativas: II – III. II – III – IV. I – II. I – II – III – IV. I – II – III. CORRETO Código da questão: 42593 O banco de dados analítico é diferente do banco de dados operacional, transacional ou OLTP (Online Transaction Processing), usado para processar as transações. Embora os bancos de dados transacionais possam ser usados para suportar o armazenamento de dados e as aplicações de BI, não se recomenda seu uso por questões de integridade e escalabilidade. I. O banco de dados convencional deve ser preservado, e o banco de dados analíticos deve estar em outro schema. PORQUE II. Um banco de dados analítico tem uma estrutura baseada em coluna, tornando os cálculos individuais muito rápidos. Já os bancos de dados transacionais dependem de armazenamento de dados baseado em linha, impróprio para operar com grandes volumes de dados. Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas: Alternativas: A primeira e a segunda asserções estão corretas, mas a segunda não tem relação com a primeira. A primeira asserção está incorreta e a segunda está correta A primeira asserção está correta e a segunda está incorreta. A primeira e a segunda asserções estão incorretas. A primeira e a segunda asserções estão corretas, e a segunda complementa a primeira. CORRETO Código da questão: 50534 Resolução comentada: Os itens corretos são I, II e III. O item IV está errado, porque o Esquema Floco de Neve separa as hierarquias das dimensões em tabelas normalizadas, aumentando consideravelmente o número de dimensões, e diminuindo consequentemente a performance das consultas dinâmicas. Resolução comentada: Os bancos de dados transacionais são bancos baseados em armazenamento por linha, o que impossibilita o desempenho quando submetido a cálculos em processos analíticos. Isto deteriora o desempenho para a finalidade base ao qual foi projetado, que é armazenar, acessar, incluir e excluir os registros ali depositados. Portanto, para projetos que envolvam cálculos analíticos outro banco com processo de armazenamento por coluna é mais eficiente, como os bancos de dados analíticos, pois os registros ficam livres para serem submetidos aos cálculos volumétricos, essenciais para BI e Big Data. 7) 8) Ferramentas de mineração de dados (Data Mining) são integradas aos ambientes de Data Warehouse para gerarem informações em conhecimento potencialmente útil. Sua função principal é a extração de grande volume de dados com o objetivo de encontrarem padrões e correlações significativas, estimarem tendências e novas perspectivas que agreguem, satisfatoriamente, com contexto do negócio explorado. Sobre as técnicas de Data Mining, julgue os itens a seguir: I. Árvores de Decisão (Decision Tree): caracterizam-se pelo método de classificação de dados, sendo conveniente adotar essa técnica quando o objetivo é gerar regras que possam ser entendidas, explicadas e traduzidas para a linguagem natural. II. Redes Neurais Artificiais: caracterizam-se em resolver problemas complexos e construir representações internas de modelos ou padrões detectados nos dados que envolvem o desenvolvimento de estruturas matemáticas com habilidade de aprendizado, por meio de experiências de operações da própria máquina. III. Predição com Séries Temporais: caracteriza-se em identificar a existência de diferentes grupos dentro de um conjunto de dados e, constatada está existência, agrupa-se os elementos estudados de acordo com suas similaridades, podendo refiná-los e definir a priorização entre eles. IV. Análise de Regressão: utiliza-se algoritmos genéticos para encontrar soluções de problemas dinâmicos e complexos que envolvem centenas ou milhares de variáveis e/ou fórmulas para identificar as descobertas, gerando possíveis soluções simultaneamente. Estão corretos os itens: Alternativas: I – II – III – IV. II – III. I – II – III. I – II. CORRETO III – IV. Código da questão: 42614 A abordagem analítica requer uma arquitetura de dados especializada, complemente a sentença a seguir. As necessidades analíticas sobre os dados provocaram mudanças na arquitetura da base de dados. Os _____________________ são os dados brutos. Os dados resumidos, agregados, sumarizados ou calculados são os dados ____________. Assinale a alternativa que completa adequadamente as lacunas acima: Alternativas: Segmentados; Matemáticos. Dados das operações; Segmentados. Dados das operações; Derivados. CORRETO Dados das operações; Amostrados. Segmentados; Transacionais Resolução comentada: o Item III está errado porque refere-se a técnica de Análise de Aglomerações (Cluster Analysis): caracteriza-se em identificar a existência de diferentes grupos dentro de um conjunto de dados e, constatada esta existência, agrupa-se os elementos estudados de acordo com suas similaridades, podendo refiná-los e definir a priorização entre eles. O item IV está errado, porque refere-se à técnica de Algoritmos Genéticos: utiliza-se algoritmos genéticos para encontrar soluções de problemas dinâmicos e complexos que envolvem centenas ou milhares de variáveis e/ou fórmulas para identificar as descobertas, gerando possíveis soluções simultaneamente. Resolução comentada: Inmon (1997) destaca a mudança na abordagem em relação aos dados brutos, que no início dos registros de dados não havia a experiência que pudesse prever arranjos diferentes para suportar análises. O objetivo de arquiteturas básicas para banco de 9) 10) Código da questão: 42576 Em um processo de tomada de decisões, a disponibilidade e o fácil acesso às informações organizacionais contribuem para uma decisão de sucesso. Assim, a extração eficaz de informações de um ambiente de Data Warehouse (DW) para gerar conhecimento é proporcionada por ferramentas que disponibilizam recursos avançados para suportar operações sobre o conjunto de dados multidimensional. Pela maior popularidade do uso das ferramentas de acesso a um DW, destaca-se as ferramentas __________________________.Assinale a alternativa correta que indica o termo que preenche a lacuna acima: Alternativas: Staging Area. Operational Data Store (ODS). Business Inteligence (BI). Online Transaction Processing (OLTP). Online Analytical Processing (OLAP). CORRETO Código da questão: 42605 O modelo de relacionamento entre _______________ captura as relações entre elas do mundo real. É usado para projetar um _____________conceitual. Auxilia nas visões dos relacionamentos entre as tabelas e também na construção de novas visões em um DW. Assinale a alternativa que completa adequadamente as lacunas acima: Alternativas: Entidades; Banco de dados. CORRETO Tabelas; SGBD. Entidades; SGBD. Fontes de dados; Banco de dados. Fontes de dados; Atributos. Código da questão: 42571 dados eram armazenar os registros, sem a robustez necessária para suportar necessidades futuras. As necessidades analíticas sobre os dados provocaram mudanças na arquitetura, surgindo demandas provenientes de dados derivados. Os dados do dia a dia, das operações, in natura, são os dados brutos. Os dados resumidos, agregados, sumarizados ou calculados são os dados derivados. Resolução comentada: Machado (2013) descreve que as ferramentas OLAP surgiram com os sistemas de apoio à decisão para fazerem a consulta e análise dos dados dos DW, sendo às aplicações às quais os usuários têm acesso para extrair os dados de suas bases e construir os relatórios com recursos que atendem os gestores. Resolução comentada: O modelo de relacionamento entre entidades, um modelo MER, captura as relações entre essas entidades, refletindo o mundo real. O MER é usado para projetar um banco de dados de maneira conceitual, o que contribui para as visões dos relacionamentos entre as tabelas e também na construção de novas visões em um DW. Arquivos e Links