Baixe o app para aproveitar ainda mais
Prévia do material em texto
Questões comentadas Sistemas de Informações Gerenciais para concursos Handbook de Questões de TI Comentadas para Concursos Volume questões de TI Prefácio Atualmente estamos inseridos num contexto de extrema mutabilidade, onde a concorrência se torna cada vez mais acirrada. O mercado é global e mais sensível às mudanças e o consumidor tornar-se cada vez mais exigente em relação ao custo e à qualidade do produto e dos serviços associados. Devido à competição exaltada e à necessidade de cultivar lucros, as empresas estão transfor- mando algumas das Tecnologias de Informação em ferramentas estratégicas para obterem su- cesso no gerenciamento dos seus negócios. No cenário atual, onde os gerentes necessitam tomar decisões rápidas em resposta às adversida- des que ocorrem freqüentemente em seus negócios, faz-se necessário um sistema de informação que dê suporte às suas decisões, levantando informações precisas, confiáveis, oportunas e rele- vantes, apresentando-as em um formato facilmente compreensível. Dentro desse cenário, a Tecnologia de Informação assume um papel de grande importância ao permitir de forma rápida e simples a manipulação das informações necessárias ao gerenciamento integrado dos negócios. O Data Warehouse, em especial, oferece os fundamentos e os recursos necessários à tomada de decisão, fornecendo dados integrados e históricos a todos os níveis da organização. Como era de se esperar, os concursos de TI, sempre atentos ao cenário atual, cobram com frequência tal assunto. Este volume tem por objetivo fornecer ao candidato uma visão dos principais recursos em- pregados na extração de informação útil à tomada de decisão. Para tanto, o Grupo Handbook de TI selecionou uma série de questões comentadas em detalhes para você. Bons estudos, Grupo Handbook de TI Página 1 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI Direitos Autorais Este material é registrado no Escritório de Direitos Autorais (EDA) da Fundação Biblioteca Nacional. Todos os direitos autorais referentes a esta obra são reservados exclusivamente aos seus autores. Os autores deste material não proíbem seu compartilhamento entre amigos e colegas próxi- mos de estudo. Contudo, a reprodução, parcial ou integral, e a disseminação deste material de forma indiscriminada através de qualquer meio, inclusive na Internet, extrapolam os limites da colaboração. Essa prática desincentiva o lançamento de novos produtos e enfraquece a comuni- dade concurseira Handbook de TI. A série Handbook de Questões de TI Comentadas para Concursos � Além do Gabarito é uma produção independente e contamos com você para mantê-la sempre viva. Grupo Handbook de TI Página 2 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI Canais de Comunicação O Grupo Handbook de TI disponibiliza diversos canais de comunicação para os concurseiros de TI. Loja Handbook de TI Acesse a nossa loja virtual em http://www.handbookdeti.com.br Serviço de Atendimento Comunique-se diretamente conosco através do e-mail faleconosco@handbookdeti.com.br Twitter do Handbook de TI Acompanhe de perto promoções e lançamentos de produtos pelo nosso Twitter http://twitter. com/handbookdeti Página 3 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 1. Assuntos relacionados: Banco de Dados, Banca: CESGRANRIO Instituição: Petrobras Cargo: Analista de Sistemas - Eng. de Software Ano: 2008 Questão: 27 Há 3 cidades com 5 clientes cada, 2 cidades com 4 clientes cada e 10 produtos cadastrados no banco de dados. Se um cliente não compra o mesmo produto duas vezes no mesmo dia e nem em dois dias seguidos, a quantidade máxima de registros na tabela VENDA, para clientes de uma determinada cidade, em um intervalo qualquer de 30 dias, será (a). 300 (b). 750 (c). 1500 (d). 3000 (e). 4500 Solução: Note que um cliente não poderá comprar o mesmo produto por mais de 15 vezes em um intervalo de 30 dias, já que o intervalo mínimo entre as compras de um mesmo produto será de 2 dias. No caso máximo, qualquer cliente poderá realizar a compra de todos os 10 produtos, mas não poderá comprar um mesmo produto por mais de 15 vezes dentro do intervalo de 30 dias. Ou seja, um cliente poderá representar, no máximo, 150 (15x10) registros na tabela VENDA. As cidades que possuem mais clientes, possuem cinco clientes. Logo, no máximo, essas cidades poderão conter 750 (5x15x10) registros na tabela VENDA. Concluímos que a res- posta correta é a alternativa B. A cidade que possui quatro clientes, poderá, no máximo, ser associada a 600 registros da tabela VENDA. Podemos também calcular a quantidade máxima de registros na tabela VENDA da seguinte maneira: 3x5x15x10 + 2x4x15x10 = 3450. Tal cálculo seria interes- sante se quiséssemos, por exemplo, dimensionar o tamanho máximo do banco de dados. Página 4 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 2. Assuntos relacionados: Sistemas de Informações Gerenciais, Banca: ESAF Instituição: Secretaria do Tesouro Nacional (STN) Cargo: Analista de Finanças e Controle - Tecnologia da Informação / Desenvolvimento de Sistemas de Informação Ano: 2008 Questão: 28 O sistema de informação utilizado pelo Governo Federal para controlar e acompanhar a execução orçamentária, patrimonial e financeira é denominado (a). SIGPLAN. (b). SISG. (c). SIAFI. (d). SIASG. (e). SIAPE. Solução: Para identificação da resposta correta é necessário conhecer o significado das siglas listadas. Assim, além de dizer a razão pela qual uma resposta é correta ou incorreta, o significado das siglas e o propósito do sistema por elas representados serão apresentados. (A) INCORRETA SIGPLAN 1 é o sistema de informações gerenciais e de planejamento e contribui na ela- boração, monitoramento, avaliação e revisão dos programas do Plano Plurianual. Ele foi concebido para apoiar a execução dos programas governamentais e é utilizado pelos órgãos setoriais, presidência da república, casa civil, ministérios e outras entidades. Seu objetivo é o de servir como meio de comunicação e integraçao entre as pessoas respon- sáveis em executar e monitorar os programas governamentais, fornecendo as informações necessárias e em tempo. Algumas de suas características mais importantes são: • Acompanhamento da execução física em �tempo real�: por ele a administração pública federal pode realizar um efetivo gerenciamento das ações governamentais, em particular no que diz respeito ao desempenho físico; • Gestão de restrições: possibilita ao gerente a antecipação e sistematização das restri- ções, o que facilita a mobilização e a busca por soluções por parte do governo e seus parceiros; • Integração de informações: sua base de dados contém informações sobre a execução das ações, seu gerenciamento e monitoramento, e informações orçamentárias e financeiras sobre cada programa, sendo composta de dados provenientes de diversas fontes. 1 Manual de Operação do SIGPlan, disponível em http://www.sigplan.gov.br/arquivos/Download/ManualSigplan.pdf e acessado em 25/05/2010. Página 5 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI (B) INCORRETA O sistema de serviços gerais - SISG 2 não é um sistema de informação, mas o sistema que organiza as atividades de administração de edifícios públicos e imóveis residenciais, material, transporte, comunicações administrativas e documentação. Além de ser integrado pelos órgãos e unidades da Administração Federal incumbidoses- pecificamente de executar as atividades relacionados ao sistema, os ministérios militares e o estado-maior das forças armadas poderão aplicar, no que couber, as normas pertinentes ao SISG. O SISG compreende: I. o órgão central, responsável pela formulação de diretrizes, orientação, planejamento e coordenação, supervisão e controle dos assuntos relativos a Serviços Gerais; II. os órgãos setoriais, unidades incumbidas especificamente de atividades concernentes ao SISG, nos Ministérios e órgãos integrantes da Presidência da República; III. os órgãos seccionais, unidades incumbidas da execução das atividades do SISG, nas autarquias e fundações públicas. (C) CORRETA O SIAFI 3 , ou sistema de integrado de administração financeira, é um sistema contábil que tem por finalidade realizar todo o processamento, controle e execução financeira, patrimonial e contábil do governo federal brasileiro. Ele é gerido pela Secretaria do Tesouro Nacional, STN. Ele foi projetado com o intuito de resolver os problemas de natureza administrativa que dificultavam a adequada gestão dos recursos públicos e a preparação do orçamento unificado brasileiro. Assim, com a criação da STN, em 1986, a STN, em conjunto com o SERPRO, desenvolveu tal sistema. Após a criação do sistema, o governo federal tem uma conta única para gerir, de onde todas as saídas de dinheiro ocorrem com o registro de sua aplicação e do servidor público que a efetuou. Seus principais objetivos são o de: • prover mecanismos adequados ao controle diário da execução orçamentária, financeira e patrimonial aos órgãos da Administração Pública; • fornecer meios para agilizar a programação financeira, otimizando a utilização dos recursos do Tesouro Nacional, através da unificação dos recursos de caixa do Governo Federal; • permitir que a contabilidade pública seja fonte segura e tempestiva de informações gerenciais destinadas a todos os níveis da Administração Pública Federal; • padronizar métodos e rotinas de trabalho relativas à gestão dos recursos públicos, sem implicar rigidez ou restrição a essa atividade, uma vez que ele permanece sob total controle do ordenador de despesa de cada unidade gestora; 2 Decreto No 1.094, de 23 de março de 1994. Disponível em http://www.planalto.gov.br/ccivil_03/Decreto/Antigos/D1094.htm e acessado em 25/05/2010. 3 Conheça o SIAFI - A História do SIAFI. Disponível em http://www.tesouro.fazenda.gov.br/siafi/index_conheca_siafi.asp e acessado em 25/05/2010. Página 6 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI • permitir o registro contábil dos balancetes dos estados e municípios e de suas supervi- sionadas; • permitir o controle da dívida interna e externa, bem como o das transferências negoci- adas; • integrar e compatibilizar as informações no âmbito do Governo Federal; • permitir o acompanhamento e a avaliação do uso dos recursos públicos; • proporcionar a transparência dos gastos do Governo Federal. (D) INCORRETA O Sistema Integrado de Administração de Serviços Gerais - SIASG 4 , é um conjunto infor- matizado de ferramentas para operacionalizar internamente o funcionamento sistêmico das atividades inerentes ao Sistema de Serviços Gerais - SISG, quais sejam: gestão de materiais, edificações públicas, veículos oficiais, comunicações administrativas, licitações e contratos, do qual o Ministério do Planejamento, Orçamento e Gestão é órgão central normativo. (E) INCORRETA O Sistema Integrado de Administração de Recursos Humanos, SIAPE 5 , é um sistema on- line, de abrangência nacional, que constitui-se, hoje, na principal ferramenta para gestão do pessoal civil do governo federal. Como ele é realizado mensalmente o pagamento de cerca de um milhão e trezentos mil servidores ativos, aposentados e pensionistas em 214 órgãos da administração pública federal direta, instituições federais de ensino, ex-territórios, autar- quias, fundações e empresas públicas. Para acesso aos dados do SIAPE, o Ministério do Planejamento, Orçamento e Gestão ide- alizou o SIAPEnet, aplicativo que possibilita ao servidor efetuar consultas, atualização e impressão de dados extraídos diretamente do SIAPE. 4 O que é SIASG. Disponível em http://www.comprasnet.gov.br/ajuda/siasg/que_e_siasg.stm e acessado em 25/05/2010. 5 O que é o SIAPEnet. Disponível em http://www.siapenet.gov.br/oque.htm e acessado em 25/05/2010. Página 7 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 3. Assuntos relacionados: Data Mining, Text Mining, Business Inteligence, Banca: FCC Instituição: TCE/CE Cargo: Analista de Controle Externo - Auditoria de Tecnologia da Informação Ano: 2008 Questão: 74 É comum um determinado órgão público receber reclamações de pessoas sobre o atendimento do serviço. As reclamações recebidas são digitadas de forma apressada em um aplicativo de computador. O administrador do órgão pretende obter informações úteis para análise das reclamações. Assim, ele solicita o apoio tecnológico para atendimento dessa demanda. A equipe então adota, acertadamente, uma solução específica para tratamento de dados semi-estruturados (o software utiliza uma ontologia de correlação de palavras e conceitos) conhecida por (a). data mart. (b). mining de texto. (c). star schema. (d). método preditivo. (e). mining colaborativo. Solução: Text Mining (mineração de texto) é o nome dado às técnicas de análise e extração de dados a partir de textos ou frases. Alguns dos objetivos da aplicação de técnicas de text mining são a descoberta de conceitos, padrões e tendências, além da classificação e sumarização automatizada de documentos. Text Mining surgiu inspirado no Data Mining, que é uma forma de descobrir padrões em bases de dados estruturadas. O Text Mining, por sua vez, procura extrair o conhecimento útil de textos não estruturados e semi-estruturados, como artigos científicos, textos simples, documentos de organizações, páginas da web etc. Certamente, as técnicas de text mining podem ser aplicadas para solucionar o problema relatado na questão, que se baseia na extração de informações úteis das bases de dados de reclamações sobre os serviços de atendimento. Portanto, a resposta da questão é alternativa A. As técnicas de text minig vêm sendo utilizadas em áreas de grande relevância, como bi- omédicas, publicidade e segurança. Na área de segurança, por exemplo, os governos de alguns países vêm utilizando as técnicas para rastrear as atividades de organizações crimi- nosas, por meio da análise de mensagens trocadas pela Internet. Já na área de publicidade, as técnicas são vastamente utilizadas pelos programas de afiliados como o adwords, do Google, que seleciona os anúncios mais relevantes a serem exibidos com base no conteúdo da página Web, que é analisado usando técnicas de text mining. Página 8 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 4. Assuntos relacionados: Data Mining, Classificação de Dados, Agrupamento de Dados, Sumarização de Dados, Modelagem de Dependência entre Dados, Banca: ESAF Instituição: Agência Nacional de Águas (ANA) Cargo: Analista Administrativo - Tecnologia da Informação e Comunicação / Desenvolvi- mento de Sistemas e Administração de Banco de Dados Ano: 2009 Questão: 20 Para que uma empresa efetue a análise regular de dados gerados por visitantes do seu site Web, a fim de personalizar a propaganda para clientes individualmente, ela deve utilizar (a). objetos distribuídos. (b). mineração de dados. (c). processamento analítico online (olap). (d). diretório de informações. (e). sistema de informação gerencial. Solução:Uma técnica de inteligência artificial que trata o problema de filtragem de dados a partir de um repositório de informação é a mineração de dados. No contexto da Web, as técnicas e modelos de mineração de dados recebem como entrada uma variedade de dados, como formulário, estruturas de sites e textos em geral. A mineração é um processo de análise de dados publicados em sites com o intuito de procurar relações comuns (padrões), além de sumarização de dados em novas formas que são compreensíveis e úteis para uma empresa. A mineração de dados pode ser empregada em empresas para ajudar a descobrir padrões e tendências referentes ao uso da Web. As etapas básicas de mineração de dados são a exploração, modelagem ou construção do conhecimento e por fim a validação dos padrões encontrados. Existem varias técnicas de mineração de dados como: classificação, clustering, sumarização, modelagem de dependência. Vamos apresentar uma breve descrição sobre essas técnicas. • Classificação: construção de uma função que a partir de um conhecimento previa- mente estabelecido consegue classificar um conjunto de dados em uma ou várias classes predefinidas; • Clustering: utilizado para descoberta de agrupamento de dados que possuem ca- racterísticas em comum. Uma categoria ou classe é representada por um conjunto de característica, desta forma, ao descobrir uma coleção de dados que possuem um grau de similaridade estão encontrando um conjunto de dados pertencente a alguma categoria não conhecida; • Sumarização: essa técnica é utilizada para a construção de modelos que descrevem um conjunto de dados num formato facilmente interpretado; • Modelagem de dependência: técnica responsável por encontrar dependência entre características de um conjunto de dados ou entre os valores deles. Usando técnicas de mineração de dados, tais como clustering e modelagem de dependência, um usuário em particular pode estar associado a outros usuários que exibem padrões de comportamento e preferências semelhantes. Então, para esses usuários são oferecidos links específicos por pertencerem a um mesmo perfil. Uma empresa nesse caso pode ofertar pro- moções de acordo com sua preferência, isso é obtido com base em informações fornecidas Página 9 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI pelo agrupamento de usuários. Outro exemplo é, a partir de uma escolha de comprar de um cliente, pode-se agir da seguinte forma: �Clientes que compraram este livro também comprariam...� listar os livros relacionados com o tema. Concluindo, a mineração de dados pode ser usada como meio de oferecer um atendimento especializado a um cliente. Portanto, a questão correta é a letra B. Página 10 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 5. Assuntos relacionados: Banco de Dados, Modelo Multidimensional, Data Mart, Data Warehouse, Banca: CESGRANRIO Instituição: Petrobras Cargo: Analista de Sistemas - Eng. de Software Ano: 2008 Questão: 28 Um datamart será montado para análise das vendas. Consultas serão feitas com base em produtos, períodos, cidades e clientes. Assinale a afirmação correta sobre o modelo multidi- mensional a ser gerado. (a). É conveniente criar uma tabela para a dimensão DATA, para evitar cálculos com datas nas consultas SQL e facilitar as consultas por intervalos semanais, mensais, anuais, e similares. (b). Nenhum atributo da tabela PRODUTO, além da chave primária, deverá constar da tabela fato. (c). Pelas especificações, CIDADE deve ser, necessariamente, uma dimensão do mo- delo. (d). O modelo estará necessariamente no formato floco de neve (snowflake). (e). QUANTIDADE é um fato não aditivo. Solução: Um datamart pode ser conceituado como um subconjunto dos dados de uma organização que são direcionados a propósitos bem específicos ou a pequenos grupos de pessoas que os utilizam como auxílio em tomadas de decisão. Os datamarts podem ser entendidos como subconjuntos de um data warehouse. Hoje é comum que as empresas comecem a construir o seu data warehouse a partir de datamarts focados em áreas bem específicas e, assim, irem expandindo até formarem o seu data wa- rehouse. É preciso ficar claro que as diferenças entre datamart e data warehouse são apenas com relação ao tamanho e ao escopo do problema a ser resolvido. Portanto, as definições dos problemas e os requisitos de dados são essencialmente os mesmos para ambos. Enquanto um datamart trata de um problema departamental ou local, um data warehouse envolve o esforço de toda a empresa para que o suporte a decisões atue em todos os níveis da orga- nização. Sabendo-se as diferenças entre escopo e tamanho, o desenvolvimento de um data warehouse requer tempo, dados e investimentos gerenciais muito maiores que de um data- mart. Vamos apresentar, agora, alguns conceitos importantes em relação a data warehouse. Defi- nimos fato como uma coleção de itens de dados composta de medidas. Esse valor numérico é denominado demedida. Por exemplo, caso se deseje analisar se as vendas em um determi- nado estado estão caindo, podemos definir um fato representando as vendas totais realizadas nas cidades de um determinado estado e analisar o resultado de suas medidas ao longo do tempo. Os fatos podem ser aditivos, semi-aditivos e não-aditivos. Um fato é aditivo quando ele pode ser agregado em todas as dimensões. Por exemplo, VENDAS pode ser agregado em Página 11 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI qualquer combinação das dimensões DATA, PRODUTO e CIDADE. Um fato é semi-aditivo quando ele não pode ser agregado em pelo menos uma dimensão. Por exemplo, o número de empregados é aditivo nos diferentes departamentos da empresa, mas não o é na dimensão DATA. Um fato é não-aditivo quando não pode ser agregado em nenhuma dimensão. Uma dimensão é uma coleção de atributos textuais que descrevem os objetos da orga- nização, e que estão altamente relacionados uns com os outros. Os atributos dimensionais são a fonte para as restrições mais interessantes nas consultas a um DW e são virtualmente a fonte para os cabeçalhos de colunas do conjunto de respostas em SQL. Por exemplo, po- demos adotar CIDADE como uma dimensão. Para isso, criaríamos uma tabela dimensão em que cada registro representa uma cidade e descreve outros detalhes da cidade através de seus atributos, como o estado ao qual ela pertence, por exemplo. Um dos esquemas mais utilizados para representar um data warehouse é o esquema es- trela. Esse esquema é chamado de estrela por apresentar a tabela de fatos dominante no centro do esquema e as tabelas de dimensões nas extremidades. O esquema estrela pode ser estendido de maneira que cada uma das pontas da estrela passa a ser o centro de outras estrelas. Por exemplo, a dimensão CIDADE poderia ser decomposta de maneira que haja outra tabela representando os estados e outras informações relacionadas a ele. Essa decom- posição seria basicamente um processo de normalização. Vamos, agora, analisar as alternativas. A alternativa (A) está correta. Ao criarmos uma tabela dimensão DATA, podemos criar um fato que represente a soma das vendas em cada um dos dias ou em cada uma das se- manas, meses ou anos. Como os valores da tabela já estão calculados, uma consulta que precise saber a quantidade de vendas em um determinado período de tempo terá um custo muito menor. A alternativa (B) está incorreta, pois no dimensionamento de um data warehouse, somos livres para definir nossos fatos. No caso específico, um fato que só tivesse a chave primária da tabela PRODUTO não teria interesse nenhum para os negócios, pois, em geral, os fatos devemestar associados a valores que tenham representatividade, como a quantidade vendida de um determinado produto, por exemplo. O mesmo argumento dado anteriormente serve para as alternativas (C) e (D). Há algumas modelagens que são mais interessantes que outras, dependendo do objetivo que se deseja alcançar, mas não há nenhuma restrição como as indicadas nas alternativas (C) e (D) para a determinação de um modelo de data warehouse. A alternativa (E) está errada, pois QUANTIDADE nem é um fato. Página 12 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 6. Assuntos relacionados: Banco de Dados, Modelo Relacional, Data Warehouse, Modelo Multidimensional, Data Mart, ROLAP, OLAP, Banca: CESGRANRIO Instituição: Petrobras Cargo: Analista de Sistemas - Eng. de Software Ano: 2008 Questão: 66 A respeito de sistemas de informações gerenciais, são feitas as afirmativas a seguir. I - Uma das diferenças entre bancos de dados relacionais e multidimensionais diz respeito ao compromisso entre performance e escalabilidade: bancos de dados relacionais pro- porcionam consultas mais rápidas, enquanto bancos de dados multidimensionais lidam melhor com grandes quantidades de informações armazenadas. II - ROLAP se refere a um tipo de solução OLAP que utiliza um bancos de dados relaci- onal. III - Quando um projeto inicia por datamarts departamentais especializados que mais tarde se consolidam em um data warehouse institucional, existe uma chance maior de surgirem problemas de inconsistência de metadados do que quando um data warehouse institucional dá origem a datamarts departamentais. IV - Para melhoria de performance, as tabelas em data warehouses, em geral, estão nas formas normais mais altas (considerando que 5 FN é mais alta que 1 FN). Estão corretas APENAS as afirmativas (a). I e II (b). I e III (c). I e IV (d). II e III (e). III e IV Solução: OLAP (Online Analytical Processing) é uma abordagem que possibilita viabilizar consultas em uma análise multidimensional de dados. O termo é usado em contraste com o termo OLTP (Online Transaction Processing), que é uma abordagem largamente utilizada em ambientes transacionais. Em um ambiente transacional, há constante entrada de dados e consultas simples. Além disso, é exigido, em um ambiente transacional, que a resposta ao usuário seja imediata. Um exemplo é quando você acessa um site de um banco: você quer fazer transferências ou conferir as transações em sua conta corrente e uma demora conside- rável é inaceitável. Entretanto, enquanto as abordagens OLTP são extremamente adequadas em diversas situações, elas se mostram inadequadas, em alguns casos, ao acesso às infor- mações gerenciais como a produção de relatórios de vendas, contábeis e financeiros. Nesse ponto, é que a abordagem OLAP é importante. Os bancos de dados que utilizam OLAP são projetados em modelos de dados multidimensionais que possibilitam executar consultas complexas em um tempo muito menor baseando-se, principalmente, em desnormalizações e em agregações. Um banco de dados OLAP pode ser armazenado de várias maneiras. Em uma arquite- tura ROLAP (relacional), os dados são armazenados em banco de dados relacionais. Já em Página 13 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI uma arquitetura MOLAP (multidimensional), os dados são armazenados em cubos dimen- sionais, em geral em formatos proprietários, e não em banco de dados relacionais. HOLAP (híbrido) tenta combinar as vantagens de MOLAP e ROLAP, extraindo o que há de melhor de cada uma, ou seja, a alta performance do MOLAP com a melhor escalabilidade do RO- LAP. Outras siglas são utilizadas para representar arquiteturas, mas são pouco utilizadas: WOLAP (Baseado em Web), DOLAP (Desktop) e RTOLAP (Real-Time). Vamos analisar as afirmativas da questão: I como já foi dito, os bancos de dados relacionais podem ser utilizados para armaze- nar bancos de dados modelados da maneira OLAP (multidimensional). As principais motivações para esse uso é a incrível escalabilidade dos bancos de dados relacionais e a grande disponibilidade de ferramentas. Já uma arquitetura MOLAP (multidimen- sional) é construída, de forma otimizada, em estruturas de dados que possibilitam a melhoria de desempenho em consultas. Ou seja, a afirmação está incorreta, pois afirma justamente o contrário; II é verdadeira, como já explicado acima; III é verdadeira, pois quando uma empresa guia o projeto de forma centralizada e com políticas estabelecidas, ela diminuirá as chances de problemas de inconsistência em metadados. Caso contrário, cada departamento terá sua forma de pensar sobre a criação de metadados e dificultará a integração no futuro; IV a afirmativa está incorreta, pois um dos principais recursos utilizados em um OLAP para aumentar o desempenho é a desnormalização das tabelas. A desnormalização é utilizada para diminuir o custo com operações de junções (joins) entre tabelas. Página 14 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 7. Assuntos relacionados: Data Warehouse, Banco de Dados, Data Mining, Business Inte- ligence, On-line Analytical Processing, On-Line Transaction Processing, Banca: FCC Instituição: TRT 2a Região Cargo: Analista Judiciário - Tecnologia da Informação Ano: 2008 Questão: 37 No âmbito do OLAP, gráficos de produtos são generalizações da estrutura de ...... apre- sentada por HRU (Harinarayan, Rajaraman e Ullman), na qual as dimensões podem ter hierarquias associadas. Preenche corretamente a lacuna: (a). tabela. (b). roll-up. (c). data mart. (d). hipercubo. (e). drill-down. Solução: Antes de partirmos para a solução da questão, faremos uma breve revisão sobre On-line Analytical Processing (OLAP). O uso da tecnologia da informação possibilitou o armazenamento de grande volume de dados em meio magnético, gerando a necessidade de recuperá-los e analisá-los. As aplica- ções On-Line Transaction Processing (OLTP) são estruturadas e repetitivas, que manipulam transações curtas, atômicas e isoladas, atendendo apenas a manipulação de dados operaci- onais, o que não era suficiente para apoiar o usuário na tomada de decisões estratégicas. A partir dos requisitos dos usuários e de tecnologias existentes, foram elaborados conceitos e desenvolvidas soluções que alavancassem o processo de Business Inteligence (BI). A primeira das soluções foi a linguagem APL, base utilizada no desenvolvimento de aplicações On-line Analytical Processing (OLAP). Como o armazenamento dos dados para atender às necessidades destas aplicações não seria solucionado por bancos de dados relacionais, novos conceitos de armazenamento de informa- ções foram implementados através de bancos de dados nomeados de Data Warehouse (DW). Além do suporte para a tomada de decisão estratégica, surgiu a necessidade de aplicação de heurística para obter informações que direcionem o futuro dos negócios, e estas estão sendo implementadas através de ferramentas de Data Mining (DM). A aplicação OLAP soluciona o problema de síntese, análise e consolidação de dados, pois é o processamento analítico online dos dados. Tem capacidade de visualizações das in- formações a partir de muitas perspectivas diferentes, enquanto mantém uma estrutura de dados adequada e eficiente. A visualização é realizada em dados agregados, e não em dados operacionais porque a aplicação OLAP tem por finalidade apoiar os usuários finais a tomar decisões estratégicas. Os dados são apresentados em termos de medidas e dimensão, a maior parte das dimensões é hierárquica. Página 15 de 42 www.handbookdeti.com.br Handbookde Questões de TI Comentadas para Concursos Volume questões de TI Para melhor enfatizar a diferença entre sistemas OLPT e OLAP, consideremos o escopo bancário. Neste escopo, as aplicações bancárias utilizadas diariamente no controle de con- tas correntes, na qual são efetuados saques ou depósitos pelos correntistas, compõem um exemplo típico de sistema de OLTP. O interesse destes usuários é criar, atualizar e recuperar informações sobre registros individuais. Já para o Gerente de Conta Correntes os requisitos de uso de informações dos dados das contas têm por finalidade a análise global de contas correntes com diversas visões. Por exemplo, o Gerente de Contas pode requerer uma análise sobre o desempenho de contas correntes que tenham cheque especial e tenham utilizado o valor máximo dos mesmos em um determinado período de tempo em algumas regiões. Ob- ter a resposta a esta consulta mais complexa fazendo uso de ferramentas relacionais padrão, não fornece solução requerida, pois estas ferramentas nunca pretenderam fornecer poderosas funções de síntese, análise e consolidação de dados. Após esta breve revisão sobre OLAP, partimos para a solução da questão. HRU (Harinarayan, Rajaraman e Ullman) introduziram a possibilidade de gerar um cubo utilizando outros, evidenciando as relações de dependência existentes ou lattice de dependên- cias (lattice de dependências é um conjunto de todas as agregações possíveis e respectivas dependências). Em linhas gerais, as dimensões de um cubo de dados proposto por HRU consiste em mais de um atributo. Essas dimensões são organizadas como hierarquias des- ses atributos. Um exemplo simples para melhor entendimento destas hierarquias pode ser observado na organização do tempo, levando-se em conta as dimensões: dia, semana, mês e ano. Quando possuímos mais de 3 (três) dimensões, chamamos de hipercubo. Portanto a alternativa D é a CORRETA. Somente a título de curiosidade, saiba que o enunciado desta questão foi retirado de um trecho dá página 176 do livro Database Modeling & Design (�Product graph are a generali- zation of the hypercube lattice structure introduced by Harinarayan, Rajaraman and Ullman, where dimensions may have associated hierarchies.�). Apenas para complementar ainda mais a solução da questão, elucidamos abaixo qualquer dúvida sobre dimensão, cubo, roll-up, data mart e drill-down (não há necessidade de explicar o significado de tabela): • dimensão: unidade de análise que agrupa dados de negócio relacionados. As dimen- sões se tornam cabeçalho de colunas e linhas, como exemplo linhas de produto, regiões de venda ou períodos de tempo; • cubo: trata-se de uma estrutura que armazena os dados de negócio em formato mul- tidimensional, tornando-os mais fácil de analisar; • roll-up: a operação de roll-up permite realizar agregações ao subir na hierarquia de uma dimensão. Por exemplo, uma operação que agrega os dados subindo na hierarquia do nível cidade para o nível país; • data mart: são Data Warehouses departamentais focados em um determinado assunto (por exemplo, um data mart de mercado poderia incluir clientes, produtos e informações de venda), permitindo, assim, uma boa visão de determinados aspectos da organização, embora não contenham todas as informações da organização como um todo; • drill-dow: a operação de drill-down é inversa à operação de roll-up, permitindo passar de um nível de menor detalhe para um nível de maior detalhe. Por exemplo, uma operação que desagrega os dados descendo na hierarquia do nível país para o nível cidade. Página 16 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 8. Assuntos relacionados: ERP, Banca: Cesgranrio Instituição: BR distribuidora Cargo: Analista de Sistemas - Desenvolvimento Ano: 2008 Questão: 64 Os módulos de Contas a Pagar, Contas a Receber, Faturamento e Contabilidade compõem, tipicamente, tipo de sistema (a). CRM analítico (b). Data Warehouse (DW) (c). ERP (d). ECM (e). BSC Solução: Os sistemas de ERP - Enterprise Resource Planning - visam à integração entre todos os seto- res produtivos da empresa, conectando-os através de processos bem definidos, onde cada um tem suas responsabilidades bem delimitadas e o negócio é visto todo sob a perspectiva dos processos que o regem. Para atingir esse objetivo, sistemas de ERP conectam, geralmente em uma solução única, vários módulos aplicativos das diversas áreas da empresa. Assim, um típico sistema ERP integra os módulos de contas a pagar, contas a receber e vários outros. Como seu enfoque são os processos, o sistema também deve prever módulos de RH para administração de pessoal, módulos de controle de estoque e, na filosofia mais recente, mó- dulos voltados à modelagem dos processos da empresa e integração automática desses esses módulos de acordo com os fluxos dos processos mapeados. Os grandes desenvolvedores de soluções ERP no mercado atual são a SAP e a Oracle. Há diversas outras empresas que também fornecem soluções interessantes, além de opções em software livre. De acordo com a explicação, a resposta correta à questão é a letra (C). Entretanto, para entendermos ao menos a ideia básica dos demais itens elencados nas outras opções, vejamos de forma rápida suas definições: • CRM analítico: ferramentas de CRM - Customer Relationship Management - dirigem- se ao trato das informações no relacionamento das empresas com seus clientes. Há dois tipos básicos de CRM: o operacional e o analítico. O CRM operacional é voltado para o registro de toda interação entre cliente e empresa. O CRM analítico pode ser enca- rado como um subconjunto de ferramentas de BI (Business Intelligence) voltadas para a análise dos dados coletados pelo CRM Operacional. De acordo com o documento CRM Operacional, disponível no site www.icone.com.br, A parte incluída no CRM Analítico visa aqui aferir métricas operacionais, geralmente ligadas a custo e performance, que nada mais são do que análise de cubos para verificar, por exemplo, hits na webstore por campanha, vendas por hits, percentual de acerto por chamado ativo, custo/ticket médio por chamado, etc. • Data Warehouse (DW): o mote dos sistemas de DW é a consolidação de dados operacionais, geralmente extraídos de sistemas OLTP (On Line Transaction Proces- sing - sistemas de processamento online de informações) corporativos, gerando dados Página 17 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI analíticos que servirão de base em decisões estratégicas de negócio. Nesses sistemas, os dados são trabalhados de forma a expressar a informação necessária ao corpo diretor da empresa, agregando informação de diferentes sistemas da empresa. A manipulação desses dados dá origem aos cubos, que são elementos que permitem enxergar os dados a partir de diversas perspectivas atinentes ao negócio. A subtração de dados de uma área específica é conhecida como Data Mart. Os Data Marts dão direções sobre um departamento ou um produto da empresa. Em última análise, podemos considerar que a união de todos os Data Marts de uma empresa gera seu Data Warehouse. • ECM: Enterprise Content Management é o nome dado aos sistemas que têm por vocação armazenar, em formato digital, os documentos - tanto os digitalizados de papel quanto os naturalmente eletrônicos - de uma empresa e permitir o acesso a eles de forma rápida e precisa. Estes sistemas armazenam, além dos documentos em si, os dados mais relevantes destes, de forma a tornar a pesquisa de documentos algo simples e de fácil acesso a todos que deles precisem. • BSC: Balanced Scorecard é uma metodologia disponível e aceita no mercado desen- volvida pelos professores da Harvard Business School, RobertKaplan e David Norton, em 1992. Os passos dessa metodologia incluem: definição da estratégia empresarial, gerência do negócio, gerência de serviços e gestão da qualidade; passos estes imple- mentados através de indicadores de desempenho. A ideia é, utilizando informações dos diversos sistemas OLTP da empresa, gerar indicadores voltados não apenas aos aspec- tos financeiros, mas ao negócio da empresa como um todo: clientes, processos internos, financeiro e aprendizado e crescimento, conforme ilustra a Figura 1. Figura 1: visão estratégica do BSC. Página 18 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 9. Assuntos relacionados: Data Warehouse, On-line Analytical Processing, Banca: Cesgranrio Instituição: Petrobras Cargo: Analista de Sistemas - Processos de Negócio Ano: 2008 Questão: 27 Em um banco de dados multidimensional, os dados estão conceitualmente armazenados e organizados em (a). classes e objetos. (b). cubos e hipercubos. (c). partições e índices. (d). consultas materializadas e sumários. (e). estrelas e constelações. Solução: Com a crescente quantidade de dados disponíveis, o recurso a data warehouses torna-se cada vez mais necessário e frequente. Apesar disso, o conceito de data warehouse não tem uma definição única. Normalmente, o termo é utilizado para se referir a uma base de dados que é mantida separada da base de dados operacional de uma organização e que está integrada com vários sistemas que permitem efetuar o processamento e análise dos dados. Uma das definições mais usadas defende que a data warehouse é um conjunto de dados organizados em torno de um determinado tópico, resultante da integração de diferentes fontes de da- dos, mantidos de forma persistente e que expressa uma perspectiva histórica desses dados. Esta separação entre a base de dados operacional e a data warehouse promove a eficiência e desempenho de cada um dos sistemas, levando-se em conta os diferentes fins a que se destina. A principal função das bases de dados operacionais é a realização de transações online e processamento de consultas (queries), sendo esse conjunto de operações conhecido como processamento de transações online (online transaction processing - OLTP). Em oposição, as data warehouses têm por objetivo servir de suporte à análise de dados e tomada de decisões, pelo que sobre elas são realizados outros tipos de operações. Normalmente, tratam-se de operações que manipulam grandes quantidades de dados históricos, permitindo a realização de sumarizações e agregações e a gestão de informação em diferentes níveis de granulari- dade. A este tipo de operações dá-se o nome de processamento analítico online (online analytical processing - OLAP). De uma forma genérica, uma data warehouse é composta por uma tabela de fatos, onde se encontram os dados que podem ser objeto de análise, e tabelas de dimensões, que armazenam os dados sobre as perspectivas segundo as quais os fatos podem ser analisados. Tanto as data warehouses como as operações OLAP são ba- seadas no modelo multidimensional, em que os dados são visualizados sob a forma de um cubo. Um cubo é definido por um conjunto de dimensões e de fatos. De uma forma ge- nérica, as dimensões são as perspectivas ou entidades em relação às quais os fatos se referem. Por exemplo, uma empresa pode manter uma data warehouse de vendas como forma de manter registros sobre as suas vendas no que se refere aos itens vendidos, à filial em que foram vendidos e à data de venda. Cada dimensão pode estar associada a uma tabela que pormenoriza a sua descrição. Quanto aos fatos, estes são medidas numéricas correspon- dentes ao principal objetivo da data warehouse, no nosso exemplo, o número de unidades Página 19 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI vendidas ou o volume total de vendas em dinheiro. A fim de melhor esclarecer este conceito, considere as quatro tabelas apresentadas na Figura 2, que representam a informação sobre as vendas de uma determinada organização apresentada em função do tempo (Tempo), do tipo de item vendido (Item) e da cidade (Localização) em que a venda foi feita. Figura 2: volume de vendas em função do tempo, tipo de item e localização (figura retirada do livro Data Mining: Concepts and Techniques). As tabelas acima equivalem conceitualmente ao cubo 3D da Figura 3. Supondo que se pretendesse adicionar outra dimensão, designada como Fornecedor, à in- formação das tabelas acima, obter-se-ia um cubo 4D, o que não é trivial de representar ou visualizar. Quando um cubo de dados tem mais de três dimensões ele é chamado de hipercubo e para visualizar os dados em um hipercubo é preciso recorrer a outros tipos de representação (modelos Star e Snowflake). Portanto, a alternativa B é a correta. Página 20 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI Figura 3: representação sob a forma de cubo 3D das tabela acima (figura retirada do livro Data Mining: Concepts and Techniques). Página 21 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 10. Assuntos relacionados: Banco de Dados, Modelagem Multidimensional, Modelo Relacio- nal, Banca: Cesgranrio Instituição: Petrobras Cargo: Analista de Sistemas Pleno - Processos Ano: 2006 Questão: 44 Considerando os modelos multidimensionais de bancos de dados de sistemas de informações gerenciais e modelos relacionais utilizados em sistemas operacionais, é correto afirmar que: (a). tanto modelos de sistemas operacionais quanto modelos multidimensionais apre- sentam uma visão consolidada dos dados. (b). modelos multidimensionais usualmente possuem esquemas mais complexos que os dos modelos relacionais utilizados nos sistemas que processam transações on-line. (c). embora bases de dados multidimensionais sejam voltadas para sistemas com menos usuários que os sistemas de processamento de transações on-line (operacionais), devem estar projetadas para que cada usuário acesse um número de linhas muito maior, em cada uma de suas operações, do que fazem os usuários dos sistemas operacionais. (d). ambos os modelos visam a manter um histórico completo das operações realizadas, no mesmo nível de detalhe. (e). a taxa de realização de transações de atualização, pelos usuários, nos sistemas operacionais é extremamente menor do que a existente nos sistemas de informações gerenciais. Solução: Os sistemas de bancos de dados podem ser didaticamente classificados de acordo com as estruturas de dados e os operadores que apresentam. Assim, tem-se os sistemas de lista invertida, os sistemas hierárquicos e os sistemas em rede (todos pré-relacionais); os sistemas relacionais, os sistemas objeto-relacionais, os sistemas multidimensionais, os sistemas base- ados em lógica e os sistemas semi-estruturados, dentre outros. Os sistemas relacionais baseiam-se em uma teoria formal conhecida como �modelo rela- cional�, segundo a qual os dados são representados por linhas em tabelas. Os modelos relacionais, em geral, são utilizados em sistemas operacionais de bancos de dados (também conhecidos como Sistemas OLTP � Online Transactional Processing � Sistemas de Proces- samento de Transações On-line), isto é, sistemas que normalmente têm exigências estritas de desempenho, cargas de trabalho previsível, pequenas unidades de trabalho e utilização elevada em termos de quantidade de usuários (por exemplo, um banco de dados de Depar- tamento e Empregados). Os sistemas de informações gerenciais (também conhecidos como sistemas de decisões ge- renciais ou, ainda, sistemas de apoio à decisão)são sistemas que ajudam na análise de informações de negócio. Podem ser implementados em sistemas de bancos de dados, por exemplo, através de data warehouse, data mart, depósito de dados operacionais, processa- mento analítico on-line (OLAP), bancos de dados multidimensionais e mineração de dados. Um banco de dados multidimensional é aquele no qual os dados estão armazenados logi- camente nas células de um array multidimensional. O OLAP (Online Analytical Processing Página 22 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI � Processamento Analítico On-line) é o processo interativo de criar, gerenciar, analisar e ge- rar relatórios sobre estes dados �multidimensionais�. Dada a finalidade de apoio a decisões, normalmente os sistemas de banco de dados multidimensional têm requisitos de desempenho variáveis, cargas de trabalho imprevisíveis, grandes unidades de trabalho e utilização irregu- lar por parte dos usuários (relativamente baixa, quando comparada à utilização de sistemas operacionais). Diferentemente dos bancos de dados operacionais, os bancos de dados de apoio à decisão geralmente envolvem dados históricos detalhados, já que as decisões envolvidas normalmente consideram estatísticas e tendências baseadas em registros de atividades anteriores (históri- cos). Além disso, os sistemas multidimensionais buscam apresentar uma visão consolidada dos dados, facilitando, desta forma, a tomada de decisões que requerem o cruzamento de diversas informações armazenadas, o que não ocorre em modelos operacionais. A assertiva (A) está incorreta, conforme comentário final do parágrafo anterior. A arquitetura de um banco de dados é composta por três níveis: interno, conceitual e externo. Este último refere-se a visão que os usuários finais têm do banco (por exemplo, os dados que são retornados para uma aplicação escrita em Java). Os dois primeiros níveis são descritos por esquemas interno (ou físico) e conceitual (ou lógico), respectivamente. Tais descrições se dão com o uso de DDLs (Data Definition Language � Linguagem de Definição de Dados). A DDL interna, que descreve o esquema interno do banco, define os diversos tipos de registros armazenados, especifica quais índice existem, como os campos armaze- nados estão representados, em que sequência física os registros estão armazenados, e assim por diante. A DDL conceitual, por sua vez, inclui definições de cada um dos vários tipos de registros conceituais (as tabelas de um modelo relacional, por exemplo). Essas definições têm por finalidade adicional, definir restrições de segurança e de integridade. Para atin- gir a independência física dos dados, as definições de DDL conceitual não devem envolver quaisquer considerações sobre a representação física ou a técnica de acesso. Assim, definir o esquema conceitual de um modelo relacional e de um modelo multidimensional não difere em termos de complexidade. Conclui-se, portanto, pela inexatidão da sentença da letra (B). Conforme explanado anteriormente, as bancos de dados multidimensionais possuem grandes unidades de trabalho (isto é, cada usuário acessa um número grande de linhas de dados), e, portanto, devem ser projetados visando atender satisfatoriamente tal demanda. A situação é invertida quando o projeto é de bancos de dados operacionais, pois, apesar do maior nú- mero de usuários, suas unidades de trabalho são bem menores. A letra (C) está correta ao apresentar tais conceitos. A letra (D) está incorreta, pois apenas os modelos de bancos de dados multidimensionais têm como característica preponderante a manutenção de históricos completos e detalhados das operações realizadas, haja vista sua função principal de gerar relatórios com base em estatísticas de transações anteriores. Por lidar, em geral, com dados históricos, os bancos de dados de sistemas de informações gerenciais tendem a não sofrer atualizações em suas bases de dados, caracterizando-se por serem principalmente (mas, não exclusivamente) somente leitura. Assim, a letra (E) está incorreta. Página 23 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 11. Assuntos relacionados: Banco de Dados, Sistemas de Informações Gerenciais, Data Wa- rehouse, Modelagem de Dados, Modelagem Multidimensional, Modelo Estrela, Banca: Cesgranrio Instituição: Petrobras Cargo: Analista de Sistemas Pleno - Processos Ano: 2006 Questão: 45 Bases de dados de sistemas de informações gerenciais são projetadas, muitas vezes, em um esquema denominado estrela que: (a). é uma arquitetura física que permite definir somente estruturas unidimensionais de dados. (b). é composta por uma tabela central, denominada de dimensão, e várias tabelas periféricas a ela relacionadas, denominadas fatos. (c). apresenta tabelas periféricas que se encontram desnormalizadas. (d). faz com que a expansão e a evolução da base de dados necessite de grande atividade de manutenção. (e). é um esquema onde o número de junções realizadas é relativamente maior que o realizado em bases de dados relacionais convencionais. Solução: Um datawarehouse (também conhecido como armazém de dados) é um sistema de compu- tação utilizado para armazenar informações relativas às atividades de uma organização em um banco de dados de forma consolidada. O desenho da base de dados dos datawarehouses favorece a geração de relatórios, a análise de grandes volumes de dados, e a obtenção de informações estratégicas que podem facilitar a tomada de decisão. Os datawarehouses são, portanto, a base dos sistemas de informações gerenciais. A técnica de modelagem de dados utilizada para a implementação de datawarehouses é conhecida como Modelagem Multidimensional de Dados. Logo, a alternativa A está errada. O principal objetivo da modelagem multidimensional de dados é facilitar a compreensão do estruturamento dos dados armazenados, tanto para desenvolvedores quanto para os usuários do sistema. Neste tipo de modelo existem três elementos básicos: os fatos, as dimensões e as medidas. Os Fatos são uma coleções de itens de dados compostos de dados de medidas e de con- texto. O fato reflete a evolução dos negócios do dia-a-dia, e é representado por valores numéricos. Os fatos são armazenados nas chamadas �tabelas de fato�, que são as tabelas centrais dos modelos dimensionais. As Dimensões são os elementos que participam de um fato. Elas determinam o contexto de um assunto de negócios. As dimensões, normalmente, não possuem valores numéricos, sendo somente descritivas e classificatórias dos elementos que participam de um fato. Um datawarehouse que analisa vendas de um produto (fato) poderia ter as seguintes dimen- sões, por exemplo: tempo, localização, clientes, vendedores. Os dimensões são armazenadas nas chamadas �tabelas de dimensão�, que são as tabelas periféricas dos modelos dimensionais. Página 24 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI Logo, a alternativa B está errada, pois a tabelas centrais do modelo são as tabelas de fatos, e não as tabelas de dimensões. Por fim, temos as Medidas. As Medidas (ou Variáveis) são os atributos numéricos que representam um fato, e é sobre eles que são feitas as análises do negócio. Medidas são, por exemplo, o valor em reais das vendas e a quantidade de unidades vendidas. Feita esta breve introdução sobre os conceitos primários do modelo multidimensional, vamos agora conhecer os dois modelos dimensionais básicos, que são o Modelo Estrela e o Modelo Floco de Neve. No modelo estrela existe uma tabela dominante no centro do esquema, chamada tabela de fato (fact table), que possui múltiplos relacionamentos para as tabelas periféricas,cha- madas tabelas de dimensão (dimension tables). O modelo Floco de Neve é bem semelhante ao modelo estrela. A única diferença entre eles é que, no modelo Floco de Neve, as tabelas de dimensão são normalizadas, dando ori- gem a uma hierarquia de dimensões. As figuras 4 e 5 ilustram os modelos estrela e floco de neve, respectivamente. Figura 4: Modelo Estrela. Figura 5: Modelo Floco de Neve. Um aspecto importante sobre os modelos estrela e floco de neve é que ambos também são favoráveis ao desempenho nas consultas. Tal obetivo é alcançado pela menor quantidade de operações de junção que o SGBD precisa realizar para responder a consultas complexas. No modelo estrela isso é ainda mais evidente, visto que não há hierarquias de dimensões e, consequentemente, uma menor quantidade de relacionamentos entre as tabelas. Com isso, Página 25 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI a alternativa E também está errada. A alternativa D está errada pelo fato de os bancos de dados desse tipo, destinam-se, pri- mordialmente a realização de consultas. Muito embora sejam necessárias cargas de dados periódicas e em grandes volumes, comparativamente aos bancos de dados dos sistemas tran- sacionais, os bancos de dados dos datawarehouses exigem menos manutenção. Portanto, a resposta correta é alternativa C. Página 26 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 12. Assuntos relacionados: Modelagem de Negócio, Modelagem Multidimensional, Banca: Cesgranrio Instituição: Petrobras Cargo: Analista de Sistemas Pleno - Processos Ano: 2006 Questão: 46 Sobre o processo de modelagem multidimensional, assinale a afirmação INCORRETA. (a). Busca-se obter um modelo que possibilite a realização, pelos usuários, de grandes quantidades de operações de atualização dos dados. (b). A definição dos fatos em um modelo pode ser obtida através da identificação da resposta à pergunta �o que está sendo medido?�. (c). A identificação de padrões de acesso pode levar a realização de pré-sumarizações (pré-agregação) dos dados, de forma a acelerar à realização de consultas. (d). As dimensões, usualmente, estão relacionadas com as respostas a perguntas como: �quando?�, �o que?�, �onde?� e �quem?�. (e). O modelo multidimensional é orientado a assuntos. Solução: (A) ERRADA A modelagem multidimensional (MM) é uma técnica de projeto lógico que busca apre- sentar os dados em um padrão, para permitir a recuperação adequada e flexível dos dados. A MM supera os modelos complexos, definindo como o usuário terá acesso à informação. A modelagem multidimensional deve ser muito mais próxima de como os usuários pensam sobre a informação. Deve resolver quaisquer ambiguidades semânticas que estão no modelo de negócio. Concluindo, a modelagem multidimensional facilita a realização de consultas por usuários não-técnicos, acelerando o desempenho destas consultas. (B) CORRETA Os fatos são uma coleção de dados de medidas, normalmente representados por dados numéricos. Estes dados numéricos são as medições relativas ao negócio da empresa. Na modelagem multidimensional a tabela de fatos é responsável pelo armazenamento das me- didas numéricas do negócio. Cada fato representa um item, uma transação ou um evento de negócio que é utilizado na análise de uma organização. (C) CORRETA A modelagem multidimensional é uma forma de modelagem de dados conceitual voltada para concepção e visualização de conjuntos de medidas que descrevem aspectos comuns de um determinado assunto. É utilizada especialmente para sumarizar e reestruturar dados, apresentando-os em visões que suportem a análise dos valores envolvidos. A modelagem multidimensional é projetada para coletar, padronizar e sumarizar os dados gerados pelos diversos sistemas de uma empresa com a finalidade de disponibilizar informação a partir da realização de consultas. Página 27 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI (D) CORRETA As tabelas dimensões são os elementos que participam de um fato, assunto ou negócio. As dimensões determinam um contexto de um assunto de negócios. Por exemplo, em um banco de dados que analisa as vendas de produtos, as dimensões que participam desse fato vendas (o que?) geralmente são: Tempo (quando?), Localização (onde?), Cliente e Vende- dores (quem?). Dimensões não possuem valores numéricos, pois são descrições textuais dos elementos que participam de um fato. As dimensões são possíveis formas de visualização dos dados. (E) CORRETA A modelagem multidimensional é uma técnica de concepção e visualização de um modelo de dados de um conjunto de medidas que descrevem um assunto de negócio. Sua utilização ajuda na sumarização e reestruturação dos dados e apresenta visões que suportam a análise dos valores destes dados. As dimensões são elementos que participam de um assunto de ne- gócios, são os pontos de vista pelos quais serão feitas as análises dos fatos. Cada dimensão faz parte de um fato e, normalmente, não existem valores quantitativos dentro das tabelas das dimensões, apenas atributos descritivos (assuntos), devido ao fato que elas são usadas para a classificação dos fatos. Portanto, a resposta incorreta é alternativa A. Página 28 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 13. Assuntos relacionados: Data Warehouse, Modelagem Multidimensional, Modelo Estrela, Banca: Cesgranrio Instituição: Petrobras Cargo: Analista de Sistemas Júnior - Processos de Negócio Ano: 2008 Questão: 26 A empresa passou a sortear cupons de desconto para alguns clientes, os quais dão direito a um desconto nas compras em uma determinada data. A informação sobre que clientes possuem cupons para que datas é mantida de forma independente e consolidada no processo de extração, transformação e carga, resultando em um campo, na tabela fato, indicando se a venda foi realizada com o desconto ou não. A solução parecia atender bem às demandas dos usuários do data warehouse, até que um deles tentou realizar uma consulta para saber quais clientes não haviam realizado compras, mesmo tendo um cupom de desconto para a data. Este tipo de demanda tipicamente será resolvido introduzindo, no data warehouse, uma (a). tabela de fatos complementares (complimentary fact table). (b). tabela de fatos sem dimensão (dimensionless fact table). (c). tabela de fatos sem fatos (factless fact table). (d). dimensão multivalorada (multivalued dimension). (e). dimensão degenerada (degenerated dimension). Solução: A força do data warehouse dentro das empresas está na organização e na entrega de dados que apóiem o processo de tomada de decisão. O data warehouse é a implementação física de um modelo de apoio a decisões, que disponibiliza à empresa as informações necessárias à tomada de decisões estratégicas. Podemos vê-lo como um repositório de dados com as seguintes características: • baseado em assuntos: o data warehouse está organizado de maneira que descreve o desempenho dos negócios; • integrados: os dados são organizados para fornecer uma fonte única; • variáveis em relação ao tempo: o desempenho de negócio é medido em pontos cronoló- gicos; • não-voláteis: sugere que os dados, uma vez inseridos no data warehouse, não devem mudar (lembre-se que o conteúdo dos bancos de dados operacionais muda cada vez que uma transação é processada); Um data warehouse suporta análise de negócios e tomada de decisões através da integração de dados (planilhas e arquivos) procedentes de diversos sistemas em uma base de dados consolidada (onde as informações sãounificadas e padronizadas em um mesmo local). Em outras palavras, o data warehouse é uma base de dados projetada especificamente para aten- der às necessidades de tomada de decisão, em vez de atender aos sistemas de processamento de transações. Ao chegar neste ponto, a seguinte dúvida pode surgir na cabeça do leitor: como realizar o projeto lógico de um data warehouse? Bom, o projeto pode ser realizado tanto através da modelagem entidade-relacionamento quanto pela modelagem dimensional, mas aqui abor- daremos apenas a última. Página 29 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI A modelagem dimensional é a técnica de projeto lógico de banco de dados mais usada no desenvolvimento de data warehouses. Um modelo dimensional é composto por uma tabela central com uma chave composta, denominada tabela de fatos, e um conjunto de tabelas menores conhecidas como tabelas de dimensão, que possuem chaves simples (formadas por uma única coluna). Na verdade, a chave da tabela de fatos é uma combinação das chaves das tabelas de dimensão. Nesta modelagem, o relacionamento das informações pode ser representado como um cubo. Desta forma, podemos fatiar este cubo e aprofundar em cada dimensão ou eixo para extrair mais detalhes sobre os processos internos que ocorrem na empresa, detalhes estes que seriam difícieis de serem extraídos e analisados em um modelo relacional. Mas, neste escopo, o que seriam dimensão e tabela de fatos? Uma dimensão é uma coleção de atributos textuais que são altamente correlacionados entre si. Em uma base de dados de varejo são comuns dimensões como produto, armazém, cli- ente, promoção e tempo. Já a tabela de fatos sintetiza o relacionamento existente entre as diversas dimensões. Isto ocorre porque a chave da tabela de fatos é a associação das chaves primárias das tabelas de dimensões. Geralmente este tipo de tabela possui um ou mais fatos numéricos que ocorrem na combinação de chaves que define cada registro. No caso da empresa em questão, um projetista de data warehouse visualizaria as informa- ções presentes no enunciado como um hipercubo (cubo com mais de três dimensões, o que é impossível de desenhar graficamente) que pode ser descrito com as seguintes dimensões: • Tempo: usada por quase todos data warehouse. Deve ter detalhes sobre o calendário para que facilite pesquisas estratégicas, então a dimensão tempo não deve ter somente a data em que o produto foi vendido, mas deve conter informações como dia no mês, dia na semana, número do dia na semana, mês, número do mês no ano, ano, etc.; • Cliente: descreve cada cliente da empresa (código do cliente, CPF, nome, cidade); • Produto: descreve cada unidade em estoque na empresa (código produto, descrição do produto, preço); • Cidade: descreve cada cidade em que a empresa está presente (código cidade, estado, cep); • Promoção: descreve as condições de promoção sob as quais um produto foi vendido (código da promoção, código do cliente sorteado, data da promoção, valor do desconto presente no cupom). Por causar mudanças nos padrões de vendas, esta dimensão é chamada de causal. Este hipercubo pode ser representado pelo Modelo Estrela (Star Schema), onde todas as ta- belas relacionam-se diretamente com a tabela de fatos, sendo assim as tabelas dimensionais devem conter todas as descrições que são necessária para definir uma classe como Produto, Tempo, Cliente, Cidade ou Promoção nela mesma, ou seja, as tabelas dimensão não são normalizadas no modelo estrela, então os campos contêm suas descrições repetidas em cada registro (obviamente, isto aumenta o tamanho das tabelas de dimensão). O enunciado dexia claro que a �empresa passou a sortear cupons e que a informação sobre que clientes possuem cupons para que datas é mantida de forma independente e consolidada no processo de extração, transformação e carga, resultando em um campo, na tabela fato�. O que isso significa? Significa que já existia uma tabela de fatos com uma granularidade Página 30 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI primária, composta pelas chaves da dimensão Cliente, Produto, Cidade e Tempo (veja a Figura 6) e que a nova dimensão Promoção irá somente inserir uma nova chave na tabela fato existente, como podemos observar na Figura 7. Figura 6: esquema relacional com estrutura em Estrela para o data warehouse da empresa (ainda sem a promoção). Figura 7: esquema relacional com estrutura em estrela representando a adição da quinta dimen- são (Promoção). Assim, cada registro (linha) da tabela de fatos representará a quantidade de um produto que foi vendida com (ou sem) desconto para um cliente específico, em uma determinada cidade e numa data específica. Note que um novo registro somente é inserido na tabela da fatos quando algo ocorre, po- rém, a existência de uma dimensão causal frequentemente estimula a pergunta: �o que não aconteceu?�. Por exemplo, quais clientes tinham o cupom desconto, válido para uma de- terminada data, e não realizaram compras? Mesmo com a dimensão causal, você não pode responder a esta questão com a tabela de fatos que armazena o que aconteceu. Uma tabela de fatos companheira, chamada tabela de cobertura, é necessária neste caso. A diferença entre a tabela de fatos de cobertura e a tabela de fatos primária (que contém fatos) forence a resposta. Esta diferença recebe o nome de tabela de fatos sem fatos (Factless Fact Tables). Página 31 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI Portanto, a alternativa C está correta. Apenas para complementar o comentário da questão, saiba que as tabelas expressas nas alternativas A e B não fazem parte do escopo de data warehouse. Em um data warehouse, uma dimensão multivalorada (alternativa D) é uma dimensão que possui atributos que podem assumir mais de uma valor simultaneamente, já uma dimensão degenerada (alternativa E) é uma dimensão que é derivada da tabela de fatos e não tem sua tabela própria dimensão (são dimensões vazias, isto é, sem atributos). Página 32 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI 14. Assuntos relacionados: Banco de Dados, Data Warehouse, OLAP, Banca: Cesgranrio Instituição: Petrobras Cargo: Analista de Sistemas Júnior - Processos de Negócio Ano: 2008 Questão: 48 A seguir são feitas algumas afirmações a respeito de data warehouses e ferramentas OLAP. I- Os usuários finais do data warehouse, em geral, não possuem acesso à Data Staging Area. II- Drill in, drill out, roll over e roll on são típicas operações disponibilizadas pelas fer- ramentas de consultas OLAP para navegar pela hierarquia de uma dimensão. III- As rotinas de ETL muitas vezes originam solicitações de mudanças e melhorias nos sistemas OLTP e outras fontes de dados que alimentam o data warehouse, pois têm o po- tencial de revelar inconsistências entre os diversos sistemas corporativos. IV- Um data warehouse, em geral, deve ser projetado para fazer junções entre fatos e di- mensões através de chaves naturais, evitando chaves substitutas (surrogate keys), pois estas apenas contribuiriam para aumentar o tamanho e a complexidade do esquema sem nenhum benefício para o usuário final. Estão corretas APENAS as afirmações (a). I e II. (b). I e III. (c). II e III. (d). II e IV. (e). III e IV. Solução: Um data warehouse é um conjunto de dados baseados em assunto, integrado, não volátil e variável em relação ao tempo, de apoio às decisões gerenciais. Ou seja, data warehouse é uma cópia dos dados transacionais (dados operacionais), usados no dia a dia da empresa pelasaplicações do negócio, integrados e transformados de forma que seja possível extrair informações integradas de caráter gerenciais sobre a comparação e processos. Essas infor- mações extraídas de forma integrada são utilizadas para suporte à decisão, planejamento estratégico, análise de comportamento de clientes, análise de desempenho de vendas, etc. É uma das principais soluções de Business Intelligence no mercado. As principais características marcantes de um data warehouse são: • orientado ao assunto. Os dados devem estar organizados de acordo com os principais assuntos da empresa, como clientes, pedidos, produtos; • forte integração de dados. No data warehouse é adotado um padrão para dados, me- didas e formatos, ou seja, os dados são integrados sob uma única forma. Isso facilita a uniformidade e o acesso; Página 33 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI • dados não são voláteis. No data warehouse não há necessidade de gerência de transação de dados. Os dados no data warehouse são inseridos uma única vez e, a partir daí, somente há leituras nesses dados (salvo, seja necessário correções); • variante no tempo. No data warehouse existe uma nova dimensão (chave) que é o tempo. Ao inserir dados no data warehouse, esses são adicionados e a chave tempo re- cebe o valor do momento da atualização. Ao atualizar os dados, esses recebem o mesmo tratamento: são novamente inseridos no data warehouse com a chave do momento da atualização. Assim, é possível saber qual estado de um determinado dado há 5 anos. Então, um data warehouse é variante no tempo. A Figura 8 mostra os elementos e o fluxo de dados em um ambiente data warehouse. Por meio da ação dos funcionários (nível operacional), as aplicações operacionais criam dados transacionais (armazenados em bancos de dados transacionais), como: cadastros de clientes, produtos, fornecedores, pessoal, representantes, movimentos de faturas, notas fiscais, etc. Esses dados não servem para fins de tomadas de decisões estratégicas e gerenciais. Os dados, para serem efetivamente usados para tais fins, devem ser transformados e carregados no data warehouse. Durante essas transformações, que são realizadas pelas ferramentas ETL - Extração, Transformação e Carga, são criados resumos e agregamentos entre esses dados, que o transformam em informações de baixo nível. Por meio dos resumos, os dados passam a ter significado para os gerentes. Quando essas informações de baixo nível são processadas por aplicações OLAP, elas são transformadas em informações de mais valor. Essas informações suprem as necessidades dos executivos e gerentes, relativa à estratégia (tomada de decisões a nível corporativo) e gerenciamento do negócio (nível departamental). Figura 8: fluxo de dados em um ambiente data warehouse. Podemos destacar os seguintes tipos de data warehouse: Marketing, Financeiro e Compor- tamental. O Marketing avalia o desempenho comercial de um produto ou serviço a partir de diversas perspectivas diferentes. O Financeiro monitora o desempenho comercial em termos financeiros. E, o comportamental contém informações individuais a respeito de cada cliente e seus comportamentos. A ferramenta mais popular para exploração de um data warehouse é a Online Analyti- cal Processing OLAP ou Processo Analítico em Tempo Real. As aplicações OLAP (On-line Analytical Processing - Processamento Analítico em Tempo Real) são aplicações baseadas em processamento analítico e, normalmente, chamadas de aplicações sobre o negócio. Tais aplicações manipulam e analisam sob múltiplas perspectivas as informações obtidas por meio das aplicações transacionais, ajudando executivos e gerentes a terem um retrato da situação Página 34 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI do negócio. Os dados sobre aplicações OLAP são chamados de dados analíticos, que são dados operacionais otimizados para análise e não para transações. A funcionalidade OLAP é caracterizada pela análise dinâmica e multidimensional dos da- dos consolidados da corporação. A tecnologia OLAP é implementada em um modo cli- ente/servidor multi-usuário e utiliza banco de dados multidimensional. A linguagem de consulta é a MDX (Multidimensional Expression, um SQL para OLAP). Na OLAP, as con- sultas são ad-hoc, ou seja, são definidas de acordo com o interesse de quem realiza a consulta. Existem diversas ferramentas OLAP, as quais destacamos data mining e CRM. O data mi- ning (mineração de dados) é uma classe de aplicações analíticas que procuram por padrões escondidos nos dados do data warehouse. E, o CRM (Customer Relationship Management) utiliza o data warehouse para criar um histórico integrado sobre os clientes de forma a ofe- recer um atendimento personalizado. Com base nas explicações anteriores, a seguir analisamos as afirmativas: I. A Data Staging Area (Área de Representação de Dados) realiza a ligação entre as apli- cações transacionais (OLTP) e o data warehouse. Geralmente, os dados introduzidos no data warehouse passam pela Data Staging Area, e nesta área sofrem transformações, como filtragem de dados (correções de erros de digitação, solução de conflitos de domínio, trata- mento de elementos ausentes ou a divisão em formatos padrão), combinação de dados de várias origens e cancelamento de dados duplicados. Essas transformações são anteriores ao carregamento dos dados no data warehouse. Esta área não provê serviços de consulta e apresentação por ser tratar de uma área onde existem processos que limpam, transformam e preparam os dados para serem introduzidos no data warehouse. Ou seja, o usuário final (executivos e gerentes) não possui acesso a esta área. Portanto, esta afirmativa está correta. II. As principais operações disponibilizadas em uma ferramenta OLAP são: • drill-down: utilizada para solicitar uma visão mais detalhada em um conjuntos de dado. Por exemplo, em vez de ver as vendas por estado, passa a ver as vendas por cidade. Esta operação desagrega uma dimensão; • roll-up: consista na operação inversa ao drill-down, isto é, apresenta os dados cada vez mais agrupados ou sumarizados. Esta operação agrega uma dimensão; • drill-throught: ocorre quando o usuário passa de uma informação contida em uma dimensão para uma outra. Por exemplo, inicia na dimensão do tempo e no próximo passo analisa a informação por região; • slice: utilizada para selecionar apenas algumas dimensões ou membros de dimensões. Por exemplo, analisar somente as vendas do Estado de São Paulo, no intervalo de 1998 até 2001. Esta operação faz restrição de um valor ao longo de uma dimensão; • dice: utilizada para colocar múltiplos dados de uma dimensão sobre um eixo e múltiplos dados de outra dimensão sobre outro eixo. Ou seja, serve para modificar a posição de uma informação, alterar linhas por colunas de maneira a facilitar a compreensão dos usuários. Esta operação faz restrição de valores em várias dimensões; • pivot: serve para adicionar ou rearranjar as dimensões. Esta operação muda o eixo de visualização. Página 35 de 42 www.handbookdeti.com.br Handbook de Questões de TI Comentadas para Concursos Volume questões de TI Como podemos verificar, as operações Drill in, drill out, roll over e roll on não são disponi- bilizadas pelas ferramentas OLAP. Portanto, esta afirmativa está errada. III. O processo ETL - Extração, Transformação e Carga (Extraction, Transformation and Loading) - consiste na primeira etapa do processo de obtenção de dados de aplicações transa- cionais (OLTP) e outras fontes de dados para o data warehouse. Esse processo compreende as atividades de extração, limpeza, transformação, carga e indexação para Data Staging Area. Algumas atividades
Compartilhar