Baixe o app para aproveitar ainda mais
Prévia do material em texto
Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 1 Apostila de Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo Conteúdo Programático 1. Estratégias para a Implantação e Gerência de Sistemas de Informação de Apoio à Tomada de Decisões . 3 1.1. Processos Decisórios e Informações ..................................................................................................... 3 1.1.1 Tipologia dos Sistemas de Informação ............................................................................................. 5 1.2. Planejamento Estratégico de Sistemas de Informação ........................................................................ 6 1.2.1 Sistemas de Informação ................................................................................................................... 6 1.2.2 Sistemas de Processamento de Transações (SPT) ............................................................................ 7 1.2.3 Sistemas de Informação Gerenciais (SIG) ......................................................................................... 8 1.2.4 Sistemas de Apoio à Decisões (SAD) ................................................................................................. 8 1.2.5 Planejamento Estratégico de Sistemas de Informação .................................................................. 10 1.2.6 Fatores Determinantes e Condicionantes do Planejamento Estratégico de Sistemas de Informação 11 1.2.7 Aspectos Relevantes no Desenvolvimento e Implantação de Sistemas......................................... 12 1.2.8 Atributos Desejáveis nas Informações ........................................................................................... 13 2. Conceitos Estruturantes de Business Intelligence ...................................................................................... 14 2.1 Business Intelligence (BI) ........................................................................................................................ 14 2.2 Data Marts (DM) ..................................................................................................................................... 14 2.3 Data Warehouse (DW) ............................................................................................................................ 15 2.4 Ambiente OLAP (On line Analytical Processing Systems) ....................................................................... 16 2.5 Modelagem Dimensional – Introdução .................................................................................................. 17 2.6 Comparação entre Dados de Natureza Operacional e Informacional .................................................... 21 3. Modelagem Dimensional de Dados – Detalhamento ................................................................................. 22 3.1 Introdução .............................................................................................................................................. 22 3.2 Passos da Modelagem Dimensional ....................................................................................................... 23 3.2.1 Definição da Granularidade ............................................................................................................ 23 3.2.2 Definição das Tabelas Dimensão .................................................................................................... 23 3.2.3 Normalização das Tabelas Dimensão ............................................................................................. 24 3.2.4 Relacionamento de Atributos das Tabelas Dimensão .................................................................... 26 Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 2 3.2.5 Estrutura das Dimensões ................................................................................................................ 27 3.2.6 Tipos de Métricas ........................................................................................................................... 29 3.2.7 Campos Armazenados e Campos Virtuais na Tabela Fato.............................................................. 30 3.2.8 Tabelas de Fatos sem Fatos ............................................................................................................ 30 Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 3 1. Estratégias para a Implantação e Gerência de Sistemas de Informação de Apoio à Tomada de Decisões (por Osvaldo Maldonado Sanches, Consultor de Orçamento Público na Câmara dos Deputados, aposentado em 2013) 1.1. Processos Decisórios e Informações Uma das atividades mais importantes que as pessoas realizam no seu dia-a-dia é a de tomada de decisões. Tais atividades são importantes até mesmo quando seu exercício se restringe a não decidir sobre um determinado fato ou questão, dado que a ausência de decisão já é, em si mesma, uma forma de decisão. Outra atividade das pessoas, igualmente frequente, é a de controle e avaliação de decisões passadas (suas e dos outros), seja em razão de suas consequências, dos imperativos dos processos de aprendizado, de observações de terceiros ou como parte das atividades preliminares à tomada de uma nova decisão. Tais atividades, saliente-se, não são exercidas em ambientes estáveis e neutros, mas sim sob o dinamismo da realidade, que é necessário conhecer da forma mais acurada possível, e de um vasto conjunto de pressões, cujo monitoramento é condição essencial à obtenção de sucesso na implementação das decisões ou avaliações. Em ambas as atividades os ingredientes básicos são: informação, preferências do decisor e intuição. O primeiro porque o conhecimento - histórico, factual e prospectivo - necessário para se decidir e/ou avaliar somente se torna disponível por meio de informações. O segundo porque, de um modo geral, as pessoas não decidem apenas com base nas informações propiciadas por terceiros mas, sobretudo, a partir de suas experiências passadas e preferências. O terceiro, em parte derivado dos dois anteriores e da ação do lado criativo da mente – aquilo que De Bonno (1970) chama de pensamento lateral –, por constituir a intuição uma qualidade essencial aos bons decisores. Contudo, será sobre o conjunto de informações disponíveis – e raramente o decisor conta com todas as informações de que necessitaria – que o decisor irá exercer seus julgamentos de valor (preferências + intuições) com vistas à melhor escolha, seguindo o processo de cinco estágios que caracteriza as decisões, ou seja: a) enunciação do problema e definição do seu contexto; b) levantamento de alternativas para seu equacionamento; c) antecipação das possíveis consequências de cada alternativa; d) determinação dos possíveis resultados de cada alternativa; e) escolha do melhor curso de ação. Por consequência, a qualidade da decisão ou da avaliação depende, intrinsecamente, da qualidade das informações colocadas à disposição do indivíduo (no momento em que irá decidir), da capacidade que este possui para interpretá-las corretamente e de sua experiência para combiná-las de modo apropriado – inclusive pela adequada seleção do instrumental analítico – à natureza da situação que requer a decisão e/ou avaliação e ao contexto em que ocasionará efeitos. O processo de decisão e avaliação que acabamos de descrever ocorre, de modo similar, no âmbito das organizações, sejam elas públicas ou privadas. Nas organizações, as áreas que envolvem a maior quantidade de decisões críticas costumam ser as de planejamento, tecnologia dos processos, amplitude das operaçõese controle (administrativo, operacional e de resultados). Nestas áreas, como será detalhado mais adiante, a maior Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 4 parte das decisões é atípica (não-programada) e tem caráter estratégico (arte de explorar condições favoráveis com o fim de alcançar objetivos específicos), pois, em tais áreas, a equívoca tomada de decisão tende a ocasionar grandes prejuízos ou consequências danosas à realização dos objetivos da empresa ou organização. É por essa razão que as organizações, a fim de instruir os processos decisórios críticos (estratégicos) que lhes são peculiares, estruturam sistemas de apoio – usualmente chamados "sistemas de informação gerencial" ou "sistemas de apoio a decisões" –, com vistas a tornar disponíveis informações selecionadas, organizadas de acordo com seu ambiente operacional e com as necessidades dos decisores. Os sistemas de informação gerencial têm assumido utilidade crescente também pelo seu potencial para fundamentar o planejamento – em todas as suas etapas –, para dar consistência às ações políticas (pelo fato de as organizações modernas tenderem à complexidade em decorrência das novas tecnologias e demandas do ambiente), para apoiar o exercício de novas atribuições pelas gerências (cujas responsabilidades passaram a englobar preocupações com qualidade e produtividade) e para ordenar de forma integrada o volume crescente de informações que tem se tornado disponível na sociedade moderna. Com relação a esse último aspecto, é relevante assinalar a transição que se operou, nas últimas três décadas, na disponibilidade de informações, passando-se da escassez para a superabundância de dados e informações. Em razão disso, a separação das informações relevantes das irrelevantes e a construção de modelos referenciais para orientar escolhas em situações ambíguas passaram a constituir os maiores desafios dos sistemas de apoio a decisões das organizações. A tarefa de separar as informações relevantes das meramente circunstanciais vem-se tornando mais e mais difícil por duas razões: a crescente disponibilidade de dados e as pressões da sociedade para que os agentes públicos decidam com melhor embasamento. A disponibilidade de dados e informações sobre os ambientes e temas de interesse de cada organização vem crescendo de forma progressiva. Hoje são produzidos milhares de periódicos técnico-científicos por mês, e as tecnologias de comunicação de dados e de interconexão entre os bancos de dados espalhados pelo mundo inteiro tornaram disponíveis uma quantidade imensa de dados e informações. Essa difusão de elementos informacionais cria meios de controle pelas instituições da sociedade e gera nos decisores a compulsão para agir – por idealismo ou por oportunismo – com a consequente demanda de informações atualizadas e adequadamente arranjadas em consonância com suas necessidades específicas. Esse conjunto de circunstâncias, aliado à velocidade das transformações no mundo moderno, leva a que os processos decisórios das organizações se refiram, com crescente frequência, a decisões não-rotineiras de maior complexidade, exigindo sistemas de apoio cada vez mais bem estruturados e a atuação sistemática do especialista (gerente de informação) na integração de elementos informacionais, para o adequado atendimento às necessidades de decisores particularizados. É preciso ter bem claro, entretanto, que no nível das gerências superiores as informações propiciáveis por sistemas de apoio a decisões nem sempre se destinam a informar. Dada a quantidade de canais de comunicação de que tais gerências dispõem e que as submetem a um permanente "bombardeio" de informações atualizadas, o gerente tende a adquirir um conhecimento bem mais amplo, particularizado e multi dimensional da realidade do que o sistema poderia lhe propiciar. Sob tais circunstâncias, a grande importância do sistema – além da indexação dos dados selecionados em arranjos predeterminados – passa a ser a de proceder ao saneamento da informação, quando a pluralidade das comunicações acabe por gerar "ruídos" (em razão de redundâncias ou desencontros nos dados e notícias transmitidos) e oferecer elementos complementares. Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 5 1.1.1 Tipologia dos Sistemas de Informação À medida que se sobe ou desce em uma estrutura organizacional, modificam-se as demandas por informações, bem como a tipologia das associações a serem procedidas entre os dados disponíveis nos sistemas de informações à disposição dos vários níveis. Assim, no nível de gerência de projetos, há necessidade de toda uma gama de detalhes que carecerá de interesse no nível mais elevado, e neste o resultado do projeto carecerá de significado se não estiver integrado a um contexto mais amplo, seja ele espacial, financeiro, programático ou político. É esse pressuposto que explica o fato de os sistemas de informação gerencial serem descritos como possuindo uma estrutura piramidal integrada por três segmentos: o segmento inferior, abrangendo os dados relativos às transações operacionais da organização (ligados às decisões relativas ao dia-a-dia); o segmento intermediário, integrado pelos sistemas de apoio ao planejamento e às decisões de caráter tático e o segmento superior, composto pelos sistemas gerenciais de apoio à formulação de políticas, planos e decisões de caráter estratégico, como se observa no esquema da figura abaixo. Planejamento (ação estratégica) Objetivos Controle gerencial (ação tática) Desafios Controle do funcionamento (ação operacional) Metas Segundo Weitzen (1991), "dentro de qualquer organização, a extração e a personalização de informações úteis acontecem em três níveis: operações e produção – compilação, computação, cópia e comparação de dados. Este é o primeiro nível onde ocorre a 'trituração de números' e onde 80% das informações são extraídas, manuseadas e armazenadas. Controle do gerenciamento – adaptação e análise das informações, para gerenciar e supervisionar recursos e atividades. Este nível, que é responsável por 15% das informações utilizadas dentro da organização, é onde os dados são adaptados e muitas das decisões, tomadas. Sistemas de gerenciamento de informações – sintetização e coordenação de informações. Neste nível, as informações altamente personalizadas são utilizadas pelo pessoal de nível sênior. Muito embora o volume de informações seja menor do que 5% do total, a grande maioria das decisões deste nível é tomada a partir desses dados". Os sistemas de informação gerencial, também chamados de "sistemas de apoio a decisões" distinguem-se dos sistemas de apoio administrativo, também chamados de "sistemas de apoio a operações" (contabilidade, recursos humanos, orçamento, patrimônio, estoques etc.), cujos procedimentos são normalmente balizados por normas legais, não cabendo personalização. Isso não quer dizer que estes últimos não ofereçam elementos para a tomada de decisões, mas sim que tais elementos devem ser capturados pelos sistemas gerenciais mediante alimentação seletiva ou compartilhamento das bases de dados, a fim de evitar as distorções ocasionadas pela superabundância de elementos informacionais. A sobrevivência desses sistemas depende de sua capacidade de atender às necessidades do decisor com oportunidade (em tempo de serem úteis) ou de colocar à sua disposição o instrumental (programas de acesso direto a vários bancos de dados) que lhe permita obter, direta e rapidamente, informações relevantes e confiáveis de que necessita para instruir suas decisões. Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 61.2. Planejamento Estratégico de Sistemas de Informação Planejamento estratégico pode ser definido como aquele que se orienta para a definição das ações do sistema empresa no meio ambiente, com vistas a orientá-lo para a posição futura desejada. Envolve, portanto, a realização de levantamentos e as avaliações de situações, com vistas à definição da estratégia da organização para fazer frente aos problemas estruturais e aos desafios percebidos no futuro, bem como para a fixação de objetivos e a seleção dos instrumentos de intervenção sobre o ambiente. O planejamento estratégico é aquele que lida com considerações de longo prazo. As decisões a serem tomadas com relação aos negócios em que a organização deva entrar, os mercados para os quais se deva voltar, a composição de sua pauta de produtos etc. Assim, para que se possa realizar um planejamento estratégico, é necessário se basear em informações. Uma definição utilitária de informação para os fins de sistemas de informação é a seguinte: “informação é o resultado do processamento de dados num formato que tem significado para o usuário respectivo e que tem valor real ou potencial nas decisões presentes ou prospectivas”. Podemos dizer que um dado corresponde a um atributo, uma característica de um objeto que, fora de um contexto, não possui nenhum significado. Por exemplo, o número 1,95. Informação é o dado dentro de um contexto, que possui um significado, e entregue à pessoa adequada. No nosso exemplo, o número 1,95 pode representar o valor da cotação do dólar para a venda no dia 21/09/2007. Conhecimento é uma propriedade subjetiva, inerente a quem analisa os dados ou informações. O conhecimento está atrelado ao ser humano que verifica o fato e consegue atribuir mais significados e, sobretudo, fazer uso da informação. A informação, no sentido peculiar a sistemas de informação, pode revestir-se de diferentes atributos, quais sejam: a) ser verdadeira ou falsa, se corresponde à realidade ou não; b) ser nova ou velha, se adiciona ou não conhecimento novo a quem a recebe; c) ser corretiva ou ratificativa se modifica ou confirma informação anterior; d) ser original ou complementar, se inclui ou atualiza/amplia informação. Em qualquer caso, os elementos comunicados só terão o caráter de informação se contribuírem para ampliar o nível de conhecimento de quem as recebe, para reduzir suas incertezas ou para instrumentalizar (serem levadas em conta) as decisões que se deva tomar. 1.2.1 Sistemas de Informação Sistema de informação pode ser definido como todo e qualquer sistema [conjunto de partes coordenadas com vistas à realização de um propósito] que processe dados em informações e que produza resultados para um fim específico. Logo, que propicie informações úteis. Porém, para que a informação seja útil, ela deve propiciar uma realista descrição da realidade – para o que deverá preencher uma série de atributos –, estar disponível quando for demandada, possuir custo limitado e ser formatada segundo as preferências e necessidades do decisor. A maior parte dos sistemas de informação possui quatro componentes básicos: dados (arranjados de modo a permitir o atendimento às necessidades dos usuários), processos ou programas (para o apropriado arranjo dos dados com vistas à produção de informações relevantes), operadores (com conhecimento e experiência suficientes para tirar partido dos recursos disponíveis) e canais de comunicação (para captação dos elementos Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 7 informacionais e difusão dos resultados de suas operações). Em sua evolução, eles costumam percorrer cinco estágios – incorporando-se nos estágios mais avançados as práticas e técnicas peculiares aos anteriores –, quais sejam: a) associação não-estruturada; b) operação com instrumentos estruturadores; c) operação com bancos e comunicação de dados; d) operação com centros de informação; e) integração total dos sistemas da organização. Dependendo do nível organizacional ao qual os sistemas de informação buscam atender, eles podem ser categorizados da seguinte maneira: SPT – Sistemas de Processamento de Transações: atendem ao nível operacional da organização; SIG – Sistemas de Informação Gerenciais: atendem ao nível gerencial; SAD – Sistemas de Apoio à Decisão: (ou SSD – Sistemas de Suporte à Decisão): atendem às necessidades do nível estratégico da organização. A figura a seguir procura relacionar os tipos de Sistemas de Informação aos respectivos grupos de usuários envolvidos. Tipos de Sistemas de Informação x Grupos de Usuários Atentidos Fonte: adaptado de Laudon & Laudon (2004, p.40) 1.2.2 Sistemas de Processamento de Transações (SPT) Essa categoria de sistemas é utilizada atualmente na maioria das organizações, e monitora, coleta, armazena, processa e distribui os dados das diversas transações realizadas dentro da empresa, servindo como base para os demais sistemas nela existentes. Esses sistemas são considerados de extrema importância para o funcionamento das organizações, pois dão suporte a diversas operações do tipo chão-de-fábrica e frente-de-loja, como também são essenciais para suportar Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 8 as atividades de interface, envolvendo atividades tais como: gestão de materiais, faturamento e elaboração de folha de pagamento, entre outras. Toda vez que a empresa produz ou presta um serviço, ocorre uma transação que será processada por um ou mais SPT’s. O objetivo principal deste tipo de sistema é o fornecimento de todas as informações legais ou organizacionais referentes à empresa, para manter eficientemente os seus negócios. As principais vantagens de utilização desse tipo de sistema são a precisão e confiabilidade obtidas, redução no custo e tempo de obtenção das informações. Tais sistemas normalmente processam um grande volume de dados para funções rotineiras e, desta forma, são elaborados para suportar o alto grau de repetição do processo, a realização de operações simples, a necessidade de grande capacidade de armazenamento e, por fim, o impacto sobre um grande número de funcionários. 1.2.3 Sistemas de Informação Gerenciais (SIG) A ênfase dos SIG´s está sobretudo na saída das informações. Esses sistemas extraem as informações de base de dados compartilhada e de processos que estão de acordo com o que o SIG necessita para suas operações. Cumpre informar, entretanto, que esses dados são originários dos SPT’s. Segundo Oliveira (1998), após a coleta dos dados e a transformação dos mesmos em informação, ele tem como principal função prover o gerente com informações passadas e presentes sobre as operações internas e sobre o ambiente da empresa, orientando assim a execução do processo decisório e, paralelamente, assegurando que as estratégias do negócio sejam implementadas fazendo com que os objetivos traçados sejam alcançados de modo satisfatório. O SIG influencia as diferentes áreas funcionais dentro da organização, no nível gerencial, reunindo informações pertinentes a cada uma delas. As saídas de um SIG envolvem relatórios de natureza variada, sendo os principais listados a seguir: Relatórios Programados – contém dados rotineiros, que são frequentemente solicitados pela gerência, com informações sintéticas. Relatórios de Pontos Críticos – visam exibir apenas situações que estão fora dos parâmetros normais, a exemplo de itens de estoque que estão abaixo do ponto mínimo para reposição ou produtos cuja data de validade está próxima do vencimento. Relatórios Ad hoc – são documentos concebidos sob demanda e implicam na possibilidade do sistema oferecer facilidades para que sejamcriadas novas consultas a partir de novas necessidades dos gerentes. Enquanto o SPT tem a visão da organização a partir de cada operação com cada cliente (interno ou externo à organização), o SIG busca agregar os dados de determinada operação, fornecendo informações consolidadas acerca dela num determinado período de tempo, para que o gerente tenha um panorama global inerente àquele tipo de operação. 1.2.4 Sistemas de Apoio à Decisões (SAD) Esses sistemas têm como essência o tratamento de situações onde os problemas são semi-estruturados ou não-estruturados. Problemas semi-estruturados envolvem uma combinação de situações onde procedimentos padrões, que não mudam o julgamento individual baseado na experiência, podem ser utilizados para solucioná- los. Como exemplo pode-se mencionar o orçamento para o marketing dos produtos e capital para novos investimentos. Problemas não-estruturados evocam processos vagos, pois compõem o quadro de situações Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 9 complexas, onde a intuição humana é frequentemente utilizada para tomar tais decisões. A criação de novos serviços, pesquisas e desenvolvimento de projetos para o próximo ano são exemplos desse tipo de decisão. Embora os SAD’s sejam concebidos para atender aos níveis estratégicos, onde problemas desta natureza são mais frequentes, podem servir para toda a organização, pois todos os níveis defrontam-se com problemas semi- estruturados. Os SAD’s apresentam como suas principais características o uso de dados de diferentes fontes, preocupação com o estilo do decisor e possibilidades de simulação. Tal preocupação, ou estilo cognitivo, é importante, uma vez que as formas de percepção dos dados e a formulação do conhecimento diferem para cada pessoa. São exemplos de características desses sistemas: Manipulação de grande volume de dados – a análise de longas séries históricas de dados é essencial para apoiar análises e decisões eficazes; Obter e processar dados de fontes diversas – os SAD’s necessitam de um grande volume de dados que muitas vezes é retirado de sistemas distintos e fontes externas e internas. A sua eficiência depende dessa capacidade de conexão; Flexibilidade de relatórios e apresentações – para representar de forma condensada grande volume de informações, os relatórios devem permitir representações gráficas e textuais, assim como manipulações de detalhamento ou generalizações dos dados, conforme a necessidade do executivo; Análise de simulações por metas – consiste em permitir ao usuário a criação de cenários hipotéticos, visando construir projeções de novas situações de negócio. Estas simulações utilizam, dentre outros, modelos matemáticos e estatísticos; e Suporte a abordagens de otimização, satisfação e heurística – as abordagens de otimização correspondem ao emprego de modelos matemáticos determinísticos e estruturados onde a resposta é facilmente encontrada. A abordagem de satisfação envolve problemas semi-estruturados e modelos de solução probabilísticos onde não existe um valor único e sim uma faixa de valores que têm a probabilidade de ocorrer. Nas abordagens de heurística temos problemas não-estruturados, com grande complexidade, onde o sistema pode encontrar uma boa solução, mas não a melhor. Os SAD’s devem oferecer suporte a todas as abordagens. Os SAD são sistemas de interfaces relativamente simples, mas de processamento complexo, com busca de informações de inúmeras fontes, sejam elas internas ou externas à organização. No caso de fontes internas pode- se mencionar os próprios SPT e SIG. Já as fontes externas podem ser compostas por outros bancos de dados ou sistemas integrados (STAIR, 1998). A figura abaixo mostra os relacionamentos do SAD, cujos componentes estão detalhados a seguir: Banco de Dados (BD) – conjunto de bancos de dados das mais diversas origens e sistemas, visando tornar mais precisas as análises do SAD. Banco de Modelos – para analisar um grande volume de dados é necessário, por vezes, submetê-los a modelos baseados na estatística, administração financeira, administração da produção, modelagem gráfica e modelos de projetos, entre outros. SGBD – o sistema Gerenciador de Banco de Dados é um conjunto de softwares responsável por manter atualizados e consistentes a estrutura e o conteúdo do banco de dados. Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 10 SGM – o sistema Gerenciador de Modelos é um conjunto de softwares que fornece instrumentos para que os modelos possam ser especificados, descritos e acessados, conforme a necessidade do gestor e as características dos dados a serem tratados; Interface com Usuário – a interface dos SAD’s deve ser a mais simples possível, valendo-se de instrumentos gráficos e muitas vezes recursos de linguagem natural (linguagem natural no ambiente computacional é o uso da linguagem humana – textual ou oral – para se comunicar com os sistemas informatizados). Conforme se pode perceber, os SAD’s atendem principalmente às necessidades do nível estratégico, podendo, contudo, ter utilidade para outros níveis organizacionais, valem-se de modelos para o tratamento de grande volume de dados e necessitam de grande flexibilidade para atender a abordagens heurísticas de solução de problemas. Vale ressaltar que, em linhas gerais, normalmente apenas organizações de grande porte dispõem de sistemas dessa natureza. Componentes de um SAD Fonte: adaptado de Stair (1998) 1.2.5 Planejamento Estratégico de Sistemas de Informação De acordo com Furlan (1991:6), "o Planejamento Estratégico de Sistemas de Informação é a etapa inicial em que se estabelecem os propósitos básicos para que possamos implantar sistemas computadorizados estáveis e de apoio à tomada de decisões". Como tal, deve ser elaborado de modo a propiciar os elementos necessários para suportar os negócios da organização, atingir os objetivos desta e atender às necessidades de informação de sua alta administração. Em termos mais específicos, o planejamento estratégico de sistemas de informação pode ser caracterizado como o conjunto de ações integradas com vistas à: Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 11 a) determinação do usuário do sistema, dos elementos necessários para o apoio às suas decisões e das suas preferências em termos de formatação dos dados; b) identificação das áreas de interesse estratégico para a atuação do decisor e dos elementos importantes em cada uma destas; c) determinação do âmbito operacional da organização e dos seus objetivos (de curto, médio e longo prazos); d) identificação de concorrentes, opositores e adversários; e) realização do diagnóstico da situação dos sistemas de informação disponíveis ou mobilizáveis como fontes de dados e informações; f) sistematização de estrutura que satisfaça às necessidades e que seja viável no prazo disponível para sua operacionalização; g) fixação de objetivos e de metas para o sistema e para sua implantação; h) capacitação dos recursos humanos envolvidos na operacionalização do sistema; i) determinação dos recursos necessários e dos responsáveis pelo desenvolvimento e implantação do sistema; j) definição dos requisitos mínimos a serem atendidos nas simulações e testes-piloto. É preciso não confundir planejamento estratégico de sistema de informação com informação estratégica, embora alguns desses sistemas – em especial aqueles que atendem aos decisores de mais alto nível da organização – possam até objetivar a sua produção. 1.2.6 Fatores Determinantes e Condicionantes do Planejamento Estratégico de Sistemas de InformaçãoA condição essencial para que se empreenda o planejamento estratégico de um sistema de informação é que exista, de maneira inequívoca, o reconhecimento de sua utilidade pelos escalões gerenciais superiores e vontade político-administrativa no sentido de legitimar sua implantação e operação. Sem isso, não obstante ser inquestionável a utilidade do planejamento, ele não terá efetividade ou viabilidade de implementação. O segundo aspecto essencial, como ressaltado várias vezes no decorrer desta abordagem, é a clara definição dos usuários: quem são, onde se localizam e quais as suas necessidades, preferências e idiossincrasias. Um dos maiores problemas nesse sentido é que, de modo geral, os usuários dos sistemas de apoio a decisões não definem com clareza ou não são capazes de antecipar suas necessidades - e, de fato, muitas delas não são antecipáveis. Para minimizar esse problema, será indispensável que, após a determinação dos usuários, se realizem entrevistas, que se promova a análise de seus papéis, que se empreenda o acompanhamento das demandas derivadas de sua rotina de trabalho e que se realizem simulações de atendimento dentro da dinâmica de operações normais de tais usuários. Confirmada a conveniência do sistema e reconhecidos os usuários e suas necessidades, o desenvolvimento do sistema de informação deve iniciar-se pela precisa definição de seus objetivos - correlacionados aos da organização e às necessidades das gerências que dele se utilizarão - e das respectivas fontes de alimentação. Outro elemento essencial no planejamento desses sistemas são as fontes de informação. Com relação a estas, é indispensável que se evite o suprimento seletivo, ou seja, que a fonte só forneça informações que tenham conotação positiva em relação às suas ações ou operações. Consolidada a premissa de que informação é poder, quanto mais relevante e atualizada esta for, maior será a resistência dos supridores em torná-Ia disponível. Por outro lado, os dados e informações só têm relevância quando possuem sentido utilitário para que o usuário instrumentalize seus processos decisórios, carecendo de utilidade prática as informações defasadas, de domínio público ou de limitada expressividade. O equacionamento da problemática relacionada com os dois últimos fatores, através do direcionamento do sistema para a obtenção de elementos relevantes e ajustados às necessidades dos usuários que ocupem posições Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 12 focais na estrutura da organização, pode ser processado através da utilização de um novo tipo de profissional, o coordenador do atendimento ao usuário (esteja este vinculado ou não a um centro de informação). Esse tipo de providência vem assumindo importância crescente para o bom desempenho dos sistemas de informação e para a satisfação dos usuários. A característica essencial do "coordenador de atendimento ao usuário" é merecer integral confiança do usuário, sem o que não receberá descrição franca de suas reais necessidades e das deficiências dos produtos do sistema. Além disso, tal agente necessita: a) conhecer muito bem cada um dos bancos de dados do sistema e dos sistemas aos quais este se ache articulado; b) ser capaz de identificar atipicidades nas séries de dados e de propor medidas corretivas apropriadas; c) possuir suficiente conhecimento técnico do setor, a fim de assegurar a compatibilidade entre os dados combinados e a confiabilidade dos resultados propiciados; d) saber o suficiente sobre os recursos de informática em uso, bem como sobre suas potencialidades e limitações; e) ter domínio sobre os problemas mais comuns de alimentação e de atualização de cada série de dados abrangida pelo sistema; f) ter habilidade para se relacionar com pessoas de destacado perfil profissional, em especial com os analistas, gerentes setoriais e usuários. O outro requisito básico é que o desenvolvimento, a implantação e a operacionalização do sistema sejam colocados em mãos de analistas competentes, atualizados e de boa vontade, isto é, de profissionais que, em vez de criarem dificuldades, se envolvam na busca das soluções que se façam necessárias para a viabilização dos resultados objetivados pelo sistema. 1.2.7 Aspectos Relevantes no Desenvolvimento e Implantação de Sistemas As orientações a seguir são importantes para o desenvolvimento e implantação de sistemas de informação, merecendo séria consideração por parte das equipes técnicas: a) informações são recursos para instrumentalizar o processo decisório e não a solução para os problemas; b) a implantação de sistemas de informações deve iniciar-se pela clara descrição dos resultados que se deseja, de como este deverá operar, dos seus usuários e dos fluxos de informações; c) quanto mais simples e específico o sistema, maior a sua eficácia e confiabilidade; em nossa cultura administrativa é preferível operar com vários sistemas específicos e intercomplementares do que com um sistema complexo; d) a compatibilidade do sistema com o ambiente administrativo (cultura, recursos etc.) em que irá operar é requisito essencial, dado que cada organização possui aspectos culturais, organizacionais e operacionais absolutamente singulares; e) quanto mais próxima a gerência do sistema de informações se encontrar do topo da estrutura de poder da organizacão, maior a probabilidade de que as informações sejam prestadas com oportunidade e adequação aos fins; f) a funcionalidade dos sistemas de informações depende, sobremaneira, das pessoas que os operam e de sua habilidade para se relacionar com colaboradores e usuários; g) os níveis inferiores da estrutura organizacional tendem a resistir ao fornecimento de informações que lhes criem vulnerabilidades, mas as informações que não exponham vulnerabilidades tendem a possuir pouco interesse para os níveis superiores; Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 13 h) o melhor sistema é aquele que oferece a informação com oportunidade (em tempo de ser usada, ainda que inexata) e satisfatória confiabilidade (é melhor um erro de 10% do que um chute de 100%); i) a uniformização dos conceitos, no âmbito dos sistemas cujos resultados devam ser integrados para a produção de elementos gerenciais, é providência essencial; j) os dados devem ser tratados segundo critérios, categorias de agregação e unidades de referência que permitam associações legítimas e comparações válidas (a interpretação dos dados é extremamente dependente de como estes são coletados); k) a importância de prevenir-se contra a ocorrência de erros não deve ser superenfatizada, sob pena de inviabilizar o sistema. 1.2.8 Atributos Desejáveis nas Informações Para terem efetiva utilidade no apoio aos processos decisórios, as informações gerenciais devem possuir os seguintes atributos: a) adequação às necessidades - prestar-se aos fins que determinaram a sua solicitação pelo usuário; b) seletividade ou personalização - restringir-se ao que é do interesse direto do usuário e respeitar suas idiossincrasias; c) apropriado detalhamento - nível de pormenores adequado ao nível do usuário, sem se exceder em detalhes ou abusar do sincretismo; d) confiabilidade - informações muito distorcidas podem ser mais prejudiciais do que a falta de informações; a fidedignidade das fontes é essencial, pois será esta que dará a noção do risco assumido ao decidir com base nos elementos que propiciaram; e) oportunidade - ser gerada em tempo de ser utilizada pelo decisor ou responsável pelo controle; f) clareza e concisão - a forma com que a informação é apresentada potencializa seu valor (decisores dispõem de pouco tempo); g) expressividade das quantificações- utilizar unidades de medida que possuam relevância para expressar os resultados ou fenômenos observados; h) agregabilidade - possibilitar a agregação ou reorganização dos dados disponíveis para o atendimento às demandas específicas dos gerentes que deles se utilizam; i) comparatividade - permitir que uma determinada situação seja validamente comparada com outra cujas consequências são conhecidas; j) economicidade - que os custos de coletar, armazenar e processar dados e informações não excedam o valor dos benefícios propiciados. Além disso, tanto quanto possível, o sistema deverá permitir o consorciamento das avaliações quantitativas com apreciações qualitativas (efetiva utilidade dos resultados para os cidadãos) que se relacionem com os fenômenos ou situações observadas. Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 14 2. Conceitos Estruturantes de Business Intelligence A utilização de ferramentas que permitam a captação, o gerenciamento e análise das informações, além do estabelecimento de estratégias internas e externas, são hoje fatores indispensáveis a qualquer empresa que deseje apresentar significativa participação no mercado. Neste tópico serão abordadas as tecnologias que apóiam a construção de Sistemas de Business Intelligence os quais envolverão os conceitos de Data Warehouse, ferramentas OLAP (On Line Analytical Processing) e Data Mining. 2.1 Business Intelligence (BI) Business Intelligence, ou BI, corresponde a técnicas, processos, ferramentas e métodos que oferecem ao usuário instrumentos para análises de cenários de negócio em todos os níveis da organização. Tais análises visam subsidiar o processo de tomada de decisão nas organizações no intuito de aumentar o grau de confiabilidade no transcurso das ações. A “Inteligência de Negócios” envolve decisões estratégicas para a análise de fatos organizacionais tanto internos quanto externos. Os fatos internos da organização provêem um lastro de inferências que servem de guia para balizar e monitorar a efetividade do planejamento estratégico organizacional em todos os níveis decisórios. A estruturação destes fatos sob forma de bancos de dados, onde possam ser feitos cruzamentos de informações, simulações e testes de hipóteses de negócio, viabiliza o monitoramento dos resultados, bem como permite a identificação de oportunidades de aperfeiçoamento. Por sua vez, os fatos externos à organização dizem respeito à concorrência, cenários econômicos e políticos e inovações tecnológicas, entre outros. A busca destas referências ocorre em bases de dados externas, fontes muitas vezes pouco estruturadas que exigem um aparato tecnológico para extração de dados considerados como mais complexos. Como pode-se perceber, tanto no tratamento de fatos internos quanto externos, os bancos de dados são as estruturas primordiais. No entanto, para transformar estes dados em informação ou conhecimento útil para a tomada de decisões faz-se necessário, em primeiro lugar, reintegrar estes bancos de dados sob a forma de Data Marts e Data Warehouse associados ao uso de softwares de extração e mineração de dados. A seguir discutiremos essas técnicas e artefatos. 2.2 Data Marts (DM) Corresponde a um agrupamento de bancos de dados transacionais aglutinados por algum critério, normalmente “temas de negócios”, que são questões administrativas frequentemente abordadas. Por exemplo, o tema: Satisfação do Cliente. Para verificar a satisfação do cliente devemos agrupar alguns Bancos de dados: (a) Banco de dados de vendas para verificar a demanda de determinados produtos; (b) BD do setor financeiro para verificar a pontualidade do pagamento do cliente que pode ser um indicador de satisfação; e (c) BD de atendimento ao consumidor que terão Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 15 registros mais precisos sobre a sua satisfação. O cruzamento de informações específicas (note que não são necessárias todas as informações de cada BD) de cada um destes BD´s contribuirá para atender às questões do tema Satisfação do Cliente. Portanto, neste caso, o Data Mart será um novo BD, criado a partir da integração dos três bancos anteriores. Esquema de Data Marts x BD transacionais Na figura acima, temos dois Data Marts (Satisfação do Cliente e Logística) formados por Bancos de Dados Transacionais (financeiro, vendas, atendimento e estoque). 2.3 Data Warehouse (DW) O Data Warehouse é a integração de diversos Data Marts. Com isso, a organização passa a ter um depósito de informações, integrado, que poderá atender a uma demanda muito mais ampla de temas de negócio, uma vez que o cruzamento de informações entre dois DM ou mais pode gerar a possibilidade de se identificar novos temas. De acordo com O’Brien (2004), as principais características dos DW são: Não Volatilidade dos dados – Os dados de um DW não são excluídos e alterados como nos SPT’s; a única operação é a de inserção de novos dados. Historicidade – Como consequência da não volatilidade, um DW armazena informações de vários anos, dando maior credibilidade nas análises temporais. Meta dados – Como os dados existentes em um DW são oriundos de diversas fontes e muitas vezes modificados, faz-se necessário construir um “Mapa” dos dados, ou seja, um guia de referência explicando como cada dado, campo e registro do DW foi extraído dos bancos de dados originais. Redundância de dados – Nos Bancos de dados convencionais, a redundância e a repetição dos dados são ações indesejadas, pois podem gerar dubiedade de interpretação. Já nos DW a redundância é aceita, pois, dependendo do contexto, de fato a mesma pergunta pode gerar respostas distintas. Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 16 2.4 Ambiente OLAP (On line Analytical Processing Systems) Nas palavras de Strum (2000, p. 5) “um sistema OLAP é uma ferramenta que permite executar complicadas análises sobre dados históricos usando estruturas multidimensionais armazenadas em um Data Warehouse (DW)”. Um DW, ou Armazém de Dados, é uma estrutura de banco de dados utilizada para armazenar todas as informações relativas às atividades de uma organização, de forma que possa permitir a execução de análises de grande volume de dados além da obtenção de informações estratégias capazes, portanto, de facilitar a realização do processo de tomada de decisões. O DW serve como base para sistemas OLAP e permite o compartilhamento de informações por toda a organização. Um sistema de gerenciamento de clientes, por exemplo, pode utilizar um Data Mart, o qual assemelha-se a um DW, com a pequena diferença de que os dados armazenados nesta estrutura pertencem a um determinado nicho de negócio dentro de uma organização, como por exemplo informações sobre os clientes para efetuar o Marketing de Relacionamento. Como a idéia do OLAP é trabalhar sobre os dados históricos, de preferência em um conjunto separado da estrutura de dados operacionais, torna-se necessária a transição de dados entre as bases, permitindo assim alimentar a estrutura OLAP com informações atuais seguindo qualquer regra previamente definida para uma análise. Isso é o chamado DTS (Data Transformation Service – Serviço de Transformação de Dados). Dentre todas as características, a que ressalta com significativa expressividade é o fato de que com uma ferramenta ou serviço OLAP pode ser criado um único sistema que se responsabilize por efetuar toda a análise sobre os dados, ao invés de existirem sistemas diferentes realizando análises diferenciadas. Outra vantagem é a eficiência da análise que permite ao usuário, de maneira muitointerativa, ter respostas para perguntas como: quantos produtos X foram vendidos no mês Y nas cidades de A e B para clientes com idade acima de 30 anos? Tais pesquisas podem ser feitas esporadicamente, o que de fato caracteriza um sistema de análise empresarial, um Sistema de Suporte à Decisão (SSD). Na figura a seguir, podemos ver como um SSD é estruturado. Bases de Dados e ferramentas que compõem um Sistema de Suporte à Decisão robusto Fonte: adaptado de Strum (2000, p.6) Na figura acima, observamos os seguintes elementos: DTS – Data Transformation Server: responsável por extrair os dados operacionais e externos e colocá-los em um formato padrão para o DW, fazendo a “carga” dos dados, ou seja, a transferência. Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 17 OLTP – On-Line Transaction Processing: sistemas de Processamento de Transação (SPT) que operam em modo on-line. Serviço Pivot Table: estrutura de dados / arquivos para cruzar dados e permitir a construção de modelos gráficos e multidimensionais das informações que se pretende extrair através da ferramenta OLAP. A construção de sistemas desse porte busca atender, segundo Strum (2000), aos seguintes pontos: gerar informações com profundidade, com a estrutura em níveis hierárquicos; comparar grupos de informações sob condições definidas pelo usuário; gerar informações utilizáveis; prover informações no tempo certo e preciso; realizar análises rápidas; e fornecer informações acessíveis, permitindo acesso de qualquer lugar, que sejam inteligíveis ou familiares ao usuário final. Assim, sistemas desse porte contendo essas características atuam de forma ativa no planejamento estratégico para a organização, no momento que permitem apontar os sucessos e falhas passadas para que as decisões de hoje tenham um reflexo positivo no futuro. 2.5 Modelagem Dimensional – Introdução Conforme visto, uma ferramenta OLAP é composta por um repositório de dados, podendo ser um DW ou um Data Mart. Além de uma estrutura para armazenamento de dados, ela conta com uma poderosa máquina matemática para efetuar cálculos e com uma ferramenta que permite a visualização multidimensional de dados, os Cubos. Um ponto no cubo da figura acima mostraria, por exemplo, a quantidade de vendas de um determinado produto, em uma determinada região, num determinado mês do ano. Uma plano (Slicing) apresenta, por exemplo, a quantidade de vendas, em determinada região, de todos os produtos em todos os meses do ano. Já o cubo (Dicing) apresenta informações de todos os produtos, em todas as regiões, em todos os meses do ano. A figura acima mostra o exemplo de um cubo com três dimensões, por questões óbvias de percepção. Porém, um modelo pode ser visto como uma representação de n dimensões. O conceito de rotação de planos ou Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 18 pivotamento está relacionado com a mudança dos eixos das dimensões, permitindo transformações na visualização dos dados. O processador matemático é utilizado para efetuar consultas ao banco de dados não padronizadas, tais como: somas, cálculos de frequências, cálculos temporais, estatísticas e categorização. Outras operações mais complexas como fórmulas ou algoritmos, conversões e modelagens, além de consultas mais elaboradas, são outras capacidades disponíveis por essa ferramenta. A base de dados possui grande importância na construção de sistemas baseados em soluções OLAP, pois ela deve garantir a integridade, consistência, acessibilidade, dinamismo e permitir que análises sejam feitas da maneira otimizada. Assim, bases de dados normalizadas auxiliam muito em processos operacionais vistos em OLTP’s, devido o alto grau de atualizações e edições de informações. Isso já não condiz com o contexto de um OLAP no qual se trabalha, ou pelo menos se visa trabalhar, com dados estáticos. Mesmo assim, não é descartada a possibilidade de se utilizar uma base relacional normalizada para efetuar análise de dados. Uma das diferenças cruciais entre sistemas OLAP e OLTP é que o segundo possui um conjunto pré- determinado de consultas a executar, sabendo exatamente o que deve retornar. Já o primeiro não. Este sabe que tipos de dados serão analisados, mas não como será feita a análise, gerando as consultas sob demanda. A utilização de uma base de dados não normalizados, baseada em uma estrutura multidimensional, pode melhorar a performance da análise. Dimensões e Fatos O modelo dimensional é composto basicamente de dois tipos de tabelas: Dimensões e Fatos. Uma tabela de Fatos contém medições sobre o negócio como, no exemplo de uma fato de Vendas, a quantidade de produtos que foi vendido, o valor da venda e o valor unitário do produto vendido. Além destas informações de fatos, esta tabela contém chaves para as tabelas de dimensões. Uma tabela de fatos é extremamente grande referente à quantidade de registros que contém. No exemplo da fato Vendas, ela armazena todas as vendas de cada produto feitas em cada loja todos os dias. É comum uma tabela de fatos alcançar alguns Gibabytes logo nos primeiros meses de uso do Data Warehouse. As tabelas de Dimensões contém descrições textuais sobre cada um elementos que fazem parte do processo. No exemplo do cubo que citamos anteriormente, temos três dimensões (Tempo, Região e Produto). As tabelas dimensionais contém vários atributos que descrevem em detalhes todas as características que possam definir e serem úteis para futuras pesquisas no Data Warehouse. As dimensões podem apresentar hierarquias, através do encadeamento de membros. Tomando como exemplo da dimensão tempo: ano, mês, dia e hora são seus membros e estão organizados de forma hierárquica, permitindo que o grau de detalhamento de uma análise aumente ou diminua, conforme a necessidade do usuário. Tal recurso pode proporcionar ao gestor uma visão de tendências. O tipo de modelo dimensional mais utilizado é o Modelo Estrela (Star Schema). Neste modelo, todas as tabelas relacionam-se diretamente com a tabela de fatos. Sendo assim, as tabelas dimensionais devem conter todas as descrições que são necessárias para definir uma classe como Produto, Tempo ou Região nelas mesmas, ou seja, as tabelas de dimensões não são normalizadas no modelo estrela. Assim, campos como Categoria, Departamento, Marca contém suas descrições repetidas em cada registro, assim aumentando o tamanho das tabelas de dimensão por repetirem estas descrições de forma textual em todos os registros. Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 19 Star Schema – esquema estrela Fonte: adaptado de Strum (2000, p. 52) Este modelo é chamado de estrela porque a tabela de fatos fica ao centro cercada das tabelas dimensionais assemelhado a uma estrela. Mas o ponto forte a fixar é que as dimensões não são normalizadas. Drill-down e Roll-up (ou Drill-up) Drill-down e drill-up são conceitos de operadores dimensionais, relacionados à possibilidade de navegar em uma hierarquia associada a determinada dimensão do modelo. Por exemplo, a hierarquia da dimensão geografia poderia ser definida como: PAÍS REGIÃO ESTADO CIDADE LOJA. A hierarquia da dimensão tempo poderia ser definida como: SEMESTRE MÊS DIA. O conceito de drill-down está diretamente relacionado com o fato de sairmos de um nível mais alto da hierarquia e buscarmos informações mais detalhadas, ou seja, em níveis menores. Por exemplo, se você já obteve as informações de vendas no nível de ESTADO e agora deseja o detalhe por CIDADES, está solicitando um drill- down. O inverso é conhecido comodrill-up (ou roll-up). Todas as ferramentas OLAP estão aptas a executar esses dois operadores, que são absolutamente básicos dentro do conceito de manipulação dimensional de data warehouse. Drill-Across O conceito de drill-across está relacionado com a ideia de você poder “pular” de um esquema para outro, desde que ambos tenham algumas dimensões em conformidade, ou seja, as mesmas dimensões estão compartilhadas. É como se fosse uma espécie de join dimensional entre estruturas relacionadas. O join relacional permite que você busque informações em outra tabela a partir de campos comuns, ou seja, do pareamento entre as chaves primárias e estrangeiras. O drill-across faz o equivalente entre esquemas dimensionais, quando unidos por dimensões compatíveis. Por exemplo, suponha que esteja vendo informações sobre vendas em determinado período e região, e gostaria de visualizar, também, informações sobre entregas usando as mesmas dimensões. Drill-through O conceito de drill-through está relacionado com a ideia do usuário desejar uma informação em nível de detalhe menor do que aquele colocado na tabela fato e permitido pela sua granularidade. Suponha que você tenha armazenado na tabela fato sobre Vendas as informações em nível de granularidade de produto por dia e Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 20 por loja. Isso significa que o menor nível que se pode alcançar naquela estrutura é a informação sobre produto. Mas certamente o sistema também armazena as informações em nível de nota fiscal, que foram totalizadas em produto, dia e hora para dar origem ao fato granular armazenado. É comum os termos drill-down e drill-through serem confundidos. A principal diferença entre eles é que a busca detalhada (drill-down) opera em uma hierarquia de dados pré-definida — por exemplo, EUA, depois Washington, depois Seattle — dentro do cubo OLAP. Uma consulta drill-through vai diretamente ao menor nível de detalhe dos dados e recupera um conjunto de linhas dessa fonte de dados, que foram agregados em uma única célula. Outros Comandos Algumas ferramentas possuem um conjunto muito variado de operadores dimensionais, estatísticos e temporais. Algumas delas são descritas abaixo: RANKING: classifica determinada informação baseada nos n melhores resultados. LAST-WEEK: mostra os valores relacionados à semana anterior, tendo como referência a semana atual. PRIOR-WEEK: somente os valores relacionados ao período compreendido nos últimos sete dias, tendo como referência a data atual. YEAR-TO-DATE: compreende o período do ano de referência até a data de hoje. Etc. País Região Estado Cidade Loja Outras Dimensões Dimensão Geografia Drill-up Drill-down Semestre Mês Dia Dimensão Tempo ENTREGAS VENDAS Produto Nota Fiscal Itens Drill-across Drill-through Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 21 2.6 Comparação entre Dados de Natureza Operacional e Informacional Características Dados Operacionais Dados Informacionais 1. Conteúdo Valores correntes Valores sumarizados, calculados, integrados de várias fontes 2. Organização dos dados Por aplicação/sistema de informação Por assuntos/negócios 3. Natureza dos dados Dinâmica Estática até o refresh dos dados, de tempos em tempos 4. Formato das estruturas Relacional, próprio para computação transacional Dimensional, simplificado, próprio para atividades analíticas 5. Atualização dos dados Atualização campo a campo Acesso granular ou agregado, normalmente sem update direto 6. Uso Altamente estruturado em tabelas, processamento repetitivo Estruturado em fatos e dimensões, com processamento analítico/preditivo 7. Tempo de resposta Otimizado para faixas abaixo de 1 segundo Análises mais complexas, com tempos de resposta maiores Acessar o site https://reports.zoho.com/ e utilizar as bases de demonstração para navegar na ferramenta. - Escolher um relatório/gráfico/dashboard pronto ou montar um novo, à sua escolha. - Para a análise escolhida, elencar as dimensões e fato(s) associadas. - Mostrar, na análise escolhida, um exemplo de drill-up e drill-down. Trabalho para apresentar em sala Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 22 3. Modelagem Dimensional de Dados – Detalhamento 3.1 Introdução Os conceitos a serem discutidos neste capítulo são refinamentos da abordagem dimensional vista no capítulo anterior. Precisamos lembrar, aqui, que o produto final da modelagem dimensional é um modelo conceitual dimensional, formado por tabelas fato e tabelas dimensão. As tabelas fato servem para armazenar, normalmente, medidas numéricas associadas a eventos de negócio. Uma tabela fato contém vários fatos, correspondentes a cada uma de suas linhas. Cada fato pode armazenar uma ou mais medidas numéricas, que constituem os valores objetos da análise dimensional. Possuem como chave primária, normalmente, um campo multi-key, formado pelas chaves primárias das dimensões que com ela se relacionam. As tabelas fato armazenam muito mais linhas do que as dimensões e merecem cuidado especial em função do seu alto volume e taxa de atualização. Os dados dessas tabelas são normalmente aditivos (manipulados por soma, média, etc) e relativamente estáticos. Originam-se das entidades encontradas no modelo relacional que representam ações, eventos, acontecimentos, enfim, fatos que desejamos registrar. Daí a origem de seu nome. Normalmente associadas também a eventos de negócios, as tabelas fato representam: pedidos, despachos, pagamentos, transações bancárias, reservas de hotel, reservas aéreas, admissões em hospital, matrículas, etc. As tabelas dimensão representam entidades de negócios e constituem as estruturas de entrada que servem para armazenar informações como tempo, geografia, produto, cliente, etc. As tabelas dimensão têm uma relação 1:N com a tabela fato e possuem um número significativamente menor de linhas do que as tabelas fato. Possuem múltiplas colunas de informação, algumas das quais representam a sua hierarquia. Apresentam sempre uma chave primária que lhes confere unicidade, chave esta que participa da tabela fato como parte da sua chave múltipla. Devem ser entendidas como as tabelas que realizam os filtros de valores aplicados na manipulação dos fatos e por onde as consultas entram no ambiente do DW. Normalmente estão niveladas em hierarquia, apresentando entre os níveis um relacionamento 1:N também. Originam-se, normalmente, das entidades objetos encontradas no modelo relacional: local, cursos, equipes, produtos, clientes, etc. Figura 3.1 – Exemplo de modelo dimensional clássico Loja Dia VENDAS Cod-Produto (FK) Cod-Loja (FK) Cod-Dia (FK) Qtd-venda Valor Produto Cod-Loja (PK) + Atributos Cod-Dia (PK) + Atributos Cod-Produto (PK) + Atributos Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 23 3.2 Passos da Modelagem Dimensional 3.2.1 Definição da Granularidade A granularidade de uma tabela diz respeito ao nível de detalhamento em que os dados são armazenados. Ex: numa rede de supermercado que deseja controlar o comportamento de vendas de produtos por região ao longo do tempo, podemos ter várias possibilidades de granularidade: Produto x loja x dia Produto x loja x mês Produto x região x dia Etc. Quanto menor o grão, maior é o nível dedetalhamento que se pode extrair através das consultas. Porém, quanto mais detalhes, maior é a quantidade de dados armazenados, o que gera, como consequência, maior espaço de armazenamento. A decisão a respeito do nível de detalhe das tabelas fato pode ser pautada por alguns fatores: Necessida de informação naquele nível de detalhe: só devemos guardar informações que serão úteis e utilizadas pelos usuários do sistema. Não faz sentido consumir grande espaço de armazenamento para manter dados que nunca serão usados ou que podem ser recuperados sem dificuldados nos sistemas transacionais. Volume de dados a ser mantido: deve-se levar em consideração a capacidade de armazenamento, já que a mudança na granularidade de uma tabela pode aumentar de forma significativa o espaço de armazenamento dispendido. Processamento necessário para produzir tais informações: como os dados do DW se originam de diversas fontes, deve-se analisar a dificuldade na obtenção dos dados detalhados. O custo- benefício vale a pena? Cenário exemplo: Suponha uma rede de varejo onde cada loja vende, em média, 10 mil itens de produtos por dia. A rede tem 200 lojas e deseja armazenar dados por 10 anos. A quantidade de registros nessa tabela fato seria: 10.000 * 200 * (365*10) = 7,3 bilhões de registros. Quanto de espaço isso representa em termos de armazenamento? Cada registro da tabela fato é composto por chaves das dimensões e pelos valores das métricas. Considerando três chaves (fk-produto, fk-loja, fk-dia), cada uma com 5 bytes, seriam 3 * 5 = 15 bytes. Considerando três métricas (valores numéricos), cada uma com 4 bytes, seriam 3 * 4 = 12 bytes. Ou seja, cada registro consumiria 15 + 12 = 27 bytes. Como a tabela fato teria aproximadamente 7,3 bilhões de registros, cada um com cerca de 27 bytes, então a tabela fato em questão consumiria 189 Gigabytes, sem contar gastos com índices e outras tabelas acessórias. 3.2.2 Definição das Tabelas Dimensão Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 24 Na fase de definição da granularidade, as dimensões envolvidas no modelo já foram definidas. Nesta etapa, cabe definir as hierarquias das dimensões e os atributos que restantes que podem compor cada dimensão. É possível definir, para uma mesma dimensão, hierarquias distintas. As ferramentas OLAP geralmente disponibilizam a criação de um objeto do tipo hierarquia, onde é possível definir cada nível que participa daquele objeto. Ex: Para a dimensão DATA, poderíamos definir: ANO MÊS DIA ESTAÇÃO DO ANO DIA Para a dimensão Produto, poderíamos definir: CATEGORIA SUBCATEGORIA PRODUTO MARCA PRODUTO Para a dimensão Loja, poderíamos definir: REGIÃO LOJA GERÊNCIA LOJA Determinados atributos, chamados de atributos de nível, estão associados somente a um nível da hierarquia. Por exemplo, para a dimensão DIA, poderíamos ter os seguintes atributos de nível: - Indicador de feriado (indica se o dia é feriado) - Indicador de último dia do mês (informa se o dia é o último do mês) - Indicador de final de semana (indica se o dia é sábado ou domingo) - Número da semana (indica o número da semana dentro do ano à qual esse dia pertence) Apesar desses atributos se referirem somente a determinado nível da hierarquia (no exemplo acima, o dia), eles podem ser utilizados com níveis superiores, da seguinte maneira: Filtro: Mês = Janeiro de 2016 Mês Indicador de Feriado Valor de venda Janeiro 2016 Sim 100,00 Janeiro 2016 Não 2000,00 O relatório acima exibe a seguinte situação: a primeira linha soma os valores de vendas realizados nos dias de Janeiro de 2016 que são considerados feriado (suponhamos que alguma loja abriu no feriado!) e a segunda linha soma os valores de vendas de todos os dias de Janeiro de 2016 que não são considerados feriado. 3.2.3 Normalização das Tabelas Dimensão Existem duas correntes diferentes com relação aos aspectos de normalização das tabelas dimensão: Star Schema (esquema estrela): Recomenda a não normalização das dimensões. Snowflake Schema (esquema flocos de neve): Recomenda a normalização das tabelas. No esquema estrela, os dados são redundados dentro das dimensões, com o objetivo de reduzir o número de junções (joins) necessários no momento da consulta, para recuperar as informações solicitadas pelos usuários. No Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 25 esquema floco de neve, as tabelas são normalizadas para reduzir a redundância e economizar espaço de armazenamento. Suponha um modelo que registra as vendas de determinada rede de lojas. A figura abaixo apresenta o modelo no esquema estrela. Notem que na tabela de Produtos possuímos informações (código e descrição) da subcategoria e categoria do produtos. A tabela de Produtos teria a seguinte forma (de forma bastante sucinta) no esquema estrela: Cod-prod Produto Cod-categ Categoria Cod-subcateg Subcategoria 01 Caderno 01 Papelaria 011 Escolar 02 Tinha guache 01 Papelaria 012 Artes 03 Shampoo 02 Farmácia 021 Perfumaria A figura abaixo apresenta o mesmo modelo no esquema floco de neve. Neste caso, a tabela de Produtos possui somente o código da subcategoria que, por sua vez, possui somente o código da categoria. As tabelas abaixo ilustram o esquema floco de neve. Cod-prod Produto Cod-categ Cod-subcateg 01 Caderno 01 011 02 Tinta guache 01 012 03 Shampoo 02 021 Cod-categ Categoria Cod-subcateg Subcategoria 01 Papelaria 011 Escolar FATO Vendas Cod-produto Qtd Valor Produto | Subcategoria | Categoria Subcategoria FATO Vendas Cod-produto Qtd Valor Categoria Produto Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 26 02 Farmácia 012 Artes 021 Perfumaria Suponhamos que o usuário solicitou um relatório com os valores de vendas por produto, mas quer ver, também, a categoria do produto. Utilizando o esquema estrela, basta realizar um join entre a tabela fato e a dimensão de produtos. Por outro lado, no esquema floco de neve, seriam necessários três joins: um entre a fato e a tabela produto, outro entre Produto e Subcategoria e um terceiro entre Subcategoria e Categoria, para recuperar a descrição da categoria do produto. A utilização do esquema estrela é extremamente recomendável, pelos aspectos de granho de desempenho quando comparada com o esquema de flocos de neve. A redundância no caso do esquema estrela será amplamente compensada pelas reduções de comandos de junção, que seriam necessár4ios para recompor a informação desejada, buscando-a em outras tabelas. Como as tabelas dimensão requerem menos espaço quando comparadas com as tabelas fato, o que será efetivamente poucado, no caso do floco de neve, será certamente desprezível, comparado com os espaços requeridos pelas tabelas fato. Em um projeto de DW, o grande espaço consumido fica por conta das tabelas fato, exatamente pelo seu volume exponencial, proporcional à granularidade definida. Considere o seguinte cenário: Tabela Categoria de Produtos composta por dois campos: Cod-categoria, com 2 bytes Descrição-categoria, com 13 bytes No esquema floco de neve, a tabela Produto teria somente a FK da categoria, ou seja, 2 bytes. No esquema Estrela, a tabela Produto teria a FK e a descrição, somando 15 bytes (13 a mais que no Floco de Neve). Para uma dimensão com 200 mil produtos, o esquema floco de neve apresentaria um ganho na ordem de 2,6 megabytes em relação ao esquema estrela. Considerandoque um DW dessa natureza poderia ter 260 gigabytes, o ganho na economia de espaço seria de 0,00001%, o que é considerado absolutamente desprezível se pensarmos em termos do desempenho ganho pela supressão dos comandos join entre as tabelas. 3.2.4 Relacionamento de Atributos das Tabelas Dimensão De maneira geral, podemos caracterizar os relacionamentos entre as dimensões da seguinte forma: Tabelas dimensionais de uma hierarquia normalmente não se relacionam com outras de quaisquer hierarquias. São independentes. Ex: Tempo e Loja se relacionam somente através da tabela de fatos. Os níveis dentro da dimensão possuem relacionamento hierárquico rigoroso, ou seja, 1:N. Ex: Região Cidade Loja guardam estritamente a forma 1:N entre elas, isto é, uma loja está localizada em apenas uma cidade, que pertence a uma única região. Atributos de uma dimensão podem possuir relacionamento M:N com atributos de outra dimensão. Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 27 Ex: Suponha um modelo dimensional para controle de vendas de livros e arrecadação de direitos. A dimensão Livro tem um relacionamento com Autor na proporção M:N, ou seja, um autor pode ter vários livros, e um livro pode ter vários autores. Essas entidades poderão produzir uma tabela de relacionamento que guarda o percentual de direito de cada autor naquele livro. O modelo abaixo ilustra essa situação. Para resolver as consultas deste modelo, uma possibilidade é a criação de uma view, conforme tabela abaixo, onde será disponibilizado o valor de participação recebido por cada autor, para cada livro. Autor Livro Data Valor Participação A1 Livro1 03/2011 5.000,00 5.000*60% A2 Livro1 03/2011 5.000,00 5.000*40% Neste exemplo, o Livro 1 tem participação dos autores A1 e A2, o primeiro com 40% e o segundo com 60%. A coluna Valor apresenta o valor total de venda do livro no mês de março de 2011. E a coluna Parcipação faz o cálculo da participação de cada autor sobre o valor total da venda, a partir dos percentuais individuais de cada um. 3.2.5 Estrutura das Dimensões Conforme já vimos, as dimensões no esquema estrela apresentam redundância de dados para agilizar as consultas. Os dados devem ser disponibilizados de forma a atender a consultas diversas, permitindo flexibilidade na elaboração dos relatórios. Muitas vezes é necessário armazenar a mesma informação de formas diferentes, para atender a diferentes necessidades de visualização. Algumas dimensões são clássicas e sempre aparecem nos modelos: TEMPO (quando ocorreu o fato), ESPAÇO (onde ocorreu o fato), OBJETO do sistema. A Dimensão de Data Mês VENDAS Cod-Livro Cod-Mês Qtd-venda Valor-vendido Livro Ano Categoria % Particip Autor Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 28 A dimensão de data (que pode compreender várias tabelas dimensionais de diferentes níveis: ano, semestre, trimestre, mês, dia...) está quase sempre presente nas tabelas fato. Essa dimensão não depende de dados provindos do sistemas transacional e pode ser carregada antecipadamente. É uma dimensão estática (não sofre muitas alterações). A tabela abaixo apresenta um exemplos de campos que poderiam ser incluídos numa dimensão DIA: Campo Valor Data_completa Ex: 01/02/2016 Dia_semana Ex: Segunda-feira Número_dia_mês Ex: 01 Número_dia_geral_corrido_no_ano 01 a 365 Número_semana_geral_corrido 01 a 52 Mês_ano Ex: Fevereiro Número_mês_geral_corrido 01 a 12 Trimestre 01 a 04 Tag_dia_final_de_semana Indica se é sábado ou domingo Tag_último_dia_mês Indica se é último dia do mês Tag_feriado Indica se é feriado Os indicadores de feriado ou final de semana podem, por exemplo, gerar análises interessantes sobre acontecimentos e comportamentos dos negócios. Ex: Num DW de vendas, podemos comparar os fatos de vendas nesses períodos diferenciados. Ex: Num DW de controle de audiência de TV a cabo, esses atributos da dimensão tempo são imprescindíveis para a análise de comportamento dos assinantes. Dimensões Lixo (Junk) O conceito de dimensões junk está relacionado com a definição de dimensões para campos com certas características diferenciadas como tag, valores binários ou campos de baixa cardinalidade, que não estejam necessariamente relacionados a nenhuma outra dimensão. Vantagem: reduz a quantidade de chaves na tabela de fatos, pois combina várias chaves em uma só. Ex: para uma fato que registra pagamentos, poderíamos ter uma dimensão Junk que registraria indicadores como “Pagamento em atraso”, “Tipo de Pagamento”, “Indicador de comissão”, etc. Dimensões Degeneradas São chaves de dimensão na tabela de fatos sem tabelas de dimensão correspondentes. Uma chave de dimensão, como o número de uma transação, número de fatura, tíquete, nota fiscal, pedido ou ordem de compra, que não tenha nenhum atributo, portanto não se junta com uma tabela de dimensão. Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 29 Esses documentos normalmente são compostos de itens, e se a granularidade da tabela de fatos for item, o número do documento estará na tabela fato apenas para permitir o agrupamento dos itens por documento. Dimensões com Vários Papéis Uma mesma dimensão pode desempenhar vários papéis na tabela fato. Quando isso ocorre, o mapeamento dos diversos papéis é realizado na mesma tabela física, e a ferramenta OLAP se encarrega de criar alias (apelidos) na geração da consulta SQL para realizar vários joins com a mesma tabela. O modelo abaixo apresenta um exemplo de estrela com dois papéis para a dimensão DIA e dois papéis para a dimensão LOCAL. 3.2.6 Tipos de Métricas As métricas são os dados, normalmente numéricos, registrados nas tabelas fato, que estão na interseção das dimensões. Dependendo de suas características, as métricas podem ser classificadas em: Aditivas: Quando os valores são passíveis de serem somados em todas as dimensões. Ex: valor vendido. Podemos somar os valores vendidos em todos os dias de um mês, os valores vendidos em todas as lojas de uma região, etc. Semiaditivas: Quando sua soma (ou tratamento estatístico qualquer) fizer sentido somente para algumas dimensões. Ex: quantidade vendida (faz sentido saber as quantidades vendidas de determinado produto acumulada por períodos diferentes ou regiões diferentes. Mas não faz sentido somar as quantidades de todos os produtos de uma loja de departamentos, por ex). Não aditivas: Quando determinado valor não puder ser somado em qualquer dimensão ou sempre produzir um valor sem nenhum sentido válido. ENTREGAS Origem (FK) Destino (FK) Data-despacho (FK) Data-entrega (FK) Cod-item (FK) Cod-cliente (FK) ... Produto origem destino despacho entrega Cliente Dia Local Sistemas de Apoio à Decisão Professora: Mariana Tasca Fontenelle Lôbo 30 Ex: percentual de lucro (valor-vendido – custo/valor vendido), taxa de conversão, etc. A classificação das métricas apresentadas abaixo sugere uma maior ou menor aditividade. Medidas de fluxo de valores: normalmente associadas a vendas de produtos, como valores vendidos, ou expressões de fatos, como o número de nascimentos por unidade de tempo. São geralmente processadas por soma, média, mínimo e máximo. Ex: a quantidade de produtos P1 vendidos no mês 1 pode ser somada com a quantidade de produtos P1 vendidos
Compartilhar