Prévia do material em texto
<p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>Análise de Dados</p><p>Usando Dashboards</p><p>Prof. Rodrigo Ramos Nogueira;</p><p>Luiz Claudio Perini</p><p>Oportunidades de aprendizagem</p><p>Apresentação Geral da Disciplina</p><p>Olá, aluno!</p><p>O uso de dados está se tornando cada vez mais presente no dia a dia das empresas para melhora dos seus</p><p>resultados. Isso está fazendo com que as estratégias deixem cada vez mais de serem intuitivas para se tornarem</p><p>estratégias analíticas que contribuam com mais assertividade para o crescimento da empresa.</p><p>A disciplina de Análises de Dados usando Dashboards abordará os principais conceitos e técnicas utilizadas para a</p><p>extração de conhecimento através dos dados. Para isso, a disciplina está organizada em três etapas:</p><p>Vamos lá?</p><p>Bons estudos!</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/unidade-1</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>Avançar</p><p>UNIDADE 1</p><p>Produzimos diariamente uma quantidade enorme de dados. A proliferação do uso de dispositivos móveis e das</p><p>mídias sociais impulsionam novas formas e fontes de dados, gerando um aglomerado de dados que chamamos de</p><p>Big Data. Porém, o avanço das tecnologias e a capacidade de processamento dos computadores intensificaram</p><p>também as análises desses dados, afinal, para as organizações não basta ter dados, é preciso gerar informação e</p><p>conhecimento.</p><p>Vamos começar tratando sobre dados. Essa grande quantidade de dados está distribuída de acordo com o seu</p><p>formato e estrutura de armazenamento. Assim, podem ser classificados como estruturados, semiestruturados e não</p><p>estruturados.</p><p>Semiestruturados Estruturados Não estruturados</p><p>São aqueles que têm uma São armazenados em uma Não é possível obter uma</p><p>estrutura, ou seja, consegue-se estrutura previamente definida. estrutura, e para extrair</p><p>reconhecer um significado, mas conhecimento sobre tais dados, é</p><p>não há uma estrutura definida necessário realizar um pré- SGBDR (Sistemas Gerenciadores</p><p>previamente. processamento. de Bancos de dados Relacionais)</p><p>ou BDR (Banco de dados</p><p>São: planilhas de Excel, arquivos relacionais). São: textos, imagens, arquivos de</p><p>CVS, documentos XML, som etc.</p><p>documentos JSON. Apenas 20% dos dados são</p><p>estruturados.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>Uma vez coletados e armazenados, esses dados podem gerar informação e conhecimento que poderão ser</p><p>utilizados como suporte à tomada de decisão nas organizações. Assim, coletar dados é a primeira etapa para</p><p>transformá-los em conhecimento. Para podermos avançar, vamos entender a diferença entre informação e</p><p>conhecimento?</p><p>Informação : são os dados contextualizados, categorizados, calculados e condensados. Informação são os dados</p><p>organizados.</p><p>Conhecimento : é quando se dá à informação um contexto, um significado, uma interpretação, ou seja, alguém</p><p>refletiu sobre o conhecimento, acrescentou a ele sua própria sabedoria e considerou suas implicações mais amplas.</p><p>No vídeo Informação, dados e conhecimento , você pode entender a relação entre esses três conceitos e como</p><p>eles são tratados e aplicados a sistemas de informação.</p><p>Informação, dados e conecimento</p><p>Com essa “explosão” de conteúdo, a Big Data é a área do conhecimento que estuda como tratar, analisar e obter</p><p>informações a partir de conjuntos de grande número de dados, que não seriam capazes de serem analisados por</p><p>sistemas tradicionais. No artigo Big Data Marketing: a importância dos dados para uma nova gestão de estratégias ,</p><p>você pode entender melhor o que é Big Data e acompanhar como o Big Data pode viabilizar o uso dessas</p><p>informações para melhorar as estratégias de marketing, dentro de uma organização, por exemplo.</p><p>Vamos ver alguns importantes conceitos que irão ajudar na compreensão de como analisar dados, principalmente</p><p>uma grande quantidade de dados.</p><p>Data mining É o processo de lapidar dados brutos e extrair conhecimento a partir deles.</p><p>SGBD Ou Sistema gerenciador de Bancos de Dados, é um software que é responsável por</p><p>gerenciar o acesso aos dados. É responsável por fazer a interface entre os dados</p><p>com aplicações e usuários, encapsulando-os, garantindo sua segurança e</p><p>integridade. Ex. SQL Server, MySQL e Oracle.</p><p>Data Warehouse São bancos de dados analíticos, projetados para armazenar os dados de fontes</p><p>diversas, já transformados e preparados para serem explorados por aplicações de</p><p>tomada de decisão</p><p>NOSQL São banco de dados onde os dados podem ser distribuídos de maneira</p><p>independente, sem que seja necessário enviar todo um conjunto para um</p><p>determinado nó ou disco.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://youtu.be/IuKRI06m018</p><p>https://www.google.com/url?q=https%3A%2F%2Finteligencia.rockcontent.com%2Fbig-data-marketing%2F&sa=D&sntz=1&usg=AOvVaw2yxOmYDOfm03091ncI1Cx2</p><p>Os dados estão mudando a maneira como nos relacionamos com a tecnologia e, principalmente, como os gestores</p><p>das organizações tomam suas decisões.</p><p>Imagine o volume de dados gerados por uma organização revertidos em prol de um melhor desempenho. O</p><p>Business Intelligence (BI) auxilia o gestor a ter “na palma da sua mão” os dados de todos os sistemas da empresa</p><p>integrados aos dados de suas redes sociais, permitindo a tomada de decisão sobre as mais diversas perspectivas.</p><p>Veja como funciona um BI.</p><p>Fonte: http://developerplace.com.br/postagens/business-intelligence-postagens/funcionamento-de-uma-ferramenta-de-business-intelligence-bi/. Acesso em: 8 set. 2020</p><p>O Business Intelligence é um conjunto de técnicas e processos, alinhados com tecnologia, que transformam uma</p><p>grande quantidade de dados brutos em informação e conhecimento que podem auxiliar no suporte à tomada de</p><p>decisão.</p><p>Na próxima etapa, vamos conhecer mais a fundo como funciona o processo de análise de dados e o Business</p><p>Intelligence. Vamos continuar?</p><p>Bons estudos!</p><p>UNIDADE 1 - A EXPLOSÃO DOS DADOS:</p><p>COMO GERENCIÁ-LOS?</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>OBJETIVOS DE APRENDIZAGEM</p><p>A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes objetivos de</p><p>aprendizagem:</p><p>os principais cenários de dados no mundo atual;</p><p>a importância de se obter um grande volume de dados para a geração de conhecimento, os tipos e</p><p>formatos de dados;</p><p>conceituar conhecimento e saber os processos para extraí-los;</p><p>conhecer técnicas e ferramentas para coleta e análise de dados.</p><p>1 - O VOLUME E OS TIPOS DOS DADOS</p><p>Já parou para pensar na quantidade de dados que você gera diariamente? Isso mesmo, apenas você? Apenas</p><p>um celular conectado com e-mail, aplicativo de mensagens e mídias sociais é capaz de gerar uma grande</p><p>quantidade de dados, dos mais diversos tipos (textos, áudios, fotos, vídeos). Se esta reflexão for elevada para</p><p>todos os usuários, em que apenas no Brasil, segundo o IBGE, 116 milhões de pessoas têm conexão com a</p><p>internet, imagine a quantidade de informação gerada diariamente em todo mundo por diversas empresas.</p><p>Isso em números significam cerca de 2,5 quintilhões de bytes gerados, diariamente, em todo o mundo.</p><p>Tradicionalmente, as bibliografias tratam do tema de análise de dados, na mesma linha que este livro as</p><p>aborda, principalmente,</p><p>sua fonte provedora, selecionar os métodos</p><p>de pré-processamento e transformação, posteriormente selecionando a fonte de origem (banco de dados</p><p>multidimensional).</p><p>Sabemos que os dados de um Data Warehouse podem ser explorados por diversas perspectivas, ou seja,</p><p>explorando a multidimensionalidade do modelo criado. O cubo de dados é uma representação abstrata da</p><p>representação analítica dos dados armazenados multidimensionalmente. De modo simples, o cubo é uma metáfora</p><p>visual. Os dados são vistos de acordo com as dimensões.</p><p>As fontes de dados são definidas pelo cenário de aplicação, a área de preparação definida pela ETL, que, ao fim,</p><p>realiza a carga no banco de dados multidimensional. O servidor OLAP representa a camada de apresentação,</p><p>fornecendo os dados através de suas operações. Uma vez feito isso, os dados já estão pré-processados, limpos e</p><p>armazenados, desse modo estando prontos para que sejam consumidos pelas aplicações. As ferramentas de</p><p>apresentação podem ser uma aplicação específica ou, o caso mais convencional, a utilização de uma ferramenta</p><p>para a geração de dashboards.</p><p>Na próxima etapa, trataremos em detalhes sobre as ferramentas de dashbords e suas aplicações em cenário de</p><p>Business Intelligence.</p><p>Bons estudos!</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>UNIDADE 2 - DATA WAREHOUSE E BUSINESS</p><p>INTELLIGENCE</p><p>OBJETIVOS DE APRENDIZAGEM</p><p>A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes objetivos de</p><p>aprendizagem:</p><p>saber como funciona o do processo de análise de dados, modelagem multidimensional e os tipos de</p><p>modelos;</p><p>conhecer o que é um Data Warehouse e seus elementos e o que é um cenário de Business Intelligence ;</p><p>conhecer todas as etapas de construção, desde a etapa de coleta, transformação dos dados e alimentação</p><p>de um Data Warehouse;</p><p>realizar a extração, transformação e carga e a modelagem multidimensional;</p><p>armazenar dados em um Data Warehouse;</p><p>realizar consultas OLAP em cenários de business intelligence .</p><p>1 - INTRODUÇÃO AO DATA WAREHOUSE E BUSINESS</p><p>INTELLIGENCE</p><p>Finalizamos o capítulo anterior falando sobre Business Intelligence (BI), seu poder e possibilidades na geração</p><p>de conhecimento. Business intelligence , muitas vezes, é difícil de ser compreendido, pois não se trata de uma</p><p>única ferramenta, mas de diversas técnicas de extração e manipulação. Na definição que surgiu em 1989, por</p><p>Howard Dresner, business intelligence é uma metodologia pela qual se estabelecem ferramentas para obter,</p><p>organizar, analisar e prover acesso às informações necessárias aos tomadores de decisão das empresas para</p><p>analisarem os fenômenos acerca de seus negócios, ou seja, business intelligence não é uma ferramenta, mas</p><p>uma metodologia, que pode empregar uma ou diversas ferramentas de acordo com o cenário de sua</p><p>aplicação.</p><p>A escolha de uma estratégia, ou de um conjunto delas, depende muito do cenário em que será aplicado e</p><p>caberá ao profissional responsável conhecimento sobre o cenário e sobre as estratégias. Infelizmente, nosso</p><p>livro teria que ter mais de 10.000 páginas para poder explicar todos os cenários possíveis de aplicações de</p><p>dados desde cenários de venda, compra, empréstimos, financiamentos, operadoras de crédito, bolsa de</p><p>valores, redes sociais, enfim, uma infinitude deles. Porém, vamos aprender a partir de agora como coletar</p><p>esses dados e quais são as ferramentas para processá-los e analisá-los, permitindo a construção de</p><p>fantásticos dashboards analíticos.</p><p>Vamos estudar o processo de Data Warehousing, no qual você compreenderá os principais métodos de coleta</p><p>de dados, as principais estratégias de processamento, bem como o armazenamento e posterior análises</p><p>multidimensionais. Uma vez realizado este processo, diversos processos de business intelligence podem ser</p><p>integrados, como mineração de dados e geração de dashboards .</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>O processo de geração do conhecimento geralmente inicia com os bancos de dados relacionais. Estes bancos</p><p>de dados estão no mercado desde os anos 1970 e têm sua eficiência inegável, principalmente, no que se</p><p>refere à segurança e integridade dos dados armazenados. No entanto, a arquitetura desses bancos de dados</p><p>foi projetada para a realização de transações bancárias, e mesmo que não seja um sistema bancário, diz-se</p><p>que um sistema de gestão realiza uma transação, que nada mais é do que um conjunto de funções,</p><p>executadas num banco de dados, que o usuário percebe como uma única ação. Por exemplo, ao realizar uma</p><p>venda, nem sempre se trata de inserir um registro na tabela de venda, por exemplo, insere os registros de</p><p>produtos vendidos, dá baixa no estoque e insere o valor do saldo. Todas estas funções caracterizam-se como</p><p>uma única transação.</p><p>Os bancos de dados tradicionais que trabalham orientados a transações são chamados de OLTP ( Online</p><p>Transaction Processing – Processamento de Transações On-line), porém, conforme havíamos abordado</p><p>anteriormente, o foco desta abordagem são as transações. Muitas vezes, os conceitos de Business Intelligence e</p><p>Sistemas de Apoio à Decisão são confundidos com os próprios sistemas gerenciais, afinal ainda que utilizem</p><p>uma arquitetura OLTP, tais sistemas permitem a extração de relatórios gerenciais: produtos mais vendidos,</p><p>clientes que mais compram, saldo total. O que você precisa entender é que relatórios extraídos de sistemas de</p><p>gestão não é business intelligence , relatórios são relatórios. Vamos explicar isso detalhadamente para ficar claro</p><p>no decorrer deste capítulo.</p><p>Se você já teve a disciplina de banco de dados ou já estudou boas práticas, com certeza, aprendeu as formas</p><p>normais e respectivamente que a normalização nos obriga a criar mais tabelas. Uma vez tendo criadas mais</p><p>tabelas, isto ajuda a amplificar a garantia da integridade dos dados armazenados, no entanto há um problema:</p><p>as consultas.</p><p>Uma vez que ao normalizar um banco de dados se criam diversas tabelas, as consultas mais complexas</p><p>necessitam de junções. Ou seja, conectar várias tabelas para responder a estas consultas. Em um banco de</p><p>dados pequeno, o aumento do tempo de execução das consultas utilizando junções pode não ser notado, no</p><p>entanto, sabendo que um cenário de business intelligence irá integrar diversos setores da empresa, com um</p><p>volume significativo de dados, quanto mais tabelas existirem, maior será o tempo de execução.</p><p>A partir de agora você conhecerá um pouco mais sobre a construção de um projeto de business intelligence ,</p><p>que acontece durante a concepção de um Data Warehouse, visto na próxima seção.</p><p>Tendências para business intelligence em 2019</p><p>Em nosso livro estamos discutindo as estratégias para construção de um business intelligence . No entanto,</p><p>estamos vendo abordagens tradicionais, consolidadas pela academia e mercado. Também é importante levar</p><p>em consideração o cenário de inovação tecnológica mundial e como essa inovação implica cenários de</p><p>business intelligence . Para isto, nesse texto, trazemos duas abordagens, as principais estratégias (conceitos e</p><p>metodologias) e as principais ferramentas.</p><p>Os últimos anos têm sido de inovações na área de análise de dados, além de aprimoramentos de produtos e</p><p>serviços, levando as organizações a uma análise sobre como priorizar uma abordagem moderna de business</p><p>intelligence que conduza a empresa a obter o máximo valor dos seus dados.</p><p>Pensando no quem vem pela frente, Adriano Chemin, vice-presidente da Tableau para América Latina,</p><p>empresa de software para análise visual de dados, reuniu as principais tendências de business intelligence para</p><p>os próximos anos, são elas:</p><p>Inteligência artificial explicável</p><p>Que a inteligência artificial (AI) veio para ficar é fato, graças ao aprendizado de máquina empresas conseguem</p><p>criar clusters de comportamento, identificar tendências de mercado,</p><p>avaliar riscos, tomar decisões rápidas e</p><p>automatizar milhões de atividades que antes consumiam tempo e recursos. Não dá para negar que o AI abriu</p><p>um mundo de possibilidades para o universo de BI, e que muitas das evoluções que estamos vendo (e que</p><p>veremos nos próximos anos) foram conquistadas graças às possibilidades oferecidas pela tecnologia de AI.</p><p>Por outro lado, quanto mais dependemos da AI, maior é nossa desconfiança quanto à credibilidade das</p><p>recomendações baseadas em modelos, já que grande parte das ferramentas que utilizam aprendizado de</p><p>máquina não fornecem uma forma transparente de ver os algoritmos ou a lógica por trás das decisões e das</p><p>recomendações. É aí que vem o AI Explicável, a prática de compreender e apresentar exibições transparentes</p><p>dos modelos de aprendizado de máquina. Se é possível questionar seres humanos, por que não ter a mesma</p><p>opção com o aprendizado de máquina na tomada de decisões?</p><p>A AI Explicável permite que o corpo executivo, cientistas e analistas de dados entendam e questionem a forma</p><p>como o aprendizado de máquina é aplicado no dia a dia de uma empresa, gerando mais transparência e</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>confiabilidade nos resultados.</p><p>Linguagem natural transforma a dinâmica das organizações</p><p>O processamento de linguagem natural (NLP) está quebrando paradigmas em todos os campos da tecnologia</p><p>e mudando a forma como as pessoas trabalham, ouvem música, solicitam informações sobre o tempo e, cada</p><p>vez mais, obtém respostas sobre um painel de dados.</p><p>A habilidade de obter respostas por meio de um comando de voz permite que pessoas com todos os níveis de</p><p>conhecimento possam questionar seus dados, e ao perguntar, obter uma resposta concreta e veloz.</p><p>Paralelamente, a linguagem natural está evoluindo para dar suporte à conversação analítica, ou seja, a</p><p>conversa entre o ser humano e o sistema sobre seus dados. O sistema aproveita o contexto da conversa para</p><p>entender a intenção por trás da consulta do usuário e promover o diálogo, criando uma experiência de</p><p>conversação cada vez mais natural.</p><p>À medida que a linguagem natural evolui com o setor de BI, ela abrirá portas para a adoção de análise e</p><p>ajudará a transformar ambientes de trabalho em operações autônomas e impulsionadas por dados. O NPL</p><p>eleva o patamar analítico das organizações como um todo, permitindo que um CEO atarefado, ou um analista</p><p>de marketing sem tanta destreza com análises numéricas obtenham as respostas que necessitam para</p><p>executar seu trabalho de forma precisa.</p><p>Análise acionável: mobilidade dos dados impulsiona ações</p><p>Velocidade é palavra-chave na vida de quem trabalha com análise de dados na atualidade, seja no acesso às</p><p>informações ou no tempo de resposta para executar a ação necessária, tudo precisa estar alinhado em um</p><p>único fluxo de trabalho e disponível no lugar e no dispositivo que o cientista/analista de dados desejar para</p><p>que ele possa agir rápido.</p><p>Pensando nisso, fornecedores de plataformas de BI oferecem análise em dispositivos móveis, análise</p><p>incorporada, extensões de painel e APIs que incorporam a análise ao local onde as pessoas executam seu</p><p>trabalho evitando a troca de aplicativos (ou servidores) desnecessária e melhorando o fluxo de trabalho.</p><p>A mobilidade permite, por exemplo, que o CEO de uma empresa acompanhe a evolução de seus negócios de</p><p>qualquer lugar do mundo, e acione sua equipe em tempo real. A incorporação da análise em fluxos de</p><p>trabalho diversos, leva ao que chamamos de análise acionável, um avanço poderoso que promete atender às</p><p>necessidades analíticas dos mais diversos departamentos, e empoderar funcionários de diferentes setores</p><p>por meio de dados contextualizados e sob demanda.</p><p>Storytelling é a nova linguagem dos dados</p><p>Dados são a forma mais poderosa de comunicar uma descoberta, apresentar um insight ou expor seus</p><p>resultados, e nada como o storytelling para gerar aquele impacto positivo. Storytelling analítico, ou contar uma</p><p>história por meio de dados, é uma das tendências mais marcantes do mundo do BI, e uma forma muito mais</p><p>atraente de expor todas as etapas das suas análises de forma acionável e fácil de entender.</p><p>À medida que as empresas criam uma cultura de análise, contar histórias com dados tem ganhado novos</p><p>significados. Ao invés de apresentar uma conclusão única, o storytelling promove a criação de um diálogo e</p><p>contribui para uma abordagem coletiva da análise. Com o storytelling , tanto o criador do painel como o público</p><p>se tornam responsáveis por chegar a uma conclusão sobre o que os dados estão dizendo – estimulando a</p><p>diversidade de ideias e promovendo o trabalho coletivo ou cocriação de painéis.</p><p>Comunidade analítica</p><p>Ter uma plataforma de BI funcionando não significa extrair o máximo potencial dessa ferramenta. E por mais</p><p>duro que pareça, o fato de alguém, ou um determinado departamento abrir relatórios uma vez ou outra, não</p><p>significa fazer bom proveito dos dados, e muito menos que essa consulta trará ações concretas ou terá efeitos</p><p>práticos. De nada adianta ter o BI dos sonhos se não houver adoção massiva da ferramenta. Em muitas</p><p>empresas a adoção de uma plataforma de BI de sucesso começa com o alto escalão da empresa e com a</p><p>percepção de que é preciso integrar as diferentes fontes de dados e extrair valor. E para gerar valor, nada</p><p>como uma comunidade interna de usuários engajados, e métricas concretas para determinar como as</p><p>pessoas estão usando a plataforma de BI para causar um impacto nos negócios.</p><p>Falando em comunidade, empresas do mundo todo já perceberam o poder da cocriação analítica, e como</p><p>pessoas com um background diferente conseguem trabalhar juntas para estabelecer métricas e descobrir</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>insights por meio dos dados. O BI de autoatendimento democratizou o acesso à informação nas empresas.</p><p>Agora o desafio é fomentar comunidades engajadas, transformar informação em ação e claro, medir os</p><p>resultados. E viva o trabalho em equipe.</p><p>Com cada vez mais dados à nossa disposição, é cada vez mais difícil nos concentrar nas informações</p><p>relevantes para os nossos problemas e apresentá-las de forma prática. É disso que trata o Business Intelligence .</p><p>Complementarmente às tendências vistas anteriormente, veremos um pouco sobre as ferramentas que estão</p><p>tomando conta do mercado de business intelligence .</p><p>Board : a Board International combina três ferramentas em uma: BI, análise preditiva e gerenciamento de</p><p>desempenho. Oferece módulos para finanças (planejamento, consolidação), RH (mapeamento de habilidades,</p><p>planejamento de força de trabalho), marketing (análise de mídias sociais, monitoramento de lealdade e</p><p>retenção), cadeia de suprimentos (otimização de entrega, gerenciamento de fornecedores), vendas (análise de</p><p>cross-selling e up-selling ) e TI (KPIs, níveis de serviço). A empresa é suíça, mas o software está disponível em</p><p>inglês, espanhol, chinês, japonês, francês, alemão e italiano.</p><p>Público-alvo: variado.</p><p>Recursos notáveis: suporte a idiomas.</p><p>Preço: a taxa de licença por usuário varia de acordo com a função.</p><p>Domo : a Domo é uma plataforma baseada na nuvem que oferece ferramentas de business intelligence</p><p>adaptadas a vários setores (como serviços financeiros, assistência médica, manufatura e educação) e funções</p><p>(incluindo CEOs, vendas, profissionais de BI e trabalhadores de TI). Os CIOs podem começar verificando como</p><p>a Domo lida com dados da AWS, Jira, GitHub ou New Relic antes de analisar como mais de 500 outras</p><p>integrações podem ajudar o restante da empresa.</p><p>Recursos notáveis: interface móvel robusta.</p><p>Preços: taxa de licença anual. O plano profissional limita o armazenamento de dados a 250 milhões de</p><p>linhas; não há limites no plano da empresa.</p><p>Dundas BI : o Dundas BI, da Dundas Data Visualization, é mais usado para criar dashboards e scorecards,</p><p>mas</p><p>também pode gerar relatórios padrão e ad-hoc. A análise e a visualização são realizadas por meio de uma</p><p>interface da Web que pode se adaptar às habilidades dos usuários: usuários avançados e usuários padrão</p><p>veem recursos diferentes. A versão mais recente pode extrair dados do Google Analytics, Snowflake e</p><p>Salesforce Pardot, entre outras fontes. O Dundas BI foi adaptado para 19 indústrias, incluindo tecnologia</p><p>limpa, mineração e construção, além de serviços bancários e de saúde.</p><p>Recursos notáveis: interface HTML5 flexível que se adapta a qualquer dispositivo.</p><p>Preço: com base em usuários simultâneos.</p><p>Google Data Studio : sabemos que o Google está constantemente analisando a web, mas o que ele pode fazer</p><p>com nossos dados corporativos? O Google Data Studio começou como uma ferramenta para dashboards e</p><p>relatórios sobre dados do Google Analytics. Agora ele tem sido sobrecarregado com acesso a informações de</p><p>Recrutamento, Marketing e Vendas também, por meio de conectores para a Criteo, LinkedIn, MailChimp,</p><p>PayPal, Salesforce, Stripe, Twitter e qualquer coisa que você possa colocar em uma planilha ou banco de</p><p>dados SQL. Naturalmente, está hospedado na nuvem e tem uma interface da web.</p><p>Características notáveis: o preço.</p><p>Preços: grátis.</p><p>Looker : a Looker adota uma abordagem dupla para o business intelligence: permite que os usuários</p><p>explorem os dados a sua maneira, mas também trabalha com especialistas para ajudar aqueles que</p><p>realmente não sabem o que estão procurando. Faz isso permitindo que outros fornecedores de software</p><p>envolvam seus recursos de análise em aplicativos verticais “Powered by Looker”. A partir do início do ano que</p><p>vem, ele se conectará ao serviço BQML (BigQuery Machine Learning) do Google para desenvolver modelos</p><p>preditivos.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Recursos notáveis: baseados na Web, podem acessar dados ao vivo de qualquer banco de dados SQL.</p><p>Preço: sob demanda, varia de acordo com o número de usuários e conexões do banco de dados.</p><p>Microsoft Power BI : com o aplicativo Power BI Desktop para Windows, os usuários podem analisar e</p><p>visualizar dados de fontes locais ou da nuvem, publicando seus relatórios na plataforma Power BI. A versão</p><p>gratuita Author atende a usuários isolados; a versão Pro facilita a análise colaborativa, por uma taxa mensal,</p><p>aproveitando o Microsoft Office365, o SharePoint e as equipes para controlar o acesso a dados brutos e aos</p><p>relatórios publicados. Para empresas que desejam mais, a camada Premium possibilita a preparação de</p><p>dados de autoatendimento com conectores pré-construídos para dados corporativos mantidos no Microsoft</p><p>Dynamics 365, Azure SQL Data Warehouse ou fontes de terceiros, como Salesforce.</p><p>Recursos notáveis: o aplicativo para dispositivos móveis permite a anotação na tela de toque dos relatórios.</p><p>Preços: três níveis: Author (gratuito), Pro (US $ 9,99 por usuário por mês) e Premium (com base na</p><p>capacidade).</p><p>Qlik : o objetivo da Qlik é dar a qualquer pessoa na empresa acesso a todos os dados – sujeito, é claro, às</p><p>políticas corporativas de governança de dados. Pode associar determinados dados a todos os demais para</p><p>facilitar a busca por conexões. O Qlik Sense, a ferramenta de autoatendimento para acessar esse recurso</p><p>analítico, vem nas versões em nuvem e on-premise.</p><p>Recursos notáveis: o Associative Engine pode analisar todos os seus dados, em tempo real.</p><p>Preços: versões limitadas são gratuitas; as funções de colaboração custam de US$ 15 por usuário ao mês</p><p>para o Qlik Sense Cloud Business.</p><p>Salesforce: o Einstein Analytics é a tentativa da Salesforce.com de melhorar o BI com a inteligência artificial.</p><p>Seu objetivo é estender o acesso de autoatendimento aos dados para os usuários em toda a empresa, com</p><p>uma aparência semelhante à das interfaces Reports e Dashboard. O Einstein Discovery permite que os</p><p>usuários criem modelos preditivos a partir de seus dados, o que não se limita aos dados mantidos na nuvem</p><p>do Salesforce: o Einstein pode extrair dados do Oracle, do SAP e de outras fontes. Existem modelos</p><p>específicos para cada setor e ferramentas personalizadas para departamentos de Vendas, Marketing e TI.</p><p>Recursos notáveis: IA para BI na própria nuvem Salesforce .</p><p>Preço: US$ 75 por usuário ao mês para as Einstein Predictions, personalizadas para o Einstein Analytics Plus</p><p>(necessário para importar dados externos).</p><p>SAS Visual Analytics : a abordagem do SAS Institute no BI é sua ferramenta Visual Analytics. Destina-se a</p><p>destacar automaticamente as principais relações nos dados. Na versão mais recente, você pode escolher uma</p><p>variável e mostrar-lhe quais elementos de seus dados a influenciam e como. Outros recursos incluem análise</p><p>de sentimento para extração de dados de mídias sociais e outros textos, geração automática de gráficos,</p><p>mapeamento e preparação de dados de autoatendimento. A implantação pode on-premise, em nuvens</p><p>públicas ou privadas ou na plataforma Cloud Foundry como um serviço.</p><p>Recursos notáveis: funções de análise automatizadas.</p><p>Preços: sob demanda.</p><p>SiSense: A pilha de software de BI da SiSense cobre tudo, desde o banco de dados até ETL e Analytics, até a</p><p>visualização – e afirma que seu mecanismo de banco de dados In-Chip é mais rápido até do que os bancos de</p><p>dados em memória. Está disponível on-prenise ou na nuvem. Existem soluções para Finanças, Marketing,</p><p>Vendas, RH e TI, bem como serviços de atendimento ao cliente e departamentos de operações e logística. O</p><p>SiSense também possibilita oferecer as ferramentas de análise para usuários fora da empresa, incorporando-</p><p>as em aplicativos web.</p><p>Recursos notáveis: cliente totalmente baseado na web, incluindo a preparação de dados.</p><p>Preços: sob demanda.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Tableau : Os recursos do Tableau incluem mapeamento e análise de pesquisas e dados de séries temporais.</p><p>Seu truque mais recente é utilizar as técnicas do Processamento de Linguagem Natural para permitir que os</p><p>usuários descrevam o que desejam ver, em vez de clicar e arrastar para criar consultas de fórmulas. É possível</p><p>executar o software on-premiseq, escolher uma nuvem pública ou optar por tê-lo totalmente hospedado pela</p><p>Tableau. Oferece versões personalizadas para mais de uma dúzia de setores, incluindo Serviços Bancários, de</p><p>Saúde e Manufatura, com suporte para os departamentos Financeiro, de RH, de TI, de Marketing e de Vendas.</p><p>Recursos notáveis: a Tableau usa PLN para permitir que os usuários digam o que desejam ver.</p><p>Preços: cada implantação precisa de pelo menos um Tableau Creator (US $ 70 / mês); outros podem ser</p><p>Viewers (de US $ 12 / mês, min. 100) ou Explorers (de US $ 35 / mês, min. 5).</p><p>FONTE: 12 principais ferramentas de Business Intelligence em 2019. Disponível em: < https://bit.ly/2PiiVX3 >. Acesso em: em: 5 dez. 2018.</p><p>5 tendências de business intelligence para 2019. Disponível em: < https://bit.ly/3frb7fY >. Acesso em: 5 dez. 2018.</p><p>2 - DATA WAREHOUSE</p><p>Um Data Warehouse tem como tradução literal "Armazém de dados", pode ser compreendido como um banco</p><p>de dados analítico, afinal tem como objetivo preparar uma base de dados para realização de consultas. Isto</p><p>significa, que todos os processos que compõem a construção de um Data Warehouse têm um objetivo</p><p>principal: realizar análises com o menor tempo possível.</p><p>Com o crescente aumento do volume das informações organizacionais armazenadas nos sistemas</p><p>gerenciadores de banco de dados, os sistemas tradicionais OLTP – Online Transaction Processing</p><p>(Processamento de Transações On-line) já não dispõem de suporte para retornar às consultas em um tempo</p><p>hábil para a tomada de decisão. Por outro lado, são realizadas operações analíticas que permitem a</p><p>exploração de dados armazenados, estes são os ambientes de Data Warehouse.</p><p>Data Warehouses, explicado de uma maneira</p><p>simples, são bancos de dados analíticos, projetados para</p><p>armazenar os dados de fontes diversas, já transformados e preparados para a realização de consultas através</p><p>de operações OLAP (HAN; PEI; KAMBER, 2011).</p><p>Conforme vimos no capítulo anterior, a “paternidade” do conceito de Data Warehouse é dividida por Bill Inmon</p><p>e Ralph Kimball, uma vez que o termo é discutido desde os anos 1970 e ainda é um dos mais ascendentes no</p><p>que se refere a técnicas de Business Intelligence. Durante o livro, iremos ver os principais pontos de uma</p><p>arquitetura de Data Warehouse, bem como a particularidade de cada um dos pais do conceito,</p><p>complementado de perspectivas atuais.</p><p>No que se refere ao conceito de um Data Warehouse, comumente partimos da definição de Inmon (2005), que</p><p>um Data Warehouse é uma coleção de dados, orientado a um assunto, integrado, com tempo variável e não</p><p>volátil; e que este banco de dados é desenvolvido para suporte ao gerenciamento dos processos de tomada de</p><p>decisão. Vejamos o que cada um destes itens significa de maneira detalhada:</p><p>Orientado a assunto : uma vez notando-se a necessidade da implementação de um Data Warehouse em</p><p>uma organização, este terá um tema, um objeto de análise. Um Data Warehouse é orientado a assunto pelo</p><p>fato de que este sempre estará relacionado a um tema sobre o qual consultas são realizadas. Isto significa</p><p>que ele sempre será direcionado a um tema, seja as vendas, financeiro, fiscal, compras.</p><p>Integrado : no Capítulo 1, falamos sobre diversos tipos de dados (XML, JSON, CSV, SGBDR), dizemos isto</p><p>porque uma das principais características de um Data Warehouse é a integração. Um Data Warehouse pode</p><p>integrar vários sistemas internos que usam SGBD e ao mesmo tempo integrar com redes sociais via JSON,</p><p>fazendo dessa dinâmica nas fontes de dados sua principal característica, bem como um dos principais</p><p>desafios.</p><p>Variável em relação ao tempo : o fator temporal é, na maioria dos casos, determinante na análise dos</p><p>dados armazenados em um Data Warehouse. Deste modo, a cada carga de um novo conjunto de dados,</p><p>este será associado com um determinado tempo. Vejamos a importância do tempo, por exemplo, em um</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2PiiVX3&sa=D&sntz=1&usg=AOvVaw05ioomuuXmGHaUnEdHbHHP</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3frb7fY&sa=D&sntz=1&usg=AOvVaw3swngiatlBirZEMCr0lde2</p><p>Data Warehouse de ações na bolsa de valores se obtém os meses nos quais há uma maior queda nas ações</p><p>e os meses em que há um número maior de vendas. Assim, faz-se necessário que os dados de Data</p><p>Warehouse sejam armazenados em relação ao tempo.</p><p>Não volátil : este fator também está relacionado ao tempo, uma vez que todo registro que é inserido em</p><p>um Data Warehouse é associado a um tempo. Não devem haver exclusões, por isso não volátil. Isto não</p><p>significa que o registro não constará como removido, mas que haverá duas ocorrências, uma primeira na</p><p>data de sua inserção indicando que existiu e uma segunda indicando a data que foi removido.</p><p>Arquitetura de um Data Warehous</p><p>A arquitetura de um Data Warehouse é composta pela estratégia de coleta, pré-processamento e análise dos</p><p>dados. São diversas as arquiteturas propostas na literatura, as variações acontecem principalmente pelo fato</p><p>de existirem variações nas formas e formatos de dados, porém todas as arquiteturas são baseadas na</p><p>principal proposta por Kimball, que é mostrada pela figura a seguir.</p><p>FIGURA 1 – ARQUITETURA DE UM DATA WAREHOUSE</p><p>FONTE: Adaptado de Kimball (2011, p.28)</p><p>Na arquitetura proposta por Kimball, o sistema é composto por quatro camadas principais: fontes de dados,</p><p>área de trabalho, área de apresentação e ferramentas de acesso aos dados. Conheça o que compreende cada</p><p>uma dessas camadas:</p><p>Fontes provedoras : em um ambiente de Data Warehouse uma das características é a integração entre os</p><p>dados, ou seja, os dados são oriundos de diversas fontes. Esta camada contém todos os dados possíveis de</p><p>serem armazenados no Data Warehouse (relacional, orientado a objetos, não estruturados, textual, Web</p><p>etc.), que possam ajudar a cumprir as tarefas de análise.</p><p>Área de trabalho: nesta camada são realizados os processos de integração das fontes de dados, bem como</p><p>as transformações necessárias para armazenar os dados de acordo com o modelo definido para Data</p><p>Warehouse. Nesta camada são realizados os principais procedimentos da chamada ETL ( Extract, Transform</p><p>and Load), que estudaremos em detalhe neste capítulo.</p><p>Área de apresentação de dados : esta camada trata do principal objeto deste capítulo, ou seja, um Data</p><p>Warehouse em si, em que os dados já coletados e transformados serão armazenados em um banco de</p><p>dados projetado a partir de um modelo multidimensional.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Ferramentas de acesso aos dados : a quarta camada é onde as ferramentas de visualização fazendo uso de</p><p>o servidor OLAP submeter requisições de acesso aos dados armazenados. No que se refere ao objetivo do</p><p>nosso livro, será nesta camada que os dados estarão prontos e as ferramentas de construção de</p><p>Dashboards serão conectadas aos dados permitindo a exploração e análises multidimensionais.</p><p>Todos os dados que entram no Data Warehouse são integrados, sendo que existe uma única fonte de dados</p><p>para os diferentes Data Marts. Isso garante que a integridade e a consistência dos dados sejam mantidas</p><p>intactas em toda a organização. A figura a seguir mostra a arquitetura típica de um Data Warehouse nesta</p><p>arquitetura.</p><p>FIGURA 2 – ARQUITETURA PROPOSTA POR INMON</p><p>FONTE: Singh e Singh (1998)</p><p>Os Data Marts podem ser compreendidos como Data Warehouses setoriais em uma organização, por</p><p>exemplo: venda, financeiro, fiscal, marketing. Pode-se notar que a participação dos Data Marts é mais efetiva</p><p>na arquitetura de Inmon e é parte integrante de todo processo de construção.</p><p>Outro elemento diferente dos vistos anteriormente é o conceito de Staging Area, seu significado é “Área de</p><p>preparação”, essa é uma etapa interessante, uma vez que facilita o processo de pré-processamento dos</p><p>dados. Na Staging Area, os dados são copiados das fontes provedoras, o que facilita para que as demais</p><p>tarefas os acessem.</p><p>Sobre a arquitetura proposta por Inmon, Rangarajan (2016) elenca os seguintes pontos positivos da</p><p>arquitetura:</p><p>O Data Warehouse realmente serve como fonte única de verdade para a empresa, pois é a única fonte para</p><p>os Data Marts e todos os dados no Data Warehouse são integrados.</p><p>As anomalias de atualização de dados são evitadas devido à redundância muito baixa. Isso torna o processo</p><p>ETL mais fácil e menos propenso a falhas.</p><p>Os processos de negócios podem ser compreendidos facilmente, pois o modelo lógico representa as</p><p>entidades de negócios detalhadas.</p><p>Muito flexível – à medida que os requisitos de negócios mudam ou os dados de origem são alterados, é fácil</p><p>atualizar o Data Warehouse, pois uma coisa está em apenas um lugar.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Pode lidar com necessidades de relatórios variados em toda a empresa.</p><p>Rangarajan (2016) também lista algumas das desvantagens do método Inmon:</p><p>O modelo e a implementação podem se tornar complexos ao longo do tempo, pois envolvem mais tabelas e</p><p>junções.</p><p>Precisa de recursos que sejam especialistas em modelagem de dados e do próprio negócio.</p><p>Esses tipos de recursos podem ser difíceis de encontrar e costumam ser caros.</p><p>A configuração inicial e a entrega levarão mais tempo, e o gerenciamento precisa estar ciente disso.</p><p>Mais trabalho de ETL é necessário, pois os Data Marts são construídos a partir do Data Warehouse.</p><p>Uma equipe razoavelmente grande de especialistas precisa estar por perto para gerenciar com sucesso</p><p>o</p><p>ambiente.</p><p>Note que tais arquiteturas foram propostas em meados dos anos 1980 e vigoram bem até os dias atuais.</p><p>Existem diversas variações, mas em sua maioria estão relacionadas ao tipo de fonte de dados (coleta da Web</p><p>em tempo real, por exemplo) ou sobre novas técnicas de armazenamento (integração entre nuvem e Hadoop,</p><p>por exemplo). Como o nosso objetivo é a construção de um Data Warehouse e não uma análise comparativa</p><p>entre esses grandes pais da tecnologia que estamos trabalhando, vamos seguir, mas se você ficou curioso com</p><p>as demais arquiteturas, características e diferenças, seguem algumas sugestões de leitura.</p><p>JINDAL, Rajni; TANEJA, Shweta. Comparative study of data warehouse design approaches: a survey.</p><p>International Journal of Database Management Systems , v. 4, n. 1, p. 33, 2012.</p><p>SAROOP, Shashank; KUMAR, Manoj. Comparative analysis of data warehouse design approaches from security</p><p>perspectives. International journal of computer trends and technology , 2011.</p><p>YESSAD, Lamia; LABIOD, Aissa. Comparative study of data warehouses modeling approaches: Inmon, Kimball</p><p>and Data Vault. In: System Reliability and Science (ICSRS), International Conference on . IEEE, 2016. p.</p><p>95-99.</p><p>Complementarmente, um Data Warehouse, pela definição de Kimball e Ross (2011), é uma cópia de dados de</p><p>transação (OLTP), especificamente estruturado para consulta e análise. Para fazer possível o armazenamento</p><p>de dados, o esquema de dados baseia-se no modelo multidimensional, tal modelo que é de grande</p><p>importância para a construção de um Data Warehouse e que vamos discutir em detalhes no próximo tópico</p><p>de estudo.</p><p>2.1 MODELAGEM MULTIDIMENSIONAL</p><p>Antes de nos aprofundarmos em nosso estudo sobre a modelagem multidimensional, é importante relembrar</p><p>alguns conceitos sobre a modelagem de dados relacional. Vimos anteriormente que o modelo relacional</p><p>surgiu em 1970, desenvolvido pelo pesquisador da IBM, Edgar Frank Ted Codd IBM, que de maneira sucinta</p><p>propôs o armazenamento de dados onde os dados seriam armazenados em tabelas que devem estar</p><p>relacionadas.</p><p>No modelo relacional os dados são organizados em tabelas e cada dado armazenado tem um determinado</p><p>tipo de dados associado. Por exemplo, se um dado é um nome será do tipo VARCHAR (que representa textos),</p><p>se for um valor em reais R$ será do tipo DOUBLE (que representa números com casas decimais. São diversos</p><p>os tipos de dados e isto pode variar da tecnologia que seu banco de dados, seja relacional ou</p><p>multidimensional será implementado, para ter uma visão geral. A tabela a seguir mostra alguns desses tipos</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>baseados no banco de dados PostgreSQL e que são comuns aos demais SGBDs também.</p><p>Fonte: o autora.</p><p>As ligações entre os campos são realizadas por chaves, primárias e estrangeiras, tais campos que se</p><p>relacionam, ou seja, é através do relacionamento entre essas chaves que o banco de dados é considerado</p><p>relacional. A figura a seguir mostra um banco de dados relacional para gerenciamento de um comércio de</p><p>vendas e seu estoque.</p><p>FIGURA 3 – EXEMPLO DE BANCO DE DADOS RELACIONAL</p><p>FONTE: O autor (2018)</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Na Figura 3 vemos algo sobre o conteúdo citado anteriormente, por exemplo, o campo data ser do tipo DATE,</p><p>preço ser DOUBLE, nome do cliente ser VARCHAR e os IDs como inteiro. Também é possível notar que os</p><p>relacionamentos são formados pela ligação entre as chaves primárias (Primary Keys – PK) e chaves</p><p>estrangeiras (Foreign Keys – FK).</p><p>Mas afinal, o que o modelo relacional tem a ver com o modelo multidimensional? Toda estrutura é bem</p><p>similar, o modo é a construção dos modelos. Como nosso objetivo não é construir um modelo relacional,</p><p>deixamos duas sugestões de leitura para que você possa rever esses conceitos e seguir firme na modelagem.</p><p>HEUSER, Carlos Alberto. Projeto de banco de dados : Volume 4 da Série Livros didáticos informática UFRGS.</p><p>Bookman Editora, 2009.</p><p>Conceitos e ferramentas para realizar a modelagem de dados. Disponível em: < https://bit.ly/3gD6wsR >.</p><p>Acesso em: 19 dez. 2018.</p><p>Ainda tratando do que se refere à modelagem relacional, esta tem entre muitos objetivos armazenar os dados</p><p>garantindo o maior nível de integridade possível de integridade nos dados armazenados. A principal estratégia</p><p>para isto é denominada normalização. A normalização dos dados é o primeiro passo para se obter sucesso</p><p>com um modelo de dados íntegro, uma vez que sendo estas normas respeitadas, as redundâncias e</p><p>inconsistências poderão ser evitadas. Atualmente já são mais de 10 formas normais (FN), todas oriundas das</p><p>três primeiras:</p><p>1FN : a primeira forma normal trata da atomicidade dos atributos, proibindo atributos compostos,</p><p>multivalorados e relações aninhadas.</p><p>2FN : a segunda forma normal está relacionada à dependência funcional da chave primária. Para estar na</p><p>segunda forma normal, a tabela deve estar na primeira forma normal e nenhum dos campos que não são</p><p>chaves podem depender de apenas parte da chave primária.</p><p>3FN : a terceira forma normal está relacionada à chamada dependência transitiva, ou seja, um campo não</p><p>deve depender de um outro campo “não chave”. Para remover a dependência transitiva, deve-se identificar</p><p>os campos que são dependentes transitivos de outros campos e removê-los.</p><p>Agora encerramos os conceitos sobre a modelagem relacional e a normalização, vamos lá!</p><p>A modelagem multidimensional é uma estratégia de modelagem de dados que tem ênfase na análise dos</p><p>dados, ou seja, na realização de consultas. Sendo assim, a cada momento do seu aprendizado você tem que</p><p>ter em mente que a construção do modelo tem o foco na análise. Não se preocupe com a integridade e não,</p><p>não se assuste! A integridade dos dados já foi garantida inicialmente pelo seu sistema transacional (OLTP) e no</p><p>caso de integração de diversas fontes será responsável pela etapa de ETL (vista na continuidade).</p><p>A modelagem multidimensional é uma técnica de modelagem de bancos de dados que se destina apoiar as</p><p>consultas realizadas pelo usuário final em um Data Warehouse (KIMBALL; ROSS, 2011). A técnica de</p><p>modelagem multidimensional trata da elaboração de um projeto lógico de um banco de dados, que tem sua</p><p>aplicação destinada à análise de dados. Utilizando a modelagem multidimensional, estabelece-se a estrutura</p><p>de dados sob qual o cubo de dados será analisado.</p><p>De maneira geral, independentemente da técnica utilizada para sua construção, um modelo multidimensional</p><p>é composto por três componentes principais: as tabelas de fato, as tabelas com dimensões e as métricas, sem</p><p>deixar de lado os atributos comuns que também pertencerão às tabelas.</p><p>As métricas são valores, normalmente, aditivos, armazenados na tabela fato, ou seja, as métricas são as</p><p>medidas brutas, atômicas e de simples composição. Em uma estrutura de Data Warehouse, são armazenados</p><p>na tabela Fato e medem os descritivos armazenados nas Dimensões. Valores e quantidades são exemplos de</p><p>formatos das métricas. Na sequência do nosso livro, iremos discutir sobre a criação de dashboards e extração</p><p>de indicadores, que tem grande relação com as métricas, mas não são a mesma coisa. Por exemplo, uma</p><p>métrica pode ser o total vendido em R$ e um indicador, o percentual dessas vendas em um determinado mês.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3gD6wsR&sa=D&sntz=1&usg=AOvVaw3Z9Lny2_qE679u3gIcL7uN</p><p>Segundo Elias (2011), existem diversos tipos de métricas, as métricas aditivas são aquelas que podem ser</p><p>sumarizadas independentemente das dimensões utilizadas. Este tipo de métrica pode ser utilizada sem quase</p><p>nenhuma restrição ou limitação e são flexíveis o suficiente para gerar informações em qualquer</p><p>perspectiva.</p><p>Por exemplo, métricas como quantidade e valores de determinados itens podem ser, em geral, sumarizados</p><p>por data (dia, mês ou ano), local, clientes, entre outras dimensões, sem perder a consistência da informação.</p><p>As métricas semiaditivas são aquelas que podem ser sumarizadas em alguns casos. Isso porque a depender</p><p>da situação empregada à métrica, ela pode perder sentido para a análise caso seja agregada. Neste caso, a</p><p>sumarização só fará sentido com algumas dimensões específicas. Por exemplo, a métrica saldo bancário. O</p><p>saldo é um valor que reflete a situação atual da conta, que pode ter o saldo credor ou devedor. Faria sentido,</p><p>por exemplo, somar os saldos de todos os dias de um mês para uma determinada conta bancária? Claro que</p><p>não, pois se um dia o saldo for de -1000 e no dia seguinte ter os mesmos -1000, a soma irá devolver um saldo</p><p>negativo de -2000, o que não é verdade. No entanto, há casos em que a métrica semiaditiva adquire</p><p>característica de aditiva. Se por acaso somar os saldos de várias contas bancárias em um determinado dia,</p><p>poderemos ver o saldo geral, o que tem total sentido e utilidade para uma instituição bancária, por exemplo.</p><p>As métricas não aditivas são aquelas que não podem ser sumarizadas ao longo das dimensões. Essas métricas</p><p>não podem ter agregações, pois perdem a veracidade do valor. Percentuais são exemplos de valores</p><p>armazenados nas métricas que não permitem a sumarização. Por exemplo, não faz sentido somar o</p><p>percentual de vendas de um item “A” que teve 50% de saída com um item “B” que teve 60%. A soma resultaria</p><p>em um valor agregado de 110%. O que isso nos diz? Nada! Como muitas vezes as métricas semiaditivas e não</p><p>aditivas são derivadas de métricas aditivas, recomendamos, se possível, que sejam armazenadas as métricas</p><p>brutas para o cálculo em tempo de execução. A métrica semiaditiva saldo, por exemplo, pode ser calculada em</p><p>tempo de execução com as métricas aditivas do valor de crédito e débito. Portanto, devemos ficar atentos a</p><p>essas diferenças, para que no desenvolvimento do Data Warehouse possamos efetuar o tratamento adequado</p><p>em cada um desses casos. Lembrando que quanto menos flexível for a utilização das métricas, mais complexo</p><p>será a utilização pelos usuários, o que pode ser um fator crítico de sucesso para o projeto. Sempre que</p><p>possível devemos gerar as agregações em tempo de execução para as métricas semiaditivas e não aditivas,</p><p>facilitando a utilização e deixando transparente aos usuários os cálculos efetuados.</p><p>No que se refere às métricas e valores armazenados, também existe o conceito de hierarquia. Tais atributos</p><p>podem ser considerados descritivos ou até mesmo formar uma hierarquia. As hierarquias são representadas</p><p>pela composição de vários atributos em uma dimensão, em que cada atributo representa um nível em uma</p><p>hierarquia. Um exemplo aplicável em qualquer cenário é a dimensão tempo, considerando que esta dimensão</p><p>tem diversas perspectivas de análise (dia, mês, ano, semana, dia da semana, quinzena, entre outros, veremos</p><p>mais a fundo adiante a dimensão Tempo). No caso da dimensão do tempo, considerando que esta dimensão</p><p>tenha os atributos dia, mês e ano, estes atributos compõem uma hierarquia de tempo que permite navegar</p><p>pelos níveis data -> mês -> ano . A figura a seguir mostra alguns exemplos de hierarquia.</p><p>FIGURA 4 – EXEMPLO DE HIERARQUIAS</p><p>FONTE: O autor (2018)</p><p>O modelo multidimensional, assim como no relacional, é composto por tabelas. No entanto, existe uma</p><p>abordagem diferente. Uma vez que o foco é na análise, o objetivo principal das análises se transformará em</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>uma tabela principal, denominada tabela FATO .</p><p>Para trazer sentido e valores para tabela fato e tendo como objetivo auxiliar na obtenção de valores e métricas</p><p>para o objeto de análise, existem as outras tabelas, denominadas tabelas DIMENSÕES . Tanto uma tabela FATO</p><p>quanto uma tabela DIMENSÃO são tabelas consideradas normais em sua construção, tendo as mesmas</p><p>características do modelo relacional (campos, chaves, tipos de dados etc.), sendo que o que muda é a</p><p>estratégia de modelagem.</p><p>Desde o início do nosso livro estamos falando sobre Inmon e Kimball, bem como sobre a existência de</p><p>algumas divergências de abordagens. Uma delas é sobre a modelagem, cada autor propõe uma estratégia de</p><p>modelagem multidimensional, sendo estas as duas principais técnicas de modelagem para cenários de Data</p><p>Warehouse: Star Model e SnowFlake.</p><p>2.2 MODELO ESTRELA “STAR MODEL”</p><p>O Star Model, ou modelo estrela, é a estratégia de modelagem mais utilizada na construção de modelos</p><p>multidimensionais para ambientes de Data Warehouse. Este modelo foi proposto por Ralph Kimball, com o</p><p>objetivo de dar suporte à tomada de decisão e melhorar o desempenho das consultas em ambientes</p><p>multidimensionais.</p><p>O modelo estrela é composto de uma tabela principal ao centro do modelo, a FATO . As demais tabelas,</p><p>chamadas de DIMENSÕES , ficam dispostas ao redor da tabela principal, sendo que esta disposição forma uma</p><p>estrela, daí o nome do modelo. A figura a seguir mostra um exemplo do modelo da ideia do modelo estrela.</p><p>FIGURA 5 – EXEMPLO DO MODELO ESTRELA</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>) FONTE: O autor (2018</p><p>O principal objetivo da modelagem em estrela é condensar os valores vindos das fontes de dados, ou seja,</p><p>armazená-los no menor número de tabelas possível e esta não é uma tarefa fácil. Quando iniciamos a</p><p>modelagem, sempre há a velha preocupação: a integridade dos dados. Uma vez que nesse momento nosso</p><p>foco muda e se torna a análise e consultas, ao decorrer da modelagem multidimensional, você pode fazer as</p><p>seguintes perguntas para auxiliar na construção do modelo:</p><p>Quais tabelas posso juntar em apenas uma? Por exemplo, ao invés de existir a tabela bairro, cidade, estado</p><p>e país, ligadas por chaves, você pode inserir todas essas informações em uma única tabela chamada</p><p>localidade.</p><p>Quais dados eu calculo que podem ser armazenados em um campo? Um exemplo disso é quando no banco</p><p>transacional existe a tabela produto e a quantidade vendida, sendo que o valor total é calculado por</p><p>consulta. Ao realizar o modelo estrela para este caso, será criada uma métrica na tabela fato chamada total</p><p>que armazenará esse valor já calculado, o que otimizará o tempo de resposta das análises.</p><p>Realizando estas mesmas perguntas, uma possibilidade para a modelagem multidimensional, pegando como</p><p>fonte de dados o modelo relacional de vendas visto anteriormente, teremos assim um modelo</p><p>multidimensional para vendas. Tal modelo é mostrado pela figura a seguir mostra uma alternativa de</p><p>modelagem para o mesmo sistema de vendas, note que existe uma tabela central fato e que, principalmente,</p><p>o número de tabelas é reduzido, contendo no modelo o mesmo número de informação que pode ser extraído</p><p>no modelo anterior.</p><p>FIGURA 6 – EXEMPLO DE MODELO MULTIDIMENSIONAL ESTRELA DE VENDAS</p><p>2.3 MODELO SNOWFLAKE</p><p>O Modelo SnowFlake é muito próximo do que é conhecido da modelagem tradicional de banco de dados, uma</p><p>vez que durante sua construção são levadas em consideração as formas normais. Idealizado por Bill Inmon,</p><p>este modelo contém uma tabela FATO e as tabelas DIMENSÕES . A principal característica desse modelo é que</p><p>as dimensões não se comunicam apenas com a tabela fato, mas também entre as próprias dimensões. A</p><p>maneira com que as tabelas são conectadas, ou seja, que elas ficam dispostas, representa um floco de neve,</p><p>por isso o nome SnowFlake, que em sua tradução significa “Floco de Neve”, bem como mostra a figura a seguir.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>FIGURA 7– MODELO SNOWFLAKE</p><p>FONTE: O autor (2018)</p><p>Entre as características dessa modelagem é que, conforme visto</p><p>anteriormente, aplica o conceito de</p><p>normalização e por isso tem diversas tabelas. Conforme vimos, o processo de normalização nos obriga a criar</p><p>novos campos a cada forma normal aplicada.</p><p>Como a modelagem multidimensional é uma estratégia que objetiva otimizar o processo de recuperação de</p><p>informações através de consultas, tal processo não pode utilizar um excesso de tabelas o que implicará um</p><p>excesso de junções. Por isso, ao utilizar o modelo SnowFlake , o recomendado é que ao se pensar em</p><p>normalização aplique no máximo a terceira forma normal.</p><p>A abordagem Inmon para a construção de um Data Warehouse começa com o modelo de dados corporativos.</p><p>Esse modelo identifica as principais áreas de assunto e, o mais importante, as principais entidades com as</p><p>quais a empresa opera e se preocupa, como cliente, produto, fornecedor etc.</p><p>A partir desse modelo, um modelo lógico detalhado é criado para cada entidade principal. Por exemplo, um</p><p>modelo lógico será construído para o Cliente com todos os detalhes relacionados a essa entidade. Pode haver</p><p>dez entidades diferentes no Cliente. Todos os detalhes, incluindo chaves de negócios, atributos, dependências,</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>participação e relacionamentos, serão capturados no modelo lógico detalhado.</p><p>O ponto-chave a que se refere a proposta de Inmon, aqui é que a estrutura da entidade é construída na forma</p><p>normalizada. A redundância de dados é evitada tanto quanto possível. Isso leva a uma identificação clara dos</p><p>conceitos de negócios e evita anomalias de atualização de dados. O próximo passo é construir o modelo físico.</p><p>A implementação física do Data Warehouse também é normalizada.</p><p>Esse modelo normalizado torna o carregamento dos dados menos complexo, mas o uso dessa estrutura para</p><p>consulta é difícil, pois envolve muitas tabelas e junções. Então, Inmon sugere a construção de Data Marts</p><p>específicos para departamentos. Os Data Marts serão projetados especificamente para finanças, vendas etc., e</p><p>eles podem ter dados desnormalizados para ajudar na geração de relatórios (BRESLIN, 2004).</p><p>Colocando a mão na massa – Modelagem de Dados com o SQL Power Architect</p><p>Existem diversas ferramentas de modelagem de dados disponíveis no mercado, das mais diversas empresas,</p><p>com as mais diversas licenças (desde open source até pagas). Queremos deixar ao menos uma opção</p><p>disponível e já com algumas dicas iniciais para que você possa iniciar seus estudos práticos sobre modelagem</p><p>de dados e colocar a mão na massa.</p><p>Durante o livro vamos utilizar o software denominado SQL Power Architect , que de maneira simples é uma</p><p>ferramenta gráfica para modelagem de banco de dados. Existem diversos recursos, desde a simples</p><p>modelagem e geração do banco de dados, até mesmo a conexão com engenharia reversa para diversos</p><p>SGBDs (Oracle, PostgreSQL, SQL Server, MySQL, Sybase, DB2 etc.) e até mesmo recursos avançados para</p><p>processos e administração de um Data Warehouse.</p><p>É claro que alguns desses recursos são limitados na versão gratuita, pois são várias licenças desta ferramenta.</p><p>Para iniciarmos, vamos começar com a versão gratuita, que você pode conseguir através do link < https://bit.ly</p><p>/2EG3XI8 >, disponível para os principais sistemas operacionais.</p><p>FIGURA 8 – INTERFACE DO SQL POWER ARCHITECT</p><p>O Power Architect assim como as demais ferramentas de modelagem de dados foi destinado à modelagem de</p><p>bancos de dados relacionais, no entanto, atendem bem às demandas da modelagem multidimensional. Você</p><p>pode aprender mais sobre essa ferramenta no próprio site do fabricante < http://www.bestofbi.com</p><p>/page/architect-demos >. Como nosso objetivo não é amarrar o conhecimento à tecnologia, mas sim ao</p><p>conceito de modelagem, é importante que você possa buscar utilizar a ferramenta que tenha maior</p><p>familiaridade. Vou deixar aqui algumas outras opções de ferramentas, inclusive algumas on-line:</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EG3XI8&sa=D&sntz=1&usg=AOvVaw3l9MVHupQYxwKtJoBiSGQ8</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EG3XI8&sa=D&sntz=1&usg=AOvVaw3l9MVHupQYxwKtJoBiSGQ8</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.bestofbi.com%2Fpage%2Farchitect-demos&sa=D&sntz=1&usg=AOvVaw1BnYbOTV_-caWDSNAsjNBk</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.bestofbi.com%2Fpage%2Farchitect-demos&sa=D&sntz=1&usg=AOvVaw1BnYbOTV_-caWDSNAsjNBk</p><p>MySQLWorkBench. Disponível em: < https://www.mysql.com/products/workbench/ >. Acesso em: 23 jan.</p><p>2019.</p><p>Archi. Disponível em: < https://www.archimatetool.com/ >. Acesso em: 23 jan. 2019.</p><p>SQLDMB. Disponível em: < https://sqldbm.com/Home/ >. Acesso em: 23 jan. 2019.</p><p>Gennymodel. Disponível em: < https://bit.ly/2Xq6Nrh >. Acesso em: 23 jan. 2019.</p><p>FIGURA 9 – MODELAGEM MULTIDIMENSIONAL DE VENDAS</p><p>3 ETL (EXTRACT, TRANSFORM AND LOAD)</p><p>É muito difícil dizer qual é a etapa mais importante, afinal quando estudamos a arquitetura de um Data</p><p>Warehouse, aprendemos que existe uma conexão entre cada camada. No entanto, um forte candidato a este</p><p>cargo é esta etapa chamada de ETL ( Extract, Transform and Load ); Extração, Transformação e Carga. De</p><p>maneira sucinta, esta é a etapa responsável por pegar os dados da fonte, prepará-los e armazená-los em um</p><p>banco de dados multidimensional.</p><p>FIGURA 10 – PROCESSO DE EXTRAÇÃO TRANSFORMAÇÃO E CARGA</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.mysql.com%2Fproducts%2Fworkbench%2F&sa=D&sntz=1&usg=AOvVaw2wgsZ03Qdj4tQ3lc8oLJRZ</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.archimatetool.com%2F&sa=D&sntz=1&usg=AOvVaw38JudNhMQUWXwVpzSQzqLi</p><p>https://www.google.com/url?q=https%3A%2F%2Fsqldbm.com%2FHome%2F&sa=D&sntz=1&usg=AOvVaw0hSddZX5VJOSM1i5F3PBa0</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2Xq6Nrh&sa=D&sntz=1&usg=AOvVaw2T2Bce_xexWPSsHsNaSsNc</p><p>FONTE: <https://bit.ly/33z5g5y>. Acesso em: 19 dez. 2018.</p><p>A ETL é responsável por fazer a integração entre as camadas de um Data Warehouse a partir das fontes de</p><p>dados, além de tratar e armazenar estes dados em um banco de dados multidimensional no Data Warehouse.</p><p>Quando dizemos que é um forte candidato a ser a etapa mais importante de um Data Warehouse, isso é dito</p><p>principalmente porque essa etapa consome cerca de 80% de um projeto de implementação de um Data</p><p>Warehouse que seja dedicado a etapa de ETL (NAGABHUSHANA, 2006).</p><p>Na definição de Kimball e Ross (2011), o sistema de ETL é análogo ao da cozinha de um restaurante, onde os</p><p>chefes pegam matérias-primas e as transformam em deliciosas refeições para os clientes. Ou seja, essa etapa</p><p>coleta e prepara os dados, ficando por conta das aplicações de Dashboards apenas servir-se de tais dados,</p><p>gerando os mais diversos relatórios.</p><p>Cada etapa da ETL tem sua devida tarefa no projeto, vamos compreender melhor o que cada uma delas</p><p>significa.</p><p>Extração</p><p>A extração (extract), como o nome diz, é responsável por extrair os dados das fontes, ou seja, é processo de</p><p>recuperação dos dados necessários das fontes de origem. Tais fontes de dados podem ser as tabelas reais ou</p><p>simplesmente cópias que foram carregadas no Data Warehouse ( Staging Area ).</p><p>Um ponto importante da extração é a diversidade de fontes de dados, que não são necessariamente uma</p><p>fonte OLTP, podem ser documentos de texto, XML, JSON, CSV, ou, o caso mais comum, diversas fontes</p><p>integradas.</p><p>A etapa de extração deve ser capaz de ler e compreender os dados da fonte e copiar apenas os dados</p><p>necessários, sendo que esta etapa deve ser construída apta a coletar dados com um período de tempo</p><p>definido (a cada 30 minutos, por exemplo) ou ser um mecanismo de coleta em tempo real.</p><p>Transformação</p><p>A etapa de transformação é a etapa que demanda mais esforço computacional dentro do processo</p><p>de ETL,</p><p>pois suas responsabilidades são diversas.</p><p>A primeira trata da integração dos dados, a extração coleta de diversas fontes coleta, mas a transformação é</p><p>responsável por integrar cada campo coletado, transformando-o para um único padrão e deixando apto para</p><p>armazená-lo no modelo multidimensional. Esta etapa, literalmente, transforma os dados coletados das fontes</p><p>de acordo com os definidos no modelo do Data Warehouse, onde são realizados pré-processamentos, nos</p><p>quais são identificados os dados duplicados, integração entre os dados, substituição de valores, limpeza de</p><p>campos e toda a transformação necessária para adequar as fontes de dados.</p><p>Um exemplo de uma transformação comum realizada por processos ETL é relacionado com campos de sexo,</p><p>em alguns sistemas são “M” para Masculino e “F” para Feminino, porém em outros está guardado como “H”</p><p>para Masculino e “M” para Feminino, em outro ainda, podemos encontrar “1” para Masculino e “2” para</p><p>Feminino, cabendo transformá-los para um único formato.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Outro exemplo, que é um caso recorrente em cenários de Data Warehouse, é o armazenamento do tempo.</p><p>Cada fonte de origem pode ser armazenada de uma maneira, tendo de ser padronizadas ao serem</p><p>armazenadas em um Data Warehouse, veja exemplo das datas na figura a seguir. Esse exemplo é marcante</p><p>por pegar justamente a consolidação dos dados de diversas fontes, a integração entre eles, a padronização e o</p><p>armazenamento em um formato diferente, o do Data Warehouse.</p><p>FIGURA 11 – TRANSFORMAÇÃO E PADRONIZAÇÃO DAS DATAS</p><p>FONTE: O autor (2018)</p><p>A etapa de transformação também é responsável por resolver desafiadores problemas oriundos das fontes de</p><p>dados, como ausência de informação, valores inválidos, ausência de integridade referencial, violação de regras</p><p>de negócios, cálculos inválidos, duplicação de informação, inconsistência de dados e falhas na modelagem das</p><p>fontes de dados. Muitas vezes, para resolver os casos acima, será necessário incorporar métodos avançados</p><p>como mineração de dados e machine learning .</p><p>Carga</p><p>Uma vez as etapas anteriores deixando os dados prontos, já coletados e transformados, a etapa de carga</p><p>(load) é responsável por armazenar os dados no Data Warehouse, no banco de dados multidimensional.</p><p>Em um primeiro olhar quando se fala em Carga, parece um processo simples, pensando em inserções em um</p><p>banco de dados, no entanto, é um processo um pouco mais complexo do que se imagina. Na carga, o Data</p><p>Warehouse é alimentado com novos dados, de forma que as tabelas do banco de dados multidimensional</p><p>sejam atualizadas para conter os novos dados.</p><p>Normalmente, o Data Warehouse é colocado off-line durante a carga de forma que nenhum usuário possa</p><p>consultá-lo simultaneamente, sendo essa etapa realizada em períodos de não utilização, na madrugada, por</p><p>exemplo. Como o armazenamento de dados em ambientes de Data Warehouse, normalmente, envolve</p><p>grandes quantidades de dados, a etapa de carga sempre ocorre em um período regular, por exemplo,</p><p>diariamente.</p><p>ETL na prática. Como funciona?</p><p>No mercado existem diversas ferramentas que realizam o processo de ETL, cada uma com a sua</p><p>particularidade. Tais ferramentas são softwares específicos, nos quais você pode identificar sua fonte</p><p>provedora, selecionar os métodos de pré-processamento e transformação, posteriormente selecionando a</p><p>fonte de origem (banco de dados multidimensional).</p><p>Como dito anteriormente, ETL é um processo, não significa que esteja amarrado a uma ferramenta, qual será</p><p>utilizada depende muito do cenário de aplicação, inclusive há muito que são desenvolvidas ferramentas</p><p>exclusivas, a maioria utiliza a linguagem python para isso. No entanto, veja algumas das principais ferramentas</p><p>ETL em um artigo que compara seus recursos, complementarmente em um breve texto sobre a principal</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>ferramenta de ETL encontrada no mercado, o Pentaho Data Integration.</p><p>MAJCHRZAK, Tim A.; JANSEN, Tobias; KUCHEN, Herbert. Efficiency evaluation of open source ETL tools. In:</p><p>Proceedings of the 2011 ACM Symposium on Applied Computing. ACM, 2011. p. 287-294.</p><p>Uma vez feita a extração e transformação, a carga será realizada em um banco de dados Multidimensional,</p><p>podendo ser explorado através de consultas OLAP e servir aplicações.</p><p>Pentaho Data Integration – Fazendo ETL em estilo de Minority Report</p><p>Aqui abordaremos um relato de experiência para solucionar um problema relacionado à</p><p>transferência de grandes volumes de dados entre sistemas utilizando Pentaho Data Integration como</p><p>solução, com isso reduzindo o tempo de processamento, o esforço de desenvolvimento e aumentando</p><p>o valor agregado para os usuários finais do sistema. A suíte Pentaho é formada por um conjunto de</p><p>softwares voltados para construção de soluções de BI de ponta a ponta, que inclui programas para</p><p>extrair os dados de sistemas de origem em uma empresa, gravá-los em um data warehouse (ou base</p><p>de dados), limpá-los, prepará-los e entregá-los a outros sistemas de destino ou mesmo a outros</p><p>componentes da suíte para estudar ou dar acesso aos dados do usuário final.</p><p>FIGURA 12 – ECOSSISTEMA PENTAHO</p><p>FONTE: O autor (2018)</p><p>O Pentaho Data Integration é parte das soluções disponibilizadas pela suíte Pentaho, possui versões</p><p>Community e Enterprise, mas a diferença existente entre as versões não representa impeditivo algum para o</p><p>uso da versão Community. A versão Community possui todos os recursos necessários a qualquer</p><p>implementação que se deseje realizar e possui vasta disponibilidade de plugins para serem utilizados,</p><p>inclusive plugins que geram a documentação de projetos, como o Kettle Cookbook. Todo o processo de</p><p>extração e transformação e carga descrito neste texto foi realizado com o Pentaho Data Integration</p><p>Community, versão 7.1.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>O Pentaho Data Integration é o componente da suíte Pentaho usado para criar processos de extração,</p><p>transformação e carga, assim alimentam o banco de dados. Trata-se da ferramenta mais popular e madura da</p><p>suíte inteira, com seus mais de 15 anos de existência. Com o Pentaho Data Integration, é possível fazer</p><p>inúmeras operações de Integração de Dados. Como por exemplo:</p><p>Migração de dados.</p><p>Movimentação de grandes volumes de dados.</p><p>Transformação de dados.</p><p>Limpeza de dados.</p><p>Conformidade de dados.</p><p>O Spoon</p><p>O Pentaho Data Integration é formado por duas categorias de artefatos, Jobs e Transformações, e estes</p><p>artefatos são construídos por meio de sua interface gráfica, o Spoon. O Spoon é a interface gráfica do Pentaho</p><p>Data Integration, que facilita na concepção de rotinas e lógica ETL. A seguir, apresentamos a interface do</p><p>Spoon.</p><p>FIGURA 13 – SPOON</p><p>FONTE: <https://bit.ly/34qFIXJ>. Acesso em: 22 jan. 2019.</p><p>Uma transformação registra o passo-a-passo de como a extração ou leitura de uma fonte de informação é</p><p>realizada. É a transformação que opera sobre os dados. Ela pode conter:</p><p>Leitura de dados de uma tabela, de um banco de dados.</p><p>Seleção de campos específicos de uma tabela.</p><p>Concatenação de valores de dois campos distintos de uma tabela.</p><p>Divisão de valores contidos em um único campo gerando dois ou mais novos campos ou linhas.</p><p>Merge de dados de tabelas contidas em bancos de dados diferentes.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Merge de dados originados em tabelas, arquivos XML, TXT ou CSV, entre outras fontes de dados.</p><p>Aplicação de expressões regulares em texto para limpeza.</p><p>O aspecto mais importante em uma transformação é que ela opera todas as etapas simultaneamente – uma</p><p>transformação não tem início ou fim, ela apenas processa linhas</p><p>que chegam.</p><p>Jobs</p><p>Um job é uma sequência operações. Ao contrário de uma transformação, que opera sobre as linhas de dados</p><p>em paralelo, um job realiza operações completas, uma por uma. Ele permite, por exemplo, combinar</p><p>transformações em uma sequência específica e, com isto, automatizar uma dada tarefa. Por sua natureza, ele</p><p>não fornece muitos recursos técnicos para manusear os dados em si, deixando isto à cargo das</p><p>transformações.</p><p>É possível conferir a lista completa de funcionalidades dos Jobs e Transformações que está disponível na Wiki</p><p>do projeto.</p><p>Pan</p><p>O Spoon, porém, é só a interface gráfica para criar os processos de integração de dados. Ele não serve para</p><p>executá-los em produção, ou seja, no ambiente sem supervisão humana. Para isso usamos outros programas,</p><p>que operam em linha de comando, sem interface gráfica.</p><p>O Pan é o programa que executa transformações. Vale a pena mencionar que tanto jobs quanto</p><p>transformações podem ser arquivos em um sistema de arquivos, normal, ou em um repositório em banco de</p><p>dados. O Pan pode executar uma transformação a partir de qualquer uma destas origens.</p><p>Em geral, as transformações executadas pelo Pan são agendadas em modo batch, para que possam ser</p><p>executadas automaticamente em intervalos regulares por alguma ferramenta de gerenciamento de tarefas</p><p>como o crontab, por exemplo.</p><p>Kitchen</p><p>Enquanto o Pan executa transformações, o Kitchen executa jobs. Tal qual ocorre com o Pan, o Kitchen pode</p><p>executar jobs a partir de um sistema de arquivos ou de um repositório em banco de dados.Novamente, tal</p><p>qual o Pan, jobs são executados em modo batch através do agendamento no modo batch para serem</p><p>executados automaticamente em intervalos regulares por alguma ferramenta de gerenciamento de tarefas</p><p>como o crontab, por exemplo.</p><p>A tríade Spoon, Pan e Kitchen é o responsável pela criação e execução de artefatos criados para solucionar um</p><p>problema de extração, transformação e carga de dados em um projeto de ETL com o Pentaho Data</p><p>Integration.</p><p>Caso de uso</p><p>Segundo Nitin Anand, em seu artigo para o International Journal of Scientific and Research Publications:</p><p>“Um componente importante em um projeto de BI é o processo de Extrair, Transformar e Carregar (ETL). Ele</p><p>descreve a coleta de dados de várias fontes (extrair), sua modificação para combinar o estado desejado</p><p>(transformação) e sua importação em um banco de dados ou data warehouse (carga). Os processos de ETL são</p><p>responsáveis por até 80% do esforço em projetos de BI. Um alto desempenho é, portanto, vital para poder</p><p>processar grandes quantidades de dados e ter um banco de dados atualizado”.</p><p>Recentemente, enfrentamos um cenário em que precisávamos mover dados de um banco de dados Oracle</p><p>para serem consumidos por um outro sistema que também utilizava Oracle como sistema de armazenamento.</p><p>A necessidade de se copiar estes dados ocorria devido à natureza da aplicação destino que necessitava de</p><p>intensa sumarização de dados e processamento o que não poderia ser realizado no banco de dados de origem</p><p>para não comprometer o seu uso, uma vez que este possui uma natureza transacional, ou seja, é utilizado</p><p>diariamente por todos os usuários da empresa em suas atividades. Sumarizar dados neste ambiente poderia</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>implicar em prejuízo para as operações normais do dia a dia.</p><p>Neste cenário, a tarefa de transferir dados do banco de dados de origem para o destino era realizada por meio</p><p>de um processo de ETL, desenvolvido em JAVA quando este sistema legado foi entregue pela primeira vez seis</p><p>anos atrás. Esta solução se comunicava com os sistemas origem e destino por meio de uma API que</p><p>consultava dados de um lado e escrevia do outro lado. APIs são soluções tecnológicas concebidas para</p><p>transferir informação entre sistemas de forma cadenciada e em pequenas porções. Utilizar esta tecnologia</p><p>para mover grande quantidade de dados pode implicar, entre outros problemas, no seguinte:</p><p>Criação de gargalos nos sistemas de origem e destino devido à alta carga que será movimentada.</p><p>Caso seja utilizado algum mecanismo de ESB ( Enterprise Service Bus ), este ambiente pode ficar</p><p>sobrecarregado devido à alta volumetria de mensagens, talvez arquivos JSON, que trafegarão por este meio</p><p>( middleware ).</p><p>Gestão orientada a codificação. Quando a tarefa de transformar dados ou mesmo mover entre sistemas é</p><p>endereçada via aplicação desenvolvida em Java ou outra linguagem de programação, momentaneamente</p><p>esta solução pode resolver o problema, mas com o passar do tempo, e à medida que novas necessidades</p><p>surgem nas fontes de informação de origem, modificações necessitarão ser realizadas no código e,</p><p>consequentemente, com o passar do tempo o conhecimento e esforço despendido nesta tarefa vai</p><p>aumentando. A tendência de se perder em meio a essa complexidade aumenta, deixando a manutenção do</p><p>legado cada vez mais custosa. Devemos sempre pensar no futuro e na manutenibilidade, que quando mal</p><p>planejada pode encarecer os custos de suporte e manutenção de um software.</p><p>O cenário descrito, neste texto, trata de um sistema legado, desenvolvido sem as boas práticas de engenharia</p><p>de software e que possuía uma natureza crítica. Além disso, não poderia deixar de funcionar nem por um</p><p>minuto. Por esta natureza de alta criticidade, à medida que o ETL em Java falhava, cada vez mais a fragilidade</p><p>do sistema destino para o usuário aumentava gerando insegurança.</p><p>Com o passar dos anos, essa solução não se mostrou eficiente o bastante e constantemente apresentava</p><p>problemas, incluindo a interrupção de seu funcionamento. Partimos, então, para outras alternativas.</p><p>Para solucionar este problema, encaramos o desafio de utilizar o Pentaho Data Integration. O resultado dessa</p><p>abordagem será descrito nos próximos parágrafos.</p><p>Características e particularidades do Pentaho Data Integration</p><p>O Pentaho Data Integration possui características muito particulares quando nos referimos à captura de dados</p><p>em fontes de informações, sejam elas bancos de dados, arquivos TXT ou CSV, arquivos XML ou JSON ou até</p><p>mesmo arquivos DBF. É possível fazer ajustes finos, inclusive com relação ao número de threads que podem</p><p>ser executadas por um passo na transformação.</p><p>Outro aspecto importante e que também pode ser executado com o Pentaho Data Integration é escolher, a</p><p>partir de uma fonte de dados, quais informações desejamos que sejam transferidas para o passo seguinte, ou</p><p>seja, em uma tabela de um banco de dados origem, é possível selecionar os campos exatos que se deseja</p><p>capturar, em uma planilha eletrônica também podemos selecionar exatamente as colunas que são</p><p>necessárias.</p><p>A ferramenta é muito flexível e possibilita inúmeros arranjos para que ao final, após a cópia de dados e</p><p>transformações destes, tenhamos apenas o desejado.</p><p>As integrações que podem ser realizadas com o Pentaho Data Integration incluem, entre outros recursos:</p><p>Exportar dados para um arquivo em formato texto em uma conta do Amazon Simple Storage Service (S3).</p><p>Conectar a um serviço JIRA e executar a extração de dados JSON sobre os resultados.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Capturar dados da conta do Google Analytics.</p><p>Ler e enviar mensagens binárias para uma fila de mensagens do Apache Kafka.</p><p>Enviar mensagens para canais ou grupos no Slack.</p><p>Ler conteúdo de textos de vários tipos de arquivos (PDF, DOC etc.), usando o Apache Tika.</p><p>Com o tempo e à medida que usamos cada vez mais o Pentaho Data Integration, as funcionalidades</p><p>necessárias para a construção de transformações que geram valor ficam cada vez mais inteligíveis. Esta curva</p><p>de aprendizado é crescente, mas de inclinação suave, pois essa ferramenta é muito intuitiva.</p><p>Adotar o Pentaho Data Integration gera valor a um custo comparativamente menor que o desenvolvimento de</p><p>ETLs com código.</p><p>Há algum tempo presenciamos um cenário onde uma solução para ler um arquivo XML e</p><p>transformar o conteúdo deste arquivo em formato CSV para que pudesse ser lido por outro sistema levou</p><p>cerca de três meses para ser concluído. Devido à falta de conhecimento em uma ferramenta robusta de</p><p>integração de dados via ETL, o time que desenvolveu esta solução precisou passar por todas as fases de um</p><p>modelo tradicional de desenvolvimento de software, em que só a fase de mapeamento das informações de</p><p>entrada levou 30 dias para ser concluída. A solução, que nada mais era que um ETL, foi desenvolvida</p><p>totalmente em Java por pura falta de conhecimento de ferramentas de ETL, como o Pentaho Data Integration.</p><p>O valor investido nestes três meses de desenvolvimento certamente poderia ter sido investido em outras</p><p>iniciativas.</p><p>Quando nos referimos a gerar valor, estamos nos referindo não apenas a satisfazer as necessidades de nosso</p><p>cliente ou unidade de negócio, estamos também nos referindo a salvar recursos financeiros evitando o</p><p>desperdício de implementações manuais de código para realizar tarefas de um ETL. Com investimento em um</p><p>código personalizado há uma falsa impressão de redução de custos, já que o custo inicial é baixo, mas os</p><p>custos com suporte e melhorias crescem à medida que as necessidades dos negócios mudam.</p><p>Mover grandes quantidades de dados por meio de código, utilizando APIs pode, entre outras situações,</p><p>sobrecarregar um barramento de serviços e cedo ou tarde o histórico de desenvolvimento desta solução irá se</p><p>perder ou, como ocorreu com o sistema legado mencionado neste artigo, deixar de entregar resultados e se</p><p>tornar um problema para o sistema e os times de desenvolvimento e, acima de tudo, a empresa.</p><p>O uso de um ETL consolidado e largamente utilizado como o Pentaho Data Integration traz maior flexibilidade,</p><p>menor tempo de desenvolvimento e melhor estruturação para tarefas como as discutidas neste artigo. Entre</p><p>as principais características do Pentaho Data Integration, podemos destacar:</p><p>Abordagem orientada a modelos com o uso de metadados:</p><p>Intuitivo com possibilidade de responder facilmente a perguntas tais como o que fazer e como fazer.</p><p>Realizar transformações complexas com zero codificação.</p><p>Representar graficamente fluxos de transformações de dados (transformações) e orquestração de tarefas</p><p>(jobs).</p><p>Arquitetura extensível por meio de plugins, sem contar o fato de que é Software Livre e pode ser</p><p>modificado à vontade.</p><p>Não é fácil realizar experimentos com processos de desenvolvimento, mas ocasionalmente nos deparamos</p><p>com o caso das duas Alemanhas, que é o mais perto que podemos chegar de um experimento de laboratório</p><p>com pessoas: duas equipes completamente separadas, desenvolvendo a mesma coisa a partir do mesmo</p><p>ponto inicial e condições semelhantes. As escolhas ao longo do caminho são, então, a única explicação para</p><p>quaisquer diferenças de resultados. No nosso caso, a diferença é a opção de tecnologia para resolver um</p><p>problema de integração de dados e os fatos claramente favorecem a ferramenta de um ETL sobre o código</p><p>puro. Se ainda havia alguma dúvida acerca da vantagem em se usar uma ferramenta de ETL em relação a</p><p>desenvolver a mesma operação em código, os fatos aqui descritos resolveram-na completamente:</p><p>ferramentas de ETL dão resultados vastamente superiores à criação de código a um menor custo e em um</p><p>menor prazo.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>4 - O CUBO DE DADOS E AS CONSULTAS OLAP</p><p>Sabemos que os dados de um Data Warehouse podem ser explorados por diversas perspectivas, ou seja,</p><p>explorando a multidimensionalidade do modelo criado. O cubo de dados é uma representação abstrata da</p><p>representação analítica dos dados armazenados multidimensionalmente. De modo simples, o cubo é uma</p><p>metáfora visual. Os dados são vistos de acordo com as dimensões.</p><p>A figura a seguir mostra o exemplo do modelo multidimensional em sua representação em forma de cubo,</p><p>note que essa é uma das possíveis representações, como o cubo é uma metáfora, a figura apresenta apenas o</p><p>número possível para este: três dimensões. Cada cubo representa um valor de venda, e as faces do cubo</p><p>representam as dimensões de análise: produto, fornecedor e tempo.</p><p>FIGURA 14 – REPRESENTAÇÃO MULTIDIMENSIONAL NA FORMA DE UM CUBO DE DADOS</p><p>FONTE: O autor (2018)</p><p>No que se refere aos cubos, um conceito que comumente é empregado é o de cuboide. Um cuboide é uma</p><p>combinação de dimensões, é uma maneira visual de compreender a análise multidimensional dos dados. No</p><p>exemplo a seguir, veremos um cubo de dados que contém 4 dimensões (tempo, item, local e fornecedor) isto</p><p>implica que para realizar a análise serão 16 cuboides gerados a partir dele, conforme mostra a figura a seguir.</p><p>FIGURA 15 – CUBOIDES</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/unidade-2#h.6crrfkrrse84</p><p>FONTE: Pan (2017)</p><p>Ainda segundo Pan (2017), um cuboide básico possui os dados mais detalhados, exceto os próprios dados de</p><p>origem; é composto de todas as dimensões, como (tempo, item, localização, fornecedor). Por exemplo, um</p><p>usuário pode explorar o cuboide base (tempo, item, localização, fornecedor) ao longo da dimensão</p><p>"fornecedor" para cuboide (hora, item, local). E neste caso, o cuboide base é o cuboide parental, ou seja, que</p><p>representa uma hierarquia e um cuboide 3D (tempo, item, localização) que representa uma hierarquia pai →</p><p>filho.</p><p>OLAP vs OLTP na prática</p><p>As siglas OLTP e OLAP são bastante utilizadas no universo do Business Intelligence (BI), porém, ambas</p><p>possuem conceitos divergentes e são aplicadas em contextos diferentes. Neste artigo entenderemos melhor</p><p>cada uma.</p><p>O OLTP, do inglês “Online Transaction Processing”, é o termo usado para se referir aos sistemas</p><p>transacionais, ou seja, os sistemas operacionais das organizações. São utilizados no processamento dos dados</p><p>de rotina que são gerados diariamente através dos sistemas informacionais da empresa e dão suporte às</p><p>funções de execução do negócio organizacional.</p><p>Já o OLAP, do inglês “Online Analytical Processing”, trata da capacidade de analisar grandes volumes de</p><p>informações nas mais diversas perspectivas dentro de um Data Warehouse (DW). O OLAP também faz</p><p>referência às ferramentas analíticas utilizadas no BI para a visualização das informações gerenciais e dá</p><p>suporte para as funções de análises do negócio organizacional. Estes sistemas se diferenciam em outros</p><p>aspectos, são eles:</p><p>QUADRO 1 – COMPARATIVO OLAP X OLTP</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3i4Wili&sa=D&sntz=1&usg=AOvVaw0m8zeSfjtW_B5CeNyUWirZ</p><p>FONTE: < https://bit.ly/3i4Wili >. Acesso em: 22 jan. 2019.</p><p>Em resumo podemos dizer que a grande diferença está no fato de que um está direcionado ao</p><p>funcionamento dentro do ambiente operacional (OLTP) e o outro com foco essencialmente gerencial (OLAP).</p><p>Com as diferenças mostradas, percebemos que não se trata de um conceito ser melhor que o outro, mas sim</p><p>de conceitos complementares e com objetivos distintos dentro da organização. Cabe à empresa se posicionar</p><p>e utilizar ambos da melhor forma possível para conciliar desempenho operacional e o resultado estratégico da</p><p>organização.</p><p>Os bancos de dados relacionais ainda são maioria em sistemas de informação denominados como OLTP, uma</p><p>vez que têm ênfase em garantir a integridade durante as transações no uso do sistema. Uma vez que neste</p><p>momento já passamos pela ETL, a partir de agora os sistemas OLTP podem fazer parte de um Data Warehouse</p><p>apenas na forma de fontes de dados.</p><p>Em ambientes de Data Warehouse, nos quais se tem as análises como principal objetivo, serão realizadas</p><p>a dificuldade da integração dos dados a partir de diversos sistemas de informação. No</p><p>entanto, as principais obras sobre o tema foram publicadas em 1992 e 1996. Neste contexto, muita coisa vem</p><p>se modificando e a principal mudança é o notório volume de dados gerados pelo uso da internet no mundo.</p><p>O Internet Live Stats é uma equipe internacional de desenvolvedores, pesquisadores e analistas que tem como</p><p>objetivo coletar e disponibilizar estatísticas sobre o volume de sites na Web , de maneira que estes conteúdos</p><p>sejam fornecidos em um formato dinâmico e relevante para um público amplo em todo o mundo. Segundo</p><p>estimativas deste órgão, até a confecção deste livro existem 1.929.019.952 de sites na Web e um total de</p><p>4.068.405.997 usuários espalhados por todo o mundo. Estes usuários geram uma grande informação</p><p>diariamente e tais dados são interessantes para as organizações, pois contêm os mais diversos tipos de</p><p>estruturas, simples ou complexas, que existem, atendendo a diversas necessidades e possuindo diversos</p><p>conteúdos e formatos.</p><p>A grande questão é que por um longo período as pessoas eram apenas consumidoras de conteúdos, um</p><p>público-alvo, números sem voz, porém, quando se transformam em usuários da grande rede mundial, cada</p><p>indivíduo ganha seu poder e voz, ao invés de ser receptor de mensagens, as pessoas se tornam produtoras de</p><p>informações de valor, como decidir qual produto consumir, como influenciam seus amigos nas redes sociais,</p><p>quais termos de busca mais utilizam, quais notícias e quais temas mais lhe interessam. Durante muitos anos</p><p>as grandes empresas investiram fortemente em pesquisas de opinião e entrevistas de foco local, tendo como</p><p>objetivo saber se o produto a ser lançado atingia o público-alvo e como melhorá-lo em relação aos</p><p>concorrentes. Agora as pessoas estão inundando as mídias sociais com bilhões de dados, mais do que</p><p>empresas e marcas consigam administrar transformando a internet numa imensa plataforma de pesquisa</p><p>quando o que vale não é o que se diz, mas o que de fato se faz. Estão gerando um imenso manancial de dados</p><p>e métricas, dados de mercado e consumo. Como transformá-los em inteligência de negócio?</p><p>Um grande ponto de aumento dos dados é um ponto constante, não se muda apenas o volume dos dados,</p><p>mas também o limiar que mensura essa evolução. O IDC (International Data Corporation) realizou um estudo</p><p>intitulado “O universo digital das oportunidades: riquezas de dados e valor crescente da internet das coisas ” ,</p><p>com pesquisa e análise da IDC, foi reportado que no ano de 2013 havia um conjunto composto por 4,4 trilhões</p><p>de gigabytes (ou 4,4 zettabytes) de informação. Utilizando diversos conjuntos de métricas e análises, o</p><p>instituto realizou uma previsão que o mundo saltará para 44 trilhões de gigabytes (44 zettabytes) em 2020 e</p><p>que 10% desse volume de dados corresponderá à internet das coisas.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>O grande desafio é buscar alternativas para armazenar e processar estes dados, gerando informação e</p><p>conhecimento. O caso mais conhecido da análise de dados e geração de conhecimento para a tomada de</p><p>decisão é o caso da fralda e da cerveja. Neste caso, os dados de vendas de produtos de uma grande rede de</p><p>mercados americana, após computar um grande volume de dados, foi possível descobrir que sempre que</p><p>havia uma compra de fralda às sextas-feiras, havia uma grande probabilidade de também conter cerveja. Tal</p><p>análise, permitiu que a rede tomasse a decisão de realocar os produtos pelas lojas e aumentasse suas vendas.</p><p>Os analistas de dados, muitas vezes, chamados de analistas de Business Inteligence , que já tinham em mãos os</p><p>desafios de centralizar diversas fontes de informação ainda têm isso aumentado.</p><p>Em seu tradicional infográfico atualizado, a Go-Globe divulga “O mundo em 60 segundos”, que é mostrado na</p><p>figura a seguir. Nela é possível ver o volume de informações geradas a cada minuto em todo mundo nos</p><p>principais veículos. Note que apenas buscas no Google são 3.8 milhões, no Youtube são 400 horas de vídeo</p><p>enviados e cerca de 700 horas de vídeos assistidos, tudo isso desde que você começou a leitura desta seção</p><p>FIGURA 1 – O MUNDO EM 60 SEGUNDOS</p><p>FONTE: <https://bit.ly/30ABSdu>. Acesso em: 15 out. 2018.</p><p>Que o mundo vivencia uma explosão dos dados, isto é fato, o que nos gera um grande desafio: armazenar e</p><p>gerenciar tais dados. O grande fato, conforme visto anteriormente, geramos os mais diversos tipos de dados,</p><p>que nem sempre possuem uma estrutura. Tornando necessário o conhecimento sobre o formato desses</p><p>dados para se obter a melhor maneira de processar e armazená-los.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>FIGURA 2 – DISTRIBUIÇÃO DOS DADOS</p><p>Conforme mostra a figura anterior, apenas 20% dos dados são armazenados de maneira estruturada. Os</p><p>dados estruturados são aqueles que estão armazenados em uma estrutura previamente definida,</p><p>tradicionalmente os softwares tradicionais os utilizam na forma de SGBDR (Sistemas Gerenciadores de Bancos</p><p>de Dados Relacionais) ou BDR (Bancos de Dados Relacionais). A principal característica dos SGBDRs é que</p><p>foram construídos para garantir a integridade dos dados armazenados, toda sua estrutura é feita com base</p><p>em tabelas construídas com base em relacionamentos. Com relação ao motivo desta forma de</p><p>armazenamento ser chamada de estruturada, isto se dá, principalmente, pelo fato de que a estrutura dos</p><p>dados deve ser definida previamente ao armazenamento dos dados. Ou seja, primeiro é realizada a definição</p><p>do campo, depois sua inserção.</p><p>Os bancos de dados relacionais estão consolidados no mercado há mais de 50 anos, no entanto, 80% dos</p><p>dados distribuídos pela Web assumem outros dois formatos: semiestruturados e não estruturados.</p><p>Os dados semiestruturados são aqueles que têm uma estrutura, ou seja, se consegue reconhecer um</p><p>significado, no entanto, ao contrário dos estruturados, esta estrutura não é definida previamente. Tal</p><p>estrutura é incremental e vai se alterando no passar do tempo. São exemplos de dados semiestruturados:</p><p>planilhas Excel, arquivos CSV, documentos XML, documentos JSON. Dados semiestruturados apresentam uma</p><p>representação estrutural heterogênea, não sendo nem completamente não estruturados nem estritamente</p><p>tipados. Dados Web se enquadram nessa definição: em alguns casos os dados possuem uma descrição</p><p>uniforme (um catálogo de produtos), em outros, algum padrão estrutural pode ser identificado (um conjunto</p><p>de documentos no formato de artigo). Afirma-se também que dados semiestruturados são dados nos quais o</p><p>esquema de representação está presente (de forma explícita ou implícita) juntamente com o dado, ou seja,</p><p>este é autodescritivo. Isto significa que uma análise do dado deve ser feita para que a sua estrutura possa ser</p><p>identificada e extraída (MELLO, 2000).</p><p>Por sua vez, os dados não estruturados, são os que mais populam a Web , destes não é possível obter uma</p><p>estrutura, e para extrair conhecimento sobre tais dados é necessário realizar um pré-processamento. São</p><p>exemplos de dados não estruturados: textos, imagens, arquivos de som, vídeos e os mais diversos arquivos</p><p>multimídia.</p><p>Nas organizações isto não é diferente, empresas utilizam seus softwares de gestão para gerenciar as mais</p><p>diversas operações (vendas, marketing, produto) o que por si só já se torna um desafio que é integrar os</p><p>dados de todos os setores, muitas vezes, centralizados em diversos SGBDs e softwares. Complementarmente,</p><p>cada vez mais empresas utilizam redes sociais para divulgar seus produtos e iniciativas, tornando-se</p><p>interessante extrair dados sobre como os usuários destas redes estão reagindo a isso. Na produção da</p><p>empresa, com a ascensão do conceito de internet das coisas e do sensoriamento, os dados podem ser</p><p>coletados em tempo real e a maneira com que se trabalha com indicadores</p><p>operações OLAP ( Online Analytical Processing – Processamento Analítico On-line). De maneira simples, OLAP é a</p><p>capacidade do sistema processar os dados analiticamente, explorando a multidimensionalidade do banco de</p><p>dados em que os dados estão armazenados. O foco da realização de operações OLAP é o processamento on-</p><p>line de dados com foco em análise para tarefas de tomada de decisão. As análises ocorrem em um tempo</p><p>mais rápido, objetivando-se atingir tempo real nas consultas, são executadas de maneira eficiente quando</p><p>comparadas com as mesmas consultas executadas em um ambiente OLTP.</p><p>Os denominados Servidores OLAP, que implementam esta arquitetura, sempre empregam uma visão</p><p>multidimensional dos dados, fazendo com que haja grande aplicabilidade quando integrados a bancos de</p><p>dados multidimensionais. No que se refere a estas implementações, elas podem ser ROLAP, MOLAP e HOLAP.</p><p>Segundo Vieira (s.d.), a definição destes servidores tem o seguinte:</p><p>ROLAP – Relational Online Analytical Processing : partindo do nome, nessa implementação, o servidor para</p><p>manipular os dados será implementado utilizando um sistema gerenciador de banco de dados relacional.</p><p>Durante a implementação, o servidor é constituído de uma camada de interface entre o modelo relacional e o</p><p>modelo multidimensional, pois transformam as requisições multidimensionais do usuário em rotinas de</p><p>acesso às tabelas, que armazenam os dados. Sua vantagem é a eficiência no armazenamento de dados</p><p>esparsos e o segredo está na modelagem dos dados.</p><p>MOLAP – Multidimensional Online Analytical Processing : nessa implementação específica para a</p><p>multidimensionalidade, para este fim e para isto armazenam e executam operações diretamente sobre uma</p><p>matriz de dados. Se os dados não forem esparsos, esses servidores são mais eficientes em armazenamento e</p><p>recuperação do que os servidores ROLAP, uma vez que sua arquitetura é projetada especificamente para este</p><p>fim.</p><p>HOLAP – Hybrid Online Analytical Processing : em uma aplicação híbrida, em uma abordagem atual próxima às</p><p>aplicações mobile que usam um misto de tecnologias, esta implementação utiliza uma integração entre as</p><p>duas abordagens vistas anteriormente. Os servidores HOLAP adotam uma forma de armazenamento em dois</p><p>níveis, um para dados densos, que são colocados em matrizes e outro para dados esparsos, que são alocados</p><p>em tabelas. Ou seja, torna-se uma aplicação robusta integrando tanto matrizes quanto tabelas armazenando o</p><p>modelo multidimensional, o que demanda um maior requisito de equipe para desenvolvê-lo.</p><p>DOLAP – Desktop Online Analytical Processing : esse tipo de OLAP não se refere à implementação do</p><p>armazenamento, mas à distribuição de dados. Essa abordagem tem como objetivo otimizar as consultas</p><p>através do armazenamento no computador do usuário. Isto não significa que não haverá um servidor que</p><p>armazena os dados, mas que o computador do usuário também receberá os dados. O conjunto de dados</p><p>multidimensionais deve ser criado no servidor e uma cópia é transferida para o desktop. Utilizando esta</p><p>técnica é possível trazer portabilidade aos usuários OLAP, que não possuem acesso direto ao servidor, no</p><p>entanto, têm que ter um cuidado com o período da análise, uma vez que o ambiente Desktop não pode ficar</p><p>diferente do servidor OLAP.</p><p>Independentemente da estratégia de implementação de um servidor OLAP, a arquitetura deverá prover</p><p>recursos para extrair informação e conhecimento por intermédio do modelo multidimensional. Utilizando as</p><p>operações OLAP, é possível navegar pela hierarquia dos dados, explorando o cubo de dados, a</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3i4Wili&sa=D&sntz=1&usg=AOvVaw0m8zeSfjtW_B5CeNyUWirZ</p><p>multidimensionalidade e a granularidade dos dados.</p><p>Neste momento, você deve ter se perguntado o que significa granularidade. A granularidade vem realmente</p><p>de grão, qual o menor grão (dado) possível de ser armazenado, o grão é o menor nível da informação e é</p><p>definido de acordo com as necessidades elencadas no início do projeto. Ele é determinado para cada tabela</p><p>Fato, já que normalmente as Fatos possuem informações e granularidades distintas. Segundo Elias (2014), é</p><p>importante entender o relacionamento existente entre o detalhamento e a granularidade. Quando falamos de</p><p>menor granularidade, ou granularidade fina, significa maior detalhamento (menor sumarização) dos dados.</p><p>Maior granularidade, ou granularidade grossa, significa menor detalhamento (maior sumarização). Assim</p><p>podemos notar que a granularidade e o detalhamento são inversamente proporcionais.</p><p>Tradicionalmente, os servidores permitem a exploração dos dados mediante à realização das operações OLAP</p><p>e operam aumentando e diminuindo a granularidade dos dados. Tais operações são:</p><p>Slice : em português essa operação significa fatiar. Assim, retornam valores específicos de uma dimensão do</p><p>cubo, pode-se dizer que fatia uma parte do cubo a ser visualizado. Pode-se dizer que seleciona uma dimensão</p><p>específica de um determinado cubo e fornece um novo subcubo. A figura a seguir mostra um exemplo de uma</p><p>operação Slice , onde inicialmente existem três dimensões (cidade, tempo e itens) e após a realização da</p><p>operação foi aplicado um filtro de tempo selecionado apenas o bimestre Q1, sendo assim, fatiou-se</p><p>mostrando apenas duas dimensões.</p><p>FIGURA 17 – OPERAÇÃO DE SLICE</p><p>FONTE: Han, Pei e Kamber (2011)</p><p>Dice : o tempo dice não tem uma tradução específica em português, mas o significado mais próximo é “parte de</p><p>um cubo”. Esta operação são slices consecutivos, permitindo gerar diversos cortes no cubo, gerando um</p><p>subcubo. No exemplo da figura a seguir, notamos que o círculo do meio representa um conjunto de filtros, tais</p><p>filtros podem ser compreendidos como slices que em conjunto formam um dice.</p><p>FIGURA 18 – OPERAÇÃO DE DICE</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>FONTE: Han, Pei e Kamber (2011)</p><p>Drill-Down : este operador navega a partir de dados, obtendo um maior nível de detalhamento, aproximando-</p><p>se da granularidade mínima. Ao aplicar essa operação, está descendo uma hierarquia de conceitos para uma</p><p>dimensão. A figura a seguir, assim como nos exemplos anteriores, mostra um cubo inicial, quando realizada</p><p>uma operação de drill-down , que expande os dados do cubo, trazendo as mesmas informações, que antes</p><p>eram mostradas por bimestre, agora organizadas por meses. Pode-se dizer que a operação de drill-down</p><p>expande o cubo de dados.</p><p>FIGURA 19 – OPERAÇÃO DE DRILL-DOWN</p><p>FONTE: Han, Pei e Kamber (2011)</p><p>Roll-Up : oposto do operador drill-down, sumariza as informações, diminuindo o nível de detalhes. A operação</p><p>de roll-up executa a agregação em um cubo de dados. A figura seguinte mostra que a hierarquia está definida</p><p>em palavras e textos. A operação de roll-up , no exemplo, agrega os dados de palavras para textos, gerando um</p><p>cubo resultante com o total de ocorrências por textos, ao invés do cubo inicial que agrupava por palavra.1</p><p>FIGURA 20 – OPERAÇÃO DE ROLL-UP</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>FONTE: Han, Pei e Kamber (2011)</p><p>Uma vez conhecido os operadores OLAP, podemos explorar as dimensões de um Data Warehouse. Essas</p><p>operações são executadas no servidor OLAP e consumidas pelas ferramentas de visualização de dados.</p><p>5 - CAMADA DE APRESENTAÇÃO DOS DADOS E FERRAMENTAS</p><p>DE VISUALIZAÇÃO</p><p>Seguindo a arquitetura proposta por Kimball e até mesmo na mesma lógica de Inmon, as fontes de dados são</p><p>definidas pelo cenário de aplicação, a área de preparação definido pela ETL, que ao fim realiza a carga no</p><p>banco de dados multidimensional. O servidor OLAP representa a camada de apresentação, fornecendo os</p><p>dados através de suas operações.</p><p>Uma vez feito isso, os dados já estão pré-processados,</p><p>limpos e armazenados, deste modo estando prontos</p><p>para que sejam consumidos pelas aplicações. As ferramentas de apresentação podem ser uma aplicação</p><p>específica ou, o caso mais convencional, a utilização de uma ferramenta para a geração de dashboards . Tendo</p><p>em vista que o objetivo do livro é a construção de dashboards, nosso próximo capítulo será dedicado a</p><p>discorrer pelas ferramentas em detalhes.</p><p>CONSIDERAÇÕES FINAIS</p><p>Prezado aluno!</p><p>Chegamos ao fim do Capítulo 2, esperamos que tenha sido proveitoso para você. Este capítulo teve como foco</p><p>trazer conceitos sobre Data Warehouse e lhe propiciar conhecimento para construí-lo.</p><p>Iniciamos o capítulo relembrando o conceito de business intelligence , relembrando que é uma metodologia e</p><p>não uma ferramenta, apresentando assim a arquitetura de um Data Warehouse como uma das principais</p><p>ferramentas.</p><p>Durante esse capítulo, você pôde aprender os conceitos essenciais de Data Warehouse, conheceu a etapa de</p><p>ETL, que consome 80% do processo de Data Warehousing. Na ETL aprendeu em detalhes o que é extração,</p><p>transformação e carga.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/unidade-2#h.df29dq96egza</p><p>Em nosso estudo, você desmistificou um dos maiores dilemas do estudo de Data Warehouse: a diferença</p><p>entre OLAP e OLTP. Nesse momento foi importante nosso aprendizado sobre modelagem multidimensional.</p><p>No estudo sobre OLAP vimos os tipos de servidores e como é feita a implementação.</p><p>Durante o capítulo discutimos tópicos atuais sobre ferramentas e técnicas de coleta e processamento, que</p><p>temos certeza de que serão úteis no seu dia a dia como analista de dados. Lembre-se de que tecnologia evolui</p><p>diariamente, por isso nunca deixe de se atualizar sobre o que foi visto até agora.</p><p>Dito isto, você está preparado para ir à etapa final do nosso livro, que é o momento de pegar os dados</p><p>gerados e apresentá-los ao gestor em forma de dashboards , que será o tema do Capítulo 3, nosso capítulo</p><p>final.</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/agora-%C3%A9-com-voc%C3%AA</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>UNIDADE 3</p><p>Parabéns! Você chegou na última unidade dessa disciplina!</p><p>Já verificamos que um Data Warehouse vai além de ser apenas um armazém no conceito de um banco de dados, é</p><p>toda uma arquitetura de coleta e preparação de dados. Os dados são coletados das fontes provedoras (podendo</p><p>ser um sistema OLTP ou integração de várias fontes de dados), que são preparados (ETL) e disponibilizados em</p><p>um servidor OLAP.</p><p>Nesse processo, a última camada é a utilização de ferramentas de acesso aos dados, e será a partir daqui que</p><p>entenderemos melhor a função dos dashboards em cenários de Business Intelligence.</p><p>Fazendo uma analogia, podemos dizer que, no mundo corporativo, os dashboard têm o mesmo objetivo de um</p><p>painel de voo: mostrar o que está acontecendo. Assim, quanto mais informações apresentar, mais eficiente será a</p><p>tomada de decisão do gestor.</p><p>Um dashboard é uma ferramenta de visualização de dados que exibe em uma única tela o status de métricas de</p><p>análise de negócios, indicadores e pontos de dados importantes para uma organização.</p><p>A figura a seguir apresenta um exemplo de uma tela de um dashboard que compõem a camada de ferramentas de</p><p>visualização de um Data Warehouse.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>FONTE: https://luz.vc/products/planilha-de-dashboard-de-contas-a-pagar . Acesso em: 10 set. 2020.</p><p>Os dashboards são cada vez mais vistos como ferramentas essenciais para que as empresas obtenham insights de</p><p>longo e curto prazo a partir dos dados armazenados nos Data Warehouses, que permitam tomada de decisões e</p><p>análise de dados mais bem informadas. O emprego dessas ferramentas permite que as empresas tornem os dados</p><p>gerados diariamente utilizáveis por tomadores de decisão. Os designs sofisticados e coloridos dos Dashboards</p><p>fornecem diversas possibilidades de visualização para os dados armazenados, tornando o processo de análise de</p><p>dados mais amigável para os tomadores de decisão.</p><p>Assista ao vídeo: O que são Dashboards? (Business Intelligence). Na videoaula, Cláudio Bonel explica o que são</p><p>Dashboards de uma forma bem prática.</p><p>São três tipos de dashboard: operacionais, estratégicos e analíticos.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fluz.vc%2Fproducts%2Fplanilha-de-dashboard-de-contas-a-pagar&sa=D&sntz=1&usg=AOvVaw3bXeFgM_bMAVyfUEI8Kc0i</p><p>Os dashboards são painéis que reúnem informações relevantes para uma unidade de negócio, um setor ou</p><p>determinado cargo dentro de uma empresa, mas para isso, é importante saber como “criá-los”.</p><p>No artigo Aprenda Tudo sobre Dashboards e como criar painéis incríveis para acompanhar suas atividades ,</p><p>Marcelo Patenate apresenta um passo a passo de como montar um Dashboard. Outra coisa muito importante que</p><p>Patenate elucida é a diferença entre Dashboard e relatório. Confira.</p><p>Dashboards são ferramentas úteis para apoiar a tomada de decisão em organizações, devido a sua eficácia na</p><p>apresentação dos dados, foco nos objetivos a serem alcançados e recursos que proporcionam interatividade aos</p><p>gestores na exploração dos dados.</p><p>Bons estudos!</p><p>CRIAÇÃO DE DASHBOARDS NA PRÁTICA UNIDADE 3 -</p><p>OBJETIVOS DE APRENDIZAGEM</p><p>Ao final do capítulo o acadêmico deverá ser capaz de saber/fazer:</p><p>saber conceitos sobre dashboards;</p><p>fazer métricas e suas aplicações em cenários de business intelligence;</p><p>estabelecer as principais ferramentas do mercado para construção de dashboards;</p><p>compreender o melhor cenário de aplicação para cada uma delas;</p><p>construir seus próprios dashboards a partir dos dados fornecidos;</p><p>utilizar as ferramentas explanadas no capítulo.</p><p>1 - BUSINESS INTELLIGENCE E DASHBOARDS</p><p>Nos capítulos anteriores, você foi contextualizado sobre o volume de dados que geramos e que iremos gerar</p><p>cerca de 44 trilhões de gigabytes até 2020, tornando um desafio coletar, pré-processar e apresentar tais dados</p><p>para gerar insights poderosos para a tomada de decisão. O processo de business intelligence é uma</p><p>metodologia para extração de tais insights para as organizações. Como ferramenta estamos estudando a</p><p>implementação de um Data Warehouse para suprir as tarefas de suporte à decisão.</p><p>Vimos que um Data Warehouse vai além de ser apenas um armazém no conceito de um banco de dados, é</p><p>toda uma arquitetura de coleta e preparação de dados. Os dados são coletados das fontes provedoras</p><p>(podendo ser um sistema OLTP ou integração de várias fontes de dados), que são preparados (ETL) e</p><p>disponibilizados em um servidor OLAP. Neste processo, a última camada é a utilização de ferramentas de</p><p>acesso aos dados e será a partir daqui que entenderemos melhor a função dos dashboards em cenários de</p><p>business intelligence .</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.escolaedti.com.br%2Fdashboard&sa=D&sntz=1&usg=AOvVaw3L_zEfJOY_OJVHFdSqVjQa</p><p>Os dashboards, algumas vezes chamados de business intelligence dashboards (principalmente no idioma</p><p>inglês), independente de nomenclatura, sua função é sua própria tradução literal: painel. Para compreender</p><p>melhor, vamos pegar</p><p>a essência de um painel, o painel de um carro, ou até melhor, de um avião. Este painel</p><p>tem uma importante função, mostrar tudo que está acontecendo durante o percurso, a posição geográfica</p><p>onde está, o status do combustível, o funcionamento das peças, entre muitas outras informações. Você até</p><p>pode navegar sem um painel, mas sem dúvida que se utilizando dele é possível analisar a viagem por diversas</p><p>perspectivas e tomar as melhores decisões, que o farão ter a melhor viagem possível. A figura a seguir nos</p><p>mostra esta analogia, de um lado um dashboard de dados e do outro o painel de um avião.</p><p>FIGURA 1 – PAINEL DE DADOS X PAINEL DE UM AVIÃO</p><p>FONTE: O autor (2018)</p><p>Quando tratamos de um cenário corporativo, um dashboard tem o mesmo objetivo de um painel de voo:</p><p>mostrar tudo que está acontecendo em uma organização. Vamos pensar em uma indústria multinacional, o</p><p>painel deve mostrar o número de funcionários contratados, o número de funcionários dispensados, o número</p><p>de matéria-prima, o número de produtos produzidos, o custo da produção, o número de funcionários</p><p>envolvidos, o lucro sendo avaliado por diversas perspectivas, enfim, ser literalmente um painel sobre tudo que</p><p>está acontecendo. Quanto mais informações forem trazidas, mais eficiência decisória o gestor da empresa terá</p><p>em mãos.</p><p>Um dashboard é uma ferramenta de visualização de dados que exibe em uma única tela o status de métricas</p><p>de análise de negócios, indicadores e pontos de dados importantes para uma organização. É claro que ele</p><p>pode ser dividido em vários relatórios, mas o ideal é que você pense nele como um único painel a ser</p><p>projetado em uma TV de 50 polegadas na sala do CEO mostrando indicadores a todo o momento, ou seja, é</p><p>uma ferramenta para mostrar visualmente os dados que estão armazenados em um Data Warehouse.</p><p>Atenção</p><p>Lembre-se de que ter uma grande quantidade de dados não fará sentido sem um</p><p>processo eficiente de modelagem e de tratamento. Outro ponto importante é</p><p>você saber desde já que apesar de os dashboards comporem a camada de</p><p>ferramentas de visualização de um Data Warehouse, não necessariamente</p><p>precisam de um desenvolvedor para que se possa utilizar um dashboard, você</p><p>pode integrá-los com qualquer dado armazenado em seu computador.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>Notoriamente, ter eficiência no emprego de um dashboard é resultado de um processo de data warehousing</p><p>até as ofertas das consultas OLAP. Porém, algumas vezes são encontradas dificuldades no uso de dashboards,</p><p>que resultam de um processo mal feito de preparação de dados (por isso a importância de termos estudado a</p><p>fundo o processo de Data Warehousing) ou, o caso mais comum, que é a dificuldade de instalar e utilizar as</p><p>ferramentas de dashboard.</p><p>Embora a maioria das ferramentas de dashboard seja relativamente de rendimento simples, ao menos em sua</p><p>instalação e recursos básicos com baixa curva de aprendizagem, há uma grande dificuldade em se obter</p><p>indicadores de valor. Por isso, em sua maioria as empresas geralmente precisam usar profissionais de TI para</p><p>implementar a tecnologia. Lembramos que conforme visto anteriormente, profissionais que têm</p><p>entendimento de dados são valorizados pelo mercado, principalmente, pelo fato de poderem preparar os</p><p>dados e fornecer dashboards eficientes, em que o tomador de decisões atua com maior precisão.</p><p>Houve um tempo em que as ferramentas de dashboards eram limitadas, com gráficos tradicionais, o que</p><p>tornava difícil a visualização por parte do gestor. Atualmente, as ferramentas são extremamente completas,</p><p>com uma infinidade de gráficos (barra, lista, geográfico, frequência, entre muitos outros que estudaremos</p><p>adiante). E este é um ponto importante, o fato de existirem diversas opções gráficas pode ser um agravante,</p><p>uma vez não utilizadas com cautela podem gerar gráficos desnecessários e errôneos. Assim, o papel de um</p><p>profissional de dados é fundamental, não somente na construção de estrutura para armazená-los, mas para</p><p>construir os dashboards em si.</p><p>Sobre dashboards com diversos tipos de informações no modo gráfico, a figura a seguir mostra um dashboard</p><p>de uma determinada organização trazendo diversas opções.</p><p>No dashboard podemos notar um gráfico com números de seguidores em mídias sociais (I), um gráfico de</p><p>barras mostra dados do Google Analytcs com o desempenho do site institucional (II), outro traz informações</p><p>sobre acessos normais comparando com acessos pagos (III).</p><p>Em outro gráfico os dados dos vídeos acessados (IV), os dados sobre as ligações recebidas e o tempo médio de</p><p>ligação são mostrados em um gráfico de frequência (V), as vendas da empresa podem ser vistas tanto em um</p><p>valor inteiro comparando com o anterior (VI) tanto como pode ser exibida na forma dos países que que mais</p><p>consomem (VII) e ao final nota-se um gráfico de prováveis clientes (VIII).</p><p>Note que este é apenas um exemplo genérico e que como citado anteriormente até chegar aos dados que</p><p>serão visualizados é necessário um trabalho de preparação para que possam ser consumidos.</p><p>FIGURA 2 – DASHBOARDS COM MÚLTIPLOS GRÁFICOS</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>FONTE: O autor (2018)</p><p>Os dashboards são cada vez mais vistos como ferramentas essenciais para que as empresas obtenham</p><p>insights de longo e curto prazo a partir dos dados armazenados nos Data Warehouses, que permitam tomada</p><p>de decisões e análise de dados mais bem informadas. O emprego destas ferramentas permite que as</p><p>empresas tornem os dados gerados diariamente utilizáveis por tomadores de decisão. Os designs sofisticados</p><p>e coloridos dos Dashboards fornecem diversas possibilidades de visualização para os dados armazenados,</p><p>tornando o processo de análise de dados mais amigável para os tomadores de decisão.</p><p>Antes de aprofundarmos nosso estudo prático conhecendo as ferramentas, é importante conhecermos o viés</p><p>de negócios sob o qual os dashboards são construídos, para isso vamos conhecer quais os tipos de</p><p>dashboards existentes.</p><p>ESTUDANDO “OS TIPOS DE DASHBOARDS ”</p><p>Um dos maiores desafios das empresas que trabalham com dados e performance, hoje em dia, é conseguir</p><p>monitorar a evolução de todos os resultados de seus negócios de acordo com métricas e objetivos definidos</p><p>anteriormente. Isso acontece porque, sem uma plataforma que permita uma visão mais completa de todas</p><p>essas informações, o trabalho do profissional de business intelligence torna-se muito mais complexo e</p><p>operacional.</p><p>Os dashboards , de maneira geral, são uma ferramenta de visualização de dados que têm como objetivo</p><p>visualizar seus Key Performance Indicators (ou KPIs, como são chamados os principais indicadores de</p><p>performance estabelecidos) e métricas importantes para o seu negócio. Além disso, os painéis permitem que</p><p>todos os usuários entendam as análises realizadas, compilando dados e visualizando tendências e ocorrências</p><p>para possíveis insights.</p><p>Muitas empresas ainda utilizam vários serviços e plataformas para rastrearem seus KPIs e suas métricas, o</p><p>que consome tempo e recursos para que essa análise seja feita e entendida da melhor maneira possível. Os</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>dashboards utilizam dados brutos dessas origens, planilhas e bancos de dados para criar tabelas, gráficos e</p><p>medidores que permitem que seus usuários possam visualizar e entender imediatamente as principais</p><p>métricas que estão procurando. Eles simplificam os relatórios que devem ser gerados no final do mês,</p><p>permitindo que os profissionais consultem informações a qualquer momento, sem uma preparação anterior</p><p>necessária.</p><p>Existem três tipos comuns de dashboards utilizados atualmente, em que suas diferenças dizem respeito à</p><p>área de uso e amplitude da informação. Cada um desses tipos pode ser utilizado</p><p>de acordo com uma</p><p>especialidade específica, como marketing, vendas, gestão de parceiro de canal, suporte, finanças, entre outros.</p><p>São eles:</p><p>Dashboards operacionais: o que está acontecendo agora?</p><p>Dashboards operacionais rastreiam o desempenho das atividades operacionais, que são as atividades</p><p>diárias que mantêm seu negócio em funcionamento. Por exemplo, um dashboard de visão diária da web</p><p>consegue rastrear o desempenho da internet por hora em relação a objetivos predeterminados para uma</p><p>equipe de marketing digital. A ferramenta, portanto, é utilizada para monitorar processos de negócios que</p><p>mudam com frequência, além de acompanhar o desempenho atual de métricas e KPIs.</p><p>Em comparação com os outros tipos de painéis, esses dados são atualizados com uma frequência muito</p><p>maior, às vezes até mesmo de minuto a minuto. Dashboards operacionais são projetados para serem exibidos</p><p>ao longo do dia, e utilizados para monitorar progresso em direção à um alvo. Esse tipo de dashboard pode ser</p><p>utilizado de diferentes maneiras em cada área de uma empresa, como por exemplo:</p><p>Departamento de fabricação: os gerentes possuem dois pontos de vista para se basearem – no início, a taxa</p><p>de retorno por exemplo pode ser considerada como um valor mensal. Então, poderia ser útil compará-la</p><p>com o que era esperado ou planejado anteriormente. A comparação das taxas reais é extremamente</p><p>importante para as empresas.</p><p>Departamento de vendas: uma das maiores vantagens dos painéis operacionais é a possibilidade de</p><p>investigar os mesmos dados de diversas perspectivas. No caso desse departamento, é possível, portanto,</p><p>verificar as vendas reais, compará-las com as de um mês anterior e, finalmente, indicar se a meta foi</p><p>atingida ou não. Além disso, o painel pode agrupar os dados de vendas por pessoas ou também preparar</p><p>uma lista dos melhores clientes, além de controlar atividades como o número de propostas pendentes.</p><p>Departamento de atendimento: por meio dos painéis, funcionários e gerentes podem verificar o número de</p><p>chamadas de suporte ou reclamações por mês, por exemplo. Essas são estatísticas importantes ao tentar</p><p>melhorar a eficiência dos serviços e, consequentemente, a imagem da empresa.</p><p>Departamento de recursos humanos: podemos distinguir vários fatores mensuráveis, como a taxa de</p><p>retenção dos funcionários e a pontuação de satisfação dos colaboradores.</p><p>Confira exemplos de dashboards operacionais do nosso Reamp Datahub:</p><p>FIGURA 3 – DASHBOARD OPERACIONAL</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>Dashboards estratégicos: acompanhamento dos KPIs</p><p>Os dashboards estratégicos gerenciam atividades de nível superior, mostrando informações importantes</p><p>sobre o desempenho geral de um negócio e oportunidades. Normalmente, incluem informações relevantes</p><p>para a equipe executiva, como vendas ano a ano ou satisfação geral do cliente durante um período de tempo</p><p>mais longo. Como estão sendo utilizados no nível mais alto da hierarquia da empresa, é possível aprofundar-</p><p>se nos níveis mais baixos para obter informações detalhadas de cada um deles.</p><p>Isso significa que essa ferramenta monitora o status dos principais KPIs. KPI é a sigla para o termo em inglês</p><p>Key Performance Indicator , que significa indicador-chave de Desempenho. Esse indicador é utilizado para medir</p><p>o desempenho dos processos de uma empresa e, com essas informações, colaborar para que alcance seus</p><p>objetivos.</p><p>Os dados por trás de um dashboard estratégico são atualizados periodicamente, mas em intervalos menos</p><p>frequentes do que um dashboard operacional. Painéis estratégicos podem ser visualizados uma vez por dia,</p><p>ajudando os executivos a permanecerem a par dos KPIs de toda a empresa por meio de visualizações de</p><p>dados simples. Podemos dividir os usos e métricas mais comuns dos painéis estratégicos em cada unidade de</p><p>negócios adequada para eles:</p><p>Departamento de fabricação: nesse caso, as métricas ligadas à produção parecem as mais importantes.</p><p>Então, com o painel, podemos verificar a taxa de retorno do produto, por exemplo, e investigar as</p><p>tendências – se a taxa diminui ou não – e com que rapidez.</p><p>Departamento de vendas: os painéis são focados principalmente nos resultados de vendas e em suas</p><p>tendências e mudanças.</p><p>Departamento de atendimento: o contato com os clientes é extremamente importante. Portanto, mais</p><p>atenção é dada a essa área e os painéis permitem medir índices como o número de reclamações, por</p><p>exemplo.</p><p>Departamento de recursos humanos: todas as métricas relativas a pessoas (funcionários da empresa) são</p><p>extremamente importantes para que essa área mantenha o fluxo do negócio. A taxa de retenção de</p><p>funcionários, por exemplo, é um dos dados que pode ser monitorado por esse painel.</p><p>FIGURA 4 – DASHBOARD OPERACIONAL</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>Dashboards analíticos: visão geral dos dados para descobrir tendências</p><p>Permitem que as empresas tenham uma visão granular de seus dados para descobrir padrões e tendências</p><p>específicas. Graças a esse tipo de dashboard, os gerentes têm a possibilidade de controlar como o mercado</p><p>está reagindo às ações da empresa. Por exemplo, o dashboard operacional pode mostrar que 90% das faturas</p><p>de clientes da empresa estão sendo pagas a tempo e 10% estão atrasadas. Por meio do analítico, a empresa</p><p>pode investigar esses 10% para entender os padrões e fatores em comum que estão influenciando no atraso</p><p>desses pagamentos. Ou seja, essa ferramenta analisa grandes volumes de dados para permitir que os</p><p>usuários investiguem tendências, prevejam resultados e descubram insights. São mais comuns em</p><p>ferramentas de business intelligence porque são normalmente desenvolvidos e projetados por analistas de</p><p>dados. Os dados por trás de um dashboard analítico devem ser precisos e atualizados com pouca frequência.</p><p>Há muitos fatores e métricas que podem ser medidos com os painéis táticos, mas eles têm uma coisa em</p><p>comum – todos eles estão sendo medidos em relação à métrica pré-definida. Então, não é tão importante</p><p>medir o objetivo em si, mas verificar quão diferente é o valor planejado da execução real. Para ilustrar como</p><p>pode ser utilizado em uma empresa:</p><p>Departamento de fabricação: nele, um sistema de controle completamente novo pode ser implementado. É</p><p>realmente um aspecto importante, e que antes era difícil de ser operado. A qualidade é fundamental no</p><p>caso desse setor, e os painéis analíticos podem ser utilizados para estabelecer reuniões regulares de</p><p>revisão de qualidade.</p><p>Departamento de vendas: classificações e relatórios detalhados são indispensáveis para a tomada de</p><p>decisões. Portanto, graças a esses painéis, podemos ver não apenas o total, mas também dados sobre a</p><p>venda de um produto, como por exemplo o valor da venda de sapatos da empresa no Brasil. Assim, os</p><p>gerentes também podem decidir lançar cada produto no mercado em uma determinada data.</p><p>Departamento de atendimento: os painéis táticos fornecem habilidades de treinamento ampliadas, o que é</p><p>importante durante a implementação de um novo software de help desk, por exemplo.</p><p>Departamento de recursos humanos: suportam a introdução do plano de participação nos lucros, por</p><p>exemplo, o que certamente influencia a moral dos funcionários. Considerando o departamento de recursos</p><p>humanos, os recrutadores também deveriam ser mencionados já que são indispensáveis na busca de</p><p>talentos para a empresa.</p><p>FONTE: < https://bit.ly/2Xon7c8 >. Acesso em: 2 dez. 2018.</p><p>Acima vimos as abordagens mais gerenciais no que se refere à criação de dashboards, tendo como objetivo</p><p>dar continuidade aos estudos envolvendo a construção de um Data Warehouse e para isso estudaremos as</p><p>principais ferramentas de dashboard do mercado levando em consideração a usabilidade, custo benefício,</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2Xon7c8&sa=D&sntz=1&usg=AOvVaw09rlITdytcGsP3rkU-XdqW</p><p>emprego no mercado de trabalho e trabalhos acadêmicos relacionados.</p><p>DICAS GERAIS SUPERSTORE: Disponível em: < https://bit.ly/30mE7RT >. Acesso em: 23 jan. 2019.</p><p>2 FERRAMENTAS DE DASHBOARD</p><p>Até agora você compreendeu o conceito de coleta, pré-processamento e visualização de dados. Por último,</p><p>compreendemos qual é a finalidade de um dashboard neste cenário. Agora você vai conhecer um arsenal com</p><p>algumas ferramentas para geração de Dashboards.</p><p>2.1 PENTAHO BUSINESS</p><p>No que se refere ao processo de ETL e de Data Warehousing, um nome de referência é Pentaho. O que</p><p>inicialmente era um conjunto de ferramentas separadas, foi desenvolvido em 2004 pela então Pentaho</p><p>Corporation, e este conjunto de aplicações, o software foi considerado uma das melhores aplicações para</p><p>inteligência empresarial em 2008. A principal ferramenta denominada Pentaho Data Integration pode ser</p><p>considerada o carro chefe da empresa, principalmente quando integrada com o Pentaho Business, ferramenta</p><p>que permite a geração de dashboards em cima dos dados armazenados.</p><p>Atualmente mantido pela Hitchi, o Pentaho é uma poderosa ferramenta de business intelligence do mercado,</p><p>oferecendo muitos recursos: relatórios, tabelas dinâmicas de OLAP, dashboards e muito mais. O Pentaho está</p><p>disponível em diversas versões, você encontrará versões de código aberto até versões pagas, nós veremos a</p><p>última versão completa até a publicação deste livro.</p><p>Segundo Ferreira (2014), tradicionalmente na suíte do Pentaho estão disponíveis componentes para execução</p><p>de processos de ETL, que fazem carga de Data Warehouses, criação de relatórios pré-formatados e ad hoc,</p><p>cubos OLAP, dashboards e mineração de dados. Todos esses recursos podem ser combinados e acionados</p><p>sequencialmente para criação de soluções mais sofisticadas. Além disso, a plataforma executa todas as</p><p>soluções de business intelligence como serviços e, por isso, é possível prover acesso às soluções para sistemas</p><p>externos, via Web services e outras fontes de dados.</p><p>A figura a seguir mostra a tela inicial do Pentaho Business na versão 8.2, a versão atual da ferramenta, que</p><p>além das funcionalidades já citadas ainda conta com ferramentas para Big Data e IoT ( Internet of Things –</p><p>Internet das Coisas). A partir dessa ferramenta será possível carregar fontes de dados diversas (arquivos csv,</p><p>excel, SQL) e principalmente conectar a um servidor OLAP para construir Dashboards.</p><p>FIGURA 5 – PÁGINA PRINCIPAL DO PENTAHO BUSINESS</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F30mE7RT&sa=D&sntz=1&usg=AOvVaw1ukIjVWMAM0GqgomUW2mlK</p><p>No que se refere à geração dos dashboards, o Pentaho tem uma interface bem amigável, na tela, visto</p><p>anteriormente, uma vez clicado em New existem opções de relatórios, dentre as quais dashboards. O primeiro</p><p>item para criar um dashboard é selecionar um datasource , ou fonte de dados, você pode até utilizar diversos,</p><p>mas têm de realizar a integração entre eles antes da criação com o recurso que a própria ferramenta provê.</p><p>Os dashboards gerados pelo pentaho são dinâmicos e permitem gerar diversos gráficos e incluí-los em um</p><p>dashboard. A figura a seguir apresenta a tela de criação de dashboards com dois gráficos distintos um de</p><p>valores de venda por produto e um outro que contém vendas dispersas geograficamente. Note que na aba</p><p>inferior é possível selecionar um objeto, que é um gráfico específico, e nos parâmetros podem ser aplicados</p><p>filtros que alteram a exibição dos gráficos de acordo com parâmetros de entrada.</p><p>FIGURA 6 – GERAÇÃO DE DASHBOARDS COM PENTAHO BUSINESS</p><p>Se você deseja aprender mais sobre o Pentaho e como construir todo um ecossistema de business</p><p>intelligence , utilizando a suíte completa, esse é um excelente livro.</p><p>BOUMAN, Roland; VAN DONGEN, Jos. Pentaho solutions: business intelligence and data warehousing with</p><p>pentaho and MySQL. Wiley Publishing, 2009.</p><p>Pentaho Day - O Pentaho Day é um evento que acontece anualmente no Brasil e não se limita a ferramenta</p><p>Pentaho. Este é um evento da comunidade brasileira e inclui qualquer um que tem uma paixão por Pentaho</p><p>(sendo Usuários EE ou CE) e quer ver a enorme quantidade de coisas incríveis que outras pessoas constroem</p><p>ao redor do mundo. Não só dedicado à ferramenta Pentaho, mas também a estratégias e metodologias de</p><p>business intelligence . O evento geralmente acontece durante o mês de maio e você pode conferir informações</p><p>atualizadas no site: <http://www.pentahobrasil.com.br>. Acesso em: 23 jan. 2018.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/unidade-3#h.4g1aijqoahir</p><p>2.2 TABLEAU</p><p>A Tableau é uma empresa que foi fundada em 2003, e dá o nome para o produto, a ferramenta Tableau.</p><p>Durante muitos anos, o Tableau conquistou e manteve seu espaço no mercado. A empresa investe em</p><p>constantes atualizações e em múltiplas plataformas de uso, veremos isso em detalhes nesta seção.</p><p>Segundo CIÊNCIA E DADOS(2018), estar no mercado há muitos anos fez com o que o Tableau evoluísse em</p><p>diversas áreas, tais como: a usabilidade do produto, a comunidade Tableau (que é bem grande), o suporte ao</p><p>produto e as opções de implantação flexíveis. A gama de visualizações, layout da interface do usuário,</p><p>compartilhamento de visualização e capacidades intuitivas de exploração de dados também têm vantagem</p><p>sobre o Power BI. O Tableau oferece muito mais flexibilidade quando se trata de projetar seus dashboards. O</p><p>fato é que, de uma perspectiva do usuário final, o Tableau está muito além do Power BI, mais do que o</p><p>Quadrante Mágico do Gartner dá a entender. Podendo se destacar as seguintes características sobre a</p><p>ferramenta de análise de dados:</p><p>O Tableau construiu seu produto na filosofia de “ver e explorar” os dados. Isso significa que o Tableau é</p><p>projetado para criar imagens visuais interativas. Os recursos do Tableau foram implementados de tal forma</p><p>que o usuário pode fazer uma pergunta sobre seus dados e receber uma resposta quase que imediata,</p><p>manipulando as ferramentas disponíveis. Se você quiser apenas gerar relatórios, o Tableau é um exagero.</p><p>O Tableau também é muito mais flexível em sua implantação do que o Power BI. O Tableau pode ser</p><p>comprado em uma assinatura ou em uma licença perpétua / inicial e depois instalado na nuvem ou em um</p><p>servidor local.</p><p>O Tableau é all-in na visualização de dados, e a empresa está sempre atenta aos desejos mais urgentes da</p><p>comunidade de visualização de dados. Você pode esperar melhorias futuras significativas em termos de</p><p>desempenho ao carregar grandes conjuntos de dados, novas opções de visualização e funções ETL.</p><p>Ao contrário do Pentaho, não tem seus expectadores do mundo do software livre, uma vez que nasceu de um</p><p>ambiente corporativo (não que seus concorrentes sejam diferentes). Até a publicação deste livro, a licença</p><p>custa $70,00. No entanto, a empresa tem apostado em outras maneiras de monetizar, como usuários que</p><p>utilizam apenas para visualizar e não criar dashboards, pagarem menos.</p><p>Muito da questão de licença e valores tem a ver com as ferramentas. Segundo o revendedor Five Acts, o</p><p>Tableau em sua versão atual é composto das seguintes ferramentas:</p><p>TABLEAU DESKTOP: o Tableau Desktop é uma poderosa ferramenta para construção de análises para apoio a</p><p>tomada de decisão, que permite a criação de painéis interativos para exploração e análise dos dados de</p><p>maneira simples e intuitiva. A ferramenta é compatível com as principais tecnologias de origens de dados</p><p>(planilhas, bancos de dados, dados na nuvem, e muitos mais).</p><p>FIGURA 7 – TABLEAU DESKTOP</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>FONTE: <https://tabsoft.co/30z3aRB>. Acesso em: 24 jan. 2018.</p><p>TABLEAU SERVER: o Tableau Server é o portal para compartilhamento das análises. Para as áreas de negócio,</p><p>permite o acesso aos dados a partir de diversos dispositivos com total interatividade, utilizando filtros, envio</p><p>de e-mails, autoria de painéis na web, tudo isso com performance e segurança. Para o time de TI, possibilita</p><p>fácil monitoramento e manutenção do ambiente, além de estar alinhado com os principais requisitos de</p><p>governança de dados, protocolos de autenticação seguros.</p><p>FIGURA 8 – TABLEAU SERVER</p><p>FONTE: <https://tabsoft.co/3jz9q3b>. Acesso em: 24 jan. 2018.</p><p>TABLEAU ON-LINE: o Tableau On-line é a versão na nuvem do Tableau Server. Além das características básicas</p><p>do Tableau Server, o Tableau On-line conecta-se facilmente em dados hospedados na nuvem como Amazon</p><p>Redshift e o Google BigQuery, entre outros.</p><p>FIGURA 9 – TABLEAU ON-LINE</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>FONTE: <https://tabsoft.co/3nnWFLg>. Acesso em: 24 jan. 2019.</p><p>TABLEAU MOBILE: o tableau mobile, disponível para as plataformas IOS e Android, entrega de maneira muito</p><p>ágil as informações necessárias para a tomada de decisões onde quer que você esteja.</p><p>FIGURA 10 – TABLEAU MOBILE</p><p>FONTE: <https://tabsoft.co/34vemjn>. Acesso em: 24 jan. 2018.</p><p>TABLEAU READER: aplicativo gratuito para visualizar as análises construídas no Tableau Desktop. Com ele é</p><p>possível interagir com as análises fazendo uso das funcionalidades de filtros, entre outras.</p><p>FIGURA 11 – TABLEAU READER</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>FONTE: <https://bit.ly/34p90G5>. Acesso em: 24 jan. 2018.</p><p>TABLEAU PUBLIC: versão gratuita do Tableau Server, é a melhor maneira de tornar pública qualquer análise,</p><p>contando com as já citadas características de interatividade. É uma ferramenta gratuita que pode ser utilizada</p><p>principalmente como experimentos e aprendizado na plataforma Tableau.</p><p>FIGURA 12 – TABLEAU PUBLIC</p><p>FONTE: <https://tabsoft.co/30xVM96>. Acesso em: 24 jan. 2018.</p><p>Visando conhecer um pouco mais, assim como fizemos com o Pentaho, vamos direto ao ponto com a criação</p><p>de dashboards que é o nosso objetivo principal do emprego desta ferramenta. Para realizar nosso exemplo,</p><p>vamos pegar a versão Web do Tableau, o que muda entre as versões é a maneira com que os gráficos são</p><p>exibidos, por exemplo, na Web, são todos juntos, na versão mobile, será exibido um por vez.</p><p>No exemplo a seguir, primeiro, o usuário escolhe as datas de qualquer período promocional e de comparação</p><p>(que podem ter comprimentos diferentes) no seletor superior direito (1).</p><p>Como às vezes pode ser difícil encontrar um período “limpo” para usar como base, o usuário tem total</p><p>flexibilidade nesse menu. Depois que as datas são selecionadas, o visual mostra rapidamente se o período</p><p>base está “limpo”, mostrando o preço médio de venda (2).</p><p>Além disso, os usuários podem escolher Níveis de Produto em um menu suspenso para selecionar os</p><p>produtos na Promoção (1), eles podem visualizar a criação de estoque (Loja e Depósito) na Promoção e</p><p>durante Promoção (2). Os usuários podem ver instantaneamente como essas promoções afetaram os níveis</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>de estoque do produto (3).</p><p>FIGURA 13 – GERAÇÃO DE DASHBOARDS COM TABLEAU</p><p>2.3 POWER BI</p><p>Que a Microsoft é uma das maiores empresas não é segredo e isso gera o desafio de estar sempre atualizada.</p><p>Citamos anteriormente o Excel como uma ferramenta pioneira na análise de dados e que é utilizada</p><p>atualmente, no entanto, a gigante da informática não se limitou ao pacote office no que se refere a recurso de</p><p>análise de dados, principalmente pela necessidade de recursos avançados e conectividade com bancos de</p><p>dados SQL.</p><p>Assim surgiu o Microsoft Power BI, o projeto inicial foi desenvolvido por Ron George no verão de 2010 e</p><p>nomeado Project Crescent e teve sua primeira versão disponibilizada para download em 2011, junto com</p><p>recursos do banco de dados Microsoft, o Microsoft SQL Server. Mais tarde, recebeu o nome atual, Power BI,</p><p>desde 2013, tendo como objetivo que esse aplicativo se tornasse um componente do suíte de aplicativos para</p><p>escritório Office 365.</p><p>A primeira versão do Power BI foi baseada em recursos de Business Intelligence do Microsoft Excel (Power</p><p>Query, Power Pivot e Power View). Conforme foi avançando em seus releases, a Microsoft também</p><p>implementou a ferramenta com novos recursos como perguntas e respostas, conectividade de dados em nível</p><p>corporativo e opções de segurança via Power BI Gateways. O Power BI foi lançado pela primeira vez para o</p><p>público em geral em 2015 e desde então tem sido uma das principais ferramentas de dashboards, sendo cada</p><p>vez mais requerida nas vagas de emprego de análise de dados.</p><p>FIGURA 14 – POWER BI TELA INICIAL</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>) FONTE: O autor (2018</p><p>O Power BI tem se destacado principalmente com sua fácil integração com bancos de dados relacionais,</p><p>principalmente com o Microsoft SQL Server, outro ponto, que podemos até notar na figura a seguir que</p><p>apresenta a tela inicial do programa é o suporte e documentação. A ferramenta tem tomado conta do</p><p>mercado por ter uma gama de informação on-line, o que auxilia muito os usuários novos e antigos a utilizar os</p><p>recursos do Power BI.</p><p>Esta ferramenta atua como um sistema analítico para lidar com um grande volume de dados e gerar</p><p>informação com significado na orientação dos gestores, em geral, remete ao conceito de sistemas de suporte</p><p>à decisão que são orientados por dados predominantemente internos da empresa e disponíveis</p><p>cumulativamente ao longo do tempo (OLIVEIRA, 2011). O Power BI é uma coleção de serviços de software,</p><p>aplicativos e conectores que trabalham juntos para transformar as fontes de dados não relacionadas em uma</p><p>base multidimensional da qual se pode extrair conhecimento.</p><p>Para elucidar um primeiro contato com a ferramenta, utilizaremos dados de venda que foram exportados de</p><p>um arquivo CSV. A figura a seguir mostra a tela do Power BI após gerado um dashboard com os dados</p><p>importados. Após a seleção dos filtros, foi gerado gráfico de vendas por região, vendas por produto,</p><p>distribuição de vendas e venda por estado. É importante frisar que VISUALIZAÇÕES são gráficos gerados a</p><p>partir de CAMPOS selecionados, conforme vão sendo adicionados, formam um dashboard.</p><p>FIGURA 15 – POWER BI – EXEMPLO DE DASHBOARD</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>2.4 QLIK</p><p>Fundada em 1993, a Qlik é uma empresa de software sueca e atualmente sediada na Pensilvânia, Estados</p><p>Unidos. Os principais produtos são o QlikView e Qlik Sense, ambos softwares para coleta, análise e</p><p>visualização de dados, tendo como objetivo alcançar a inteligência de negócio. A ferramenta de criação de</p><p>dashboards da empresa é o QlikView, uma forte concorrente das ferramentas vistas anteriormente e também</p><p>muito requisitada pelo mercado.</p><p>O QLIKVIEW</p><p>Durante muitos anos as organizações geraram inúmeras informações que não eram aproveitadas, isso porque</p><p>vinham de diversas fontes de dados diferentes. Com o passar do tempo, as organizações perceberam que se</p><p>essas informações não aproveitadas fossem agrupadas, seriam de suma importância para elas e, com isso</p><p>surgiu a necessidade de Softwares que agruparam essas informações e mostraram de uma forma que as</p><p>pessoas pudessem usá-las para tomada de decisões, daí surgiram os tão famosos softwares de B.I.</p><p>O QlikView é um software fabricado pela Qlik com uma metodologia inovadora chamada Business Discovery.</p><p>Esse conceito significa que</p><p>todo usuário de negócio pode utilizar a ferramenta para contribuir nas tomadas de</p><p>decisões. O QlikView proporciona rapidez, flexibilidade, facilidade de uso e recursos poderosos, com isso ele</p><p>permite transformar dados vindos de fontes diferentes em conhecimento de negócio, propiciando tomadas de</p><p>decisões mais precisas e criando novas oportunidades para a empresa.</p><p>O QlikView utiliza uma tecnologia patenteada de associação em memória. Esta tecnologia associativa permite</p><p>criar uma interface única simplificando radicalmente a implantação, o uso e a manutenção das consultas e</p><p>análises.</p><p>Na figura a seguir, nós temos uma ilustração do funcionamento do QlikView, em que as informações vêm de</p><p>inúmeras fontes diferentes e nele são unidas em forma de gráficos e métricas.</p><p>FIGURA 16 – EXEMPLO DO FUNCIONAMENTO DO QLIKVIEW</p><p>FONTE: <https://bit.ly/3jzpeCT>. Acesso em: 15 dez. 2018.</p><p>A rapidez na produção de resultados é um fator que chama atenção no QlikView. Além disso, o software</p><p>estimula a inteligência do usuário, possui uma instalação simples com uma arquitetura única para análise,</p><p>aplicação e geração de relatórios. Tudo isso reunido em uma interface extremamente amigável.</p><p>Ao invés de agregar dados em cubos inflexíveis, o QlikView usa uma tecnologia inovadora, o sistema de criar</p><p>um grande arquivo com todas as associações, conhecido no produto como “Data Cloud”. Desta forma, todos</p><p>os dados relevantes em todas as dimensões ficam disponíveis em RAM.</p><p>AQL™ (Associative Query Logic) é a tecnologia patenteada usada no software QlikView para associar dados,</p><p>enquanto as queries são feitas na estrutura de dados QlikView. A tecnologia AQL promove análises não</p><p>hierárquicas de dados, ao contrário das tecnologias OLAP predominantes usadas na maioria dos softwares de</p><p>B.I. disponíveis no mercado hoje. A tecnologia não hierárquica do AQL garante análises nas quais as queries</p><p>não foram construídas em uma ordem específica (como ano/trimestre/mês). Usando AQL, qualquer valor da</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>estrutura de dados pode ser o ponto de partida para a análise.</p><p>Uma das grandes diferenças entre o QlikView e as demais ferramentas de B.I. está principalmente na</p><p>facilidade da geração de relatórios gráficos, com as outras ferramentas torna-se indispensável ter pessoas da</p><p>área de T.I., pois se faz necessário conhecimento em linguagem SQL para a criação dos relatórios. Nessas</p><p>ferramentas também é de suma importância estarem bem definida todas as dimensões e métricas</p><p>necessárias.</p><p>O QlikView possui um funcionamento muito simples. Vamos dividir em quatro etapas para facilitar o</p><p>entendimento, são elas: instalação, script, nuvens de dados e interface.</p><p>Instalação: sua instalação é bem simples, basta realizar o download do site, executar e ir prosseguindo até o</p><p>final dela. A versão trial é válida por um prazo determinado e não consecutivo, ou seja, ele só conta os dias</p><p>que você utiliza o aplicativo. Após o prazo de utilização da versão trial, a ferramenta continua podendo ser</p><p>utilizada, porém, você só consegue abrir os arquivos gerados pela sua instalação, arquivos criados por outro</p><p>aplicativo na versão trial. Da versão full você não conseguirá abrir.</p><p>Script: O desenvolvimento do QlikView começa pelo script e é uma programação bem simples: sua</p><p>codificação é proprietária, porém é bem semelhante ao VBA, por isso é uma ferramenta voltada para o</p><p>usuário final. Nesse script é onde você vai realizar a conexão com sua fonte de dados que pode ser um</p><p>arquivo txt, xls, ou qualquer outro banco de dados. Não é necessário se preocupar com a linguagem do</p><p>script, pois o software possui wizard que faz toda a conexão para você e gera o script automaticamente.</p><p>A ferramenta faz o carregamento de todos os dados da sua fonte na memória e salva em um arquivo próprio,</p><p>fazendo com que a fonte seja desnecessária. Somente em casos de atualizações na fonte será necessário um</p><p>recarregamento para atualizar o QlikView. Na figura a seguir, você vê um exemplo de script.</p><p>FIGURA 17 – EXEMPLO DE SCRIPT FONTE</p><p>FONTE: <https://bit.ly/3jzpeCT>. Acesso em: 15 dez. 2018.</p><p>Nuvens de dados: após fazer o carregamento das suas fontes de dados, o QlikView constrói todo</p><p>relacionamento entre eles, isso é chamado de Nuvem de Dados (Veja a figura a seguir).</p><p>Interface gráfica: é aqui que você trabalha os dados nas formas desejadas, podendo utilizar todas as</p><p>dimensões carregadas no script. Um detalhe muito importante é que, na criação das métricas, as fórmulas</p><p>que o QlikView disponibiliza são idênticas às do Excel, tanto em nome quanto em sintaxe. O software possui</p><p>uma rica quantidade de componentes que são bem intuitivos na hora de utilizar. Existem tabelas, listas,</p><p>dropdowns, gráficos de barra, gráficos de linha, gráfico de dispersão, gráfico de pizza, botões, enfim, tudo o</p><p>que você precisa para desenvolver uma interface bastante funcional, além de possuir integração com o</p><p>google maps, para poder realizar análises de mercado por região, entre outros tipos. A utilização dos</p><p>componentes é fácil, basta escolher, arrastar para o Painel (Figura a seguir) e configurar quais serão as</p><p>dimensões, quais serão as métricas e você vê o resultado em gráficos, tabelas dinâmicas etc.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>FIGURA 18 – NUVEM DE DADOS E DASHBOARD NO QLIKVIEW</p><p>QlikView: conheça a ferramenta de B.I. disponível em: < https://bit.ly/3i0fEb9 >. Acesso em: 23 jan. 2019.</p><p>2.5 A NUVEM E OS DASHBOARDS</p><p>Se você tem ido ao cinema nos últimos anos com certeza viu a cômica cena do filme Creed de 2016, viu o</p><p>lendário Rocky Balboa ao saber que arquivos podem ser guardados na nuvem se perguntando “Nuvem? Que</p><p>Nuvem?” A verdade é que as tecnologias em cloud têm dominado a rotina de todos nós, nós mesmos</p><p>enquanto escrevemos este livro, utilizamos uma plataforma em nuvem que nos permite acessar os textos de</p><p>qualquer lugar do mundo sem nos preocupar com backup.</p><p>E no cenário de dados não é diferente, aliás, é justamente o cenário de dados que tem puxado uma frente</p><p>bilionária em investimento de tecnologias na nuvem. É claro que o uso de ferramentas como OneDrive,</p><p>GoogleDrive e Dropbox tem um conceito interessante no que se refere a um depósito de dados na nuvem,</p><p>assim como o fato de se hospedar um site. No entanto, o conceito de serviços na nuvem é bem maior, trata-se</p><p>de um conjunto de serviços que permite armazenar e extrair conhecimento, sem preocupação com instalação</p><p>de software e muito menos com recursos de hardware.</p><p>Dos serviços em nuvem provêm diversos recursos, desde coleta de dados, Big Data, ETL, Data Warehouse e</p><p>entre muitos, também o serviço de geração de Dashboard. A partir de agora vamos conhecer alguns serviços</p><p>de cloud que fornecem dashboards, iremos direto ao ponto e tratar de algumas das ferramentas de</p><p>dashboards que são providas pelos serviços em nuvem. É bom ficar claro que essas ferramentas foram</p><p>projetadas para serem executadas utilizando todos os recursos da arquitetura, o que não impede que você</p><p>utilize um banco local, mas com certeza em todos os casos terá melhor desempenho utilizando todos os</p><p>recursos da plataforma.</p><p>Google Data Studio</p><p>Além de ter sua plataforma de armazenamento em nuvem, Google Cloud , a gigante da informática também</p><p>tem sua plataforma de análise de dados. Baseada em ferramentas consolidadas para web, como Google</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3i0fEb9&sa=D&sntz=1&usg=AOvVaw0WV83jIF5-nc9TFLfbg4BH</p><p>Analytics, surge o Google Data Studio.</p><p>Essa ferramenta permite que sejam realizados uploads de arquivos independentes, bem como que sejam</p><p>integrados com outras plataformas como Google Drive, ferramentas de anúncios e o próprio Google Cloud.</p><p>Segundo o site do fabricante, o Data Studio transforma seus dados em relatórios e painéis informativos, fáceis</p><p>de ler e de compartilhar e totalmente personalizáveis. As informações dos relatórios no Data Studio derivam</p><p>de uma ou mais fontes de dados. Com a ferramenta de fonte de dados, fica fácil se conectar a uma grande</p><p>variedade de informações, sem programação. Em alguns instantes, você pode se conectar a conjuntos de</p><p>dados como cvs, xml ou até mesmo bancos de dados multidimensionais.</p><p>A figura a seguir mostra a tela de Dashboard do Data Studio, que foi gerada a partir de um exemplo de</p><p>acessos de marketing de um site principal, este é um dos exemplos fornecidos.</p><p>FIGURA 19 – GERAÇÃO DE DASHBOARD COM GOOGLE DATA STUDIO</p><p>Você pode dar os seus primeiros passos acessando o Google Data Studio, você terá um acesso gratuito e</p><p>também a documentação completa da ferramenta acompanhada de vídeos.</p><p>“Google Data Studio”, disponível em: < https://bit.ly/2XrGP6W >. Acesso em: 23 jan. 2019.</p><p>IBM Cognos Analytics</p><p>Outra empresa que disputa o mercado de Cloud Computing tem sido a IBM, frente a essa puxada está</p><p>principalmente o famoso supercomputador Watson.</p><p>Um recurso independente, que pode ser integrado às demais ferramentas da empresa, é o Cognos Analytics, a</p><p>ferramenta de BI na nuvem da IBM. Segundo o site da fabricante, com a simplicidade da nuvem e sem</p><p>sacrificar o desempenho, a próxima geração de BI oferece recursos orientados e intuitivos para iniciar sua</p><p>jornada rumo à computação cognitiva e alterar sua maneira de trabalhar com dados.</p><p>Essa ferramenta permite explorar mais profundamente o seu negócio ao criar relatórios, painéis e</p><p>visualizações de informações. Essa solução fornece aos usuários a possibilidade de analisar os dados e extrair</p><p>os insights por conta própria, de forma simples e com a segurança da cloud IBM.</p><p>FIGURA 20 – DASHBOARD GERADO PELO IBM COGNOS ANALYTICS</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/unidade-3#h.gntlf51wjr3t</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2XrGP6W&sa=D&sntz=1&usg=AOvVaw18tDnhC2JfKzJFV4fnFTmA</p><p>) FONTE: O autor (2018</p><p>Amazon QuickSight</p><p>No mesmo universo das provedoras de serviço da nuvem, a pioneira Amazon, que fornece diversos recursos</p><p>em sua plataforma denominada AWS, também tem a ferramenta denominada Amazon QuickSigth.</p><p>O Amazon QuickSight é uma ferramenta de business intelligence , que permite integração com fontes externas,</p><p>bem como com outros serviços fornecidos pela ferramenta. Segundo o fabricante, é um serviço de business</p><p>intelligence rápido e na nuvem permite a criação e publicação de dashboards interativos que podem ser</p><p>acessados em navegadores ou dispositivos móveis.</p><p>Você pode incorporar painéis em seus aplicativos, fornecendo aos clientes uma análise avançada de</p><p>autoatendimento. O QuickSight dimensiona facilmente para dezenas de milhares de usuários sem nenhum</p><p>software para instalar, servidores para implantar nem infraestrutura para gerenciar em relação à maneira de</p><p>operacionalizá-lo.</p><p>A Amazon se refere a ele como o primeiro modelo de cobrança de pagamento por sessão do setor, você paga</p><p>apenas pelo que usar. Isso permite que você conceda a todos os seus usuários o acesso aos dados de que eles</p><p>precisam sem licenças caras por estação. A figura a seguir nos mostra a interface de um Dashboard dentro</p><p>dessa plataforma da Amazon, o que você pode notar que não é muito diferente do que foi visto nas demais</p><p>ferramentas.</p><p>FIGURA 21 – DASHBOARD GERADO PELO AMAZON QUICKSIGHT</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>O Amazon QuickSigth está disponível aqui, bem como outras ferramentas Amazon. Só use com muita atenção,</p><p>pois o site irá pedir um cartão de crédito, a maioria dos recursos do Amazon AWS são pagos.</p><p>“Amazon QuickSigth”, disponível em: < https://aws.amazon.com/pt/quicksight/ >. Acesso em: 23 jan. 2019.</p><p>2.6 CRIE SUA PRÓPRIA FERRAMENTA DE DASHBOARD E FIQUE MULTIMILIONÁRIO</p><p>Espero que você não tenha lido o sumário e pulado direto para essa seção, a parte do multimilionário ficará</p><p>por sua conta. No entanto, aqui você conhecerá um pouco de como construir as próprias ferramentas de</p><p>dashboard.</p><p>Neste momento, você deve se perguntar: “Por que reinventar a roda?”; “Por que devo criar algo com tantas</p><p>ferramentas no mercado?”. Você saberá quando acontecer. O fato é que vimos ferramentas muito poderosas</p><p>para gerar dashboards e vamos voltar lá no início quando discutimos a importância de se conhecer o cenário</p><p>de dados antes de tudo. Durante sua carreira como profissional de dados poderá bater de frente com diversos</p><p>cenários, um deles pode ser a solicitação da integração do sistema de análise com um software existente.</p><p>Outro ponto que pode vir a acontecer é o desejo de gerar algum gráfico muito atípico ou um cenário de dados</p><p>que seja assim. Por exemplo, exibir as palavras que estão sendo mais faladas em determinada região em cima</p><p>do mapa, isso não existe implementado em ferramentas prontas.</p><p>Você já deve estar aí imaginando como fazer isso com a sua linguagem preferida. Como você pode perceber,</p><p>aqui a grande tendência é que os dashboards sejam gerados na Web o que permite que sejam acessados de</p><p>qualquer lugar do mundo. Por isso, recomendamos que para a geração de dashboards, você utilize javascrip</p><p>FIGURA 22 – DASHBOARD GERADO PELO CANVASJS</p><p>FONTE: <https://canvasjs.com/>. Acesso em: 24 jan. 2018.</p><p>Mesmo que não domine a linguagem, os passos para construir seus dashboards serão bem simples:</p><p>Utilizar uma linguagem servidor (PHP, por exemplo) para conectar com seu banco de dados</p><p>multidimensional.</p><p>Enviar os dados para o javascript em um formato de integração (json ou xml).</p><p>Receber os dados e exibir na tela.</p><p>Criar Dashboards específicos</p><p>É claro, por mais que pareça simples, assim como qualquer atividade de desenvolvimento demanda de tempo</p><p>e conhecimento. Mas não se assuste, existe uma gama de bibliotecas na Web que pode auxiliá-lo nessa tarefa.</p><p>Vamos deixar algumas sugestões de bibliotecas javascript, o que possibilita diversas integrações com as</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Faws.amazon.com%2Fpt%2Fquicksight%2F&sa=D&sntz=1&usg=AOvVaw3y8nI1UkugwPyXHz-V4ymA</p><p>demais linguagens.</p><p>“Canvast.js”, disponível em: < https://canvasjs.com >. Acesso em: 23 jan. 2019.</p><p>“Chart.js”, disponível em: < https://www.chartjs.org/ >. Acesso em: 23 jan. 2019.</p><p>“P5.js”, disponível em: < https://p5js.org/ >. Acesso em: 23 jan. 2019.</p><p>“Total.js”, disponível em: < https://www.totaljs.com/dashboard/ >. Acesso em: 23 jan. 2019.</p><p>3 - CRIANDO UM DASHBOARD DO ZERO</p><p>No decorrer deste livro, você absorveu bastantes conteúdos e esta última etapa tem como objetivo consolidar</p><p>tudo que foi visto até o momento. Lembre-se de que este é um livro didático e não um tutorial, por isso</p><p>deixamos alguns links para auxiliar na parte prática ao decorrer desta etapa. A figura a seguir mostra a</p><p>arquitetura de Kimball adaptada para o roteiro que iremos seguir aqui, em que a fonte provedora será um</p><p>banco de dados relacional (OLTP), a etapa de ETL será a transformação destes dados para o modelo</p><p>multidimensional, uma vez os dados sendo apresentados serão consumidos por uma ferramenta de acesso</p><p>aos dados (Dashboard com Power BI).</p><p>FIGURA 23 – ARQUITETURA DO EXEMPLO DE APLICAÇÃO DE BI</p><p>FONTE: O autor (2018)</p><p>Nossa fonte provedora será o tradicional banco de dados denominado Northwind, é uma base de dados</p><p>tradicional utilizada em diversos artigos, então facilitará sua jornada de conhecimento. O Northwind é uma</p><p>base de dados de exemplos, que se trata de uma empresa fictícia chamada "Northwind Traders". A base</p><p>armazena e captura todas</p><p>as transações de vendas que ocorrem entre a empresa, ou seja, os operadores da</p><p>Northwind e seus clientes, bem como as transações de compra entre a Northwind e seus fornecedores. O</p><p>modelo relacional que representa esse banco de dados é mostrado na figura a seguir e logo em seguida</p><p>alguns links com diversas opções de download.</p><p>FIGURA 24 – MODELO RELACIONAL (OLTP) DO NORTHWIND</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fcanvasjs.com%2F&sa=D&sntz=1&usg=AOvVaw1JgW6Lwm4H9UqL6D8fF23b</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.chartjs.org%2F&sa=D&sntz=1&usg=AOvVaw2T3Q_pKIt2gTDPTnuwOh8V</p><p>https://www.google.com/url?q=https%3A%2F%2Fp5js.org%2F&sa=D&sntz=1&usg=AOvVaw0vhXIUC7pKm-m0Px3igIx0</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.totaljs.com%2Fdashboard%2F&sa=D&sntz=1&usg=AOvVaw0D1vx88KUBPJiFFBkfqJrm</p><p>Northwind para PostgreSQL. Disponível em: < https://bit.ly/2DeVT0I >. Acesso em: 23 jan. 2019.</p><p>Northwind para Oracle. Disponível em: < https://bit.ly/2BTwtFa >. Acesso em: 23 jan. 2019.</p><p>Northwind para SQL Server. Disponível em: < https://bit.ly/31e3R2f >. Acesso em: 23 jan. 2019.</p><p>Northwind para MySQL. Disponível em: < https://github.com/dalers/mywind >. Acesso em: 23 jan. 2019.</p><p>Nosso roteiro de desenvolvimento não seguirá o fluxo descrito na arquitetura, afinal para desenvolver um</p><p>processo de ETL, primeiramente deve se ter um modelo multidimensional para conhecer quais são as</p><p>transformações necessárias. Para isso foi desenvolvido o modelo mostrado na figura a seguir, note que ele</p><p>segue o conceito de modelo estrela com uma tabela fato central com as ordens contento as métricas price e</p><p>quantity .</p><p>FIGURA 25 – MODELO MULTIDIMENSIONAL (OLAP) DO NORTHWIND</p><p>FONTE: Runtuwene (2018, p. 3)</p><p>Uma vez o modelo desenvolvido é a hora de colocá-lo em prática aplicando sua implementação em um</p><p>servidor OLAP. Para isto, iremos utilizar a implementação mais tradicional que é utilizando um servidor ROLAP</p><p>(Relational OLAP), que utiliza um sistema gerenciador de banco de dados relacional (SGBDR) para armazenar</p><p>um modelo multidimensional de dados. Durante a escrita do livro, utilizarei o PostgreSQL, este é um SGBD,</p><p>que é open source e tem diversos materiais disponíveis, o que auxiliará na sua curva de aprendizagem. O</p><p>PostgreSQL conta com diversos recursos para implementação de consultas OLAP e é considerado um dos</p><p>mais robustos do mercado.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2DeVT0I&sa=D&sntz=1&usg=AOvVaw0CP0rwNbBK0KfI2L0C0GSs</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2BTwtFa&sa=D&sntz=1&usg=AOvVaw3amDsPQo0fR8O0VmTIAOoF</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F31e3R2f&sa=D&sntz=1&usg=AOvVaw3RAZ2xEA0BYFgSRa3eomKF</p><p>https://www.google.com/url?q=https%3A%2F%2Fgithub.com%2Fdalers%2Fmywind&sa=D&sntz=1&usg=AOvVaw1yVUGX3mM-WgieJke3wd5c</p><p>Se você utilizou o Power Architect para a modelagem de dados, terá a opção de engenharia reversa. Com isto,</p><p>basta criar seu banco de dados dentro do SGBD e dentro do Power Architect na opção de engenharia reversa</p><p>selecionar o SGBD a própria ferramenta de modelagem irá criar seu banco de dados multidimensional a partir</p><p>do modelo desenvolvido.</p><p>Nosso objetivo aqui é compreender todas as etapas de um projeto de Data Warehouse até o fornecimento dos</p><p>dados em um Dashboard. Assim, você pode utilizar qualquer SGBD para realizar este processo.</p><p>“PostgreSQL todas as versões e sistemas operacionais”. Disponível em: <https://bit.ly/2F1SHq3>. Acesso em: 23</p><p>jan. 2019.</p><p>Agora que você tem em mãos um banco de dados operacional (OLTP) populado e um banco de dados</p><p>multidimensional (OLAP), resta criar o processo que interliga esses dois: extração, transformação e carga. Para</p><p>isto, você tem diversas opções, desde utilizar recursos do próprio SGBD, codificar em uma linguagem de</p><p>programação ou utilizar uma ferramenta própria, nós utilizaremos esta terceira opção. Em nossa seção sobre</p><p>ETL, você aprendeu um pouco sobre Pentaho Data Integration e será esta ferramenta utilizada aqui. O</p><p>Pentaho tem diversas opções, mas tudo se resume em três, input (fonte de dados – OLTP), output (origem dos</p><p>dados – OLAP) e transformações.</p><p>FIGURA 26 – EXEMPLO DE ETL UTILIZANDO PENTAHO DATA INTEGRATION</p><p>FONTE: O autor (2018)</p><p>Ao criar o servidor OLAP com o banco de dados multidimensional, este irá conter menos tabelas do que a</p><p>fonte de dados (OLTP). O recurso tradicional de TABLE para origem (input) e destino (output) pode não ser o</p><p>ideal. Assim é necessário utilizar o recurso de QUERY como input. O recurso QUERY permite realizar consultas</p><p>realizando junções das diversas tabelas na fonte OLTP e armazenando os dados nas tabelas do banco de</p><p>dados multidimensional (OLAP).</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>Para que você visualize melhor esse processo, nós recomendamos acompanhar um exemplo prático de</p><p>como é feito o processo de ETL no Pentaho. Neste link, você poderá acompanhar um curso com 22 aulas sobre</p><p>a ferramenta e é gratuito.</p><p>“Get to know Pentaho Kettle PDI – Introduction”. Disponível em: < https://bit.ly/3gqzJHf >. Acesso em: 23</p><p>jan. 2019.</p><p>Finalizada a etapa de ETL, significa que os dados já estão armazenados em um servidor OLAP e já estão aptos</p><p>a serem consumidos. Assim podemos ir para a última camada de um ambiente de Data Warehouse, que são</p><p>as ferramentas de Dashboard. Para desenvolver essa etapa com o que foi visto até aqui, você pode optar por</p><p>qualquer ferramenta das que vimos até o momento. Em nosso exemplo utilizaremos o Power BI.</p><p>Para conectar o seu servidor OLAP ao Power BI, você deve selecionar o SGBD (PostgreSQL) na opção obter</p><p>dados e configurar de acordo com os parâmetros de instalação. Visando otimizar o processo de análise foram</p><p>criados agregados (views materializadas) com objetivo de consolidar os objetos de análise. Os agregados são</p><p>como grandes tabelas (você pode imaginar como uma planilha unificando os campos), assim facilitando o</p><p>processo analítico, que não necessita fazer consultas em tempo real.</p><p>Uma vez que tenha chegado até aqui, você está pronto para explorar o cubo de dados, criar relatórios,</p><p>gráficos e principalmente fornecer poderosos dashboards para os gestores. Durante o capítulo anterior, nós</p><p>estudamos detalhadamente alguns elementos de um modelo de dados como campos e métricas. Para auxiliar</p><p>você nesta tarefa de Business Intelligence também é necessário compreender o conceito de indicadores e sua</p><p>relação com os demais.</p><p>Diferenças entre métricas e indicadores de desempenho no Business Intelligence</p><p>A todo momento, em projetos e discussões sobre o Business Intelligence (BI), ouvimos e falamos sobre</p><p>métricas e indicadores. São termos bastante utilizados e que são a base para quantificar os resultados e</p><p>conduzir a avaliação das análises da organização. Mas sabemos mesmo a diferença que existe entre cada um?</p><p>É importante essa distinção, pois nos auxilia na abstração e na correta apuração dos resultados</p><p>empresariais. Esses resultados podem ser apurados em diferentes perspectivas e níveis dentro da</p><p>organização.</p><p>As métricas são as medidas brutas, atômicas e de simples composição. Em uma estrutura de Data</p><p>Warehouse, são armazenados na tabela Fato e medem os descritivos armazenados nas Dimensões. Valores e</p><p>quantidades são exemplos de formatos das métricas.</p><p>Os indicadores de desempenho são medidas calculadas e são compostos pelas métricas. Estão um nível</p><p>acima das métricas, pois possuem uma visão mais ampla e direcionada da realidade observada. Além disso, os</p><p>indicadores avaliam a performance organizacional, auxiliam a análise de tendência, a melhoria contínua, a</p><p>atuação proativa e dão transparência à empresa. Normalmente são expressados por percentuais,</p><p>frequência,</p><p>probabilidade etc.</p><p>Exemplo de métrica :</p><p>Quantidade de itens X</p><p>Exemplo de indicador de desempenho :</p><p>Percentual de itens X vendidos em março de 2014.</p><p>No exemplo, a métrica é a medida bruta da quantidade de itens de um determinado produto. O que os</p><p>diferenciam é o posicionamento que cada uma possui na tomada de decisão na organização. As métricas</p><p>estão no nível operacional e o indicador no nível tático, ambos com o objetivo de atingir as metas</p><p>estabelecidas no plano estratégico.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3gqzJHf&sa=D&sntz=1&usg=AOvVaw3QqrXD-to62kHkvbp-fyq-</p><p>FIGURA 27 – PIRÂMIDE VALORES EM BUSINESS INTELLIGENCE</p><p>Acima temos a pirâmide que contém a exata localização e posicionamento dos termos. No nível operacional</p><p>(base) estão as métricas. Esse nível requer a medida em sua composição simples, pois dessa forma será</p><p>melhor utilizada para as decisões operacionais.</p><p>Já no nível tático (intermediário) as medidas precisam de uma maior abstração para a melhor indicação e</p><p>direcionamento a ser tomado pelo gestor. E, por fim, no nível estratégico (topo) é importante a consolidação</p><p>das métricas e indicadores para a visualização das metas, verificando se elas estão sendo cumpridas e</p><p>alcançadas, portanto, é necessária a percepção das variadas formas que a informação pode ser oferecida aos</p><p>diferentes níveis da organização, em que cada uma possui sua respectiva importância e utilidade. Dessa</p><p>forma, é possível que a gestão do conhecimento tenha efetividade e contribua diretamente nos resultados</p><p>empresariais.</p><p>FONTE: Diferenças entre métricas e indicadores de desempenho no business intelligence. Disponível em:</p><p>< https://bit.ly/2DiDMqB >. Acesso em: 23 jan. 2019.</p><p>Nesse momento é muito importante que todas as etapas anteriores tenham funcionado conforme o</p><p>planejado. Mas caso você tenha tido alguma dificuldade ou até mesmo tenha realizado apenas a leitura sem</p><p>construir o modelo multidimensional em si, eu vou dar uma dica para que consiga acompanhar esta que é a</p><p>parte final e mais importante da nossa jornada.</p><p>A Microsoft disponibiliza o Northwind on-line como fonte de dados, para isso você deve ir até obter dados,</p><p>selecionar a opção “Feed OData” e inserir a seguinte url < https://bit.ly/30okHvP >. Feito isso, conseguirá</p><p>acompanhar na prática os próximos pontos de estudo.</p><p>Uma vez estando com os dados obtidos é a hora de colocar a mão na massa. Vale lembrar que um dashboard</p><p>é composto de diversos gráficos, tais gráficos são denominados visualizações. A parte inicial é a seleção dos</p><p>campos e das métricas que serão utilizadas, para isso é utilizado a aba CAMPO.</p><p>Ao adicionar uma visualização do tipo MAPA, você terá de definir alguns campos ao mantê-lo selecionado. Por</p><p>exemplo:</p><p>Localização: Country</p><p>Legenda: Subtotal</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2DiDMqB&sa=D&sntz=1&usg=AOvVaw23K5iP1-1WBbZSqxn_bg3o</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F30okHvP&sa=D&sntz=1&usg=AOvVaw1P2T1TjHpsf5fRVxg9Hyh2</p><p>Para gerar um gráfico que consolida as categorias que mais vendem, foi inserido um gráfico de rosca. Como</p><p>parâmetros foram utilizados:</p><p>Legenda: Category</p><p>Valores: TotalSale</p><p>A figura mostra o dashboard criado com os exemplos citados acima e mais alguns inseridos. Você irá notar</p><p>que o Power BI é bem intuitivo no que se refere à criação de gráficos, conforme vai inserindo. Durante a</p><p>criação dos gráficos foi considerado o campo Date em todos, complementar aos gráficos foi inserido uma</p><p>visualização denominada FILTRO contendo a Data. Com isto, ao alterar a data no FILTRO todos os gráficos são</p><p>alterados de maneira dinâmica.</p><p>FIGURA 28 – DESENVOLVIMENTO DE DASHBOARD INTERATIVOS COM POWER BI</p><p>FONTE: O autor (2018)</p><p>No início deste capítulo, você aprendeu o conceito de KPI ( Key Performance Indicator – Indicador Chave de</p><p>Desempenho). Dentro do Power BI esse é um termo muito comum, inclusive tem um próprio gráfico para isso.</p><p>Ao inserir um KPI, temos que definir três itens: indicador (o indicador em si), eixo da tendência (geralmente é</p><p>um fator analítico pelo qual o indicador será avaliado, geralmente é um campo de tempo) e metas de destino.</p><p>Dependendo do valor da meta um gráfico de KPI irá se comportar de uma maneira, se for atingido, ficará</p><p>verde e se estiver abaixo dela, vermelho, indicando quanto (em %) está em relação à meta estabelecida,</p><p>podendo a configuração de cores ser alterada de acordo com a preferência do usuário.</p><p>FIGURA 29 – GERAÇÃO DE KPI NO POWER BI</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>F ONTE: O autor (2018)</p><p>Outro gráfico que segue a mesma linha do KPI é o indicador do velocímetro, este é um indicador muito</p><p>interessante para acompanhar se você está perto ou longe de uma meta estabelecida. Com esse gráfico, você</p><p>pode indicar um indicador e uma meta, uma vez isso sendo realizado, o gráfico irá mostrar a quanto tempo</p><p>está de ser alcançado. Uma vez adicionado um filtro complementado ao gráfico (nesse caso colocamos data),</p><p>você terá um gráfico interativo que irá mostrar a evolução do indicador em relação à meta, sendo analisado</p><p>pela perspectiva de tempo.</p><p>FIGURA 30 – GERAÇÃO DE KPI COM VELOCÍMETRO NO POWER BI</p><p>FONTE: O autor (2018)</p><p>Nós falamos muito sobre nuvem e dashboards na Web, sendo muito importante a disponibilização de seus</p><p>dashboards. A Web é uma alternativa interessante, pois através dela os gestores podem acessar os</p><p>dashboards criados através de qualquer dispositivo.</p><p>No caso do Power BI, quando você tiver finalizado o seu relatório, poderá utilizar a opção “Publicar”. Uma vez</p><p>publicado, o dashboard criado estará disponível em um ambiente on-line disponibilizado pela própria</p><p>plataforma. A ferramenta disponibiliza recursos visando criar relatórios específicos para dispositivos móveis.</p><p>Ao criar esse tipo de relatório, é interessante pensar em elementos dinâmicos. A inserção de filtros associados</p><p>aos gráficos tornará o seu dashboard dinâmico e permitirá que o próprio gestor realize suas análises por</p><p>diversas perspectivas.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/unidade-3#h.139ozjnu944i</p><p>FIGURA 31 – DASHBOARD PUBLICADO NA NUVEM UTILIZANDO POWER BI</p><p>É muito importante saber que a partir do momento que você clicar em Publicar, o gestor irá visualizar os</p><p>dados daquela maneira. Caso seja realizada uma nova carga no banco de dados multidimensional, esta será</p><p>desconsiderada até uma nova publicação.</p><p>Por uma questão da ferramenta, o seu dashboard ainda não é um painel, ele se chama RELATÓRIO. Só</p><p>serão considerados PAINÉIS após clicar no ícone de fixar. A partir deste momento você irá encontrá-lo na aba</p><p>RELATÓRIO no link que foi gerado após a publicação do relatório.</p><p>Uma vez estabelecida uma meta, o seu gestor nem sempre ficará de hora em hora conferindo se foram</p><p>atingidas. Por isso se torna interessante o recurso de alerta, para notificá-lo quando isso aconteceu, ou se</p><p>houve alguma anomalia.</p><p>No caso do Power BI, os alertas podem ser gerenciados pelo link on-line, onde o Dashboard fica hospedado</p><p>após a publicação. Selecionando a aba Dashboard, existe o recurso de alerta válido apenas para os gráficos</p><p>que envolvem indicadores. O alerta é composto de parâmetros e quando os valores setados forem atingidos,</p><p>o gestor receberá um e-mail notificando com um link para abrir o relatório.</p><p>FIGURA 32 – UTILIZANDO A NUVEM DO POWER BI PARA CRIAR ALERTAS</p><p>CONSIDERAÇÕES FINAIS</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>de produção passa se tornar em</p><p>tempo real.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>FIGURA 3 – EMPRESA CONECTADA E DADOS INTEGRADOS</p><p>FONTE: <https://bit.ly/3iw5WwX>. Acesso em: 25 out. 2018.</p><p>E ainda não para por aqui, afinal até o momento, estes dados tratam apenas da própria corporação, quando</p><p>empregado o conceito de inteligência competitiva, que é uma estratégia de se obter informações relevantes</p><p>sobre o comportamento da concorrência, o volume de dados coletados é ainda maior. A competitividade, a</p><p>informatização e a necessidade de diferencial competitivo fizeram com que as organizações percebessem a</p><p>importância do conhecimento e de sua gestão (LACKMAN; SABAN; LANASA, 2000).</p><p>Agora imagine todos estes dados consolidados, integrados e aptos a serem explorados por diversas</p><p>perspectivas, com isto em mãos, os gestores de uma empresa podem tomar os mais diversos tipos de</p><p>decisões gerenciais. Decisões sobre venda, compra, realocação de produtos, alteração no fluxo gerencial e</p><p>uma infinitude delas.</p><p>Assim, obter-se métodos eficazes para coletar, pré-processar dados de diversas fontes e armazená-los em</p><p>uma única estrutura é de extrema importância para a organização. Uma vez estes dados coletados e</p><p>armazenados podem gerar informação e conhecimento que poderão ser utilizados como suporte à tomada de</p><p>decisão. Mas afinal, qual é a diferença entre dados, informação e conhecimento?</p><p>Conhecendo os tipos de dados</p><p>Você viu até o momento que falamos sobre diversos tipos de dados, sua estrutura e forma de</p><p>armazenamento. Você conhece os tipos de dados que citamos? Sabe o que eles têm em comum e diferente?</p><p>Utilizando como exemplo um cenário de dados onde se deseja armazenar dados sobre produto e estoque,</p><p>veremos alguns exemplos de tipos de dados.</p><p>Relacional</p><p>Esta representação em forma de tabelas é um tipo de dado estruturado, no qual você inicialmente precisa</p><p>definir a estrutura e depois armazenar os dados. Confira a seguir a representação gráfica dos quadros em um</p><p>SGBDr e também o código que representa sua criação em um banco de dados físico.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>QUADRO 1 – MODELO RELACIONAL E COMANDO SQL RELATIVO</p><p>JSON</p><p>JSON, em seu significado teórico é "Javascript Object Notation", que nada mais é que o formato mais leve</p><p>conhecido de transferência/intercâmbio de dados. Além de ser um formato de dados são utilizados por</p><p>diversos bancos de dados NoSQL. A mesma representação do modelo relacional é vista no quadro abaixo</p><p>utilizando JSON.</p><p>QUADRO 2 – EXEMPLO JSON</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>[</p><p>{</p><p>"id_produto":1,</p><p>"descricao":"Jaleco",</p><p>"preco":"3.50",</p><p>“estoque”:30</p><p>}</p><p>]</p><p>CSV</p><p>O termo “CSV” tem como significado Comma Separated Values , ou seja, é um arquivo separado por vírgula (ou</p><p>ponto e vírgula). Assim como o JSON é um formato de arquivo para realizar o intercâmbio de dados com um</p><p>banco de dados ou uma planilha entre aplicativos.</p><p>id_produto, descricao, preco,</p><p>estoque</p><p>1,Jaleco, 3.50,30</p><p>2,Chapéu, 13.50,100</p><p>3,Calça , 33.50,130</p><p>XML</p><p>O XML é uma linguagem de marcação muito similar ao HTML, vem do inglês eXtensible Markup Language , é</p><p>recomendada pela W3C para a criação de documentos com dados organizados hierarquicamente.</p><p>Tradicionalmente, os sistemas utilizam XML para realizar integração de dados, dentre muitos, o mais famoso é</p><p>o sistema da receita federal.</p><p>QUADRO 3 - EXEMPLO DE XML</p><p><?xml version="1.0"></p><p><produtos></p><p><produto id=1></p><p><descricao>Jaleco</descricao></p><p><preco>Jaleco</preco></p><p><quantidade>Jaleco</quantidad</p><p>e></p><p></produto></p><p><produtos></p><p>Dados, informação e conhecimento</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>De fato, os dados são de extrema importância para a tomada de decisão estratégica. Mas afinal, apenas ter os</p><p>dados já implica conhecimento e informação. E estes termos são termos muito próximos o que faz com que</p><p>em muitos momentos sejam confundidos com apenas um. A figura a seguir ilustra o que cada um representa.</p><p>FIGURA 4 – DADOS, INFORMAÇÃO E CONHECIMENTO</p><p>Dados: são fatos e números que transmitem algo específico, mas que não são organizados de maneira</p><p>formal. Assim não têm contexto, de modo geral, pode-se dizer que dados são a informação de uma</p><p>maneira bruta. Na definição de Setzer (1999), um dado é necessariamente uma entidade matemática e,</p><p>desta forma, é puramente sintático. Isto significa que os dados podem ser totalmente descritos através de</p><p>representações formais, estruturais. São ainda quantificados ou quantificáveis, eles podem obviamente ser</p><p>armazenados em um computador e processados por ele. Dentro de um computador, trechos de um texto</p><p>podem ser ligados virtualmente a outros trechos, por meio de contiguidade física ou por "ponteiros", isto é,</p><p>endereços da unidade de armazenamento sendo utilizados, formando assim estruturas de dados.</p><p>Ponteiros podem fazer a ligação de um ponto de um texto a uma representação quantificada de uma</p><p>figura, de um som, entre outros.</p><p>Informação: para que os dados se tornem informações, eles devem ser contextualizados, categorizados,</p><p>calculados e condensados, deste modo a informação são os dados organizados. De um modo geral, pode-</p><p>se dizer que a informação é quando se traz um sentido ao dado. Na visão de Angeloni (2003), as</p><p>informações são apresentadas de acordo com dados, trazendo a eles um significado. As informações então</p><p>são dados dotados de relevância e propósito. A informação nasce a partir resultado do encontro de uma</p><p>situação de decisão com um conjunto de dados, ou seja, são dados contextualizados que visam a fornecer</p><p>uma solução para determinada situação de decisão. Uma informação pode ser considerada como dados</p><p>processados e contextualizados, no entanto, há autores que defendem que a informação é considerada</p><p>como desprovida de significado e de pouco valor, sendo ela matéria-prima para se obter conhecimento.</p><p>Conhecimento: acontece sobre os dados e as informações, é obter discernimento, critério, apreciação</p><p>prática de vida e experiência. O conhecimento possuído por cada indivíduo é um produto de sua</p><p>experiência e engloba as normas pelas quais ele avalia novos insumos de seu entorno. Para Davenport</p><p>(2000), o conhecimento é a informação mais valiosa e, consequentemente, mais difícil de gerenciar. É</p><p>valiosa precisamente porque alguém deu a informação a um contexto, um significado, uma interpretação;</p><p>alguém refletiu sobre o conhecimento, acrescentou a ele sua própria sabedoria e considerou suas</p><p>implicações mais amplas.</p><p>2 - A HISTÓRIA E AS ESTRATÉGIAS DE ANÁLISE DE DADOS</p><p>Apesar de vivermos na era da informação, a história dos dados como ferramenta de suporte à tomada de</p><p>decisões se deu no início na década de 1940, na Universidade de Illinois, com o trabalho intitulado A Logical</p><p>Calculus of the Ideas Immanent in Nervous Activity (Um cálculo lógico das ideias imanentes na atividade nervosa),</p><p>desenvolvido por McCulloch e Walter Pitts. Na ocasião estabeleceram uma analogia entre o processo de</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>comunicação das células nervosas vivas e o processo de comunicação por transmissão elétrica e propuseram</p><p>a criação de neurônios formais. Ao final da pesquisa, conseguiram demonstrar que era possível conectar os</p><p>neurônios formais e formar uma rede capaz de executar funções complexas. As pesquisas sobre redes neurais</p><p>evoluíram até 1960, com a Rede Perceptron, criada por Frank Rosenblat, no entanto, baseado, principalmente,</p><p>pelos argumentos dados por Mavin Minsky em seu livro Perceptron, no qual de maneira simples criticou por</p><p>não haver poder computacional suficiente</p><p>https://getfireshot.com</p><p>Prezado acadêmico!</p><p>Esperamos que tenha emergido nesta jornada de conhecimento sobre o universo dos dados, desde nosso</p><p>primeiro parágrafo estamos falando sobre o impacto dos dados na vida das organizações e da sociedade.</p><p>No decorrer de nosso livro, você foi contextualizado sobre o que há de novo. Queremos que reflita sobre esses</p><p>momentos e nunca pare de ler e de se atualizar. Afinal, a área que estudamos está entre os principais eixos da</p><p>tecnologia no futuro. Todo dia haverá algo novo para aprender.</p><p>A partir de agora, você é capaz de analisar cenários de dados e selecionar as melhores ferramentas para</p><p>coleta, armazenamento e análise. Com o conhecimento obtido sobre Data Warehouse, você se tornará um</p><p>profissional robusto e muito procurado pelo mercado de trabalho.</p><p>Sabendo desenvolver dashboards e extraindo inteligência de negócio, estará pronto para auxiliar empresas e</p><p>gestores a tomarem as melhores decisões possíveis</p><p>Com um desejo de um excelente sucesso profissional, nossos mais cordiais cumprimentos.</p><p>Professor Rodrigo Nogueira</p><p>Encerramento da Disciplina</p><p>Foi muito bom contar com sua companhia durante nossa jornada do conhecimento. Agora, para</p><p>recordar o conteúdo desta disciplina, escute este podcast.</p><p>Disponível aqui</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fon.soundcloud.com%2FxGcdJ&sa=D&sntz=1&usg=AOvVaw3VtsRjk6vmbo-Ot2S74JIO</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/agora-%C3%A9-com-voc%C3%AA</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>AGORA É COM VOCÊ</p><p>Avançar</p><p>Agora que você já está contextualizado com o cenário dos dados, responda: Onde você gera dados no seu dia a dia?</p><p>Uma vez compreendidos os mais diversos cenários de dados, conceitue a diferença entre dados estruturados,</p><p>semiestruturados e não estruturados.</p><p>Qual é a diferença entre dado, informação e conhecimento?</p><p>Quem foram os principais nomes da história dos dados e quais as contribuições deles?</p><p>O que é um Data Warehouse e Data Warehousing?</p><p>Quais são as expectativas para o futuro dos estudos que envolvem Data Warehouse no futuro?</p><p>Qual é a diferença entre o modelo relacional e o modelo multidimensional?</p><p>O que é ETL? Por que o processo de extração, transformação e carga é tão importante para o processo de Data Warehousing?</p><p>O que é um cubo de dados?</p><p>Qual é a principal diferença entre OLAP e OLTP?</p><p>Orientação de resposta</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/agora-�-com-voc�</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/refer%C3%AAncias</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>REFERÊNCIAS</p><p>CANAL TECH. Diferenças entre métricas e indicadores de desempenho no business intelligence. 2014. Disponível em:</p><p>https://canaltech.com.br/business-intelligence/diferencas-entre-metricas-e-indicadores-de-desempenho-no-business-</p><p>intelligence-21110/ . Acesso em: 25 nov. 2018.</p><p>CIÊNCIA E DADOS. Power BI ou tableau? Disponível em: https://www.cienciaedados.com/power-bi-ou-tableau/ . Acesso em: 6</p><p>dez. 2018.</p><p>EBAY. A creative visualization of olap cuboids. 2017. Disponível em: https://tech.ebayinc.com/engineering/a-creative-</p><p>visualization-of-olap-cuboids/ . Acesso em: 1 dez. 2018.</p><p>FERREIRA, JORGE LUIZ. Pentaho BI – Conhecendo a Plataforma, Arquitetura e Infraestrutura. Disponível em:</p><p>https://www.devmedia.com.br/pentaho-bi-conhecendo-a-plataforma-arquitetura-e-infraestrutura/31502 . Acesso em: 8 dez.</p><p>2018.</p><p>FIVE ACTS. Tableau software: como funciona e quais são os benefícios?. 2016. Disponível em: https://www.fiveacts.com.br</p><p>/tableau-software-como-funciona-e-quais-sao-os-beneficios/ . Acesso em: 1 dez. 2018.</p><p>HAN, Jiawei; PEI, Jian; KAMBER, Micheline. Data mining: concepts and techniques. Elsevier, 2011.</p><p>INMON, William H. Building the data warehouse. John Wiley & sons, 2005.</p><p>KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons,</p><p>2011.</p><p>OLIVEIRA, Adriana Silva de. Sistemas de informações gerenciais em indústrias multinacionais: um estudo de caso da</p><p>implementação global do ERP e BI. São Paulo: USP, 2011. Disponível em: https://teses.usp.br/teses/ . Acesso em: 1 nov. 2018.</p><p>PENTAHO BI. Conhecendo a plataforma, arquitetura e infraestrutura. Disponível em: https://www.devmedia.com.br/pentaho-bi-</p><p>conhecendo-a-plataforma-arquitetura-e-infraestrutura/31502 . Acesso em: 6 dez. 2018.</p><p>RUNTUWENE, J. P. A. et al. A comparative analysis of extract, transformation and loading (ETL) process. In: IOP Conference Series:</p><p>Materials Science and Engineering. IOP Publishing, 2018. p. 012066. SINGH, Harry;</p><p>SINGH, Harry S. Data warehousing: concepts, technologies, implementations, and management. New Jersey: Prentice Hall PTR,</p><p>1998.</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/refer�ncias</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://www.google.com/url?q=https%3A%2F%2Fcanaltech.com.br%2Fbusiness-intelligence%2Fdiferencas-entre-metricas-e-indicadores-de-desempenho-no-business-intelligence-21110%2F&sa=D&sntz=1&usg=AOvVaw3Ts5f5r1dKBBX9iF2YuaTZ</p><p>https://www.google.com/url?q=https%3A%2F%2Fcanaltech.com.br%2Fbusiness-intelligence%2Fdiferencas-entre-metricas-e-indicadores-de-desempenho-no-business-intelligence-21110%2F&sa=D&sntz=1&usg=AOvVaw3Ts5f5r1dKBBX9iF2YuaTZ</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.cienciaedados.com%2Fpower-bi-ou-tableau%2F&sa=D&sntz=1&usg=AOvVaw3ybiFCjzEZTWXuRuqOqMiO</p><p>https://www.google.com/url?q=https%3A%2F%2Ftech.ebayinc.com%2Fengineering%2Fa-creative-visualization-of-olap-cuboids%2F&sa=D&sntz=1&usg=AOvVaw2_YRxS1TKazFJCPJ3cntnx</p><p>https://www.google.com/url?q=https%3A%2F%2Ftech.ebayinc.com%2Fengineering%2Fa-creative-visualization-of-olap-cuboids%2F&sa=D&sntz=1&usg=AOvVaw2_YRxS1TKazFJCPJ3cntnx</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.devmedia.com.br%2Fpentaho-bi-conhecendo-a-plataforma-arquitetura-e-infraestrutura%2F31502&sa=D&sntz=1&usg=AOvVaw2UbHzU587YmV2x3qdPb9lp</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.fiveacts.com.br%2Ftableau-software-como-funciona-e-quais-sao-os-beneficios%2F&sa=D&sntz=1&usg=AOvVaw1A8_IeNLaWcWbXRnEP8ufZ</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.fiveacts.com.br%2Ftableau-software-como-funciona-e-quais-sao-os-beneficios%2F&sa=D&sntz=1&usg=AOvVaw1A8_IeNLaWcWbXRnEP8ufZ</p><p>https://www.google.com/url?q=https%3A%2F%2Fteses.usp.br%2Fteses%2F&sa=D&sntz=1&usg=AOvVaw2jxR8OYGMMzwAD7AWPbYhy</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.devmedia.com.br%2Fpentaho-bi-conhecendo-a-plataforma-arquitetura-e-infraestrutura%2F31502&sa=D&sntz=1&usg=AOvVaw2UbHzU587YmV2x3qdPb9lp</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.devmedia.com.br%2Fpentaho-bi-conhecendo-a-plataforma-arquitetura-e-infraestrutura%2F31502&sa=D&sntz=1&usg=AOvVaw2UbHzU587YmV2x3qdPb9lp</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/editorial</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>EDITORIAL</p><p>DIREÇÃO UNICESUMAR</p><p>Reitor Wilson de Matos Silva</p><p>Vice-Reitor Wilson de Matos Silva Filho</p><p>Pró-Reitor de Administração Wilson de Matos Silva Filho</p><p>Pró-Reitor Executivo de EAD William Victor Kendrick de Matos Silva</p><p>Pró-Reitor de Ensino de EAD Janes Fidélis</p><p>Tomelin</p><p>Presidente da Mantenedora Cláudio Ferdinandi</p><p>C397 CENTRO UNIVERSITÁRIO DE MARINGÁ . Núcleo de Educação a Distância;</p><p>ANÁLISE DE DADOS USANDO DASHBOARDS</p><p>Rodrigo Ramos Nogueira; Luiz Claudio Perini.</p><p>Maringá-Pr.: UniCesumar, 2021.</p><p>“Pós-graduação Universo - EaD”.</p><p>1. Tecnologia. 2. Dashboard. 3. Interdisciplinaridade.</p><p>4. EaD. I. Título.</p><p>CDD - 22 ed. 372</p><p>CIP - NBR 12899 - AACR/2</p><p>Pró Reitoria de Ensino EAD Unicesumar</p><p>Head de pós-graduação Victor V. Biazon</p><p>Diretoria de Design Educacional</p><p>Equipe Recursos Educacionais Digitais</p><p>Fotos : Shutterstock</p><p>NEAD - Núcleo de Educação a Distância</p><p>Av. Guedner, 1610, Bloco 4 - Jardim Aclimação - Cep 87050-900</p><p>Maringá - Paraná | unicesumar.edu.br | 0800 600 6360</p><p>Retornar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/editorial</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>naquela época.</p><p>Tratando-se de dados, em junho de 1970, o pesquisador Edgar Frank Ted Codd IBM mudou a história dos</p><p>bancos de dados apresentando o modelo relacional no artigo intitulado "A Relational Model of Data for Large</p><p>Shared Data Banks ", em que discutiu uma proposta de armazenamento de dados, que seriam armazenados</p><p>em tabelas que devem estar relacionadas. A figura a seguir mostra um exemplo de como esta estratégia</p><p>funciona, e funciona tão bem que é utilizada amplamente nos mais diversos sistemas comerciais, desde frente</p><p>de caixa, bancários, ERPs, entre outros.</p><p>FIGURA 5 – MODELO RELACIONAL</p><p>FONTE: <https://bit.ly/3izy1nc>. Acesso em: 10 dez. 2018.</p><p>Na mesma década, Bill Inmon começou a discutir os principais fatores em torno do Data Warehouse e o termo</p><p>já começou a existir nos anos 1970. Inmon trabalhou extensivamente na aprimoração de suas experiências em</p><p>todas as formas de modelagem de dados relacionais. O trabalho de Inmon, como pioneiro do Data</p><p>Warehousing, foi o livro intitulado “ Building the Data Warehouse ” um dos principais livros sobre tecnologia e</p><p>bibliografia obrigatória para todo profissional de análise de dados. É impossível falar da história dos dados e</p><p>não falar de Ralph Kimball, que com sua publicação “ The Data Warehouse Toolkit ”, divide com Inmon a</p><p>paternidade dos conceitos sobre o que é um Data Warehouse, mais sobre as arquiteturas e propostas das</p><p>duas personalidades será discutido no Capítulo 2.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>FIGURA 6 – RALPH KIMBALL E BILL INMON</p><p>FONTE: O autor (2018)</p><p>Em 1996, Usama Fayad publicou o artigo “ From Data Mining to Knowledge Discovery in Databases ”, que aborda</p><p>justamente como extrair conhecimento de bases de dados, como a partir de um conjunto de dados enxergar</p><p>além do que as ferramentas tradicionais permitem visualizar. Este artigo é um dos principais da literatura atual</p><p>por além de fazer uma revisão sobre os principais métodos de extração de conhecimento, ainda descreve as</p><p>principais etapas de KDD ( Knowledge Discovery in Databases ), que são mostradas pela figura a seguir e serão</p><p>discutidas em mais nível de detalhes no Capítulo 3.</p><p>FIGURA 7 – ETAPAS DE EXTRAÇÃO DO CONHECIMENTO</p><p>FONTE: Fayad (1996)</p><p>Com a arquitetura proposta por Fayad, com o banco de dados de Cood e a proposta de um modelo</p><p>multidimensional de Inmon, o mundo digital passou por severas mudanças, principalmente com a Web 2.0 e a</p><p>geração de dados em grande escala. No entanto, tais tecnologias jamais deixaram de ser utilizadas e mesmo</p><p>as mais novas técnicas de análise de dados levam sua essência. Em 2018 são diversas novas terminologias e</p><p>tendo como objetivo facilitar o seu entendimento.</p><p>Big Data</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Big Data é um termo que tem como tradução literal mais próxima “grandes quantidades de dados” e é</p><p>também o termo instituído pela IBM para determinar a grande quantidade de dados gerados pelos sistemas</p><p>de informação. Hoje em dia Big Data representa muito mais do que isso, representa uma verdadeira</p><p>transformação digital, em que quanto mais dados uma empresa puder coletar, mais poder de tomada de</p><p>decisão poderá obter.</p><p>Em sua principal definição, Big Data é conhecido como um cenário que contém a soma de volume, velocidade</p><p>e variedade, que, quando juntos, geram um valor de informação com veracidade. O volume é o coração, afinal</p><p>para se obter um cenário de Big Data é necessário ter um grande volume de dados, a velocidade se remete à</p><p>informação chegar ao tempo mais rápido nas mãos do tomador de decisão e a variedade está relacionada</p><p>tanto aos dispositivos que coletam dados (sistemas de informação, GPS, câmeras de vídeo, dispositivos IoT,</p><p>entre outros), quanto à estrutura de tais dados (estruturados, semiestruturados e não estruturados).</p><p>Há uma grande dificuldade na definição de quão grande deve ser um conjunto de dados para que seja</p><p>considerado um volume de dados em Big Data. A primeira coisa a ser levada em consideração é a própria</p><p>integração de existir volume, velocidade e variedade, bem como a definição dada por Edd Dumbill (DUMBILL,</p><p>2012), que afirma que Big Data são dados que excedem a capacidade de processamento dos sistemas de</p><p>banco de dados convencionais, em que o volume de dados é muito elevado e necessitam de processamento</p><p>rápido, o que não é provido pelas arquiteturas de bancos de dados tradicionais e para ganhar valor a partir</p><p>desses dados, é necessário escolher uma forma alternativa para processá-los.</p><p>Data mining</p><p>A mineração de dados (data mining) é uma operação que leva o seu nome a sério, neste caso, a mina não é de</p><p>ouro, mas de dados. É um processo de lapidar dados brutos e extrair conhecimento a partir deles. Este</p><p>processo pode operar diretamente em fontes de dados brutas sob a qual deverá realizar uma severa etapa de</p><p>pré-processamento de dados, no entanto, é recomendado que seja realizado a partir de uma fonte de dados</p><p>já integrada e limpa, como, por exemplo um Data Warehouse.</p><p>SGBD</p><p>Anteriormente falamos sobre Edgar Frank Codd e sua importante contribuição para a comunidade digital, com</p><p>o desenvolvimento do modelo relacional de armazenamento. Tratar de SGBD é tratar de sistemas que</p><p>gerenciam o armazenamento de tais dados.</p><p>Sistemas Gerenciadores de Bancos de Dados, ou Sistemas Gerenciadores de Bancos de Dados Relacionais são,</p><p>de maneira simples, um software que é responsável por gerenciar o acesso aos dados. O SGBD é responsável</p><p>por fazer a interface entre os dados com aplicações e usuários, encapsulando-os, garantindo sua segurança e</p><p>integridade.</p><p>Os SGBDs têm como característica o relacionamento entre tabelas, que implementam os modelos relacionais.</p><p>Dentre os principais SGBDs do mercado, destacam-se o SQL Server e Oracle entre os pagos, já entre os livres</p><p>existe o MySQL e o PostgreSQL.</p><p>Toda vez que você utiliza um software aplicativo, um sistema de informação, os dados estão sendo</p><p>armazenados por um SGBD.</p><p>Data Warehouse</p><p>Data Warehouses tem como tradução literal “Armazém de dados” e segue sua função que é armazenar dados.</p><p>No entanto, você deve se perguntar, qual é a diferença entre ele e um banco de dados? Ainda que um Data</p><p>Warehouse possa utilizar um banco de dados relacional, o objetivo deste armazém é armazenar dados para se</p><p>realizarem consultas.</p><p>De uma maneira simples, são bancos de dados analíticos, projetados para armazenar os dados de fontes</p><p>diversas, já transformados e preparados para serem explorados por aplicações de tomada de decisão. Os Data</p><p>Warehouses também podem ser compreendidos como centralizadores de dados, uma vez que são alimentados</p><p>por diversas fontes de dados. Pense em uma organização que utilize um software de gestão comercial, gestão</p><p>financeira e complementarmente utilize as redes sociais. Em um Data Warehouse é possível concentrar todos</p><p>esses dados, integrando-os e permitindo que sejam as mais diversas análises. Inclusive para aplicações de</p><p>mineração de dados e construção de Dashboards.</p><p>Neste momento não se assuste! O próximo capítulo é dedicado para Data Warehouse e o Capítulo 3 para</p><p>Dashboards.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>NoSQL</p><p>Em cenários de dados, um componente relativamente atual são os bancos de dados NOSQL ( Not Only SQL –</p><p>Não apenas SQL), que surgiram nos anos 2000, a partir da ascensão de grandes empresas da Internet como</p><p>Amazon e Google, que cada vez mais produziam dados gradativamente, tendo a necessidade de escalabilidade</p><p>em escrita e principalmente leitura de dados após o aumento de tecnologias voltadas à nuvem.</p><p>De modo geral, a principal vantagem do emprego de bancos de dados NOSQL é a utilização do</p><p>particionamento dos dados horizontal, ao contrário dos bancos relacionais, que os fazem verticalmente, isto</p><p>significa que em bancos NOSQL, os dados podem ser distribuídos de maneira independente sem que seja</p><p>necessário enviar todo um conjunto para um determinado nó ou disco. Através do modo com o qual os dados</p><p>são armazenados em NOSQL, é possível que os dados sejam particionados e distribuídos de forma mais ágil</p><p>do que os tradicionais bancos relacionais, esta diferença fica visível através da figura a seguir.</p><p>FIGURA 8 – DISTRIBUIÇÃO DE DADOS RELACIONAL X NOSQL</p><p>FONTE: O autor (2018)</p><p>Neste momento, você pode estar um pouco assustado com tanta terminologia e coisa nova. No entanto,</p><p>gostaríamos de tirar alguns minutos para falar sobre carreira. Afinal, dominar tanta tecnologia deve ter algum</p><p>benefício, não é mesmo?</p><p>As profissões e os dados</p><p>As profissões ligadas à tecnologia mudaram a última década, desde novas profissões criadas, até mesmo a</p><p>alterações na maneira com que esses profissionais atuam (horários flexíveis, home office, entre outros). O fato</p><p>é que os profissionais de tecnologia irão continuar em alta e dominando o mercado de trabalho nos próximos</p><p>anos, porém é estar consciente que são diversas áreas e que estão em constante mutação. Ao contrário do</p><p>que se previa, os avanços trazidos pela informática e a automação têm ampliado a oferta de vagas de</p><p>emprego nos mais diversos ramos. Por sinal, especialistas apontam que há muitas profissões ainda</p><p>desconhecidas, que vão surgir nesta ou nas décadas seguintes, por conta das demandas e inovações a serem</p><p>experimentadas pela sociedade. Mas há cargos que já estão sendo oferecidos e procurados pelas empresas. A</p><p>seguir veremos algumas das principais carreiras das tecnologias em ascensão, que estão diretamente ligadas</p><p>à análise de dados, mas é importante destacar que em algumas empresas alguns destes cargos estão</p><p>agrupados e em outras desmembrados em outras profissões e níveis de carreira (Trainne, Júnior, Sênior,</p><p>Pleno). Por isso, o profissional deve se preparar, investir na sua formação e estar atento às oportunidades.</p><p>Cientista de dados</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/unidade-1#h.3d7j0qci1j0i</p><p>Quando se fala de geração de dados em larga escala, Big Data, Data Mining, este será o profissional</p><p>responsável por extrair conhecimento desses dados. É o profissional que alia conhecimentos de software, a</p><p>gestão comercial, estatística e matemática para encontrar soluções para entender o que interessa e pode ser</p><p>útil para os negócios dentro do imenso volume de informações que circula na internet. Este tipo de</p><p>profissional está apto a atuar em empresas de vários setores, onde muitas vezes um outro pré-requisito pode</p><p>ser o domínio sobre o segmento de atuação da empresa. No setor de ciência de dados os salários estão entre</p><p>R$ 9 mil e R$ 15 mil, além de ter uma grande procura mundial por este profissional, a escassez leva a grandes</p><p>empresas investirem até mesmo na criação de robôs para codificarem.</p><p>FONTE: < https://bit.ly/2EDaV0v >. Acesso em: 1 nov. 2018.</p><p>Administrador de banco de dados</p><p>Tendo como nome mais famoso DBA ( Database Administrator ), o administrador de banco de dados é o</p><p>profissional responsável por cuidar de todos os fatores que envolvem os bancos de dados de uma</p><p>organização, desde a tecnologia que está sendo implementada, até mesmo, em alguns casos, saber se o ar-</p><p>condicionado está funcionando bem e que o servidor não irá desligá-lo por conta disso. O salário de DBA varia</p><p>entre R$4,7 mil até R$15 mil, destacando-se para a profissão um aumento de 88% quando se trata da carreira</p><p>de DBA júnior.</p><p>Analista de business intelligence</p><p>É o profissional responsável por controlar e analisar as iniciativas do cliente no ambiente digital, bem como</p><p>seus indicadores e metas. É o responsável por realizar análises micro e macroscópicas do mercado a fim de</p><p>otimizar a gestão dos negócios. A partir da análise de dados, o profissional de BI define novos padrões e</p><p>melhores práticas de desenvolvimento, além de identificar bases de dados que serão fontes de informação</p><p>para o crescimento da empresa.</p><p>Um profissional especializado em business intelligence é um dos mais procurados pelos mais diversos setores</p><p>da indústria, desde bancos até mesmo companhias biomédicas. O salário de um profissional deste setor varia</p><p>em torno de R$ 5 mil até R$20 mil.</p><p>Diretor de transformação digital</p><p>É o profissional que lidera as iniciativas relacionadas à atualização das empresas no mundo digital. Trabalha</p><p>com e-commerce, marketing digital e Tecnologia da Informação (TI), buscando conexões com consumidores</p><p>que utilizam a internet e as redes sociais.</p><p>Este tipo de profissional atua principalmente em grandes empresas de varejo e bancos. Salários podem</p><p>chegar até a R$ 65 mil para os mais bem qualificados.</p><p>Gerente de expansão em TI</p><p>É o perfil profissional que projeta o desenvolvimento de produtos e negócios (funções integradas e programa</p><p>as abordagens com base em dados de mercado, tecnologia e infraestrutura), combinando engenharia, design,</p><p>análise, gerenciamento de produtos, operações e marketing. O foco é sempre a área digital.</p><p>É um profissional requisitado por grandes organizações e startups. Salários podem ir de R$ 15 mil a R$ 25 mil.</p><p>Analista de mídias digitais</p><p>Como vimos até agora e continuaremos cada vez mais as redes sociais estão impactando na tomada de</p><p>decisão das empresas. O profissional de mídias digitais tem como ferramenta de trabalho as redes sociais,</p><p>como o Facebook, o Twitter, o Instagram, entre outras. Objetivo é conhecer o máximo possível dos usuários e</p><p>criar perfis de consumidores para oferecer a eles o que buscam. Chances ampliadas para quem tem formação</p><p>básica em marketing e comunicação social. Este tipo de profissional atua nas mais diversas organizações,</p><p>onde os salários podem chegar a R$ 6 mil.</p><p>Segurança da Informação: esta é uma área que foge do foco do nosso livro e do curso, mas note</p><p>que até o momento foram abordadas as mais diversas profissões e as mais diversas fontes de dados.</p><p>Assim, o profissional responsável por garantir a segurança no armazenamento e no acesso a dados o</p><p>torna uma importante profissão na atualidade, bem como uma profissão em ascensão nos próximos</p><p>anos. Este profissional consiste na proteção da informação de vários tipos de ameaças para garantir a</p><p>continuidade do negócio, minimizar o risco ao negócio, maximizar o retorno sobre os investimentos e</p><p>as oportunidades de negócio. Tem como perfil, o profissional que gerencia as oportunidades de</p><p>aplicação de tecnologia e interage com outras áreas de maneira a assegurar a segurança das</p><p>informações da empresa. O salário na área de segurança da informação varia de R$4 mil até R$20 mil.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EDaV0v&sa=D&sntz=1&usg=AOvVaw1v--BE7yGnwakngz3nkaXF</p><p>FONTE: : < https://bit.ly/33wfwwb >. Acesso em: 21 jan. 2019.</p><p>Excel – A eterna ferramenta de business intelligence</p><p>Esta poderia ser apenas uma menção honrosa a uma ferramenta que completa mais de 30 anos de existência,</p><p>mas não! É real! O Microsoft Excel se torna quase imbatível quando o tema é geração de relatórios. Neste</p><p>exato momento milhares de pessoas estão gerando relatórios no Excel enquanto outras milhares estão</p><p>estudando como fazê-lo. O Visicalc, desenvolvido por Dan Bricklin, conhecido como o “pai das planilhas</p><p>eletrônicas”, foi o precursor das planilhas eletrônicas e também pela utilização das planilhas dos</p><p>computadores pessoais. Na época, os computadores, que existiam custavam cerca de R$15 mil reais, também</p><p>não existia a internet (pelo menos não como a conhecemos hoje), com poucos softwares de gestão e assim,</p><p>afinal, para que comprar um computador? Nesse sentido, as planilhas eletrônicas justificaram o investimento</p><p>e o uso das planilhas eletrônicas nas organizações passaram a justificar o investimento, pois além de</p><p>armazenarem os dados sobre a gestão das empresas, tornaram-se as primeiras ferramentas de inteligência de</p><p>negócios e suporte à decisão.</p><p>No entanto o ano agora é 2018, passam mais de 30 anos desde a criação das planilhas e há uma imensidão de</p><p>ferramentas computacionais para gestão de empresas e suporte à decisão. Por que então, o Excel ainda é tão</p><p>utilizado? São diversos fatores que fazem a ferramenta obter tanto número de usuários. O principal, com</p><p>certeza, é a sinergia do Pacote Office com o sistema operacional Windows, que apenas na versão 10 alcançou</p><p>270 milhões de usuários em todo mundo.</p><p>Segundo Marques (2017), o Excel é a ferramenta que é imensamente utilizada pelas empresas para os mais</p><p>diversos tipos de funcionalidades. Independentemente do porte ou segmento da organização, esta é uma</p><p>ferramenta altamente difundida no ambiente empresarial, pois oferece infinitas possibilidades para manter os</p><p>processos automatizados e organizados. Os recursos do Excel permitem que o usuário faça cálculos</p><p>complexos, principalmente aqueles que envolvem a área financeira de um negócio. Além disso, é possível criar</p><p>uma planilha de gastos, uma planilha para controlar o fluxo de caixa, calcular preços dos produtos e serviços</p><p>oferecidos pela empresa, registrar os pagamentos, toda a parte contábil da organização, entre outras</p><p>funcionalidades.</p><p>Outro fator muito impactante no uso da ferramenta é o fato das empresas comumente utilizarem softwares</p><p>ERP para realizar a gestão de todos os processos organizacionais, como, por exemplo, o SAP. Este tipo de</p><p>software é informalmente chamado de “engessado”, pois ao invés de se adaptar às rotinas da empresa é a</p><p>empresa que se adapta ao funcionamento do software. O fato é que muitas vezes as empresas precisam gerar</p><p>relatórios específicos que atendam às suas necessidades particulares e estes relatórios não são fornecidos</p><p>pelo software ERP, a empresa pode até fazer uma requisição e solicitar que seja implementado, mas isso</p><p>envolve tempo e alto custo. Em contrapartida, os ERPs fornecem diversos relatórios sobre os módulos</p><p>(financeiro, comercial, gestão, estoque, entre outros) e estes mesmos relatórios podem ser importados no</p><p>formato de planilhas eletrônicas. Uma vez tendo acesso aos dados através de planilhas, estes são integrados,</p><p>também em planilhas. Cabe à empresa gerar seus próprios relatórios, importando várias planilhas e</p><p>consolidando e explorando utilizando os mais diversos recursos. A figura a seguir mostra uma visão geral dos</p><p>gráficos gerados pelo Excel, pode-se notar que há uma diversidade de gráficos: pizza, barra, geográfico, pivot</p><p>table, entre muitos.</p><p>FIGURA 9 – GERAÇÃO DE RELATÓRIOS COM O EXCEL</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F33wfwwb&sa=D&sntz=1&usg=AOvVaw2_4zJGidLDErWJWtM6UZlu</p><p>Neste momento, você deve se perguntar: Eu já conheço tudo sobre Excel! Por que então tanta</p><p>tecnologia se o Excel resolve todos os meus problemas? O Excel é de fato um canivete suíço dos</p><p>dados, mas utilizá-lo, com certeza, não é o melhor caminho para a análise dos dados. O próprio</p><p>exemplo da importação de diversas planilhas de um ERP já nos demonstra que deve haver um</p><p>grande esforço humano para realizar um relatório de integração. Com o Excel o esforço é dobrado,</p><p>afinal não há mecanismos computacionais para a integridade dos dados armazenados, ou seja, isto</p><p>tem que ser feito manualmente, levando em conta principalmente quando se trata de diversas</p><p>fontes.</p><p>Neste livro aprenderemos como fazer a integração de diversas fontes de dados, utilizando os</p><p>métodos e ferramentas corretas, que uma vez integradas ampliam o poder de tomada de decisão.</p><p>E, falando nelas na próxima seção, você verá todo o poder que estas ferramentas possuem no</p><p>apoio à tomada de decisão.</p><p>3 APLICAÇÕES DE DASHBOARDS E BUSINESS INTELLIGENCE</p><p>Até o momento, você já aprendeu o que é SGBD, Data Warehouse, Big Data, Data Mining, mas afinal em meio</p><p>a tanta tecnologia, o que é business intelligence ? A grande questão que vimos até agora é que os dados estão</p><p>mudando a maneira que nos relacionamos com a tecnologia e principalmente, entre nós mesmos. Sobre tudo</p><p>que falamos até o momento, imagine o volume dos dados gerados revertidos em prol das organizações, que</p><p>um gestor consiga ter na palma de sua mão os dados de todos os sistemas da empresa (ERP, Vendas, Mobile)</p><p>integrados aos dados de suas redes sociais, permitindo a tomada de decisões sobre as mais diversas</p><p>perspectivas, de forma simples, esse poder dos dados é business intelligence.</p><p>O conceito de business intelligence já estava presente nas organizações e começou a ser conhecido na década</p><p>de 1980, a partir de publicações realizadas pelo Gartner Group, uma importante empresa americana que</p><p>desenvolve tecnologias e pesquisas relacionadas à tecnologia e inovação. Em sua tradução literal, business</p><p>intelligence tem como significado “inteligência de negócios”, é uma tecnologia que permite a transformação de</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>dados em informações quantitativas e importantes para a tomada de decisão da empresa. Segundo Tyson</p><p>(1986), é um processo que envolve a coleta, análise e validação de informações sobre concorrentes, clientes,</p><p>fornecedores, candidatos potenciais à aquisição, candidatos à joint-venture e alianças estratégicas. Incluem</p><p>também eventos econômicos, reguladores e políticos, que tenham impacto sobre os negócios da empresa. O</p><p>processo de business intelligence analisa e valida todas essas informações e as transforma em conhecimento</p><p>estratégico.</p><p>Para Olszak e Ziemba (2007), em uma organização, em nível estratégico, os sistemas de business intelligence</p><p>tornam possível a definição de metas e objetivos, assim como o seu respetivo acompanhamento, permitindo a</p><p>realização de diferentes relatórios. Em nível tático permitem otimizar ações futuras e modificar aspectos</p><p>organizacionais, financeiros ou tecnológicos do desempenho da organização, a fim de ajudar a alcançar os</p><p>seus objetivos estratégicos de uma forma mais eficaz. Por último, em nível operacional, os sistemas de</p><p>business intelligence são utilizados para executar análises ad-hoc e responder a questões relacionadas com</p><p>operações das atividades da organização. Será difícil encontrar uma organização bem-sucedida que não tenha</p><p>aproveitado os sistemas de business intelligence para o seu negócio. Como tal, tem se assistido a uma</p><p>crescente procura de sistemas de business intelligence em diversas áreas, como o transporte, os serviços</p><p>bancários, a saúde, a indústria de distribuição e fabricação, o retalho, as telecomunicações, entre outros.</p><p>Contudo, as necessidades das organizações variam conforme a natureza do seu negócio e, assim, as</p><p>necessidades dos sistemas de business intelligence variam conforme os requisitos.</p><p>Neste momento, você deve pensar que o conceito de business intelligence se aplica apenas a grandes</p><p>organizações, com milhares de funcionários e que só haverá este cenário quando se interligam todos os</p><p>dados. Na verdade, mesmo que seja um conceito amplo e pode ser aplicado nos mais diversos segmentos e</p><p>nos próprios setores de uma empresa, como venda, marketing, faturamento, entre outros.</p><p>Da maneira que falamos até agora faz com que você pense que business intelligence trata apenas do fluxo</p><p>organizacional dos dados, porém não é apenas um conceito relacionado à administração de empresas, mas</p><p>sim a um conjunto de técnicas e processos, alinhados com tecnologia que transformam uma grande</p><p>quantidade de dados brutos em informação e conhecimento que podem auxiliar no suporte à tomada de</p><p>decisão.</p><p>O processo de geração de conhecimento através de business intelligence é realizado pelo emprego de tudo</p><p>que</p><p>foi visto até agora, desde a coleta dos dados até a extração de conhecimento deles. A figura a seguir mostra</p><p>um pouco desse processo. A etapa inicial é sempre dada pela coleta dos dados. Geralmente, a principal fonte</p><p>dos dados são os sistemas transacionais utilizados pela empresa (ERP, CRM, SAAS), mas pode haver outras</p><p>fontes integradas. Posteriormente é realizada a etapa de Data Warehousing, em que os dados são integrados</p><p>e limpos e armazenados em um banco de dados analítico (armazém de dados). Uma vez estes dados estando</p><p>armazenados, haverá uma infinitude de maneiras de explorá-los, seja através de consultas OLAP, ou pela</p><p>realização de processos de Data Mining. Não se assuste, nem tenha pressa, vamos aprender a construir nosso</p><p>próprio Data Warehouse, no Capítulo 2 e como extrair conhecimento, no Capítulo 3.</p><p>FIGURA 10 – PROCESSO DE BUSINESS INTELLIGENCE</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/unidade-1#h.gtw3ecmlci4w</p><p>FONTE: O autor (2018)</p><p>Entre as diversas maneiras de explorar um Data Warehouse é por meio de Dashboards, afinal o objetivo deste</p><p>livro é que você consiga gerar Dashboards interativos integrando as mais diversas aplicações. Você já sabe que</p><p>as pessoas e organizações estão gerando uma gama de informações diariamente, trazendo diversos desafios</p><p>de armazenamento e descoberta de conhecimento. Neste tópico iremos discutir os principais cases que</p><p>envolvem a análise de dados.</p><p>A fralda e cerveja</p><p>Toda vez que se fala de Data Mining, Big Data ou Business Intelligence é impossível deixar este case de lado,</p><p>sendo este quase folclore na história dos dados. Esta história começa com combinações perfeitas em uma</p><p>compra, como quem compra pão → compra manteiga ou quem compra café → compra leite. No entanto,</p><p>ainda que os processos de extração de conhecimento permitam extrair tal informação vem a pergunta: Isso</p><p>não é óbvio?</p><p>O fato é que uma das maiores redes de hipermercados norte-americana coletou os dados e armazenou no</p><p>formato na forma de Basket. Ou seja, para cada venda são registrados quais produtos foram vendidos em um</p><p>formato binário. O quadro a seguir mostra como esses dados são formatados.</p><p>QUADRO 4 – MODELO DE ARMAZENAMENTO “BASKET”</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Nos anos 1990, a então rede de hipermercados, a partir da análise de um grande volume de informações, foi</p><p>possível gerar uma associação entre dois produtos: fralda e cerveja.</p><p>FIGURA 11 – O CASO DA FRALDA E DA CERVEJA</p><p>FONTE: <https://bit.ly/3d56A3l>. Acesso em: 10 dez. 2018.</p><p>Obter tal informação foi de extremo valor para a tomada de decisão, afinal permite além de maior divulgação</p><p>dos produtos, uma realocação dos produtos próximos no mercado. Quando se vai além dos produtos</p><p>vendidos e se cria um Dashboard com a integração desses dados com o aspecto temporal (dia da semana,</p><p>hora, mês etc.) e com perfil de clientes (idade, sexo etc.), a análise chegou à conclusão que homens adultos</p><p>(pais) que compram fraldas (para seus filhos) às sextas-feiras, também compram cervejas.</p><p>Este além de ser um dos principais cases da área de análise de dados, serve como motivação para que você</p><p>possa enxergar o mundo com novos olhos. Afinal, você já parou para se perguntar:</p><p>Como as livrarias recomendam livros?</p><p>Como as músicas são recomendadas no Youtube?</p><p>Como o Google sabe a próxima palavra que eu ia digitar?</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Como eu consigo fazer isso no meu sistema?</p><p>Como funcionam as regras de associação na prática?</p><p>A descoberta de regras de associação em bancos de dados relacionais ou data warehouses é uma das tarefas</p><p>de mineração de dados (data mining) que possui o maior número de aplicações práticas. Este artigo inicia uma</p><p>série de trabalhos que terão o objetivo principal de demonstrar como esta nova tecnologia pode ser aplicada</p><p>em diferentes áreas de conhecimento.</p><p>A área de Ciência da Computação que tem por objetivo oferecer estratégias automatizadas para a análise de</p><p>grandes bases de dados de empresas, procurando extrair das mesmas informações que estejam implícitas,</p><p>que sejam previamente desconhecidas e potencialmente úteis. A Mineração de Dados surgiu no início dos</p><p>anos 1990, a partir da reunião de ideias provenientesde diferentes áreas como inteligência artificial, banco de</p><p>dados, estatística, e visualização de dados. A principal motivação para o surgimento da mineração de dados</p><p>encontra-se no fato de as organizações estarem armazenando de forma contínua uma enorme quantidade de</p><p>dados a respeito de seus negócios nas últimas décadas. O conhecimento obtido pelas técnicas de mineração</p><p>de dados é geralmente expresso na forma de regras e padrões.</p><p>Devido a sua grande aplicabilidade, as regras de associação encontram-se entre um dos mais importantes</p><p>tipos de conhecimento, que podem ser minerados em bases de dados. Estas regras representam padrões de</p><p>relacionamento entre itens de uma base de dados. Uma de suas típicas aplicações é a análise de transações</p><p>de compras: market basket analysis , um processo que examina padrões de compras de consumidores para</p><p>determinar produtos que costumam ser adquiridos em conjunto. Um exemplo de regra de associação, obtida</p><p>a partir da análise de uma base de dados real, que registra os produtos adquiridos por famílias cariocas em</p><p>suas compras mensais, é dado por: {minipizza semipronta} Þ {suco de fruta em pó}. Esta regra de associação</p><p>indica que as famílias que compram o produto {minipizza semipronta} tem maior chance de também adquirir</p><p>o produto {suco de fruta em pó}.</p><p>Introdução às regras de associação</p><p>O problema da mineração de regras de associação foi primeiramente apresentado no ano de 1993. Nesta</p><p>época, as regras eram mineradas a partir de bases de dados de transações (ou bases transacionais). As</p><p>definições formais de regra de associação e base de dados transacional são apresentadas a seguir.</p><p>Seja I = {I1,I2,...In} um conjunto de itens. Seja D uma base de dados de transações, em que cada transação T é</p><p>formada por um conjunto de itens onde T Í I. Cada transação possui um identificador chamado TID. Uma regra</p><p>de associação é uma implicação da forma A Þ B, onde</p><p>A e B podem ser conjuntos compostos por um ou mais itens, A Ì I, B Ì I, e A C B = Æ. A é chamado</p><p>de antecedente da regra e B é chamado de consequente.</p><p>Dada uma regra A Þ B, a sua medida de suporte (Sup) representa a porcentagem de transações da base de</p><p>dados que contêm os itens de A e B, indicando a relevância dela. Já a sua medida de confiança (Conf)</p><p>representa, dentre as transações que possuem os itens de A, a porcentagem de transações que possuem</p><p>também os itens de B, indicando a validade da regra. O problema da mineração de regras de associação,</p><p>conforme definido originalmente em 1993, consiste em encontrar todas as regras de associação que possuam</p><p>suporte e confiança maiores ou iguais, respectivamente, a um suporte mínimo (SupMin) e uma confiança</p><p>mínima (ConfMin), especificados pelo usuário.</p><p>Para explicar o funcionamento deste processo, será apresentado um exemplo baseado numa pequena base</p><p>de dados que armazena as compras efetuadas por clientes de um supermercado hipotético (listagem a</p><p>seguir).</p><p>TID Produtos comprados</p><p>------------------------------------------------------</p><p>1 biscoito, cerveja, chá, salaminho</p><p>2 cerveja, couve, linguiça, pão, queijo</p><p>3 café, brócolis, couve, pão</p><p>4 brócolis, café, cerveja, couve, pão, salaminho</p><p>5 brócolis, café, couve, pão, refrigerante</p><p>6 couve, linguiça</p><p>Observe que cada registro da base de dados armazena a relação de produtos adquiridos por um cliente</p><p>específico. Um exemplo de regra de associação que poderia ser minerada nesta base de dados, através</p><p>da</p><p>utilização de uma ferramenta de data mining, é dado por: {cerveja} Þ {salaminho}. Note que duas das seis</p><p>transações que compõem a base contêm os produtos {cerveja} e {salaminho}. Desta maneira, o suporte da</p><p>regra {cerveja} Þ {salaminho} pode ser calculado da seguinte forma: 2 ¸ 6 = 33,33%. Observe agora que na base</p><p>de dados, existem duas transações que contêm os produtos {cerveja} e {salaminho} juntos e três transações</p><p>que contêm o produto {cerveja}. A confiança da regra {cerveja} Þ {salaminho} pode então ser calculada da</p><p>seguinte maneira: 2 ¸ 3 = 66,67%. Este valor indica que 66,67% dos consumidores que compraram {cerveja}</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>também compraram {salaminho}.</p><p>Outro índice estatístico comumente utilizado para definir o grau de interesse de uma regra de associação é</p><p>denominado lift. O lift de uma regra de associação A Þ B indica quanto mais frequente se torna B, quando A</p><p>ocorre. Esta medida é computada por: Lift(A Þ B) = Conf(A Þ B) ÷ Sup(B). O lift da regra hipotética {cerveja} Þ</p><p>{salaminho} é dado por: Conf({cerveja} Þ {salaminho}) ÷ Sup({salaminho}) = 66.67% ÷ 33.33% = 2. O resultado</p><p>deste cálculo indica que os clientes que compram {cerveja} têm uma chance duas vezes maior de comprar</p><p>{salaminho}.</p><p>Os primeiros softwares para mineração de regras de associação começaram a ser desenvolvidos em meados</p><p>da década de 1990, ainda em ambiente acadêmico. Hoje em dia já existem algumas dezenas de ferramentas</p><p>comerciais capazes de minerar este tipo de padrão, desenvolvidas por grandes empresas. As ferramentas</p><p>para mineração de regras de associação funcionam, tipicamente, da seguinte maneira: o usuário especifica a</p><p>base de dados que deseja minerar e estabelece valores mínimos para as medidas de interesse como o</p><p>suporte, a confiança e o lift (muitas ferramentas utilizam ainda outras medidas de interesse para avaliar as</p><p>regras de associação). Em seguida, a ferramenta executa um algoritmo que analisa a base de dados e gera</p><p>como saída um conjunto de regras de associação com valores de suporte e confiança superiores aos valores</p><p>mínimos especificados pelo usuário. Note que este processo é diferente do utilizado pelas aplicações OLAP e</p><p>pelos métodos estatísticos tradicionais, em que o especialista testa a sua hipótese contra a base de dados. No</p><p>caso da mineração de dados, as hipóteses e os padrões são automaticamente extraídos da base de dados</p><p>pelas ferramentas.</p><p>FONTE: < https://bit.ly/3k834sk >. Acesso em: 19 out. 2018.</p><p>O presidente e os dados</p><p>Você, com certeza, sabe que Barack Obama venceu a eleição no ano de 2008 e também repetiu o feito no ano</p><p>de 2012, pode até saber que o Hit “ Yes, We Can ” bateu recorde de acessos no Youtube, o que você talvez não</p><p>saiba é que houve muita coleta, pré-processamento e, principalmente, muita análise de dados por trás dessa</p><p>trajetória. Grandes volumes de dados foram coletados e processados para futuramente serem analisados nas</p><p>campanhas.</p><p>Nas eleições presidenciais de 2008, a equipe de Barack Obama atribuiu a cada eleitor norte-americano pontos</p><p>baseados na probabilidade de aquela pessoa realizar duas ações distintas e essenciais para a sua campanha:</p><p>preencher uma cédula de votação e, mais importante, esta cédula ser um voto para o democrata. Estes pontos</p><p>eram derivados de um volume de dados sem precedentes, gerado por um contínuo trabalho de pesquisa. Para</p><p>cada debate semanal por estado norte-americano, os call centers da campanha conduziam de 5 mil a 10 mil</p><p>entrevistas curtas que rapidamente verificavam as preferências do eleitor, além de mil entrevistas em versão</p><p>longa. Ao realizar análises em cima de tais dados, obteve-se mais de 100 variáveis que permitiram à equipe de</p><p>governo pautar os rumos da campanha e deu um ótimo resultado na campanha de 2012.</p><p>Já para as eleições de 2012, a quantidade de pessoas destinadas para realizar análises foi cinco vezes maior e</p><p>se multiplicou por cinco em relação ao ano anterior. Esta equipe realizou medições a partir de uma megabase</p><p>(uma base de dados de grandes dimensões), podendo determinar, por exemplo, que um jantar com o</p><p>presidente Obama e o ator George Clooney era o ideal para arrecadar fundos entre mulheres de 40 e 49 anos.</p><p>Análises detalhadas deste estilo permitiram ao candidato alcançar cifras recordes de arrecadação. Além disso,</p><p>o Big Data foi muito importante na hora de conhecer a intenção de votos real no estado onde o triunfo do</p><p>Obama era mais incerto, entre eles, Ohio. E por fim, o resultado foi certo, Obama conseguiu se reeleger.</p><p>Você deve se perguntar, em 2016 : Por que não funcionou? Em um primeiro momento, temos que</p><p>ter em mente que estamos em uma revolução tecnológica. Assim como Gordon G. Moore afirmou</p><p>em 1965, na conhecida Lei De Moore “o número de transistores dos chips teria um aumento de</p><p>100%, pelo mesmo custo, a cada período de 18 meses”, o que queremos dizer é que a tecnologia</p><p>muda, e o que é novidade hoje pode ser passado em questão de pouco tempo, e com relação aos</p><p>processos de coleta e análise de dados não será diferente. Apenas para não deixar de lado a eleição</p><p>do atual presidente americano Donald Trump em 2016 com a empresa Cambridge Analytica, que</p><p>fez a análise de 198 milhões perfis de eleitores que utilizaram a estrutura da empresa Amazon.</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3k834sk&sa=D&sntz=1&usg=AOvVaw3ra7tJth02FJSRpEWj140I</p><p>Dados o novo petróleo</p><p>A análise de grandes quantidades de dados desestruturados é uma das quatro grandes tendências da</p><p>tecnologia e, segundo Anjul Bhambhri, VP de projetos de Big Data da IBM, isto será tão importante para o</p><p>mundo quanto o petróleo.</p><p>“Todo clique, tweet, site navegado está sendo analisado. E estes dados abrem oportunidades inimagináveis.</p><p>Big Data é o novo óleo, o novo recurso natural”, afirmou.</p><p>De acordo com a companhia, em 2020, o mundo terá cerca de 40 zetabytes (21 zeros) de dados para serem</p><p>analisados contra 7 zetabytes atuais. Isto dará a chance para que as empresas consigam fazer análises</p><p>semânticas de sentimentos, gostos e prever necessidades.</p><p>Além do Big Data, outras três tecnologias foram apontadas como essenciais para os próximos anos:</p><p>computação na nuvem, mobilidade e social. Para o vice-presidente do centro de desenvolvimento da IBM,</p><p>Stephen Farley, a competitividade está focada em “analisar o consumidor (Big Data), armazenar os dados dos</p><p>clientes de forma simples e barata ( cloud computing ), com acesso às informações na ponta dos dedos</p><p>(mobilidade) e comunicando as descobertas (social)”.</p><p>“O mundo está se tornando programável e o desenvolvimento de softwares baseados nestas tendências</p><p>dominará as empresas. Estas novidades estão</p><p>redesenhando a economia mundial”, afirmou. “Todas as companhias terão de adotar estas tecnologias se</p><p>quiserem oferecer diferenciais”, completou.</p><p>Elementar, meu caro Watson!</p><p>Quando se fala em coleta, pré-processamento e análise de dados, surgem novas plataformas de</p><p>armazenamento na nuvem. Grandes empresas da tecnologia têm investido nesse segmento como uma forma</p><p>de oferecer processamento pago por hora, são exemplos o Azure (Microsoft), Google Cloud, Amazon AWS e o</p><p>IBM Watson. Este último tem se destacado em pesquisas acadêmicas, inclusive em um case recente e nacional.</p><p>Nos últimos anos, o Brasil foi marcado por dezenas de escândalos de corrupção, bem como uma série de</p><p>notícias sobre o combate a ela. Criado em 2007 pelo Ministério da Justiça do Brasil, por meio do Departamento</p><p>de Recuperação de Ativos e Cooperação Jurídica Internacional da Secretaria Nacional de Justiça, o Laboratório</p><p>de Tecnologia contra Lavagem de Dinheiro (LAB-LD) apoia investigações complexas sobre corrupção e lavagem</p><p>de dinheiro.</p><p>Utilizando o IBM Watson, investigações financeiras – que dependem de dados</p><p>como movimentações e</p><p>extratos de contas bancárias, troca de e-mails, registros telefônicos e de empresas, além de informações</p><p>vindas de redes sociais – podem ser realizadas com muito mais facilidade. Neste caso, foi possível utilizar a</p><p>ferramenta para consolidar diversas fontes de dados e em cima destes dados realizar buscas semânticas e por</p><p>palavras-chave. Este sistema inteligente explora o conceito de metadados sobre apelidos de suspeitos,</p><p>parceiros e cúmplices, bem como gírias de atividades criminosas, um exemplo disso é ao registrar o termo</p><p>‘farinha’ retornar informações sobre cocaína.</p><p>No passado, as investigações exigiam analistas altamente qualificados que gastavam milhares de horas</p><p>debruçados em planilhas, e-mails e publicações em redes sociais. Hoje, os investigadores gastam menos</p><p>tempo na identificação de dados relevantes e se empenham mais nas análises (BARBOSA, 2016). Com a ajuda</p><p>das soluções da IBM, a REDE-LAB alcançou o objetivo de automatizar os processos de mineração de dados</p><p>complexos — permitindo que os investigadores acelerassem seu trabalho de forma significativa. Segundo o</p><p>coordenador do projeto, Roberto Zaina, da IBM (2014, p. 2 ), “Estimamos que o IBM Watson Explorer nos</p><p>permitirá acelerar exponencialmente nossas investigações. A identificação de ativos ilícitos nos obriga a</p><p>avançar mais rapidamente do que os criminosos, e as nossas soluções da IBM estão nos ajudando a fazer</p><p>exatamente isso”.</p><p>CONSIDERAÇÕES FINAIS</p><p>Prezado aluno!</p><p>Chegamos ao fim do Capítulo 1, esperamos que tenha sido proveitoso para você. Durante este capítulo você</p><p>pôde aprender sobre o volume de dados gerados no mundo, espero que tenha aproveitado esse momento</p><p>para refletir sobre esse tipo de aplicação no seu cotidiano e tenha tido boas ideias de aplicações.</p><p>Durante o transcorrer do livro, discutimos tópicos atuais sobre análise de dados, pois serão importantes para</p><p>a compreensão e discussão dos métodos utilizados. Nós também conhecemos os principais nomes da história</p><p>dos dados e suas contribuições tecnológicas, mas não iremos parar por aqui, tudo que você viu será colocado</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>em prática no Capítulo 2.</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial/agora-%C3%A9-com-voc%C3%AA</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>Avançar</p><p>UNIDADE 2</p><p>Parabéns! Você chegou na etapa 2 dessa disciplina!</p><p>Com cada vez mais dados à disposição dos tomadores de decisão, fica também mais difícil se concentrar nas</p><p>informações relevantes para os problemas e principalmente apresentá-las de forma prática. O Business Intelligence</p><p>ajuda os gestores nessa organização e na tomada de decisão. Como verificamos na unidade 1, Business</p><p>Intelligence não é uma única ferramenta, mas diversas técnicas de extração e manipulação de dados.</p><p>Business Intelligence é uma metodologia pela qual se estabelecem ferramentas para obter, organizar, analisar e</p><p>prover acesso às informações necessárias para que os tomadores de decisão das empresas analisem os</p><p>fenômenos acerca de seus negócios.</p><p>É importante lembrar que uma solução de Business Intelligence por si só não traz resultados, afinal, abrir seus</p><p>relatórios uma vez ou outra não significa fazer bom proveito dos dados, e muito menos que essa consulta trará</p><p>ações concretas. Assim, é preciso que todos dentro da organização adotem de forma massiva sua utilização.</p><p>No artigo Um estudo de caso envolvendo Business Intelligence como instrumento de apoio à controladoria , os</p><p>autores investigaram a contribuição do Business Intelligence (BI) para a área de controladoria. No estudo, os</p><p>autores verificam o antes e depois da implementação do BI. Após a análise das entrevistas, dos indicadores das</p><p>áreas e de seu impacto no resultado global da empresa, os autores verificaram que o BI pode auxiliar a</p><p>controladoria na função de prover informações confiáveis, úteis e tempestivas ao processo decisório, por meio de</p><p>sua flexibilização e dinamicidade, proporcionando, como consequência, a melhoria dos resultados das áreas</p><p>organizacionais, bem como da empresa como um todo.</p><p>Vamos conhecer, então, algumas ferramentas de Business Intelligence disponíveis no mercado?</p><p>Board</p><p>Domo</p><p>Dundas</p><p>Google Data Studio</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p%C3%A1gina-inicial</p><p>https://www.google.com/url?q=https%3A%2F%2Fcongressousp.fipecafi.org%2Fanais%2Fartigos62006%2F284.pdf&sa=D&sntz=1&usg=AOvVaw2zj7h2BzvtLt8jcJgexeFB</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.board.com%2Fes&sa=D&sntz=1&usg=AOvVaw3RwpvY5CP6fySmfPfB1ghv</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.domo.com%2F&sa=D&sntz=1&usg=AOvVaw3i2qXcV77odJPlW7ASY-hC</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.dundas.com%2F&sa=D&sntz=1&usg=AOvVaw2xepa0RjcBch1gQmrOTee_</p><p>https://datastudio.google.com/navigation/reporting</p><p>https://looker.com/</p><p>Looker</p><p>Microsoft Power BI</p><p>Toda a solução de BI inicia com os Data Warehouses. Data Warehouses são bancos de dados analíticos,</p><p>projetados para armazenar os dados de fontes diversas, já transformados e preparados para a realização de</p><p>consultas através de operações OLTP (On line Transaction Processing – Processamento de transação on-line).</p><p>Veja quais são as principais características de um Data Warehouse.</p><p>Integrado Orientado a assunto Variável em relação ao Não Volátil</p><p>tempo</p><p>No webinar A importância da modelagem do Data Warehouse em um projeto de TI, o professor Fernando Hadad</p><p>Zaidan trata da importância da Data Warehouse em um projeto de BI, bem como suas particularidades e possíveis</p><p>estruturas e elementos.</p><p>A importância da modelagem do Data Warehouse em um projeto de TI</p><p>Outro importante conceito que devemos compreender é o de modelagem de banco de dados. A modelagem</p><p>multidimensional é uma técnica de modelagem de bancos de dados que se destina a apoiar as consultas realizadas</p><p>pelo usuário final em um Data Warehouse. A técnica de modelagem multidimensional trata da elaboração de um</p><p>projeto lógico de um banco de dados, que tem sua aplicação destinada à análise de dados. O Star Model é a</p><p>estratégia de modelagem mais utilizada na construção de modelos multidimensionais para ambientes Data</p><p>Warehouse. Seu objetivo é dar suporte à tomada de decisão e melhorar o desempenho das consultas em</p><p>ambientes multidimensionais. Já o modelo Snowflake é muito próximo do que é conhecido da modelagem</p><p>tradicional de banco de dados, uma vez que, durante sua construção, são levadas em consideração as formas</p><p>normais.</p><p>Na arquitetura de um Data Warehouse, uma importante etapa é a ETL (Extrat, Transform and Load - em português,</p><p>Extração, Transformação e Carga). Essa é a etapa responsável por pegar os dados da fonte, prepará-los e</p><p>armazená-los em um banco de dados multidimensional</p><p>https://sites.google.com/unicesumar.com.br/anlise-de-dados-usando-dashboa/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://looker.com/</p><p>https://www.google.com/url?q=https%3A%2F%2Fpowerbi.microsoft.com%2Fpt-br%2F&sa=D&sntz=1&usg=AOvVaw24QfrLDKvN1yZ6ue_DSsKt</p><p>https://youtu.be/WB6nTeYwluo</p><p>A ETL é responsável por fazer a integração entre as camadas de um Data Warehouse a partir das fontes de dados,</p><p>além de tratar e armazenar esses dados em um banco de dados multidimensional no Data Warehouse. No</p><p>mercado, existem diversas ferramentas que realizam o processo de ETL, cada uma com a sua particularidade. Tais</p><p>ferramentas são softwares específicos, nos quais você pode identificar</p>