Baixe o app para aproveitar ainda mais
Prévia do material em texto
ANÁLISE DE DADOS USANDO DASHBOARDS Programa de Pós-Graduação EAD UNIASSELVI-PÓS Autor: Rodrigo Ramos Nogueira CENTRO UNIVERSITÁRIO LEONARDO DA VINCI Rodovia BR 470, Km 71, no 1.040, Bairro Benedito Cx. P. 191 - 89.130-000 – INDAIAL/SC Fone Fax: (47) 3281-9000/3281-9090 Reitor: Prof. Hermínio Kloch Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol Equipe Multidisciplinar da Pós-Graduação EAD: Carlos Fabiano Fistarol Ilana Gunilda Gerber Cavichioli Jóice Gadotti Consatti Norberto Siegel Camila Roczanski Julia dos Santos Ariana Monique Dalri Marcelo Bucci Revisão Gramatical: Equipe Produção de Materiais Diagramação e Capa: Centro Universitário Leonardo da Vinci – UNIASSELVI Copyright © UNIASSELVI 2019 Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri UNIASSELVI – Indaial. Impresso por: N778a Nogueira, Rodrigo Ramos Análise de dados usando dashboards. / Rodrigo Ramos Nogueira. – Indaial: UNIASSELVI, 2019. 140 p.; il. ISBN 978-85-7141-298-9 1.Análise de dados – Brasil. 2.Dashboards (Sistemas de informação gerencial – Brasil. II. Centro Universitário Leonardo Da Vinci. CDD 005.3 Sumário APRESENTAÇÃO ..........................................................................05 CAPÍTULO 1 A Explosão dos Dados: Como Gerenciá-Los? .........................07 CAPÍTULO 2 Data Warehouse e Business Intelligence ................................43 CAPÍTULO 3 Criação de Dashboards na Prática ...........................................95 APRESENTAÇÃO Prezado aluno! Seja muito bem-vindo à leitura do livro Análise de Dados usando Dashboards. Temos a certeza de que em algum momento da sua vida, carreira ou estudos, você parou para pensar nos avanços tecnológicos e aonde iríamos parar com esta evolução. E, de fato grande responsável pela evolução da tecnologia são os volumes de dados gerados e cada vez mais estes dados são importantes para tomada de decisão em grandes corporações. Mas o que o volume de dados tem a ver com este livro? A partir de agora você é um minerador e os dados serão a matéria-prima para o seu trabalho. Será necessário um árduo trabalho de lapidação, mas no final nós garantimos que você terá um brilhante diamante chamado CONHECIMENTO. E ao saber lidar com o processo de extração de conhecimento pelos dados, eles lhe tornarão um profissional disputado por empresas nacionais e internacionais. Este livro abordará os principais conceitos sobre Business Intelligence, bem como as principais técnicas que são utilizadas na prática durante a extração de conhecimento através dos dados. E o mais importante: sempre com uma abordagem atualizada! Desde tecnologias até com a visão do mercado de trabalho. Nós estudaremos também as aplicações nas mais diversas perspectivas: usuários, aplicações, organizações e gestores e deixando claro o papel de cada elemento na construção de estratégias de coleta, pré-processamento e geração de informação. No Capítulo 1 vamos nos contextualizar, você vai aprender sobre o volume de dados no mundo atual, sobre os tipos de dados e a diferença entre dados e informação. Vai conhecer um pouco sobre a história da transformação dos dados na tecnologia e os principais métodos de Business Intelligence. O Capítulo 2 será responsável por nos trazer mais de conceitos práticos como Data Warehouse, ETL, OLAP e diversos procedimentos para analisar dados, porém, não vamos parar nos conceitos, vamos colocar a mão na massa. Uma vez estes dados estando armazenados e limpos será só os consumir. Assim, o Capítulo 3 será responsável por nos apresentar as principais ferramentas de Dashboard do mercado e sua utilização para extração de índices e indicadores. CAPÍTULO 1 A Explosão dos Dados: Como Gerenciá-Los? A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes objetivos de aprendizagem: • os principais cenários de dados no mundo atual; • a importância de se obter um grande volume de dados para a geração de conhecimento, os tipos e formatos de dados; • conceituar conhecimento e saber os processos para extraí-los; • conhecer técnicas e ferramentas para coleta e análise de dados. 8 Análise de Dados usando Dashboards 9 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 1 O Volume E Os Tipos Dos Dados Já parou para pensar na quantidade de dados que você gera diariamente? Isso mesmo, apenas você? Apenas um celular conectado com e-mail, aplicativo de mensagens e mídias sociais é capaz de gerar uma grande quantidade de dados, dos mais diversos tipos (textos, áudios, fotos, vídeos). Se esta reflexão for elevada para todos os usuários, em que apenas no Brasil, segundo o IBGE, 116 milhões de pessoas têm conexão com a internet, imagine a quantidade de informação gerada diariamente em todo mundo por diversas empresas. Isso em números significam cerca de 2,5 quintilhões de bytes gerados, diariamente, em todo o mundo. Tradicionalmente, as bibliografias tratam do tema de análise de dados, na mesma linha que este livro as aborda, principalmente, a dificuldade da integração dos dados a partir de diversos sistemas de informação. No entanto, as principais obras sobre o tema foram publicadas em 1992 e 1996. Neste contexto, muita coisa vem se modificando e a principal mudança é o notório volume de dados gerados pelo uso da internet no mundo. O Internet Live Stats é uma equipe internacional de desenvolvedores, pesquisadores e analistas que tem como objetivo coletar e disponibilizar estatísticas sobre o volume de sites na Web, de maneira que estes conteúdos sejam fornecidos em um formato dinâmico e relevante para um público amplo em todo o mundo. Segundo estimativas deste órgão, até a confecção deste livro existem 1.929.019.952 de sites na Web e um total de 4.068.405.997 usuários espalhados por todo o mundo. Estes usuários geram uma grande informação diariamente e tais dados são interessantes para as organizações, pois contêm os mais diversos tipos de estruturas, simples ou complexas, que existem, atendendo a diversas necessidades e possuindo diversos conteúdos e formatos. A grande questão é que por um longo período as pessoas eram apenas consumidoras de conteúdos, um público-alvo, números sem voz, porém, quando se transformam em usuários da grande rede mundial, cada indivíduo ganha seu poder e voz, ao invés de ser receptor de mensagens, as pessoas se tornam produtoras de informações de valor, como decidir qual produto consumir, como influenciam seus amigos nas redes sociais, quais termos de busca mais utilizam, quais notícias e quais temas mais lhe interessam. Durante muitos anos as grandes empresas investiram fortemente em pesquisas de opinião e entrevistas de foco local, tendo como objetivo saber se o produto a ser lançado atingia o público-alvo e como melhorá-lo em relação aos concorrentes. Agora as pessoas estão inundando as mídias sociais com bilhões de dados, mais do que empresas e marcas consigam administrar transformando a internet numa imensa plataforma 10 Análise de Dados usando Dashboards de pesquisa quando o que vale não é o que se diz, mas o que de fato se faz. Estão gerando um imenso manancial de dados e métricas, dados de mercado e consumo. Como transformá-los em inteligência de negócio? Um grande ponto de aumento dos dados é um ponto constante, não se muda apenas o volume dos dados, mas também o limiar que mensura essa evolução. O IDC (International Data Corporation) realizou um estudo intitulado “O universo digital das oportunidades: riquezas de dados e valor crescente da internet das coisas”, com pesquisa e análise da IDC, foi reportado que no ano de 2013 havia um conjunto composto por 4,4 trilhões de gigabytes (ou 4,4 zettabytes) de informação. Utilizando diversos conjuntos de métricas e análises, o instituto realizou uma previsão que o mundo saltará para 44 trilhões de gigabytes (44 zettabytes)em 2020 e que 10% desse volume de dados corresponderá à internet das coisas. O grande desafio é buscar alternativas para armazenar e processar estes dados, gerando informação e conhecimento. O caso mais conhecido da análise de dados e geração de conhecimento para a tomada de decisão é o caso da fralda e da cerveja. Neste caso, os dados de vendas de produtos de uma grande rede de mercados americana, após computar um grande volume de dados, foi possível descobrir que sempre que havia uma compra de fralda às sextas-feiras, havia uma grande probabilidade de também conter cerveja. Tal análise, permitiu que a rede tomasse a decisão de realocar os produtos pelas lojas e aumentasse suas vendas. Os analistas de dados, muitas vezes, chamados de analistas de Business Inteligence, que já tinham em mãos os desafios de centralizar diversas fontes de informação ainda têm isso aumentado. Em seu tradicional infográfico atualizado, a Go-Globe divulga “O mundo em 60 segundos”, que é mostrado na figura a seguir. Nela é possível ver o volume de informações geradas a cada minuto em todo mundo nos principais veículos. Note que apenas buscas no Google são 3.8 milhões, no Youtube são 400 horas de vídeo enviados e cerca de 700 horas de vídeos assistidos, tudo isso desde que você começou a leitura desta seção. 11 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 FIGURA 1 – O MUNDO EM 60 SEGUNDOS FONTE: <http://www.go-globe.com/blog/things-that-happen- every-60-seconds/>. Acesso em: 15 out. 2018. Que o mundo vivencia uma explosão dos dados, isto é fato, o que nos gera um grande desafio: armazenar e gerenciar tais dados. O grande fato, conforme visto anteriormente, geramos os mais diversos tipos de dados, que nem sempre possuem uma estrutura. Tornando necessário o conhecimento sobre o formato desses dados para se obter a melhor maneira de processar e armazená-los. Agora que você já está contextualizado com o cenário dos dados, responda: Onde você gera dados no seu dia a dia? ISOTANI, Seiji; BITTENCOURT, Ig Ibert. Dados abertos conectados: em busca da Web do conhecimento. Novatec Editora, 2015. http://www.go-globe.com/blog/things-that-happen-every-60-seconds/ http://www.go-globe.com/blog/things-that-happen-every-60-seconds/ 12 Análise de Dados usando Dashboards Há diversos elementos envolvidos na geração de dados, desde computadores pessoais executando sistemas de informação, celulares com aplicativos, até mesmo os mais diversos tipos de sensores e ferramentas de captura (foto e vídeo). O fato é que há uma grande diversidade de dados, armazenando as mais diversas informações, desde a maneira como são coletados, até a maneira com que são armazenados. Neste segundo ponto, conforme mostra a figura a seguir, os dados estão distribuídos pelo mundo de acordo com o seu formato e estrutura de armazenamento, que, no geral são classificados como estruturados, semiestruturados e não estruturados. FIGURA 2 – DISTRIBUIÇÃO DOS DADOS FONTE: O autor (2018) Conforme mostra a figura anterior, apenas 20% dos dados são armazenados de maneira estruturada. Os dados estruturados são aqueles que estão armazenados em uma estrutura previamente definida, tradicionalmente os softwares tradicionais os utilizam na forma de SGBDR (Sistemas Gerenciadores de Bancos de Dados Relacionais) ou BDR (Bancos de Dados Relacionais). A principal característica dos SGBDRs é que foram construídos para garantir a integridade dos dados armazenados, toda sua estrutura é feita com base em tabelas construídas com base em relacionamentos. Com relação ao motivo desta forma de armazenamento ser chamada de estruturada, isto se dá, principalmente, pelo fato de que a estrutura dos dados deve ser definida previamente ao armazenamento dos dados. Ou seja, primeiro é realizada a definição do campo, depois sua inserção. 13 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 Os bancos de dados relacionais estão consolidados no mercado há mais de 50 anos, no entanto, 80% dos dados distribuídos pela Web assumem outros dois formatos: semiestruturados e não estruturados. Os dados semiestruturados são aqueles que têm uma estrutura, ou seja, se consegue reconhecer um significado, no entanto, ao contrário dos estruturados, esta estrutura não é definida previamente. Tal estrutura é incremental e vai se alterando no passar do tempo. São exemplos de dados semiestruturados: planilhas Excel, arquivos CSV, documentos XML, documentos JSON. Dados semiestruturados apresentam uma representação estrutural heterogênea, não sendo nem completamente não estruturados nem estritamente tipados. Dados Web se enquadram nessa definição: em alguns casos os dados possuem uma descrição uniforme (um catálogo de produtos), em outros, algum padrão estrutural pode ser identificado (um conjunto de documentos no formato de artigo). Afirma- se também que dados semiestruturados são dados nos quais o esquema de representação está presente (de forma explícita ou implícita) juntamente com o dado, ou seja, este é autodescritivo. Isto significa que uma análise do dado deve ser feita para que a sua estrutura possa ser identificada e extraída (MELLO, 2000). Por sua vez, os dados não estruturados, são os que mais populam a Web, destes não é possível obter uma estrutura, e para extrair conhecimento sobre tais dados é necessário realizar um pré-processamento. São exemplos de dados não estruturados: textos, imagens, arquivos de som, vídeos e os mais diversos arquivos multimídia. Nas organizações isto não é diferente, empresas utilizam seus softwares de gestão para gerenciar as mais diversas operações (vendas, marketing, produto) o que por si só já se torna um desafio que é integrar os dados de todos os setores, muitas vezes, centralizados em diversos SGBDs e softwares. Complementarmente, cada vez mais empresas utilizam redes sociais para divulgar seus produtos e iniciativas, tornando-se interessante extrair dados sobre como os usuários destas redes estão reagindo a isso. Na produção da empresa, com a ascensão do conceito de internet das coisas e do sensoriamento, os dados podem ser coletados em tempo real e a maneira com que se trabalha com indicadores de produção passa se tornar em tempo real. 14 Análise de Dados usando Dashboards Uma vez compreendidos os mais diversos cenários de dados, conceitue a diferença entre dados estruturados, semiestruturados e não estruturados. FIGURA 3 – EMPRESA CONECTADA E DADOS INTEGRADOS FONTE: <https://www.i-scoop.eu/manufacturing-industry/>. Acesso em: 25 out. 2018. E ainda não para por aqui, afinal até o momento, estes dados tratam apenas da própria corporação, quando empregado o conceito de inteligência competitiva, que é uma estratégia de se obter informações relevantes sobre o comportamento da concorrência, o volume de dados coletados é ainda maior. A competitividade, a informatização e a necessidade de diferencial competitivo fizeram com que as organizações percebessem a importância do conhecimento e de sua gestão (LACKMAN; SABAN; LANASA, 2000). Agora imagine todos estes dados consolidados, integrados e aptos a serem explorados por diversas perspectivas, com isto em mãos, os gestores de uma empresa podem tomar os mais diversos tipos de decisões gerenciais. Decisões sobre venda, compra, realocação de produtos, alteração no fluxo gerencial e uma infinitude delas. Assim, obter-se métodos eficazes para coletar, pré-processar dados de diversas fontes e armazená-los em uma única estrutura é de extrema importância https://www.i-scoop.eu/manufacturing-industry/ 15 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 para a organização. Uma vez estes dados coletados e armazenados podem gerar informação e conhecimento que poderão ser utilizados como suporte à tomada de decisão. Mas afinal, qual é a diferença entre dados, informação e conhecimento? Conhecendo os tipos de dadosVocê viu até o momento que falamos sobre diversos tipos de dados, sua estrutura e forma de armazenamento. Você conhece os tipos de dados que citamos? Sabe o que eles têm em comum e diferente? Utilizando como exemplo um cenário de dados onde se deseja armazenar dados sobre produto e estoque, veremos alguns exemplos de tipos de dados. RELACIONAL Esta representação em forma de tabelas é um tipo de dado estruturado, no qual você inicialmente precisa definir a estrutura e depois armazenar os dados. Confira a seguir a representação gráfica dos quadros em um SGBDr e também o código que representa sua criação em um banco de dados físico. QUADRO 1 – MODELO RELACIONAL E COMANDO SQL RELATIVO FONTE: O autor (2018) 16 Análise de Dados usando Dashboards JSON JSON, em seu significado teórico é "Javascript Object Notation", que nada mais é que o formato mais leve conhecido de transferência/intercâmbio de dados. Além de ser um formato de dados são utilizados por diversos bancos de dados NoSQL. A mesma representação do modelo relacional é vista no quadro abaixo utilizando JSON. QUADRO 2 – EXEMPLO JSON [ { "id_produto":1, "descricao":"Jaleco", "preco":"3.50", “estoque”:30 } ] FONTE: O autor (2018) CSV O termo “CSV” tem como significado Comma Separated Values, ou seja, é um arquivo separado por vírgula (ou ponto e vírgula). Assim como o JSON é um formato de arquivo para realizar o intercâmbio de dados com um banco de dados ou uma planilha entre aplicativos. id_produto, descricao, preco, estoque 1,Jaleco, 3.50,30 2,Chapéu, 13.50,100 3,Calça , 33.50,130 17 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 XML O XML é uma linguagem de marcação muito similar ao HTML, vem do inglês eXtensible Markup Language, é recomendada pela W3C para a criação de documentos com dados organizados hierarquicamente. Tradicionalmente, os sistemas utilizam XML para realizar integração de dados, dentre muitos, o mais famoso é o sistema da receita federal. QUADRO 3 - EXEMPLO DE XML <?xml version="1.0"> <produtos> <produto id=1> <descricao>Jaleco</descricao> <preco>Jaleco</preco> <quantidade>Jaleco</quantidade> </produto> <produtos> FONTE: O autor (2018) Dados, informação e conhecimento De fato, os dados são de extrema importância para a tomada de decisão estratégica. Mas afinal, apenas ter os dados já implica conhecimento e informação. E estes termos são termos muito próximos o que faz com que em muitos momentos sejam confundidos com apenas um. A figura a seguir ilustra o que cada um representa. 18 Análise de Dados usando Dashboards FIGURA 4 – DADOS, INFORMAÇÃO E CONHECIMENTO FONTE: O autor (2018) • Dados: são fatos e números que transmitem algo específico, mas que não são organizados de maneira formal. Assim não têm contexto, de modo geral, pode-se dizer que dados são a informação de uma maneira bruta. Na definição de Setzer (1999), um dado é necessariamente uma entidade matemática e, desta forma, é puramente sintático. Isto significa que os dados podem ser totalmente descritos através de representações formais, estruturais. São ainda quantificados ou quantificáveis, eles podem obviamente ser armazenados em um computador e processados por ele. Dentro de um computador, trechos de um texto podem ser ligados virtualmente a outros trechos, por meio de contiguidade física ou por "ponteiros", isto é, endereços da unidade de armazenamento sendo utilizados, formando assim estruturas de dados. Ponteiros podem fazer a ligação de um ponto de um texto a uma representação quantificada de uma figura, de um som, entre outros. • Informação: para que os dados se tornem informações, eles devem ser contextualizados, categorizados, calculados e condensados, deste modo a informação são os dados organizados. De um modo geral, pode-se dizer que a informação é quando se traz um sentido ao dado. Na visão de Angeloni (2003), as informações são apresentadas de acordo com dados, trazendo a eles um significado. As informações então são dados dotados de relevância e propósito. A informação nasce a partir resultado do encontro de uma situação de decisão com um conjunto de dados, ou seja, são dados contextualizados que visam a fornecer uma solução para determinada situação de decisão. Uma informação pode ser considerada como dados 19 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 processados e contextualizados, no entanto, há autores que defendem que a informação é considerada como desprovida de significado e de pouco valor, sendo ela matéria-prima para se obter conhecimento. • Conhecimento: acontece sobre os dados e as informações, é obter discernimento, critério, apreciação prática de vida e experiência. O conhecimento possuído por cada indivíduo é um produto de sua experiência e engloba as normas pelas quais ele avalia novos insumos de seu entorno. Para Davenport (2000), o conhecimento é a informação mais valiosa e, consequentemente, mais difícil de gerenciar. É valiosa precisamente porque alguém deu a informação a um contexto, um significado, uma interpretação; alguém refletiu sobre o conhecimento, acrescentou a ele sua própria sabedoria e considerou suas implicações mais amplas. Qual é a diferença entre dado, informação e conhecimento? 2 A História E As Estratégias De Análise De Dados Apesar de vivermos na era da informação, a história dos dados como ferramenta de suporte à tomada de decisões se deu no início na década de 1940, na Universidade de Illinois, com o trabalho intitulado A Logical Calculus of the Ideas Immanent in Nervous Activity (Um cálculo lógico das ideias imanentes na atividade nervosa), desenvolvido por McCulloch e Walter Pitts. Na ocasião estabeleceram uma analogia entre o processo de comunicação das células nervosas vivas e o processo de comunicação por transmissão elétrica e propuseram a criação de neurônios formais. Ao final da pesquisa, conseguiram demonstrar que era possível conectar os neurônios formais e formar uma rede capaz de executar funções complexas. As pesquisas sobre redes neurais evoluíram até 1960, com a Rede Perceptron, criada por Frank Rosenblat, no entanto, baseado, principalmente, pelos argumentos dados por Mavin Minsky em seu livro Perceptron, no qual de maneira simples criticou por não haver poder computacional suficiente naquela época. Tratando-se de dados, em junho de 1970, o pesquisador Edgar Frank Ted Codd IBM mudou a história dos bancos de dados apresentando o modelo 20 Análise de Dados usando Dashboards relacional no artigo intitulado "A Relational Model of Data for Large Shared Data Banks", em que discutiu uma proposta de armazenamento de dados, que seriam armazenados em tabelas que devem estar relacionadas. A figura a seguir mostra um exemplo de como esta estratégia funciona, e funciona tão bem que é utilizada amplamente nos mais diversos sistemas comerciais, desde frente de caixa, bancários, ERPs, entre outros. FIGURA 5 – MODELO RELACIONAL FONTE: <www.wikiwand.com/en/Relational_model>. Acesso em: 10 dez. 2018. Na mesma década, Bill Inmon começou a discutir os principais fatores em torno do Data Warehouse e o termo já começou a existir nos anos 1970. Inmon trabalhou extensivamente na aprimoração de suas experiências em todas as formas de modelagem de dados relacionais. O trabalho de Inmon, como pioneiro do Data Warehousing, foi o livro intitulado “Building the Data Warehouse” um dos principais livros sobre tecnologia e bibliografia obrigatória para todo profissional de análise de dados. É impossível falar da história dos dados e não falar de Ralph Kimball, que com sua publicação “The Data Warehouse Toolkit”, divide com Inmon a paternidade dos conceitos sobre o que é um Data Warehouse, mais sobre as arquiteturas e propostas das duas personalidades será discutidono Capítulo 2. http://www.wikiwand.com/en/Relational_model 21 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 FIGURA 6 – RALPH KIMBALL E BILL INMON FONTE: O autor (2018) Em 1996, Usama Fayad publicou o artigo “From Data Mining to Knowledge Discovery in Databases”, que aborda justamente como extrair conhecimento de bases de dados, como a partir de um conjunto de dados enxergar além do que as ferramentas tradicionais permitem visualizar. Este artigo é um dos principais da literatura atual por além de fazer uma revisão sobre os principais métodos de extração de conhecimento, ainda descreve as principais etapas de KDD (Knowledge Discovery in Databases), que são mostradas pela figura a seguir e serão discutidas em mais nível de detalhes no Capítulo 3. FIGURA 7 – ETAPAS DE EXTRAÇÃO DO CONHECIMENTO FONTE: Fayad (1996) Com a arquitetura proposta por Fayad, com o banco de dados de Cood e a proposta de um modelo multidimensional de Inmon, o mundo digital passou por severas mudanças, principalmente com a Web 2.0 e a geração de dados em grande escala. No entanto, tais tecnologias jamais deixaram de ser utilizadas e mesmo as mais novas técnicas de análise de dados levam sua essência. Em 2018 são diversas novas terminologias e tendo como objetivo facilitar o seu entendimento. 22 Análise de Dados usando Dashboards Quem foram os principais nomes da história dos dados e quais as contribuições deles? Big Data Big Data é um termo que tem como tradução literal mais próxima “grandes quantidades de dados” e é também o termo instituído pela IBM para determinar a grande quantidade de dados gerados pelos sistemas de informação. Hoje em dia Big Data representa muito mais do que isso, representa uma verdadeira transformação digital, em que quanto mais dados uma empresa puder coletar, mais poder de tomada de decisão poderá obter. Em sua principal definição, Big Data é conhecido como um cenário que contém a soma de volume, velocidade e variedade, que, quando juntos, geram um valor de informação com veracidade. O volume é o coração, afinal para se obter um cenário de Big Data é necessário ter um grande volume de dados, a velocidade se remete à informação chegar ao tempo mais rápido nas mãos do tomador de decisão e a variedade está relacionada tanto aos dispositivos que coletam dados (sistemas de informação, GPS, câmeras de vídeo, dispositivos IoT, entre outros), quanto à estrutura de tais dados (estruturados, semiestruturados e não estruturados). Há uma grande dificuldade na definição de quão grande deve ser um con- junto de dados para que seja considerado um volume de dados em Big Data. A pri- meira coisa a ser levada em consideração é a própria integração de existir volume, velocidade e variedade, bem como a definição dada por Edd Dumbill (DUMBILL, 2012), que afirma que Big Data são dados que excedem a capacidade de proces- samento dos sistemas de banco de dados convencionais, em que o volume de dados é muito elevado e necessitam de processamento rápido, o que não é provi- do pelas arquiteturas de bancos de dados tradicionais e para ganhar valor a partir desses dados, é necessário escolher uma forma alternativa para processá-los. Data mining A mineração de dados (data mining) é uma operação que leva o seu nome a sério, neste caso, a mina não é de ouro, mas de dados. É um processo de lapidar dados brutos e extrair conhecimento a partir deles. Este processo pode operar diretamente em fontes de dados brutas sob a qual deverá realizar uma severa etapa de pré-processamento de dados, no entanto, é recomendado que 23 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 seja realizado a partir de uma fonte de dados já integrada e limpa, como, por exemplo um Data Warehouse. SGBD Anteriormente falamos sobre Edgar Frank Codd e sua importante contribuição para a comunidade digital, com o desenvolvimento do modelo relacional de armazenamento. Tratar de SGBD é tratar de sistemas que gerenciam o armazenamento de tais dados. Sistemas Gerenciadores de Bancos de Dados, ou Sistemas Gerenciadores de Bancos de Dados Relacionais são, de maneira simples, um software que é responsável por gerenciar o acesso aos dados. O SGBD é responsável por fazer a interface entre os dados com aplicações e usuários, encapsulando-os, garantindo sua segurança e integridade. Os SGBDs têm como característica o relacionamento entre tabelas, que implementam os modelos relacionais. Dentre os principais SGBDs do mercado, destacam-se o SQL Server e Oracle entre os pagos, já entre os livres existe o MySQL e o PostgreSQL. Toda vez que você utiliza um software aplicativo, um sistema de informação, os dados estão sendo armazenados por um SGBD. Data Warehouse Data Warehouses tem como tradução literal “Armazém de dados” e segue sua função que é armazenar dados. No entanto, você deve se perguntar, qual é a diferença entre ele e um banco de dados? Ainda que um Data Warehouse possa utilizar um banco de dados relacional, o objetivo deste armazém é armazenar dados para se realizarem consultas. De uma maneira simples, são bancos de dados analíticos, projetados para armazenar os dados de fontes diversas, já transformados e preparados para serem explorados por aplicações de tomada de decisão. Os Data Warehouses também podem ser compreendidos como centralizadores de dados, uma vez que são alimentados por diversas fontes de dados. Pense em uma organização que utilize um software de gestão comercial, gestão financeira e complementarmente utilize as redes sociais. Em um Data Warehouse é possível concentrar todos esses dados, integrando-os e permitindo que sejam as mais diversas análises. Inclusive para aplicações de mineração de dados e construção de Dashboards. 24 Análise de Dados usando Dashboards Neste momento não se assuste! O próximo capítulo é dedicado para Data Warehouse e o Capítulo 3 para Dashboards. NoSQL Em cenários de dados, um componente relativamente atual são os bancos de dados NOSQL (Not Only SQL – Não apenas SQL), que surgiram nos anos 2000, a partir da ascensão de grandes empresas da Internet como Amazon e Google, que cada vez mais produziam dados gradativamente, tendo a necessidade de escalabilidade em escrita e principalmente leitura de dados após o aumento de tecnologias voltadas à nuvem. De modo geral, a principal vantagem do emprego de bancos de dados NOSQL é a utilização do particionamento dos dados horizontal, ao contrário dos bancos relacionais, que os fazem verticalmente, isto significa que em bancos NOSQL, os dados podem ser distribuídos de maneira independente sem que seja necessário enviar todo um conjunto para um determinado nó ou disco. Através do modo com o qual os dados são armazenados em NOSQL, é possível que os dados sejam particionados e distribuídos de forma mais ágil do que os tradicionais bancos relacionais, esta diferença fica visível através da figura a seguir. FIGURA 8 – DISTRIBUIÇÃO DE DADOS RELACIONAL X NOSQL FONTE: O autor (2018) Neste momento, você pode estar um pouco assustado com tanta terminologia e coisa nova. No entanto, gostaríamos de tirar alguns minutos para falar sobre carreira. Afinal, dominar tanta tecnologia deve ter algum benefício, não é mesmo? 25 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 As profissões e os dados As profissões ligadas à tecnologia mudaram a última década, desde novas profissões criadas, até mesmo a alterações na maneira com que esses profissionais atuam (horários flexíveis, home office, entre outros). O fato é que os profissionais de tecnologia irão continuar em alta e dominando o mercado de trabalho nos próximos anos, porém é estar consciente que são diversas áreas e que estão em constante mutação. Ao contrário do que se previa, os avanços trazidos pela informática e a automação têm ampliado a oferta de vagas de emprego nos mais diversos ramos. Por sinal,especialistas apontam que há muitas profissões ainda desconhecidas, que vão surgir nesta ou nas décadas seguintes, por conta das demandas e inovações a serem experimentadas pela sociedade. Mas há cargos que já estão sendo oferecidos e procurados pelas empresas. A seguir veremos algumas das principais carreiras das tecnologias em ascensão, que estão diretamente ligadas à análise de dados, mas é importante destacar que em algumas empresas alguns destes cargos estão agrupados e em outras desmembrados em outras profissões e níveis de carreira (Trainne, Júnior, Sênior, Pleno). Por isso, o profissional deve se preparar, investir na sua formação e estar atento às oportunidades. Cientista de dados Quando se fala de geração de dados em larga escala, Big Data, Data Mining, este será o profissional responsável por extrair conhecimento desses dados. É o profissional que alia conhecimentos de software, a gestão comercial, estatística e matemática para encontrar soluções para entender o que interessa e pode ser útil para os negócios dentro do imenso volume de informações que circula na internet. Este tipo de profissional está apto a atuar em empresas de vários setores, onde muitas vezes um outro pré-requisito pode ser o domínio sobre o segmento de atuação da empresa. No setor de ciência de dados os salários estão entre R$ 9 mil e R$ 15 mil, além de ter uma grande procura mundial por este profissional, a escassez leva a grandes empresas investirem até mesmo na criação de robôs para codificarem. FONTE: <https://www.tecmundo.com.br/internet/123114-ia-google-cria-codi- go-melhor-desenvolvido-criadores.htm>. Acesso em: 1 nov. 2018. Administrador de banco de dados Tendo como nome mais famoso DBA (Database Administrator), o administrador de banco de dados é o profissional responsável por cuidar de todos os fatores que envolvem os bancos de dados de uma organização, desde a tecnologia que está sendo implementada, até mesmo, em alguns casos, saber https://www.tecmundo.com.br/internet/123114-ia-google-cria-codigo-melhor-desenvolvido-criadores.htm https://www.tecmundo.com.br/internet/123114-ia-google-cria-codigo-melhor-desenvolvido-criadores.htm 26 Análise de Dados usando Dashboards se o ar-condicionado está funcionando bem e que o servidor não irá desligá-lo por conta disso. O salário de DBA varia entre R$4,7 mil até R$15 mil, destacando-se para a profissão um aumento de 88% quando se trata da carreira de DBA júnior. Analista de business intelligence É o profissional responsável por controlar e analisar as iniciativas do cliente no ambiente digital, bem como seus indicadores e metas. É o responsável por realizar análises micro e macroscópicas do mercado a fim de otimizar a gestão dos negócios. A partir da análise de dados, o profissional de BI define novos padrões e melhores práticas de desenvolvimento, além de identificar bases de dados que serão fontes de informação para o crescimento da empresa. Um profissional especializado em business intelligence é um dos mais procurados pelos mais diversos setores da indústria, desde bancos até mesmo companhias biomédicas. O salário de um profissional deste setor varia em torno de R$ 5 mil até R$20 mil. Diretor de transformação digital É o profissional que lidera as iniciativas relacionadas à atualização das empresas no mundo digital. Trabalha com e-commerce, marketing digital e Tecnologia da Informação (TI), buscando conexões com consumidores que utilizam a internet e as redes sociais. Este tipo de profissional atua principalmente em grandes empresas de varejo e bancos. Salários podem chegar até a R$ 65 mil para os mais bem qualificados. Gerente de expansão em TI É o perfil profissional que projeta o desenvolvimento de produtos e negócios (funções integradas e programa as abordagens com base em dados de mercado, tecnologia e infraestrutura), combinando engenharia, design, análise, gerenciamento de produtos, operações e marketing. O foco é sempre a área digital. É um profissional requisitado por grandes organizações e startups. Salários podem ir de R$ 15 mil a R$ 25 mil. Analista de mídias digitais Como vimos até agora e continuaremos cada vez mais as redes sociais estão impactando na tomada de decisão das empresas. O profissional de mídias digitais 27 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 Segurança da Informação: esta é uma área que foge do foco do nosso livro e do curso, mas note que até o momento foram abordadas as mais diversas profissões e as mais diversas fontes de dados. Assim, o profissional responsável por garantir a segurança no armazenamento e no acesso a dados o torna uma importante profissão na atualidade, bem como uma profissão em ascensão nos próximos anos. Este profissional consiste na proteção da informação de vários tipos de ameaças para garantir a continuidade do negócio, minimizar o risco ao negócio, maximizar o retorno sobre os investimentos e as oportunidades de negócio. Tem como perfil, o profissional que gerencia as oportunidades de aplicação de tecnologia e interage com outras áreas de maneira a assegurar a segurança das informações da empresa. O salário na área de segurança da informação varia de R$4 mil até R$20 mil. FONTE: : <https://computerworld.com.br/2018/11/05/9-carreiras-de- ti-em-alta-salario-chega-a-r-28-mil/> e <https://www.baguete.com.br/ noticias/26/09/2012/sp-salario-do-dba-jr-subiu-88>. Acesso em: 21 jan. 2019. tem como ferramenta de trabalho as redes sociais, como o Facebook, o Twitter, o Instagram, entre outras. Objetivo é conhecer o máximo possível dos usuários e criar perfis de consumidores para oferecer a eles o que buscam. Chances ampliadas para quem tem formação básica em marketing e comunicação social. Este tipo de profissional atua nas mais diversas organizações, onde os salários podem chegar a R$ 6 mil. Excel – A eterna ferramenta de business intelligence Esta poderia ser apenas uma menção honrosa a uma ferramenta que completa mais de 30 anos de existência, mas não! É real! O Microsoft Excel se torna quase imbatível quando o tema é geração de relatórios. Neste exato momento milhares de pessoas estão gerando relatórios no Excel enquanto outras milhares estão estudando como fazê-lo. O Visicalc, desenvolvido por Dan Bricklin, conhecido como o “pai das planilhas eletrônicas”, foi o precursor das planilhas eletrônicas e também pela utilização das planilhas dos computadores pessoais. Na época, os computadores, que existiam custavam cerca de R$15 mil reais, também não existia a internet (pelo menos não como a conhecemos hoje), com https://computerworld.com.br/2018/11/05/9-carreiras-de-ti-em-alta-salario-chega-a-r-28-mil/ https://computerworld.com.br/2018/11/05/9-carreiras-de-ti-em-alta-salario-chega-a-r-28-mil/ 28 Análise de Dados usando Dashboards poucos softwares de gestão e assim, afinal, para que comprar um computador? Nesse sentido, as planilhas eletrônicas justificaram o investimento e o uso das planilhas eletrônicas nas organizações passaram a justificar o investimento, pois além de armazenarem os dados sobre a gestão das empresas, tornaram-se as primeiras ferramentas de inteligência de negócios e suporte à decisão. No entanto o ano agora é 2018, passam mais de 30 anos desde a criação das planilhas e há uma imensidão de ferramentas computacionais para gestão de empresas e suporte à decisão. Por que então, o Excel ainda é tão utilizado? São diversos fatores que fazem a ferramenta obter tanto número de usuários. O principal, com certeza, é a sinergia do Pacote Office com o sistema operacional Windows, que apenas na versão 10 alcançou 270 milhões de usuários em todo mundo. Segundo Marques (2017), o Excel é a ferramenta que é imensamente utilizada pelas empresas para os mais diversos tipos de funcionalidades. Independentemente do porte ou segmento da organização, esta é uma ferramenta altamente difundida no ambiente empresarial, pois oferece infinitaspossibilidades para manter os processos automatizados e organizados. Os recursos do Excel permitem que o usuário faça cálculos complexos, principalmente aqueles que envolvem a área financeira de um negócio. Além disso, é possível criar uma planilha de gastos, uma planilha para controlar o fluxo de caixa, calcular preços dos produtos e serviços oferecidos pela empresa, registrar os pagamentos, toda a parte contábil da organização, entre outras funcionalidades. Outro fator muito impactante no uso da ferramenta é o fato das empresas comumente utilizarem softwares ERP para realizar a gestão de todos os processos organizacionais, como, por exemplo, o SAP. Este tipo de software é informalmente chamado de “engessado”, pois ao invés de se adaptar às rotinas da empresa é a empresa que se adapta ao funcionamento do software. O fato é que muitas vezes as empresas precisam gerar relatórios específicos que atendam às suas necessidades particulares e estes relatórios não são fornecidos pelo software ERP, a empresa pode até fazer uma requisição e solicitar que seja implementado, mas isso envolve tempo e alto custo. Em contrapartida, os ERPs fornecem diversos relatórios sobre os módulos (financeiro, comercial, gestão, estoque, entre outros) e estes mesmos relatórios podem ser importados no formato de planilhas eletrônicas. Uma vez tendo acesso aos dados através de planilhas, estes são integrados, também em planilhas. Cabe à empresa gerar seus próprios relatórios, importando várias planilhas e consolidando e explorando utilizando os mais diversos recursos. A figura a seguir mostra uma visão geral dos gráficos gerados pelo Excel, pode-se notar que há uma diversidade de gráficos: pizza, barra, geográfico, pivot table, entre muitos. 29 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 Neste momento, você deve se perguntar: Eu já conheço tudo sobre Excel! Por que então tanta tecnologia se o Excel resolve todos os meus problemas? O Excel é de fato um canivete suíço dos dados, mas utilizá-lo, com certeza, não é o melhor caminho para a análise dos dados. O próprio exemplo da importação de diversas planilhas de um ERP já nos demonstra que deve haver um grande esforço humano para realizar um relatório de integração. Com o Excel o esforço é dobrado, afinal não há mecanismos computacionais para a integridade dos dados armazenados, ou seja, isto tem que ser feito manualmente, levando em conta principalmente quando se trata de diversas fontes. Neste livro aprenderemos como fazer a integração de diversas fontes de dados, utilizando os métodos e ferramentas corretas, que uma vez integradas ampliam o poder de tomada de decisão. E, falando nelas na próxima seção, você verá todo o poder que estas ferramentas possuem no apoio à tomada de decisão. FIGURA 9 – GERAÇÃO DE RELATÓRIOS COM O EXCEL FONTE: O autor (2018) 30 Análise de Dados usando Dashboards HAN, Jiawei; PEI, Jian; KAMBER, Micheline. Data mining: concepts and techniques. Elsevier, 2011. 3 Aplicações De Dashboards E Business Intelligence Até o momento, você já aprendeu o que é SGBD, Data Warehouse, Big Data, Data Mining, mas afinal em meio a tanta tecnologia, o que é business intelligence? A grande questão que vimos até agora é que os dados estão mudando a maneira que nos relacionamos com a tecnologia e principalmente, entre nós mesmos. Sobre tudo que falamos até o momento, imagine o volume dos dados gerados revertidos em prol das organizações, que um gestor consiga ter na palma de sua mão os dados de todos os sistemas da empresa (ERP, Vendas, Mobile) integrados aos dados de suas redes sociais, permitindo a tomada de decisões sobre as mais diversas perspectivas, de forma simples, esse poder dos dados é business intelligence. O conceito de business intelligence já estava presente nas organizações e começou a ser conhecido na década de 1980, a partir de publicações realizadas pelo Gartner Group, uma importante empresa americana que desenvolve tecnologias e pesquisas relacionadas à tecnologia e inovação. Em sua tradução literal, business intelligence tem como significado “inteligência de negócios”, é uma tecnologia que permite a transformação de dados em informações quantitativas e importantes para a tomada de decisão da empresa. Segundo Tyson (1986), é um processo que envolve a coleta, análise e validação de informações sobre concorrentes, clientes, fornecedores, candidatos potenciais à aquisição, candidatos à joint-venture e alianças estratégicas. Incluem também eventos econômicos, reguladores e políticos, que tenham impacto sobre os negócios da empresa. O processo de business intelligence analisa e valida todas essas informações e as transforma em conhecimento estratégico. Para Olszak e Ziemba (2007), em uma organização, em nível estratégico, os sistemas de business intelligence tornam possível a definição de metas e objetivos, assim como o seu respetivo acompanhamento, permitindo a realização de diferentes relatórios. Em nível tático permitem otimizar ações futuras e modificar aspectos organizacionais, financeiros ou tecnológicos do desempenho da organização, a fim de ajudar a alcançar os seus objetivos estratégicos de uma forma mais eficaz. Por último, em nível operacional, os sistemas de 31 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 business intelligence são utilizados para executar análises ad-hoc e responder a questões relacionadas com operações das atividades da organização. Será difícil encontrar uma organização bem-sucedida que não tenha aproveitado os sistemas de business intelligence para o seu negócio. Como tal, tem se assistido a uma crescente procura de sistemas de business intelligence em diversas áreas, como o transporte, os serviços bancários, a saúde, a indústria de distribuição e fabricação, o retalho, as telecomunicações, entre outros. Contudo, as necessidades das organizações variam conforme a natureza do seu negócio e, assim, as necessidades dos sistemas de business intelligence variam conforme os requisitos. Neste momento, você deve pensar que o conceito de business intelligence se aplica apenas a grandes organizações, com milhares de funcionários e que só haverá este cenário quando se interligam todos os dados. Na verdade, mesmo que seja um conceito amplo e pode ser aplicado nos mais diversos segmentos e nos próprios setores de uma empresa, como venda, marketing, faturamento, entre outros. Da maneira que falamos até agora faz com que você pense que business intelligence trata apenas do fluxo organizacional dos dados, porém não é apenas um conceito relacionado à administração de empresas, mas sim a um conjunto de técnicas e processos, alinhados com tecnologia que transformam uma grande quantidade de dados brutos em informação e conhecimento que podem auxiliar no suporte à tomada de decisão. O processo de geração de conhecimento através de business intelligence é realizado pelo emprego de tudo que foi visto até agora, desde a coleta dos dados até a extração de conhecimento deles. A figura a seguir mostra um pouco desse processo. A etapa inicial é sempre dada pela coleta dos dados. Geralmente, a principal fonte dos dados são os sistemas transacionais utilizados pela empresa (ERP, CRM, SAAS), mas pode haver outras fontes integradas. Posteriormente é realizada a etapa de Data Warehousing, em que os dados são integrados e limpos e armazenados em um banco de dados analítico (armazém de dados). Uma vez estes dados estando armazenados, haverá uma infinitude de maneiras de explorá-los, seja através de consultas OLAP, ou pela realização de processos de Data Mining. Não se assuste, nem tenha pressa, vamos aprender a construir nosso próprio Data Warehouse, no Capítulo 2 e como extrair conhecimento, no Capítulo 3. 32 Análise de Dados usando Dashboards FIGURA 10 – PROCESSO DE BUSINESS INTELLIGENCE FONTE: O autor (2018) Entre as diversas maneiras deexplorar um Data Warehouse é por meio de Dashboards, afinal o objetivo deste livro é que você consiga gerar Dashboards interativos integrando as mais diversas aplicações. Você já sabe que as pessoas e organizações estão gerando uma gama de informações diariamente, trazendo diversos desafios de armazenamento e descoberta de conhecimento. Neste tópico iremos discutir os principais cases que envolvem a análise de dados. A fralda e cerveja Toda vez que se fala de Data Mining, Big Data ou Business Intelligence é impossível deixar este case de lado, sendo este quase folclore na história dos dados. Esta história começa com combinações perfeitas em uma compra, como quem compra pão → compra manteiga ou quem compra café → compra leite. No entanto, ainda que os processos de extração de conhecimento permitam extrair tal informação vem a pergunta: Isso não é óbvio? O fato é que uma das maiores redes de hipermercados norte-americana coletou os dados e armazenou no formato na forma de Basket. Ou seja, para cada venda são registrados quais produtos foram vendidos em um formato binário. O quadro a seguir mostra como esses dados são formatados. 33 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 QUADRO 4 – MODELO DE ARMAZENAMENTO “BASKET” Código da Compra MAÇÃ SORVETE CARNE BOLACHA C001 1 1 1 1 2 1 0 0 1 3 0 1 1 0 4 1 1 1 1 5 1 0 0 1 6 0 1 1 0 FONTE: O autor (2018) Nos anos 1990, a então rede de hipermercados, a partir da análise de um grande volume de informações, foi possível gerar uma associação entre dois produtos: fralda e cerveja. FIGURA 11 – O CASO DA FRALDA E DA CERVEJA FONTE: <https://www.slideshare.net/mrm0/beer-diapers-and- correlation-a-tale-of-ambiguity>. Acesso em: 10 dez. 2018. Obter tal informação foi de extremo valor para a tomada de decisão, afinal permite além de maior divulgação dos produtos, uma realocação dos produtos próximos no mercado. Quando se vai além dos produtos vendidos e se cria um Dashboard com a integração desses dados com o aspecto temporal (dia da semana, hora, mês etc.) e com perfil de clientes (idade, sexo etc.), a análise https://www.slideshare.net/mrm0/beer-diapers-and-correlation-a-tale-of-ambiguity https://www.slideshare.net/mrm0/beer-diapers-and-correlation-a-tale-of-ambiguity 34 Análise de Dados usando Dashboards chegou à conclusão que homens adultos (pais) que compram fraldas (para seus filhos) às sextas-feiras, também compram cervejas. Este além de ser um dos principais cases da área de análise de dados, serve como motivação para que você possa enxergar o mundo com novos olhos. Afinal, você já parou para se perguntar: ● Como as livrarias recomendam livros? ● Como as músicas são recomendadas no Youtube? ● Como o Google sabe a próxima palavra que eu ia digitar? ● Como eu consigo fazer isso no meu sistema? Como funcionam as regras de associação na prática? A descoberta de regras de associação em bancos de dados relacionais ou data warehouses é uma das tarefas de mineração de dados (data mining) que possui o maior número de aplicações práticas. Este artigo inicia uma série de trabalhos que terão o objetivo principal de demonstrar como esta nova tecnologia pode ser aplicada em diferentes áreas de conhecimento. A área de Ciência da Computação que tem por objetivo oferecer estratégias automatizadas para a análise de grandes bases de dados de empresas, procurando extrair das mesmas informações que estejam implícitas, que sejam previamente desconhecidas e potencialmente úteis. A Mineração de Dados surgiu no início dos anos 1990, a partir da reunião de ideias provenientesde diferentes áreas como inteligência artificial, banco de dados, estatística, e visualização de dados. A principal motivação para o surgimento da mineração de dados encontra- se no fato de as organizações estarem armazenando de forma contínua uma enorme quantidade de dados a respeito de seus negócios nas últimas décadas. O conhecimento obtido pelas técnicas de mineração de dados é geralmente expresso na forma de regras e padrões. Devido a sua grande aplicabilidade, as regras de associação encontram-se entre um dos mais importantes tipos de conhecimento, que podem ser minerados em bases de dados. Estas regras representam padrões de relacionamento entre itens de uma base de dados. Uma de suas típicas aplicações é a análise de transações de compras: market basket analysis, um processo que examina padrões de compras de consumidores para determinar produtos que costumam ser adquiridos em conjunto. Um exemplo de regra de associação, obtida a partir da análise de uma base de dados real, que registra os produtos adquiridos por famílias cariocas em suas compras mensais, é dado por: {minipizza semipronta} Þ {suco de fruta em pó}. Esta regra de associação indica que as famílias que compram o produto {minipizza semipronta} tem maior chance de também adquirir 35 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 o produto {suco de fruta em pó}. Introdução às regras de associação O problema da mineração de regras de associação foi primeiramente apresentado no ano de 1993. Nesta época, as regras eram mineradas a partir de bases de dados de transações (ou bases transacionais). As definições formais de regra de associação e base de dados transacional são apresentadas a seguir. Seja I = {I1,I2,...In} um conjunto de itens. Seja D uma base de dados de transações, em que cada transação T é formada por um conjunto de itens onde T Í I. Cada transação possui um identificador chamado TID. Uma regra de associação é uma implicação da forma A Þ B, onde A e B podem ser conjuntos compostos por um ou mais itens, A Ì I, B Ì I, e A C B = Æ. A é chamado de antecedente da regra e B é chamado de consequente. Dada uma regra A Þ B, a sua medida de suporte (Sup) representa a porcentagem de transações da base de dados que contêm os itens de A e B, indicando a relevância dela. Já a sua medida de confiança (Conf) representa, dentre as transações que possuem os itens de A, a porcentagem de transações que possuem também os itens de B, indicando a validade da regra. O problema da mineração de regras de associação, conforme definido originalmente em 1993, consiste em encontrar todas as regras de associação que possuam suporte e confiança maiores ou iguais, respectivamente, a um suporte mínimo (SupMin) e uma confiança mínima (ConfMin), especificados pelo usuário. Para explicar o funcionamento deste processo, será apresentado um exemplo baseado numa pequena base de dados que armazena as compras efetuadas por clientes de um supermercado hipotético (listagem a seguir). TID Produtos comprados ------------------------------------------------------ 1 biscoito, cerveja, chá, salaminho 2 cerveja, couve, linguiça, pão, queijo 3 café, brócolis, couve, pão 4 brócolis, café, cerveja, couve, pão, salaminho 5 brócolis, café, couve, pão, refrigerante 6 couve, linguiça Observe que cada registro da base de dados armazena a relação de produtos adquiridos por um cliente específico. Um exemplo de regra de 36 Análise de Dados usando Dashboards associação que poderia ser minerada nesta base de dados, através da utilização de uma ferramenta de data mining, é dado por: {cerveja} Þ {salaminho}. Note que duas das seis transações que compõem a base contêm os produtos {cerveja} e {salaminho}. Desta maneira, o suporte da regra {cerveja} Þ {salaminho} pode ser calculado da seguinte forma: 2 ¸ 6 = 33,33%. Observe agora que na base de dados, existem duas transações que contêm os produtos {cerveja} e {salaminho} juntos e três transações que contêm o produto {cerveja}. A confiança da regra {cerveja} Þ {salaminho} pode então ser calculada da seguinte maneira: 2 ¸ 3 = 66,67%. Este valor indica que 66,67% dos consumidores que compraram {cerveja} também compraram {salaminho}. Outro índice estatístico comumente utilizado para definir o grau de interesse de uma regrade associação é denominado lift. O lift de uma regra de associação A Þ B indica quanto mais frequente se torna B, quando A ocorre. Esta medida é computada por: Lift(A Þ B) = Conf(A Þ B) ÷ Sup(B). O lift da regra hipotética {cerveja} Þ {salaminho} é dado por: Conf({cerveja} Þ {salaminho}) ÷ Sup({salaminho}) = 66.67% ÷ 33.33% = 2. O resultado deste cálculo indica que os clientes que compram {cerveja} têm uma chance duas vezes maior de comprar {salaminho}. Os primeiros softwares para mineração de regras de associação começaram a ser desenvolvidos em meados da década de 1990, ainda em ambiente acadêmico. Hoje em dia já existem algumas dezenas de ferramentas comerciais capazes de minerar este tipo de padrão, desenvolvidas por grandes empresas. As ferramentas para mineração de regras de associação funcionam, tipicamente, da seguinte maneira: o usuário especifica a base de dados que deseja minerar e estabelece valores mínimos para as medidas de interesse como o suporte, a confiança e o lift (muitas ferramentas utilizam ainda outras medidas de interesse para avaliar as regras de associação). Em seguida, a ferramenta executa um algoritmo que analisa a base de dados e gera como saída um conjunto de regras de associação com valores de suporte e confiança superiores aos valores mínimos especificados pelo usuário. Note que este processo é diferente do utilizado pelas aplicações OLAP e pelos métodos estatísticos tradicionais, em que o especialista testa a sua hipótese contra a base de dados. No caso da mineração de dados, as hipóteses e os padrões são automaticamente extraídos da base de dados pelas ferramentas. FONTE: <https://www.devmedia.com.br/data-mining-de-regras- de-associacao-parte-1/6533>. Acesso em: 19 out. 2018. 37 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 O presidente e os dados Você, com certeza, sabe que Barack Obama venceu a eleição no ano de 2008 e também repetiu o feito no ano de 2012, pode até saber que o Hit “Yes, We Can” bateu recorde de acessos no Youtube, o que você talvez não saiba é que houve muita coleta, pré-processamento e, principalmente, muita análise de dados por trás dessa trajetória. Grandes volumes de dados foram coletados e processados para futuramente serem analisados nas campanhas. Nas eleições presidenciais de 2008, a equipe de Barack Obama atribuiu a cada eleitor norte-americano pontos baseados na probabilidade de aquela pessoa realizar duas ações distintas e essenciais para a sua campanha: preencher uma cédula de votação e, mais importante, esta cédula ser um voto para o democrata. Estes pontos eram derivados de um volume de dados sem precedentes, gerado por um contínuo trabalho de pesquisa. Para cada debate semanal por estado norte-americano, os call centers da campanha conduziam de 5 mil a 10 mil entrevistas curtas que rapidamente verificavam as preferências do eleitor, além de mil entrevistas em versão longa. Ao realizar análises em cima de tais dados, obteve-se mais de 100 variáveis que permitiram à equipe de governo pautar os rumos da campanha e deu um ótimo resultado na campanha de 2012. Já para as eleições de 2012, a quantidade de pessoas destinadas para realizar análises foi cinco vezes maior e se multiplicou por cinco em relação ao ano anterior. Esta equipe realizou medições a partir de uma megabase (uma base de dados de grandes dimensões), podendo determinar, por exemplo, que um jantar com o presidente Obama e o ator George Clooney era o ideal para arrecadar fundos entre mulheres de 40 e 49 anos. Análises detalhadas deste estilo permitiram ao candidato alcançar cifras recordes de arrecadação. Além disso, o Big Data foi muito importante na hora de conhecer a intenção de votos real no estado onde o triunfo do Obama era mais incerto, entre eles, Ohio. E por fim, o resultado foi certo, Obama conseguiu se reeleger. Você deve se perguntar, em 2016: Por que não funcionou? Em um primeiro momento, temos que ter em mente que estamos em uma revolução tecnológica. Assim como Gordon G. Moore afirmou em 1965, na conhecida Lei De Moore “o número de transistores dos chips teria um aumento de 100%, pelo mesmo custo, a cada período de 18 meses”, o que queremos dizer é que a tecnologia muda, e o que é novidade hoje pode ser passado em questão de pouco 38 Análise de Dados usando Dashboards tempo, e com relação aos processos de coleta e análise de dados não será diferente. Apenas para não deixar de lado a eleição do atual presidente americano Donald Trump em 2016 com a empresa Cambridge Analytica, que fez a análise de 198 milhões perfis de eleitores que utilizaram a estrutura da empresa Amazon. Dados o novo petróleo A análise de grandes quantidades de dados desestruturados é uma das quatro grandes tendências da tecnologia e, segundo Anjul Bhambhri, VP de projetos de Big Data da IBM, isto será tão importante para o mundo quanto o petróleo. “Todo clique, tweet, site navegado está sendo analisado. E estes dados abrem oportunidades inimagináveis. Big Data é o novo óleo, o novo recurso natural”, afirmou. De acordo com a companhia, em 2020, o mundo terá cerca de 40 zetabytes (21 zeros) de dados para serem analisados contra 7 zetabytes atuais. Isto dará a chance para que as empresas consigam fazer análises semânticas de sentimentos, gostos e prever necessidades. Além do Big Data, outras três tecnologias foram apontadas como essenciais para os próximos anos: computação na nuvem, mobilidade e social. Para o vice-presidente do centro de desenvolvimento da IBM, Stephen Farley, a competitividade está focada em “analisar o consumidor (Big Data), armazenar os dados dos clientes de forma simples e barata (cloud computing), com acesso às informações na ponta dos dedos (mobilidade) e comunicando as descobertas (social)”. “O mundo está se tornando programável e o desenvolvimento de softwares baseados nestas tendências dominará as empresas. Estas novidades estão redesenhando a economia mundial”, afirmou. “Todas as companhias terão de adotar estas tecnologias se quiserem oferecer diferenciais”, completou. FONTE: <https://olhardigital.com.br/noticia/big-data-e-o-novo-petroleo,- afirma-executiva-da-ibm/34986>. Acesso em: 21 jan. 2019. 39 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 Elementar, meu caro Watson! Quando se fala em coleta, pré-processamento e análise de dados, surgem novas plataformas de armazenamento na nuvem. Grandes empresas da tecnologia têm investido nesse segmento como uma forma de oferecer processamento pago por hora, são exemplos o Azure (Microsoft), Google Cloud, Amazon AWS e o IBM Watson. Este último tem se destacado em pesquisas acadêmicas, inclusive em um case recente e nacional. Nos últimos anos, o Brasil foi marcado por dezenas de escândalos de corrupção, bem como uma série de notícias sobre o combate a ela. Criado em 2007 pelo Ministério da Justiça do Brasil, por meio do Departamento de Recuperação de Ativos e Cooperação Jurídica Internacional da Secretaria Nacional de Justiça, o Laboratório de Tecnologia contra Lavagem de Dinheiro (LAB-LD) apoia investigações complexas sobre corrupção e lavagem de dinheiro. Utilizando o IBM Watson, investigações financeiras – que dependem de dados como movimentações e extratos de contas bancárias, troca de e-mails, registros telefônicos e de empresas, além de informações vindas de redes sociais – podem ser realizadas com muito mais facilidade. Neste caso, foi possível utilizar a ferramenta para consolidar diversas fontes de dados e em cima destes dados realizar buscas semânticas e por palavras-chave. Este sistema inteligente explora o conceito de metadados sobre apelidos de suspeitos, parceiros e cúmplices, bem como gírias de atividades criminosas, um exemplo disso é ao registrar o termo ‘farinha’ retornar informações sobre cocaína. No passado, as investigações exigiam analistas altamente qualificados que gastavam milhares de horasdebruçados em planilhas, e-mails e publicações em redes sociais. Hoje, os investigadores gastam menos tempo na identificação de dados relevantes e se empenham mais nas análises (BARBOSA, 2016). Com a ajuda das soluções da IBM, a REDE-LAB alcançou o objetivo de automatizar os processos de mineração de dados complexos — permitindo que os investigadores acelerassem seu trabalho de forma significativa. Segundo o coordenador do projeto, Roberto Zaina, da IBM (2014, p. 2 ), “Estimamos que o IBM Watson Explorer nos permitirá acelerar exponencialmente nossas investigações. A identificação de ativos ilícitos nos obriga a avançar mais rapidamente do que os criminosos, e as nossas soluções da IBM estão nos ajudando a fazer exatamente isso”. 40 Análise de Dados usando Dashboards Considerações Finais Prezado aluno! Chegamos ao fim do Capítulo 1, esperamos que tenha sido proveitoso para você. Durante este capítulo você pôde aprender sobre o volume de dados gerados no mundo, espero que tenha aproveitado esse momento para refletir sobre esse tipo de aplicação no seu cotidiano e tenha tido boas ideias de aplicações. Durante o transcorrer do livro, discutimos tópicos atuais sobre análise de dados, pois serão importantes para a compreensão e discussão dos métodos utilizados. Nós também conhecemos os principais nomes da história dos dados e suas contribuições tecnológicas, mas não iremos parar por aqui, tudo que você viu será colocado em prática no Capítulo 2. Referências ANGELONI, M. T. Elementos intervenientes na tomada de decisão. Ci. Inf, v. 32, n. 1, p. 17-22, 2003. BARBOSA, R. A. Tecnologia da informação na análise de crimes de lavagem de dinheiro. 2016. DAVENPORT, T. H. Ecologia da informação: por que só a tecnologia não basta para o sucesso na era da informação. Futura, 2000. DUMBILL, Edd. What is big data? An introduction to the big data landscape. oreilly.com, http://radar.oreilly.com/2012/01/what-is-big-data.html, 2012. EFRAIM, T. et al. Decision support systems and intelligent systems. Upper Saddle River, NK: Prentice Hall, 2001. FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996. HAN, J.; PEI, J.; KAMBER, M. Data mining: concepts and techniques. Elsevier, 2011. IBM. Ministério da Justiça identifica ativos ilícitos com ajuda do IBM Watson Explorer. Disponível em <ftp://ftp.software.ibm.com/la/documents/gb/br/ Mnisterio_da_Justica_-_Big_Data.pdf>. Acesso em: 15 nov. 2011. http://ftp.software.ibm.com/la/documents/gb/br/Mnisterio_da_Justica_-_Big_Data.pdf http://ftp.software.ibm.com/la/documents/gb/br/Mnisterio_da_Justica_-_Big_Data.pdf 41 A Explosão dos Dados: Como Gerenciá-Los? Capítulo 1 INMON, W. H. Building the data warehouse. John Wiley & sons, 2005. KIMBALL, R.; ROSS, M. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons, 2011. LACKMAN, C. L.; SABAN, K.; LANASA, J. M. Organizing the competitive intelligence function: a benchmarking study. Competitive Intelligence Review: Published in Cooperation with the Society of Competitive Intelligence Professionals, v. 11, n. 1, p. 17-27, 2000. LIEBOWITZ, J. Strategic intelligence: business intelligence, competitive intelligence, and knowledge management. Auerbach Publications, 2006. MARQUES, M. Por que o excel é tão utilizado nas empresas? 2017. Disponível em: <http://marcusmarques.com.br/pequenas-e-medias-empresas/porque- excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168- 962528535.1541963168>. Acesso em: 15 out. 2018. MELLO, R. dos S. et al. Dados semiestruturados. XV Simpósio Brasileiro de Banco de Dados, 2000. OLSZAK, C.; ZIEMBA, E. Approach to building and implementing business intelligence systems. Interdisciplinary Journal of Information, Knowledge, and Management 2, 2007: 135-148. PETERSON, E. T. Web analytics demystified. [S. l.]: Celilo Group Media and CafePress, 2004. p. 268. SETZER, V. W. Dado, informação, conhecimento e competência. DataGramaZero Revista de Ciência da Informação, n. 0, p. 28, 1999. TURBAN, E. et al. Business Intelligence: um enfoque gerencial para a inteligência do negócio. Bookman, 2009. TYSON, K. W. M. Business intelligence-putting it all together. Leading Edge Pub, 1986. http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168 http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168 http://marcusmarques.com.br/pequenas-e-medias-empresas/porque-excel-e-tao-utilizado-empresas/?_ga=2.64767663.1824415046.1541963168-962528535.1541963168 42 Análise de Dados usando Dashboards CAPÍTULO 2 Data Warehouse e Business Intelligence A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes objetivos de aprendizagem: • saber como funciona o do processo de análise de dados, modelagem multidimensional e os tipos de modelos; • conhecer o que é um Data Warehouse e seus elementos e o que é um cenário de Business Intelligence; • conhecer todas as etapas de construção, desde a etapa de coleta, transformação dos dados e alimentação de um Data Warehouse; • realizar a extração, transformação e carga e a modelagem multidimensional; • armazenar dados em um Data Warehouse; • realizar consultas OLAP em cenários de business intelligence. 44 Análise de Dados usando Dashboards 45 Data Warehouse e Business Intelligence Capítulo 2 1 Introdução Ao Data Warehouse E Business Intelligence Finalizamos o capítulo anterior falando sobre Business Intelligence (BI), seu poder e possibilidades na geração de conhecimento. Business intelligence, muitas vezes, é difícil de ser compreendido, pois não se trata de uma única ferramenta, mas de diversas técnicas de extração e manipulação. Na definição que surgiu em 1989, por Howard Dresner, business intelligence é uma metodologia pela qual se estabelecem ferramentas para obter, organizar, analisar e prover acesso às informações necessárias aos tomadores de decisão das empresas para analisarem os fenômenos acerca de seus negócios, ou seja, business intelligence não é uma ferramenta, mas uma metodologia, que pode empregar uma ou diversas ferramentas de acordo com o cenário de sua aplicação. A escolha de uma estratégia, ou de um conjunto delas, depende muito do cenário em que será aplicado e caberá ao profissional responsável conhecimento sobre o cenário e sobre as estratégias. Infelizmente, nosso livro teria que ter mais de 10.000 páginas para poder explicar todos os cenários possíveis de aplicações de dados desde cenários de venda, compra, empréstimos, financiamentos, operadoras de crédito, bolsa de valores, redes sociais, enfim, uma infinitude deles. Porém, vamos aprender a partir de agora como coletar esses dados e quais são as ferramentas para processá-los e analisá-los, permitindo a construção de fantásticos dashboards analíticos. Vamos estudar o processo de Data Warehousing, no qual você compreenderá os principais métodos de coleta de dados, as principais estratégias de processamento, bem como o armazenamento e posterior análises multidimensionais. Uma vez realizado este processo, diversos processos de business intelligence podem ser integrados, como mineração de dados e geração de dashboards. O processo de geração do conhecimento geralmente inicia com os bancos de dados relacionais. Estes bancos de dados estão no mercado desde os anos 1970 e têm sua eficiência inegável, principalmente, no que se refere à segurança e integridade dos dados armazenados. No entanto, a arquitetura desses bancos de dados foi projetada para a realização de transações bancárias, e mesmo que não seja um sistema bancário, diz-se que um sistema de gestão realizauma transação, que nada mais é do que um conjunto de funções, executadas num banco de dados, que o usuário percebe como uma única ação. Por exemplo, ao realizar uma venda, nem sempre se trata de inserir um registro na tabela de venda, por exemplo, insere os registros de produtos vendidos, dá baixa no estoque e insere o valor do saldo. Todas estas funções caracterizam-se como 46 Análise de Dados usando Dashboards uma única transação. Os bancos de dados tradicionais que trabalham orientados a transações são chamados de OLTP (Online Transaction Processing – Processamento de Transações On-line), porém, conforme havíamos abordado anteriormente, o foco desta abordagem são as transações. Muitas vezes, os conceitos de Business Intelligence e Sistemas de Apoio à Decisão são confundidos com os próprios sistemas gerenciais, afinal ainda que utilizem uma arquitetura OLTP, tais sistemas permitem a extração de relatórios gerenciais: produtos mais vendidos, clientes que mais compram, saldo total. O que você precisa entender é que relatórios extraídos de sistemas de gestão não é business intelligence, relatórios são relatórios. Vamos explicar isso detalhadamente para ficar claro no decorrer deste capítulo. Se você já teve a disciplina de banco de dados ou já estudou boas práticas, com certeza, aprendeu as formas normais e respectivamente que a normalização nos obriga a criar mais tabelas. Uma vez tendo criadas mais tabelas, isto ajuda a amplificar a garantia da integridade dos dados armazenados, no entanto há um problema: as consultas. Uma vez que ao normalizar um banco de dados se criam diversas tabelas, as consultas mais complexas necessitam de junções. Ou seja, conectar várias tabelas para responder a estas consultas. Em um banco de dados pequeno, o aumento do tempo de execução das consultas utilizando junções pode não ser notado, no entanto, sabendo que um cenário de business intelligence irá integrar diversos setores da empresa, com um volume significativo de dados, quanto mais tabelas existirem, maior será o tempo de execução. A partir de agora você conhecerá um pouco mais sobre a construção de um projeto de business intelligence, que acontece durante a concepção de um Data Warehouse, visto na próxima seção. Tendências para business intelligence em 2019 Em nosso livro estamos discutindo as estratégias para construção de um business intelligence. No entanto, estamos vendo abordagens tradicionais, consolidadas pela academia e mercado. Também é importante levar em consideração o cenário de inovação tecnológica mundial e como essa inovação implica cenários de business intelligence. Para isto, nesse texto, trazemos duas abordagens, as principais estratégias (conceitos e metodologias) e as principais ferramentas. 47 Data Warehouse e Business Intelligence Capítulo 2 Os últimos anos têm sido de inovações na área de análise de dados, além de aprimoramentos de produtos e serviços, levando as organizações a uma análise sobre como priorizar uma abordagem moderna de business intelligence que conduza a empresa a obter o máximo valor dos seus dados. Pensando no quem vem pela frente, Adriano Chemin, vice-presidente da Tableau para América Latina, empresa de software para análise visual de dados, reuniu as principais tendências de business intelligence para os próximos anos, são elas: Inteligência artificial explicável Que a inteligência artificial (AI) veio para ficar é fato, graças ao aprendizado de máquina empresas conseguem criar clusters de comportamento, identificar tendências de mercado, avaliar riscos, tomar decisões rápidas e automatizar milhões de atividades que antes consumiam tempo e recursos. Não dá para negar que o AI abriu um mundo de possibilidades para o universo de BI, e que muitas das evoluções que estamos vendo (e que veremos nos próximos anos) foram conquistadas graças às possibilidades oferecidas pela tecnologia de AI. Por outro lado, quanto mais dependemos da AI, maior é nossa desconfiança quanto à credibilidade das recomendações baseadas em modelos, já que grande parte das ferramentas que utilizam aprendizado de máquina não fornecem uma forma transparente de ver os algoritmos ou a lógica por trás das decisões e das recomendações. É aí que vem o AI Explicável, a prática de compreender e apresentar exibições transparentes dos modelos de aprendizado de máquina. Se é possível questionar seres humanos, por que não ter a mesma opção com o aprendizado de máquina na tomada de decisões? A AI Explicável permite que o corpo executivo, cientistas e analistas de dados entendam e questionem a forma como o aprendizado de máquina é aplicado no dia a dia de uma empresa, gerando mais transparência e confiabilidade nos resultados. Linguagem natural transforma a dinâmica das organizações O processamento de linguagem natural (NLP) está quebrando paradigmas em todos os campos da tecnologia e mudando a forma como as pessoas trabalham, ouvem música, solicitam informações sobre o tempo e, cada vez mais, obtém respostas sobre um painel de dados. A habilidade de obter respostas por meio de um comando de voz permite que pessoas com todos os níveis de conhecimento possam questionar seus dados, e ao perguntar, obter uma resposta concreta e veloz. Paralelamente, a linguagem natural está evoluindo para dar suporte à conversação analítica, ou seja, a conversa 48 Análise de Dados usando Dashboards entre o ser humano e o sistema sobre seus dados. O sistema aproveita o contexto da conversa para entender a intenção por trás da consulta do usuário e promover o diálogo, criando uma experiência de conversação cada vez mais natural. À medida que a linguagem natural evolui com o setor de BI, ela abrirá portas para a adoção de análise e ajudará a transformar ambientes de trabalho em operações autônomas e impulsionadas por dados. O NPL eleva o patamar analítico das organizações como um todo, permitindo que um CEO atarefado, ou um analista de marketing sem tanta destreza com análises numéricas obtenham as respostas que necessitam para executar seu trabalho de forma precisa. Análise acionável: mobilidade dos dados impulsiona ações Velocidade é palavra-chave na vida de quem trabalha com análise de dados na atualidade, seja no acesso às informações ou no tempo de resposta para executar a ação necessária, tudo precisa estar alinhado em um único fluxo de trabalho e disponível no lugar e no dispositivo que o cientista/analista de dados desejar para que ele possa agir rápido. Pensando nisso, fornecedores de plataformas de BI oferecem análise em dispositivos móveis, análise incorporada, extensões de painel e APIs que incorporam a análise ao local onde as pessoas executam seu trabalho evitando a troca de aplicativos (ou servidores) desnecessária e melhorando o fluxo de trabalho. A mobilidade permite, por exemplo, que o CEO de uma empresa acompanhe a evolução de seus negócios de qualquer lugar do mundo, e acione sua equipe em tempo real. A incorporação da análise em fluxos de trabalho diversos, leva ao que chamamos de análise acionável, um avanço poderoso que promete atender às necessidades analíticas dos mais diversos departamentos, e empoderar funcionários de diferentes setores por meio de dados contextualizados e sob demanda. Storytelling é a nova linguagem dos dados Dados são a forma mais poderosa de comunicar uma descoberta, apresentar um insight ou expor seus resultados, e nada como o storytelling para gerar aquele impacto positivo. Storytelling analítico, ou contar uma história por meio de dados, é uma das tendências mais marcantes do mundo do BI, e uma forma muito mais atraente de expor todas as etapas das suas análises de forma acionável e fácil de entender. À medida que as empresas criam uma cultura de análise, contar histórias com dados tem ganhado novos significados. Ao invés de apresentar uma conclusão única, o storytelling promove a criação de
Compartilhar