Prévia do material em texto
1 2 Sumário UNIDADE I – Fundamentos de Big Data ................................................................................ 4 INTRODUÇÃO ........................................................................................................................ 5 1. O QUE É BIG DATA? ...................................................................................................... 6 1.1 Tipos de Big Data ....................................................................................................... 8 1.2 A importância e o volume do big data ............................................................... 10 2. OS 5 V’S DO BIG DATA................................................................................................ 12 2.1 Razões para implantar um Big Data ................................................................... 16 3. DESAFIOS PARA SE EXTRAIR O VALOR DO BIG DATA ................................... 20 3.1 Áreas em potencial de aplicação do Big Data ................................................. 21 4. CASES DE SUCESSO DE APLICAÇÃO DO BIG DATA ........................................ 24 5. ARMAZENAMENTO DE DADOS COM O BIG DATA ............................................. 34 5.1 O que é a computação na nuvem ........................................................................ 34 5.1.1 Aplicações da Cloud Computing ................................................................. 35 5.1.2. Exemplos de computação em nuvem: SaaS, PaaS e IaaS ................... 36 Referências Bibliográficas ............................................................................................... 40 UNIDADE II – Business Analytics .......................................................................................... 43 INTRODUÇÃO ...................................................................................................................... 44 1. O QUE É BUSINESS ANALYTICS.............................................................................. 45 1.1. Introdução à Data Mining ..................................................................................... 46 1.1.1. Linhagens do Data Mining ............................................................................ 48 1.1.2. Aplicando Data Mining em um ambiente de negócio ............................ 50 1.1.3 Principais características de Data Mining, BI e Big Data ...................... 51 2. AS DIFERENTES METODOLOGIAS DE BUSINESS ANALYTICS ...................... 54 2.1 Business Intelligence x Business Analytics .................................................... 57 3. ÁREAS DE NEGÓCIOS PARA A APLICAÇÃO DE BUSINESS ANALYTICS .... 59 3.1. Marketing Analytics ............................................................................................... 60 3.2. RH Analytics ............................................................................................................ 61 3.3. Financial Analytics ................................................................................................. 64 3.4. Fraud Analytics (Análise para Detectação de Fraudes) ............................... 67 3.5. Text Analytics .......................................................................................................... 70 3.6. Social Network Analytics ...................................................................................... 72 4. CERTIFICAÇÕES DE BUSINESS ANALYTICS ........................................................ 73 Referências Bibliográficas ............................................................................................... 78 UNIDADE III – Ferramentas de Data Analytics e Big Data ............................................... 81 INTRODUÇÃO ...................................................................................................................... 82 3 1. O QUE É DATA ANALYTICS ........................................................................................ 83 1.1 Cultura de Data Analytics ...................................................................................... 83 1.2 Como funciona o Data Analytics? ....................................................................... 84 2. INTRODUÇÃO AO APRENDIZADO DE MÁQUINA (MACHINE LEARNING) ..... 86 2.1 O aprendizado de uma plataforma de Machine Learning ............................. 86 2.2 Abordagens de Machine Learning ...................................................................... 87 3. FRAMEWORK BIG DATA HADOOP ......................................................................... 88 3.1 Componentes base do Hadoop ........................................................................... 90 3.1.1 Hadoop 2.0 ......................................................................................................... 91 3.1.2 Funcionamento da arquitetura básica ........................................................ 93 3.1.3 Análise de dados ........................................................................................ 95 3.1.4 Onde se aplica o Hadoop? ............................................................................. 97 4. FERRAMENTAS DE BIG DATA E DATA ANALYTICS ........................................... 99 Referências Bibliográfica ............................................................................................... 105 UNIDADE IV – Alternativas em BD para BigData ............................................................. 107 INTRODUÇÃO .................................................................................................................... 108 1. O que são Banco de Dados NoSql .......................................................................... 109 1.1 Por que usar um banco de dados NoSQL? .................................................... 109 1.2 Estruturas ou Categorias de bancos de dados NoSQL .............................. 110 1.3 Principais Banco de dados NoSQL ............................................................. 114 1.4 Banco de dados SQL (relacional) x NoSQL(não relacional) ...................... 117 2. In-Memory Databases ................................................................................................. 120 2.1 Arquitetura do Banco de Dados In-Memory ................................................... 121 2.2 Tecnologia de Banco de Dados In-Memory .................................................... 122 3. ETAPAS PARA CRIAÇÃO DE UM PROJETO BIG DATA ................................ 124 3.1 Definição do Business Case ............................................................................... 127 3.2 Planejamento do Projeto ..................................................................................... 128 3.3 Definição dos Requisitos Técnicos .................................................................. 128 3.4 Criação de um “Total Business Value Assessment” ................................... 131 Referência Bibliográficas/ Referências OnLine ....................................................... 133 4 UNIDADE I – Fundamentos de Big Data Objetivos: Demonstrar as características e o conceito de Big Data; Entender as razões para se implantar o Big Data; Apresentar cases de aplicação do Big Data. 5 INTRODUÇÃO Nesta unidade será demonstrado as características e o conceito de Big Data, que é utilizado para descrever dados que possuem alto volume, velocidade e variedade. O Big Data aprimora os processos de trabalho dos usuários, ao obter interpretações rápidas e valiosas sobre as tendências do mercado, comportamento de consumo e oportunidades potenciais. Veremos também que com o Big Data é possível saber exatamente o que os clientes querem, estudando seus hábitos de consumo. O conhecimento das necessidades do cliente faz com que possa ser oferecido instantaneamenteo que ele deseja. Com o Big Data ´pode-se prevenir possíveis riscos para o negócio através das análises em tempo real de distintas variáveis do mercado. O grande diferencial do Big Data é auxiliar as organizações no conhecimento profundo dos seus negócios e as fazer perceber como chegar à combinação ideal de dados e informações sobre o cliente e o mercado, dados que favorecem a estratégia, eficácia, aceitação da proposta de valor e faz com que as empresas alcancem avanços na realização dos objetivos estratégicos da empresa. 6 1. O QUE É BIG DATA? O conceito de BIG DATA está sendo muito difundido atualmente em função das demandas dos diferentes tipos de dados que temos que armazenar diariamente. Outra definição é que BIG DATA se refere a um conjunto muito grande de dados que nenhuma ferramenta convencional de gerenciamento de banco de dados ou gerenciamento de informações consegue armazenar os diferentes tipos de dados existentes como: Texto; Sensores; Navegação Web; Áudio; Vídeo; Arquivos de Log; Centrais de ar condicionado entre outros. Agora imagine a quantidade imensa de dados que estamos gerando diariamente na internet, desde simples e-mail até infinitas mensagens em chats, tweets, curtidas, publicações de vídeos e imagens, posts em blogs e muito mais. Nossos smartphones também são fábricas de dados que produzem informações 24 horas por dia, e a Internet das Coisas (IoT) vai estender esse poder a todos os dispositivos que temos acesso. O objetivo do Big Data é extrair um grande volume de dados estruturados e não-estruturados, organizá-los e analisá-los a fim de se obter 7 insights para negócios e prever uma determinada situação. Pode-se dizer que os dados são extraídos de qualquer lugar. Abaixo estão listadas algumas origens: Redes Sociais – Facebook, instagram, twitter etc; Websites – Google, Portal de Notícias, Mapas etc; Sistemas – ERP, CMS, etc; Aplicativos – Posição Geográfica, Gosto Musical, Fotografia; Banco de Dados – da internet (externos), de empresas (internos); Pacote Office – Excel, Access, Word; Máquinas e acessórios tecnológicos. As organizações necessitam de uma tecnologia de armazenamento para guardar uma quantidade massiva que vem de diferentes plataformas, por exemplo: mensagens que enviamos, vídeo que publicamos, informações sobre o tempo, sinais de GPS, registros transacionais de compras on-line. Esses tipos de dados não possuem uma estrutura padronizada. Com isso, a utilização de um data center comum não é recomendada para armazenar esse tipo de informação, sendo a melhor solução para essa situação a aplicação de um Big Data. Com o auxílio de um Big Data, a empresa pode utilizar todos os dados coletados para realização de análises específicas com a finalidade de extrair conhecimento relevante para subsidiar as tomadas de decisão estratégicas dos negócios. Assim, as soluções de Big Data “tratam” os dados brutos até que se transformem em insights poderosos para a tomada de decisão. Para isso, são desenvolvidas a partir de algoritmos que capturam e cruzam dados de várias naturezas. Desse modo, uma montanha de dados soltos pode se tornar uma fonte valiosa de informação e conhecimento. O que caracteriza a arquitetura tecnológica envolvida no Big Data é sua capacidade de captura, armazenamento e análise muito superior à dos softwares de bancos de dados comuns. Para construir essa arquitetura, é preciso unir a TI aos Cientistas de Dados para focar esforços na solução de problemas empresariais por meio dos dados. 8 Uma das tecnologias centrais nessa revolução é a computação em nuvem, pois somente esse tipo de infraestrutura pode dar suporte ao armazenamento e processamento do Big Data. 1.1 Tipos de Big Data O Big Data pode ser encontrado em três formas: a. Estruturado b. Não estruturado c. Semi-estruturado a. Estruturado – Quaisquer dados que possam ser armazenados, acessados e processados na forma de formato fixo são denominados dados “estruturados”. Exemplo de dados estruturados: Tabela: Cliente Id_Cli Cpf_Cli Nome_Cli End_Cli Tel_Cli Cidade_Cli Limite_Cli 001 072387747-31 Monica Silva Rua Franca, 234 (44)999767611 Maringá R$5000,00 002 082387747-32 Arthur Fredagolli Rua Itália, 234 (44)988767612 Maringá R$1500,00 002 092387747-33 Regina Bezerra Rua Espanha, 234 (44)995667613 Cascavel R$8000,00 002 062387747-34 Augusto Santo Rua Inglaterra, 234 (44)888765614 Cascavel R$3000,00 b. Não estruturado – Qualquer dado com forma ou estrutura desconhecida é classificado como não estruturado. Além do tamanho ser grande, os dados não estruturados apresentam vários desafios em termos de processamento para extrair valores deles. Um exemplo é uma fonte de dados heterogênea que contém uma combinação de arquivos de texto simples, imagens, vídeos e etc. Hoje em dia as organizações têm muitos dados disponíveis, mas infelizmente não sabem como extrair valor disso, pois esses dados estão em sua forma bruta ou formato não estruturado. 9 Exemplo de dados não estruturados: O retorno de uma pesquisa realizada em um navegador. c. Semiestruturado - Os dados semiestruturados são uma forma de dados estruturado que não está de acordo com a estrutura forma dos modelos de dados associados com banco de dados relacionais ou outras formas de tabelas de dados, mas que contem tags ou outros marcadores para separa elementos semânticos e impor hierarquias de registros e campos dentro dos dados. Exemplo de dados semiestruturados: Dados pessoais armazenados em um arquivo XML <rec> <name> João Lima </name> <sex> Masculino </sex> <age> 35 </age> </rec> <rec> <name> Sonia R. </name> <sex> Feminino </sex> <age> 41 </age> </rec> <rec> <name> Regina F. </name> <sex> Feminino </sex> <age> 29 </age> </rec> <rec> <name> Cristina L. </name> <sex> Feminino </sex> <age> 26 </age> </rec> <rec> <name> Cicero A. </name> <sex> Masculino </sex> <age> 35 </age> </rec> 10 1.2 A importância e o volume do big data De acordo com o Instituto Gartner até 2020 é possível que haja um total de 40 trilhões de gigabytes de dados no mundo. São surpreendentes 2,2 milhões de terabytes de novos dados gerados todos os dias. A quantidade de dados gerados e armazenados diariamente, não suporta mais uma estrutura centralizada de processamento de dados, principalmente nas grandes organizações. O uso do Big Data nas organizações tem por objetivo principal conhecer o comportamento do consumidor, e saber os motivos que levam o cliente a se comportar de tal forma. Sendo assim, podemos dizer que o Big Data é importante para ajudar as empresas a analisar os seus dados e utilizá-los na identificação de novas oportunidades. Podemos observar que com a aplicação do Big Data nas organizações existem alguns benefícios que independente do modelo de negócios, são aplicáveis a quaisquer empresas, são eles: economia de tempo, redução de custos, otimização de ofertas, fornecimento de novos produtos, maiores lucros, clientes mais satisfeitos e decisões mais eficientes. Imagine em todos os e-mails, mensagens de Twitter, fotos e vídeos que circulam na rede a cada instante. Não se utiliza mais, apenas unidade de informação Terabyte (1.000.000.000.000 (1012), e sim Zettabyte (1.000.000.000.000.000.000.000 (1021) e Brontobyte ((1.000.000.000.000.000.000.000.000.000 (1027). Só no Facebook são 10 bilhões de mensagens, 4,5 bilhões de curtidas e 350 milhões de fotos compartilhadas todos os dias. A tecnologia do Big Data 11 serve exatamente para lidar com esse volume de dados, guardando-os em diferentes localidades, e juntando-os através de software. Portanto, a sua importância não gira em torno apenas de como ou quanta informação chega até você e sua empresa, mas sim os insights e osvalores gerados após análises. Essas analises, se utilizam de técnicas que não eram empregadas em uma escala empresarial. Os resultados ajudam em diversas decisões estratégicas do negócio. “O que mais importa não é se você tem os dados, mas sim como vai usá- los. […] A gente precisa entender que a pirâmide inverteu. As informações existem e precisamos saber interpretá-las rapidamente”. Fábio Sayeg, fundador e CEO da ZOLY. Para ter um resultado positivo, não basta apenas ter os dados, é necessário compreender todo o processo de gestão e análise dos mesmos (coleta, armazenamento, organização e análise, além de mantê-los sempre atualizados, transformado esses dados em informações relevantes para a organização. 12 2. OS 5 V’S DO BIG DATA O conceito Big Data então propõe formas de tratar os dados e retirar deles informações para serem utilizados estrategicamente e oferecer uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 V´s do Big Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valor. o Volume, se o Big Data se refere aos dados que circulam todos os dias, entre as organizações, certamente estamos falando de uma grande quantidade de dados. Aqui trata-se do Volume de dados mantidos e analisados por ferramentas matemáticas corretas que podem contribuir com informações valiosas, como perfis, tendências e etc. Diariamente usamos aplicativos de pagamento, de compras, de redes sociais, GPS, relacionamento, buscadores, comparadores de preços, aplicativos de saúde e bem-estar, especializados em atividades físicas, músicas e etc, tudo isso gera dados e metadados que serão agrupados para formar o “BIG” volume de dados a disposição das análises. a Velocidade, o mercado atual demanda por velocidade o tempo todo, e o Big Data é um conceito que não pode funcionar se não houver agilidade. A análise de dados deve ser instantânea, caso contrário as informações obtidas podem não ser úteis para a organização. Este V se refere à velocidade com que os dados são criados. São mensagens de redes sociais se viralizando em segundos, transações de cartão de crédito sendo verificadas a cada instante ou os milissegundos necessários para calcular o valor de compra e venda de ações. Esta tarefa demanda de arquiteturas de computação específicas e também softwares especializados para garantir que haja processamento adequado de dados para extração das informações necessárias. a Variedade, uma das boas qualidades do Big Data é a variedade de dados obtidos por meio de diversos caminhos, como documentos eletrônicos, e-mails, transações, etc. No passado, a maior parte dos 13 dados era estruturada e podia ser colocada em tabelas e relações. Hoje, 90% dos dados do mundo não se comportam dessa forma. Com o Big Data, mensagens, fotos, vídeos e sons, que são dados não- estruturados, podem ser administrados juntamente com dados tradicionais. Então o Big Data beneficia-se de dados originados em diferentes aplicações, de diferentes modelos, em mídias diferentes para compor efetivamente o seu volume de dados a ser aproveitado. Esta variedade é benéfica e desejável para o modelo, uma vez que nem sempre aplicações com estruturas de dados relacionais formais comportam tudo o que pode ser aproveitado para gerar conhecimento. a Veracidade, se o volume de dados disponíveis para análise é grande, certamente existe uma parcela da informação que não traz veracidade. Infelizmente, a confiabilidade dos dados, principalmente aqueles provenientes da rede, ainda não é 100% confiáveis. Um dos pontos mais importantes de qualquer informação é que ela seja verdadeira. Com o Big Data não é possível controlar cada hashtag do Twitter ou notícia falsa na internet, mas com análises e estatísticas de grandes volumes de dados é possível compensar as informações incorretas. A qualificação da fonte, a determinação de padrões, a confiabilidade do processo de captura e também, o processo de cruzamento de novos dados com outros existentes e sobretudo a compreensão dos dados capturados ajudam a definir a sua Veracidade é consequentemente o nível de confiabilidade da informação gerada. o Valor, o último V é o que torna Big Data relevante (o resultado do Big Data), de nada adianta um grande volume de dados, velocidade no processamento, fontes diferentes e dados verificados se estes não possuem, agregam valor ou justificam o esforço do processo de consegui-los. É importante que empresas entrem no negócio do Big Data, mas é sempre importante lembrar dos custos e benefícios e tentar agregar valor ao que se está fazendo. 14 Com o avanço de novos tipos de negócios, resultando em novos tipos de dados houve a necessidade de serem incluídos mais 2 V´s a Visualização e Variabilidade, no tratamento dos tipos de dados que possuem um Big Data. a Visualização, é fundamental no mundo atual, o uso de gráficos e tabelas para visualizar grandes quantidades de dados complexos é muito mais eficaz na transmissão de significados do que planilhas e relatórios repletos de números e fórmulas. a Variabilidade é diferente da variedade. Um café pode oferecer 6 misturas diferentes de café, mas se você obter a mesma mistura todos os dias e o gosto for diferente a cada dia, isso é variabilidade. O mesmo acontece com os dados, se o significado estiver mudando constantemente, isso pode ter um impacto enorme na homogeneização de dados. 15 Um estudo feito pela “Universe of Opportunities and Challenges” aponta que até 2020 o volume de dados gerados diariamente será de 40 trilhões de gigabyte. Especialistas estimam que um carro autônomo poderá gerar até 100 gigabytes por segundo. Á medida que o mundo vai ficando cada vez mais conectado com um número cada dia maior de dispositivos eletrônicos gerando, enviando e recebendo dados, esse número terá um aumento astronômico nos próximos anos. 16 2.1 Razões para implantar um Big Data A produção de dados cresce exponencialmente no mundo todo. As empresas buscam alternativas para utilizar corretamente essas informações. Ter a capacidade de analisar e atuar sobre os dados é cada vez mais importante. O ritmo do mercado atual exige que elas possam reagir rapidamente às mudanças nas demandas dos clientes e condições ambientais, e apenas com dados é possível tomar tais decisões complexas com o máximo de precisão. Podemos apresentar no mínimo 3 vantagens gerais para a aplicação do Big Data são elas: A primeira vantagem do Big Data é a capacidade de interpretar grande quantidade de dados de uma só vez. A segunda é a capacidade de analisar dados não estruturados, esta capacidade de trabalhar dados não estruturados permite ao Big Data analisar informações de diferentes fontes, aumentando assim sua abrangência. A terceira vantagem geral é a capacidade de interpretar tendências de eventos, auxiliando a visualização de situações futuras. Estas tendências podem ser de ordem econômica, de aceitação de produtos, ou até climáticas. O Big Data possui também vantagens específicas, Cordeiro (2017) apresenta as vantagens do Big Data em diferentes áreas de negócios: Serviços Financeiros por meio de análise de dados muitas instituições financeiras acompanham as manifestações emocionais dos clientes pelas mídias sociais, diagnosticando com antecedência as insatisfações e ganhando tempo para neutralizá-las antes da migração entre instituições, ou fechamento de contas, no caso dos bancos. Varejo por meio da coleta e análise de dados, empresas de varejo costumam identificar os hábitos e preferências de consumo de clientes e informações sociais e demográficas. Com isso, aumentam o número de vendas e elaboram programas de fidelidade mais atraentes. Outro exemplo é o levantamentode dados de antigos clientes e cruzamento com dados de produtos 17 preferidos por eles a partir disso, gera-se descontos em produtos específicos atraindo novamente o cliente. Saúde A geração de informações clinícas contribui para fortalecer a medicina de precisão, gerando diagnósticos mais exatos. Além disso, o Big Data pode auxiliar monitorando as manifestações de uma população em redes sociais e, dessa forma, prevendo possíveis casos de eclosão de epidemias e dando tempo às instituições de saúde se adequarem. Setor público com o cruzamento de dados de pessoas por meio de diferentes fontes, os gestores públicos podem identificar cenários de cri mes financeiros. Outra vantagem do Big Data é monitorar o nível de satisfação da população e gerar insights para implementação de novos projetos ou soluções para problemas detectados. Ensino análise de dados pode ajudar educadores a identificar alunos em risco e assegurar progressos dos alunos. Manufatura por meio da visão que o Big Data pode fornecer, os fabricantes podem aumentar a quantidade e qualidade da produção, minimizando o desperdício, criando valor e contribuindo para a lucratividade do negócio Outras atividades de negócios estão elecandas no artigo “O que é Big Data” publicado pela Oracle Big Data Solutions, são eles: Desenvolvimento de produtos Empresas como Netflix e Procter & Gamble usam big data para antecipar a demanda dos clientes. Eles criam modelos preditivos para novos produtos e serviços, classificando os principais atributos de produtos ou serviços passados e atuais e modelando a relação entre esses atributos e o sucesso comercial das ofertas. Além disso, a P&G utiliza dados e análises de grupos de foco mídias sociais, mercados de teste e lançamentos antecipados de lojas para planejar, produzir e lançar novos produtos. Manutenção Preditiva Fatores que podem prever falhas mecânicas podem estar profundamente relacionados a dados estruturados que abrangem milhões de entradas de log, dados de sensores, mensagens de erro e temperatura do motor. Ao analisar essas indicações de possíveis problemas antes que eles ocorram, as empresas podem implementar a manutenção de maneira mais econômica e maximizar o tempo de atividade de peças e equipamentos. Fraude e Conformidade Os cenários de segurança e requisitos de conformidade estão evoluindo constantemente. Big Data ajuda a identificar padrões em dados que indicam fraudes e agregar grandes volumes de informações para tornar os relatórios regulares muito mais rápidos. Machine Learning O machine learning é um dos assuntos mais comentados do momento. E os dados (especificamente, big data) são um dos 18 motivos para isso. Agora, somos capazes de ensinar Máquinas em vez de programa-las. A disponibilidade de big data para treinar modelos de machine learning permite que isso seja realidade. Eficiência Operacional A eficiência operacional nem sempre é notícia, mas é uma área em que o Big data está tendo o maior impacto. Com o Big data, você pode analisar e avaliar a produção, os comentários e as devoluções de cliente, assim como outros fatores para reduzir interrupções e antecipar demandas futuras. Big data também pode ser usado para melhorar a tomada de decisões de acordo com a demanda atual do mercado. Impulsione a Inovação O Big data pode ajudar a inovar, estudando interdependências entre seres humanos, instituições, entidades e processos e em, seguida, determinando novas maneiras de usar esses insights. Usando informações de dados para aprimorar as decisões sobre considerações financeiras e de planejamento. Examinar as tendências e o que os clientes desejam para oferecer novos produtos e serviços. Implementar um sistema de preços dinâmico. Existem infinitas possibilidades. Um estudo realizado pela consultoria McKinsey “ Big Data: The next frontier for innovation, Competition and productivity”, publicado na revista on line Cultura Analítica de 02/2018, mostra os potencias valores que são gerados a partir dos dados que serão coletados até 2020. No estudo os valores foram dividios em 5 formas: 1- O Big Data pode gerar um valor significativo por tomar informações verdadeiras e úteis com muito mais frequência. 2- As organizações criam e armazenam mais dados em forma digital, eles podem coletar informações de desempenho mais precisas e detalhadas sobre tudo, desde inventários de produtos até de doenças, portanto, expor a variabilidade e aumentar o desempenho. As principais empresas estão usando a coleta e análise de dados para realizar experimentos controlados para tomar melhores decisões de gerencimento; outros estão usando os dados para gerar previsões com o objetivo de ajustar suas estratégia de negócio em tempo de execução. 3- Em terceiro lugar, o Big Data permite uma segmentação cada vez melhor dos clientes, portando produtos e serviços cada vez mais personalizados. 4- As análises sofisticas podem trazer uma melhora significativa na toma de decisões e geração de insights. 19 5- Finalmente, o Big Data pode se usado para melhorar o desenvolvimento da próxima geração de produtos e serviços. Por exemplo, os fabricantes estão usando dados obtidos a partir de sensores incorporados em produtos para criar ofertas inovadoras de serviços pós-venda, como manutenção preventiva(medidas preventivas que ocorrem antes uma falha seja notada). 20 3. DESAFIOS PARA SE EXTRAIR O VALOR DO BIG DATA Conforme Brown (2019) no seu artigo, o Big Data está se tornando mais popular entre as empresas em todos os setores, mas a realização de um projeto de big data não é fácil. Ele descreve alguns desafios que as empresas enfrentam são eles: Gerenciar o crescimento de dados De acordo com o relatório “Digital Universe”, a IDC estima que a quantidade de informações armazenadas em sistemas de computação em todo o mundo dobre a cada dois anos, e a grande maioria dos dados não é estruturado. Para o gerenciamento e à análise, as empresas podem usar ferramentas como NoSQL, Hadoop, Spark e outros softwares analíticos de big data, bem como software de BI (Business Intelligence), Inteligência Artificial (IA) e aprendizado de máquina para obter as informações que precisam. Gerar insights rapidamente As empresas não querem apenas armazenar os dados que geram. Elas estão mais interessadas em usar big data para atingir seus objetivos tornando-as mais competitivas, mas para isso precisam obter insights e explorá-las rapidamente. As empresas já possuem a disposição ferramentas analíticas que os ajudarão a obter resultados em tempo real, respondendo as inovações do mercado o mais rápido possível. Recrutar talentos de Big Data Para desenvolver e gerenciar aplicativos que geram insights, as empresas precisam de profissionais com habilidades em big data. A demanda por especialistas em Big Data aumentou significativamente, juntamente com os salários oferecidos pelas empresas. Integrar fontes diversificadas de Big Data A grande variedade de dados faz da integração um dos maiores desafios da big data. De fato, os dados vêm de diferentes fontes: aplicativos de negócios, redes sociais, e-mails, documentos de funcionários e etc combinando todos esses dados harmoniosamente e usando-os para criar relatórios, e para esses usuários avançados, insights orientados por dados e 21 soluções de suporte à decisão empresarial podem ser muito difíceis. Validação do Dados A validação de dados também é um dos principais desafios do big data. Muitas empresas recebem dados semelhantes de sistemas diferentes, e esses dados às vezes são contraditórios. Proteger o Big Data A segurança também é uma preocupação importante no campo de big data. Dados de negócios podem ser atraentes para hackers, no entanto muitas empresas investem em medidas adicionaismais populares que incluem controle de acesso e identidade, criptografia e segregação de dados. Resistência Organizacional Além dos aspectos tecnológicos dos desafios de big data, os funcionários também podem representar um desafio de big data. Entre os principais desafios encontrados pelas empresas que tenham de lançar um projeto de big data, os três principais problemas são o alinhamento organizacional insuficiente, a falta de entendimento por parte dos gerentes, a falta de entendimento ou a resistência dos negócios. Para resolver esse desafio, é necessário, portanto, convencer os líderes de negócios da utilidade do Big Data e nomear um Diretor de Dados. 3.1 Áreas em potencial de aplicação do Big Data Existem áreas para exemplificar como o Big Data tem sido explorado no Brasil diante da dinamicidade da transformação digital são elas: a. Medicina de precisão A fusão entre o tratamento de grandes dados e tecnologias como realidade virtual, Internet das Coisas e aprendizado de máquina já vem sendo trabalhada pela comunidade médica brasileira. Por aqui, tal conjunção entre Big Data e saúde trará, em breve, novos recursos aos dispositivos vestíveis (wearables) já existentes nos hospitais nacionais. Isso abrirá a possibilidade de geração de centenas de informações clínicas que contribuirão para a consolidação da medicina de precisão no país. 22 b. Apólices de seguro A telemetria, é a tecnologia bastante usada na Fórmula 1 que permite a transmissão de informações detalhadas sobre o desempenho dos carros diretamente a uma central. Pois esse recurso, que é baseado em Big Data, já começa a ser usado por algumas seguradoras de veículos no Brasil. Esse uso do Big Data no Brasil ainda é incipiente, mas já há ao menos 2 empresas do setor que adotam esse sistema de forma bastante simples. O segurado instala um rastreador em seu automóvel, permitindo que toda a sua performance seja monitorada — velocidade média, tempo de frenagem, frequência de uso do automóvel, entre outros dados. É a partir do processamento dessas informações que se define, de forma personalizada), o valor da apólice. c. Gestão de tráfego Desde novembro de 2016, a cidade paranaense de Ivaiporã, localizada a cerca de 380 quilômetros de Curitiba, instalou um sistema que coleta dados das ruas em caráter de teste. Tal recurso identifica padrões e fornece previsões para a organização do tráfego. Essa consciência digital do movimento urbano determinará, por exemplo, o tempo ideal de fechamento dos semáforos, além de notificar mais rapidamente os agentes de trânsito em caso de acidentes. d. Comportamento do consumidor Vivo, Renner, Claro e Itaú Unibanco: essas são apenas algumas das companhias que usam a análise de dados para entender o comportamento de consumo do público. e. Oportunidades de investimento Atualmente, a maioria das corretoras de valores e consultorias financeiras do país adota sistemas inteligentes para cruzar dados macroeconômicos, como 23 taxa de juros e câmbio, dados de mercado, como balanços e demonstrações financeiras das empresas, e dados do próprio perfil de cada investidor, a fim de entregar sugestões de investimentos com alto potencial de retorno. Os próprios robôs investidores seguem essa tendência de uso de Big Data no mercado financeiro. Compra de ações, composição de carteira, entradas e saídas de tradings (investimentos especulativos): tudo é feito com base na mineração de dados. Estas potenciais áreas saem na frente com o uso do Big Data, otimizando seus planos de negócios produzindo informações gerenciais que expliquem tendências, bem como objetos inteligentes que atuem nestas empresas substituindo a força de trabalho humana em diversas funções. 24 4. CASES DE SUCESSO DE APLICAÇÃO DO BIG DATA A tecnologia big data tem influenciado todos os setores e organizações. Ao entender como o Big Data funciona, compreende-se a extensão de como ele se adequa a uma sociedade voltada para uma renovada arquitetura de informação. É nesse contexto que, os cenários previstos dos setores serão baseados de acordo como cada organização lida com os dados e se os possui. (DAVENPORT, 2014). Ao verificar a maneira que as organizações operam seus dados, elas foram classificadas em 3 estilos. Em empresas líderes, onde seu desempenho excedem as expectativas. Um exemplo é a Netflix e a Amazon, são companhias que baseadas nas preferências de seus usuários, serviram para o processamento dados, convertidos em vários padrões de comportamento e se consagraram na previsão de oferta de serviços. (DAVENPORT, 2014). As empresas desprovidas de dados, as quais não os tinham ou não eram bem estruturados, como por exemplo, as organizações de saúde onde mesmo que as anotações dos históricos dos pacientes estivessem em prontuários online, o texto não estruturado tinha déficit de anotações relativo aos pacientes, atrapalhando o desenvolvimento da instituição. (DAVENPORT, 2014). E por fim, as empresas que não utilizavam os dados para seu próprio benefício e nem dos seus clientes. Instituições como bancos, que utilizavam os dados sobre a movimentação bancária de cada cliente apenas para interpretar e oferecer serviços de marketing. (DAVENPORT, 2014). A primeira atividade realizada em big data foi protagonizada por empresas de produtos e serviços de Internet, e em startups que atuam na Internet e em setores semelhantes. Parte dessas empresas que contribuem são essenciais para a consolidação da ciência de dados. Cada avanço tecnológico foi devido a essas várias empresas existentes. Há algumas delas que são de notório sucesso é que afetam diretamente a natureza do BD. (DAVENPORT, 2014). São entidades significativamente catalisadoras da nova ordem de dados. Instituições como IBM, Facebook, Google e Amazon, são modelos tanto de como o que era 25 o antigo transitou para a o atual; e como empresas que surgiram desses novos cenários conseguiram se estabelecer. Uma empresa focada na tecnologia, a IBM desde 1880, vem se estruturando para a nova ordem mundial de conhecimento. Com os avanços da tecnologia, ela foi determinando seu espaço e contribuindo para a formação de nova informação no mundo. (IBM, 2016). Com a Tabulating Machine Company de Hollerith, em 1896, a IBM alavancou como a empresa de desenvolvimento de base tecnológica que movimentou as formações dos computadores e informações e que, até hoje é referência de tecnologia no mundo. (IBM, 2016) (IBM, 2016) Por ser uma empresa que se intitula como “empresa de tecnologia da informação do mundo”, a IBM se adequa aos novos embates de globalização, de forma que suas tecnologias sejam agentes de novas propostas. Acontece que, com a liberação de software atual, como a Apache fez com o Hadoop, permitiu a IBM se alinhar e escrever seus próprios estilos de manuseamento de dados. Criando banco de dados relacionais e multiplataformas em servidores assegurados por cloud computing. A IBM é uma das principais referências em software para o controle de informações de uma empresa. (DAVENPORT, 2014). A IBM defende que com o Big Data pode-se fazer o que quiser da forma que quiser. As diferentes quantidades de dados coletados podem gerar visões e resultados incríveis porque enriquece as iniciativas de análise que estão ocorrendo nas empresas atualmente. (ZIKOPOULOS et al., 2015). A IBM explica que a melhor maneira de utilizar o Big Data e seus serviços de gerenciamento é entender a origem dos dados, como fazer para analisá-los e aproveitá-los de forma que gere resultados analíticos e que consequentemente resultem insights para dentro da empresa. É dessa forma, que a empresa afirma, vem se adequando as demandas informacionais reais e atuais. (ZIKOPOULOS et al., 2015). 26 Criada em 2004 por Mark Elliot Zuckerberg e cofundadoreso Facebook começou quando Mark ainda frequentava a Universidade de Havard. A ideia era criar uma conexão virtual entre as pessoas que conviviam pelo campus da universidade. Assim, as pessoas que ingressassem no “TheFacebook” (chamado antigamente, na época do lançamento) criariam um perfil online onde seria possível colocar todas as informações pessoais e profissionais como desejassem. O Facebook é uma empresa que gerencia milhões de dados e é elevada a quantidade de mídias manipuladas diariamente. O site suporta diferentes formatos como fotos, vídeos, links, gifs e textos entre outras formas e formatos caracterizados pela a rede social. O que consagrou o Facebook foi o fato de ir a favor da tecnologia juntamente com a interatividade pessoal. Conseguindo definir um padrão de pensamento, vontades e necessidades e saber da predileção de cada usuário no Facebook conseguiu desencadear um novo tipo de estreitamento de serviço tanto entre as marcas quanto entre as empresas e pessoas integradas. (DAVENPORT, 2014). A empresa traz questões de privacidade preservadas e faz questão de notificar o usuário quanto à pretensão do uso de dados. Mas a verdade é que não se sabe realmente como esses dados são/serão utilizados. Mesmo ao concordar com o fornecimento de dados. Não se sabe o grau de privacidade real está que sendo controlado. E nem se são usados com um propósito “inofensivo”. (DAVENPORT, 2014). Uma organização responsável por vender produtos via internet, como livros, aparatos tecnológicos, utensílios gerais entre outras coisas. A Amazon é considerada a revolução do mercado e marketing digital. Seu alcance a nível mundial a consagra como a melhor loja virtual de vendas, direcionada aos clientes online. (DAVENPORT, 2014). Acompanhado a revolução da Internet, Jeffrey Bezos teve a ideia de criar um site de vendas enquanto trabalhava em uma grande empresa. Imaginou um novo negócio em que se baseava em produtos oferecidos online. Então 1994, resolveu 27 fundar a Amazon, criando o conceito de mercado online para certos tipos de artigos. (FUNDABLE, 2017). Por ser uma organização criada dentro dos parâmetros de uma diferente modelagem de dados, ela consegue estruturar um serviço onde as tendências possam ser controladas e observadas pelas preferências coletadas de dados da própria navegação do usuário. Quando se observa, por exemplo, o que o usuário pesquisou e se comprou, a partir desse ponto, são analisadas outras variáveis de linhas sugestivas de uma nova possível compra, ou de recomendação que poderá ser sugerida no futuro. Isso demonstra como a quantidade de dados coletados foi transformada, nesse sistema, uma nova proposta de marketing. (DAVENPORT, 2014). A Amazon se consolida dando manutenção em seus negócios constantemente, devido à sua arquitetura única, baseado em cloud computing criando seu banco de dados sobre os produtos. Constrói seu domínio na apropriação desses recursos, de forma singular. A premissa dessas tecnologias, como elas são organizadas e elaboradas, casam com a medida de sucesso que a fundamentou. (DAVENPORT, 2014; VELTE; VELTE; ELSENPETER, 2013). O sistema de recomendação (também utilizado nas ferramentas da Google) demonstra como as análises de dados, no caso a pesquisa de produtos, funcionam muito bem a partir de variáveis inseridas pela predileção de uma pessoa. Mostrando assim como o princípio do Streaming Service, que até então era pouco comum, se torna ferramenta chave para a projeção de excelentes serviços de compra e de divulgação. (DAVENPORT, 2014; VELTE; VELTE; ELSENPETER, 2013). A abrangência de sua tecnologia engloba tanto a infraestrutura quanto o produto final. Por ser o serviço mais amplo de nuvem, ao integrar cada uma de suas aplicações, alavanca a melhor criação de complementos existentes que podem ser integrados. O Streaming Service e o Cloud Computing faz a comunicação ser intensa; a virtualização ser imediata, o armazenamento ser de grande amplitude e a estruturação e mapeamento de dados serem agilmente transferidos e fornecidos pela internet. (VELTE; VELTE; ELSENPETER, 2013). 28 A Amazon é uma empresa transnacional de comércio dos Estados Unidos. Hoje, é uma empresa que vende de tudo um pouco. Ela tem se destacado cada vez mais pelo uso inteligente de tecnologia e Big Data. Recentemente, se tornou a segunda empresa americana a alcançar o valor de mercado de US$ 1 trilhão, o que deixa claro sua força. E nada disso teria sido possível sem o uso dos dados. Os algoritmos criados pela Amazon possuem principalmente a função de levar as ofertas mais personalizadas possível para cada pessoa. Resultado: cliente satisfeito, empresa vendendo mais. Através de Machine Learning e do armazenamento em cloud computing, eles aprendem como cada consumidor se comporta. É possível até prever que tipo de mercadoria o cliente poderia se interessar. No futuro, o objetivo é entregar produtos ideias para os clientes sem que eles tenham sequer pedido! É interessante ressaltar que a Amazon tem investido também em disponibilizar a mesma tecnologia que usam para outros e-commerces. Dessa maneira, comprovam sua eficácia em diversos níveis e mostram ainda como expandir a oferta de serviços com o Big Data. Fundada em 1998, seus idealizadores Larry Page e Sergey Brin com a visão de organizar toda a informação disponível e torná-las úteis. A Google implementa o mais satisfatório serviço visto na atualidade. Sua criação foi revolucionária, agregou várias plataformas em um desenvolvedor só, e priorizou produtos de apoio crucial a usuários e empresas que depende dos serviços de informação. (GOOGLE, 2016). Com aplicação nas mais diversas áreas, a Google se legitima uma das melhores organizações no ambiente em que se estabelece. Cuidando de coordenar as diversas áreas de tecnologia da informação, ela trabalha diariamente com dados apurados dos diversos meios possíveis. Acreditando que haverá utilidade de alguma forma, a Google sempre coleta dados de todos que a circundam e a acessam. Pensando em como será benéfico que quanto mais dado somar melhor para fomentação do seu sistema. 29 (DAVENPORT, 2014). A preocupação com os dados não se limita em apenas agregá-los, mas também em como serão reaproveitados, afinal informação útil é aquela que informa algo. Entra então o Big Data de forma para gerenciar seus arquivos. Ele não só auxilia como é o novo tratamento dessas informações e consegue definir mais uma forma de sistematizar os mecanismos de trabalho. Fazendo-o repensar e aprimorar a estrutura da sua organização e otimizá-la. (TAURION, 2015). As essências da tecnologia da Google no primeiro momento concentraram-se na cloud computing. Seu servidor de email foi o primeiro a integralizar a ideia conjuntamente com a nuvem. Abaixo apresentamos outras empresas de destaque na utilização do Big Data no cenário nacional e internacional, retirados de diversas publicações: 1. Monsanto A Monsanto aproveita a análise de dados para elaborar projetos otimizados de plantio. Eles usam os modelos matemáticos e estatísticos para planejar os melhores momentos e locais para cultivar plantas masculinas e femininas. Seu algoritmo de aprendizado de máquina atinge mais de 90 bilhões de pontos de dados em dias, em vez de semanas ou meses, com isso pode se reduzir e otimizar a extensão da área de plantio. 2. Grupo Pão de Açúcar O grupo Pão de açúcar tem um sistema de relacionamento com o cliente chamado de Clube Extra, o objetivo é promover aproximação e fidelização dos clientes e também dos fornecedores. Operacionalmente o sistema com a tecnologia Big Data otimiza o estoque, visto que a empresa terá conhecimento prévio sobre o quanto se deve comprar de determinado produto, tendo em vista os custos de mantê-lo, e também nesse sistema ocliente pode acumular pontos por meio de compras online em lojas físicas. Os dados originados com essa plataforma são analisados para relacionar os clientes com os produtos, com as marcas favoritas e com os mais consumidos. 3. Ministério da Justiça 30 As instituições governamentais também estão investindo no uso de Big Data. O Ministério da Justiça do Brasil usa um banco de dados imenso, com mais de 1 bilhão de registros. Para poder analisar todos os dados, o Ministério da Justiça conta com o auxílio da tecnologia Watson da IBM, desenvolvida para coletar e processar dados em milésimos de segundos. Ele ainda utiliza o Big Data para identificar ações ilícitas, especialmente relacionadas com lavagem de dinheiro. 4. Zara Antes que as portas se abram diariamente em cada um dos mais de 2.213 estabelecimentos da Zara em todo o mundo, os funcionários e os gerentes compartilham detalhes dos artigos mais vendidos do dia anterior, peças devolvidas pelos clientes, feedback dos compradores, bem como tendências que a equipe tem percebido. Usando um sistema sofisticado orientado para a tecnologia, analistas divulgam as atualizações diárias e usam-nas para pintar uma imagem precisa do que exatamente os clientes da Zara estão exigindo. Essa informação é rapidamente traduzida por uma vasta equipe de mais de 300 designers internos em projetos tangíveis que obedecem às tendências de moda, que são decentemente feitos e vendidos a preços acessíveis. A Zara está sempre preparada para dar aos consumidores o que eles querem ou, melhor ainda, o que eles nem sabem que precisam. E, ao que parece, esse é o segredo do seu sucesso. 5. NASA Não chega a ser uma grande surpresa, mas a Agência Espacial Norte- americana (NASA) tem diversos programas que contam com o uso de Big Data. Um exemplo é o projeto de pesquisa sobre mudanças climáticas, com análises de dados importantes coletados por meio de 16 satélites de ciências da terra da NASA para o programa de ciência climática, monitorando a qualidade do ar, os oceanos e os furacões, entre outros. Outro projeto é o supercomputador Pleiades — o supercomputador mais avançado do mundo para modelagem e simulação. Ele é um dos mais poderosos instalados no Centro de Pesquisa da NASA em Moffett Field, Califórnia, e apoia as missões da agência na exploração da ciência terrestre e espacial, aeronáutica, futuras viagens espaciais e explorações. 31 6. Nike A Nike é líder mundial em várias categorias de calçados e vestuários esportivos e está investindo pesadamente em aplicativos, wearables e Big Data. A Nike está olhando além dos produtos físicos e pretende criar marcas de estilo de vida que os atletas não querem correr sem. A empresa tem 13 linhas diferentes, em mais de 180 países. No entanto, a forma como ela segmenta e serve esses mercados é o seu diferencial real. Nike divide o mundo em empreendimentos esportivos em vez de apenas em geografia. A teoria é que as pessoas que jogam golfe, por exemplo, têm mais em comum do que as pessoas que simplesmente vivem próximas umas das outras. Essa estratégia de varejo e marketing é, em grande parte, impulsionada por Big Data. A Nike tem investido também em análise de dados demográfica para definir seus mercados de teste e impulsionar seus negócios. 7.Target A Target é a segunda maior retail store dos Estados Unidos, ficando atrás apenas do Walmart. O case dessa marca ficou extremamente conhecido por ter realizado algo incrível: prever quais clientes estavam grávidas. Até hoje, há um grande debate sobre privacidade e até onde é correto utilizar as informações dos clientes para tal ações. Porém, é inegável a genialidade do uso do Big Data. A equipe de análise de dados da rede criou modelos para entender e conhecer a fundo os hábitos de compra de seus clientes. Dessa forma, foi possível criar perfis de comprador, baseando-se em suas compras e dados demográficos, idade e até a situação da vida pessoal da pessoa. Assim, a empresa poderia oferecer ofertas de produtos que cada perfil estava mais propenso a comprar. E foi assim que eles passaram a mapear quais clientes estavam grávidas, e até qual o mês da gestação, baseando-se nos hábitos de compra. Apesar de ter gerado muita polêmica, foi evidente o aumento da assertividade das ofertas e além disso, maior número de compras e fidelizações. 8. American Express A American Express, mais conhecida como Amex, é uma das mais famosas empresa de serviços financeiros dos Estados Unidos. Pensando em como tirar proveito disso, a empresa passou a utilizar a análise de dados e o machine learning para tomar importantes decisões. Uma das soluções alcançadas foi detectar fraudes com muito mais facilidade. Com esse recurso, eles percebem padrões que correspondem a transações fraudulentas, pensando em detectar rapidamente para minimizar perdas. https://www.sas.com/pt_br/insights/analytics/machine-learning.html 32 Assim, os algoritmos, através do machine learning, aprendem o padrão de consumo de cada usuário. Sempre que há algum tipo de transação que foge do usual, o usuário e a empresa são notificados. Com o Big Data, viram uma grande oportunidade de diversificar ainda mais os serviços oferecidos ao usuário, não se limitando ao crédito. Hoje, a empresa oferece um aplicativo que analisa os dados de compras anteriores e, em seguida, recomenda restaurantes na área que o usuário provavelmente desfrutará. Além disso, oferecem cupons e ofertas em outros estabelecimentos e produtos. 9. Delta Airlines No ramo da aviação, muitas vezes é difícil encontrar pontos que façam uma empresa realmente se diferenciar da outra. Pensando em como ir além, a empresa Delta pensou em como resolver uma das maiores dores dos passageiros quando viajam: bagagem extraviada. Com uma solução simples, porém muito inteligente e eficaz, eles pensaram em um sistema que permite cada passageiro a acompanhar onde está sua bagagem. Além de deixar as pessoas mais tranquilas, ajudou a evitar grandes dores de cabeça para a empresa. Pode parecer simples, mas esse recurso é sim uma utilização muito inteligente do Big Data. São mais de 130 milhões de bagagens despachadas por ano, um grande volume de informações com cada uma delas. Isso mostra como o Big Data não está distante de nossa realidade: pode ser utilizado por qualquer tipo de empresa, sem gastar milhões de reais. Uma solução barata e que diferenciou a Delta como uma empresa centrada no consumidor. 10. Shell Pra quem pensa que empresas que usam Big Data são apenas as mais novas ou muito ligadas ao digital, está muito enganado. A Shell, uma das maiores empresas petrolíferas do mundo passou a usar o Big Data para reduzir consideravelmente seus gastos de operação. Para perfurar um local para extração de petróleo, além de muito caro ocasiona em um grande impacto ambiental. Para minimizar os riscos e diminuir custos, é preciso estudar bem quais áreas estão propensas a entregarem melhor resultado. Assim, com a análise, a Shell monitora as ondas sísmicas de baixa freqüência abaixo da superfície da Terra. Essas ondas se registram de maneira diferente nos sensores enquanto viajam pela crosta terrestre. Dessa forma, podem prever o tamanho provável dos recursos de petróleo e gás. https://resultys.com.br/como-o-big-data-pode-ajudar-sua-empresa/ 33 11. Maplink A Maplink é uma empresa brasileira especializada na digitalização de mapas. Nos últimos anos, ela passou a utilizar um software de rastreamento por satélite para cruzar os dados oriundos de mais de 400 mil carros de São Paulo. E o que é melhor: tudo em tempo real. Esse trabalho permitiu à empresa realizar um diagnóstico com precisão apurada do trânsito da cidade, apontando os pontos de lentidão, alémde possíveis alternativas e rotas de fuga. 12. Precifica De fato, o consumo por e-commerce no Brasil aumentou. E diante este cenário, permitiu à Precifica, empresa de precificação inteligente, criar uma solução para os donos de lojas online. O objetivo é alterar os preços dos seus produtos automaticamente, de acordo com as oscilações no mercado. Isso tudo por meio da coleta de dados de compras dos consumidores. Principalmente pela internet nos mais variados segmentos de mercado. Além disso, a Precifica também monitora o valor dos fretes, para auxiliar as lojas virtuais a determinar a melhor política de remessas. 14.Telebras A Telebras, a maior empresa pública de telecom do Brasil, também adotou o Big Data. O objetivo é melhorar a utilização das suas redes de telecomunicações por meio do mapeamento das demandas existentes em tempo real. Assim, a empresa consegue enxergar onde é necessário a construção de novas redes. E, então, enviar para os dispositivos móveis dos seus vendedores os dados de leads altamente qualificados, otimizando o processo de venda. Agora que já conhecemos alguns casos de sucesso do uso de Big Data no Brasil, é possível enxergar que, seja qual for o segmento, sem dúvidas o uso dessa ferramenta é urgente para qualquer empresa que queira se destacar nesse novo mercado. 34 5. ARMAZENAMENTO DE DADOS COM O BIG DATA A tecnologia do armazenamento vem evoluindo a passos largos para acompanhar a demanda por espaço e o crescimento na complexidade e tamanho dos arquivos. Cada vez que a resolução de um arquivo de vídeo é melhorada, por exemplo, o espaço ocupado por esses arquivos cresce vertiginosamente. Ter um sistema de computação em nuvem é condição para se trabalhar bem com um grande volume de dados, uma vez que isso envolve coleta, armazenamento e compartilhamento de um número gigantesco de informações. Além disso, a constante necessidade de conhecer o resultado das ações de um negócio, muitas vezes, imediatamente, torna essa relação entre cloud computing e Big Data extremamente necessária. 5.1 O que é a computação na nuvem O conceito da computação em nuvem (cloud computing) tem como objetivo facilitar o acesso a dados e a execução de programas utilizando a internet. Desse modo, o usuário tem a possibilidade de usar serviços e aplicativos sem a necessidade de uma instalação, já que tudo (ou quase tudo) será executado em servidores. Além disso, o acesso a dados é possível a partir de quaisquer dispositivos, desde que estejam conectados à internet e tenham a permissão do devido responsável. A Cloud Computing (computação em nuvem) vem causando muitas transformações digitais e já tem um lugar de destaque no mundo corporativo. Embora atualmente seja algo bastante usual, esse é um assunto grande e complexo, que possui vários subtemas, como os modelos de nuvem. É 35 comum vermos as siglas IaaS, PaaS e SaaS, além de ouvirmos falar sobre os serviços públicos, privados e híbridos. No entanto, o assunto ainda gera dúvidas até mesmo para os profissionais de tecnologia e, principalmente, para pessoas que não estão acostumadas com o mundo da TI. 5.1.1 Aplicações da Cloud Computing A Cloud Computing parte do princípio de que a computação não é um produto, mas um serviço. Sua empresa não precisa possuir uma licença, um servidor ou uma plataforma de desenvolvimento. O que ela deve é ter acesso às funcionalidades e à infraestrutura desses softwares e hardwares. Com esse pensamento, a Cloud Computing permite que um negócio execute soluções de TI que estão armazenadas e disponibilizadas em servidores remotos. Algumas funcionalidades possíveis: Servidores virtuais - Em vez de investir na compra de servidores e no espaço físico para eles, pode-se contratar um servidor em nuvem. Armazenamento - Arquivos e dados podem ser armazenados remotamente, de maneira que fiquem disponíveis para acesso a partir de qualquer dispositivo conectado à internet. Softwares - Em vez de comprar licenças de softwares que, muitas vezes, ficam ligadas a uma estação de trabalho, com a nuvem, é possível pagar apenas pelos serviços utilizados em cada sistema e acessá-los de qualquer computador. Desenvolvimento de softwares - Uma plataforma de desenvolvimento segura, robusta e confiável pode ser encontrada no modelo PaaS. Além disso, também é possível contar com sistemas de gestão e compartilhamento de informações entre áreas do negócio. 36 Como as possibilidades da computação em nuvem são amplas, os profissionais de tecnologia costumam dividir os serviços prestados em 3 categorias: IaaS, PaaS e SaaS. 5.1.2. Exemplos de computação em nuvem: SaaS, PaaS e IaaS a. IaaS — Infrastructure as a Service (Infraestrutura como Serviço) Nesse primeiro exemplo dos modelos de nuvem, a empresa contrata uma capacidade de hardware que corresponde a memória, armazenamento, processamento etc. Podem entrar nesse pacote de contratações os servidores, roteadores, racks, entre outros. Dependendo do fornecedor e do modelo escolhido, a sua empresa pode ser tarifada, por exemplo, pelo número de servidores utilizados e pela quantidade de dados armazenados ou trafegados. Em geral, tudo é fornecido por meio de um data center com servidores virtuais, em que você paga somente por aquilo que usar. O uso do IaaS é recomendado para pequenas e médias empresas que estão crescendo tão rapidamente que a infraestrutura não seria capaz de acompanhar, além daquelas que tenham demandas voláteis, como lojas virtuais. No entanto, ele não é recomendado quando há um limite de desempenho ou restrições relativas à legislação do armazenamento ou terceirização dos dados. Exemplos desse tipo de serviço são o Amazon Web Services (AWS), o Google Compute Engine e o Microsoft Azure. b. PaaS — Platform as a Service (Plataforma como Serviço) http://aws.amazon.com/pt/ https://cloud.google.com/compute/ https://cloud.google.com/compute/ http://azure.microsoft.com/pt-br/ 37 O PaaS é uma plataforma que pode criar, hospedar e gerir aplicativos. Nesse modelo de nuvem, contrata-se um ambiente completo de desenvolvimento, no qual é possível criar, modificar e otimizar softwares e aplicações. Tudo isso é feito utilizando a infraestrutura na nuvem. Ou seja, o time de desenvolvimento tem uma infraestrutura completa e moderna à disposição, sem que sejam necessários altos investimentos. As equipes de desenvolvimento só precisam se preocupar com a programação do software, pois o gerenciamento, manutenção e atualização da infraestrutura ficam a cargo do fornecedor. Além disso, outro ponto a favor desse modelo de nuvem é que várias ferramentas de desenvolvimento de software são oferecidas na plataforma. Dessa maneira, ela se torna completa, robusta e totalmente disponível em uma nuvem pública ou privada, podendo ser acessada pela internet. No entanto, a PaaS não é indicada quando o desempenho geral do software pede algum hardware ou outros aplicativos específicos. Exemplos deste serviço são: Google App Engine e Heroku, outro exemplo de PaaS é o Microsoft Azure Cloud Services. c. SaaS — Software as a Service (Software como Serviço) Por fim, qualquer pessoa conhece o SaaS, mesmo que não saiba. Nesse terceiro modelo de nuvem, você pode ter acesso ao software sem comprar a sua licença, utilizando-o a partir da Cloud Computing, muitas vezes com recursos limitados. https://cloud.google.com/appengine/ https://cloud.google.com/appengine/ https://www.heroku.com/ http://azure.microsoft.com/pt-br/services/cloud-services/ http://azure.microsoft.com/pt-br/services/cloud-services/ 38 No entanto, também existem planos de pagamento nos quais é cobrada uma taxa fixa ou um valor que varia de acordo com o uso. Muitos CRMs ou ERPs trabalham no sistema SaaS. Assim, o acesso a esses softwares é feito usando ainternet. Os dados, contatos e demais informações podem ser acessados de qualquer dispositivo, dando mais mobilidade à equipe. Falamos que qualquer um conhece o SaaS porque sites como o Facebook e o Twitter ou aplicativos como o Skype, OneDrive, Google Docs e o Office 365 funcionam dessa maneira. Neles, tudo é disponibilizado na nuvem, para que muitos usuários consigam ter acesso ao serviço pelo browser ou por um software. Para a utilização do SAAS, existe uma grande vantagem da escalabilidade e da praticidade. Afinal, todos os processos relativos aos custos da compra do software e do servidor — além da implementação — são eliminados, visto que o serviço está disponível a um clique de distância. O SaaS é bastante recomendado para: pequenas empresas, que não podem gastar com a compra de licenças; trabalhos que durem apenas um curto período de tempo; necessidades de acesso remoto aos aplicativos, como no caso de softwares de CRM ou de gestão de redes sociais. Porém, ele não é muito bom para instituições que precisem de um processamento de dados rápido ou para aquelas que seguem normas de legislação contrárias à hospedagem de dados em ambiente externos. A computação em nuvem pode trazer diversas vantagens competitivas para os negócios. 39 Redução de custos Praticidade Acesso às inovações Segurança Existe um mito de que a nuvem reduz a segurança dos dados da empresa. É verdade que os arquivos na nuvem pública podem estar sujeitos a acessos inapropriados. Porém, com o fornecedor certo, é possível garantir a segurança dos arquivos e proteger as informações da sua empresa, por exemplo, por meio da encriptação. 40 Referências Bibliográficas DAVENPORT, Thomas. Big data no trabalho: Derrubando mitos e descobrindo oportunidades. Tradução: Cristina Yamagami. Rio de Janeiro: Elsevier, 2014. MAYER SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big data: como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana. Tradução: Paulo Polznoff Junior. Rio de Janeiro: Elsevier, 2013. TAURION, Cezar. Big data. Rio de Janeiro: Brasfort, 2015.170 p. VELTE, Anthony T.; VELTE, Toby J.; ELSENPETER, Robert. Computação em nuvem: uma abordagem prática. Rio de Janeiro: Alta Books, 2013. ZIKOPOULOS, Paul et al. Big Data Beyond the Hype: A Guide to Conversations for Today’s Data Center. : Mc Graw Hilleducation, 2015. Disponível em: Acesso em: 20 de dezembro de 2016. Referências online Abel, C: Análise de dados: conheça as 8 principais ferramentas de Big Data para usar nos negócios artigo publicado pela MindMiners/ 2018. Disponível em: <https://mindminers.com/blog/ferramentas-de-big-data/> acesso em 10/07/2019. Brown, C: 7 desafios que as organizações enfrentam para extrair valor do big data artigo publicado pela CIO from IDG/2019. Disponível em: <https://cio.com.br/7-desafios-que-organizacoes-enfrentam-para-extrair-valor- do-big-data/ > acesso em 08/07/2019. Camargo. G: 5 motivos para transformar seu negócio em business analytics: Disponível em: https://computerworld.com.br/2018/05/08/5-motivos- para-transformar-seu-negocio-em-business-analytics/> acesso em 15/06/2019. Cordeiro, C.: Vantagens gerais e específicas do Big Data – artigo publicado pelo neomind / 2017. Disponível em: <http://www.neomind.com.br:81/blog/big- data-quais-as-vantagens-gerais-e-especificas/> acesso em 10/07/2019. Entenda como o big data e uma grande vantagem competitiva. Disponível em: https://www.santodigital.com.br/entenda-como-o-big-data-e-uma-grande- vantagem-competitiva/ . acesso em 13/06/2019. Por que business analytics está crescendo. Disponível em: http://dataexperience.com.br/por-que-business-analytics-esta -crescendo/> acesso em 15/06/2019. FUNDABLE. Amazon Startup Story. 2017. Disponível em: https://www.fundable.com/learn/startup-stories/amazon. Acesso em: 11 de janeiro de 2020. GOOGLE. Google Empresa. Disponível em: https://about.google/ . Acesso em: 10 de janeiro de 2020. https://www.fundable.com/learn/startup-stories/amazon https://about.google/ 41 IBM. História: Um pouco de história. Disponível em: https://ibm.com . Acesso em: 12 janeiro 2020. https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo- deveria-saber/ https://culturaanalitica.com.br/os-5-vs-big-data https://sgatecnologia.com.br/4-cases-do-uso-de-big-data-no-brasil/ https://www.oracle.com/br/big-data/guide/what-is-big-data.html https://blog.sonda.com/big-data-no-brasil/ https://resultys.com.br/cases-de-empresas-que-usam-big-data/ https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem- como-se-relacionam/ Sugestão de Leitura por Kenneth Cukier (Autor), Viktor Mayer-Sch Nberger (Autor) Editora: Elsevier; Edição: 1ª (24 de julho de 2013) https://ibm.com/ https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-deveria-saber/ https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-deveria-saber/ https://culturaanalitica.com.br/os-5-vs-big-data https://sgatecnologia.com.br/4-cases-do-uso-de-big-data-no-brasil/ https://www.oracle.com/br/big-data/guide/what-is-big-data.html https://blog.sonda.com/big-data-no-brasil/ https://resultys.com.br/cases-de-empresas-que-usam-big-data/ https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-como-se-relacionam/ https://www.ipsense.com.br/blog/internet-das-coisas-e-computacao-em-nuvem-como-se-relacionam/ https://www.amazon.com.br/s/ref=dp_byline_sr_book_1?ie=UTF8&field-author=Kenneth+Cukier&search-alias=books https://www.amazon.com.br/s/ref=dp_byline_sr_book_2?ie=UTF8&field-author=Viktor+Mayer-Sch+Nberger&search-alias=books 42 Editora: BRASPORT; Edição: 1 (5 de junho de 2013) 43 UNIDADE II – Business Analytics Objetivos: Apresentar e aplicar conceitos, métodos e técnicas de análise de dados no contexto de negócios, mercados e ambientes; Apresentar os diferentes métodos usados em uma estratégia de Business Analytics; Elencar a áreas de negócios para a aplicação de Business Analytics; Conhecer certificações Business Analytics. 44 INTRODUÇÃO Nesta unidade serão apresentados os conceitos de Business Analytics, que utiliza dados selecionados para realizar a previsão de resultados, indicando possibilidades de melhorias nos processos das empresas, isso ocorre através do uso de algoritmos analíticos avançados. Será apresentado como, explorar os dados por meio de análises diagnósticas: Descritivas, Diagnóstica, Preditivas e Prescritiva e conhecer as análises de dados aplicadas em diferentes áreas de negócios. E elencar algumas certificações de Business Analytics. 45 1. O QUE É BUSINESS ANALYTICS Conhecimento de negócio é uma das principais habilidades do Cientista de Dados, que irá aplicar seus conhecimentos em análise de dados, em diferentes áreas de negócio como: Marketing Analytics, RH Analytics, Financial Analytics, Social Network Analytics e Text Mining. Business Analytics é muito amplo: contempla mineração de dados, big data, data Science, procedimentos de descoberta de conhecimento e, o envolvimento da área de negócio. Business Analytics trabalha em conjunto com outras ferramentas, como as do Bussiness Intelligence(BI). O conceito de Business Analytics ainda se confunde bastante com o Bussiness Intelligence. A diferença é que o Business Intelligence (BI) tem um olhar para o passado, faz leitura de um conjunto de dados em um data warehouse, extrai informação útil e elabora um dashboard para apoiar os dirigentes das empresas que precisam empregar a sua expertise para realização das tarefas. O conceito de Analytics ou Business Analytics é o uso extensivo dos dados, análise estatística e quantitativa, modelos explicativos e preditivos e gerenciamento baseados em fatos para conduzir decisões e ações (Davenport &Harris, 2007). Business Analytics conta com mais recursos de estatísticas preditivas do que o BI, oferecendo maior agilidade e segurança e na disponibilização das informações que são extraídas a partir de dados disponíveis em sistemas internos das empresas e/ou encontrados na internet, através de algoritmos analíticos avançados. Assim o Business Analytics possibilita a formação das melhores estratégias de negócio de forma eficiente e precisa. 46 1.1. Introdução à Data Mining Data Mining, ou mineração de dados, é a prática de examinar dados que já foram coletados utilizando diversos tipos de algoritmos, normalmente de forma automática, a fim de gerar novas informações e encontrar padrões. Considerando que minerar dados é um processo de transformar dados em informações úteis, para atingir esse objetivo, alguns passos são realizados, como: encontrar padrões, associações e anomalias gerais nos dados. Em Data Mining não importa a forma como os dados foram coletados, se via banco de dados, web scraping, API´s, e etc. O conceito de Data Mining, mineração de dados em português, é mais simples do que parece. É basicamente uma forma de analisar e processar uma quantidade de dados sob diferentes perspectivas. Esses dados são então transformados em informação, que serão úteis nas mais diversas áreas estratégicas. Uma forma interessante de se pensar em Data Mining é pensar em seu propósito. Todo o tipo de dado precisa de alguém que identifique os padrões, consistências e relacionamentos com outros dados, de forma a transformar isso em conhecimento para ser usado em decisões estratégicas. O processo do Data Mining se utiliza de aplicações matemáticas e métodos estatísticos, que vão desde o uso de uma regressão logística (é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias), até redes neurais, deep learning - aprendizagem profunda(a aprendizagem profunda, do inglês Deep Learning é um ramo de aprendizado de máquina baseado em um conjunto de algoritmos 47 que tentam modelar abstrações de alto nível de dados usando um grafo profundo com várias camadas de processamento, compostas de várias transformações lineares e não lineares), análise de clustering (agrupamentos) e classificações automáticas. Também conhecido como Mineração de Dados, o Data Mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes. Ele é formado por um conjunto de ferramentas e técnicas que através do uso de algoritmos de aprendizagem ou classificação, baseados em redes neurais e estatística que são capazes de explorar um conjunto de dados, extraindo ou ajudando a evidenciar padrões e auxiliando na descoberta de conhecimento. Rocha (2003) explica que Data Mining: “é uma técnica composta por um conjunto de ferramentas, que através do uso de algoritmos de aprendizado ou baseada em redes neurais e estatísticas, permite buscar em uma grande base de dados as informações que aparentemente estão escondidas, possibilitando, assim agilidade nas tomadas de decisões “. Souza (2009) define que: “Data Mining é o processo de análise de conjunto de dados que por objetivo a descoberta de padrões interessantes e que possam representar informações úteis. Um padrão pode ser definido como sendo uma afirmação baseada em uma distribuição probabilística. Estes padrões podem ser expressos principalmente na forma de regras, fórmulas e funções, entre outras.” Em outras palavras, as ferramentas de Data Mining analisam os dados, descobrem problemas ou oportunidades escondidas nos relacionamentos dos dados, e então diagnosticam o comportamento dos negócios, requerendo a mínima intervenção do usuário. Assim, ele se dedicará somente a ir em busca do conhecimento, ajudando aos analistas de negócio agregar mais vantagens competitivas e maximizar seus lucros. 48 O conhecimento em Data Mining pode ser apresentado por diversas formas de ferramentas, que são denominadas de ferramentas de Análise de agrupamento, ou clustering, é o nome dado para o grupo de técnicas computacionais cujo propósito consiste em separar objetos em grupos, baseando-se nas características que estes objetos possuem. A idéia básica consiste em colocar em um mesmo grupo objetos que sejam similares de acordo com algum critério pré-determinado. As ferramentas que podemos utilizar nestas técnicas são: agrupamentos; hipóteses (testes de hipóteses é um procedimento estatístico que permite tomar uma decisão); regras; árvores de decisão (são modelos estatísticos que utilizam um treinamento supervisionado para a classificação e previsão de dados); grafos ou dendrogramas (é um ramo da matemática que estuda as relações entre os objetos de um determinado conjunto). Diariamente as empresas acumulam grande volume de dados em seus aplicativos. Um Business Intelligence (BI), são os dados brutos que dizem quem comprou o quê, onde, quando e ao final do dia reporta esta baixa aos estoques detectando tendências de compra. Agora se analisarmos os dados com estatística de modo mais refinado, à procura de padrões de vinculações entre variáveis registradas, então estaremos fazendo Data Mining (DM), ou seja, busca subsidiar a empresa com conhecimento novo e útil acerca do seu meio ambiente. O BI atua no plano tático, e o DM atua no plano estratégico. 1.1.1. Linhagens do Data Mining O Data Mining descende fundamentalmente de 3 linhagens: 49 Estatística: A mais antiga delas é a estatística clássica. Sem a estatística não seria possível termos o DM, visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é construído. A Estatística Clássica envolve conceitos como distribuição normal, variância, análise de regressão, desvio simples, análise de conjuntos, análises de discriminantes e intervalos de confiança, todos usados para estudar dados e os relacionamentos entre eles. Esses são as pedras fundamentais onde as mais avançadas análises estatísticas se apoiam. E sem dúvida, no coração das atuais ferramentas e técnicas de DM, a análise estatística clássica desempenha um papel fundamental. Inteligência Artificial: A segunda linhagem do DM é a Inteligência Artificial, ou IA. Essa disciplina, que é construída a partir dos fundamentos da heurística, em oposto à estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. Em função desse “approach”, ela requer um impressionante poder de processamento, que era impraticável até os anos 80, quando os computadores começaram a oferecer um bom poder de processamento a preços mais acessíveis. A IA desenvolveu algumas aplicações para o alto escalão do governo / cientistas americanos, sendo que os altos preços não permitiram que ela ficasse ao alcance de todos. As notáveis exceções foram certamente alguns conceitos de IA adotados por alguns produtos de ponta, como módulos de otimização de consultas para SGBDs. 50 Machine Learning: E a terceira e última linhagem do DM é a chamada machine learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. Enquanto a IA não se transformava em sucesso comercial, suas técnicas foram sendo largamente cooptadas pela machine learning, que foi capaz de se valer das sempre crescentes taxas de preço / performance oferecidas pelos computadores nos anos 80 e 90, conseguindo mais e mais aplicações devido às suas combinações entre heurística e análise estatística. A machine learning tenta fazer com que os programas de computador “aprendam” com os dados que eles estudam, tal que esses programas tomem decisões diferentesbaseadas nas características dos dados estudados, usando a estatística para os conceitos fundamentais, e adicionando mais heurística avançada da IA e algoritmos para alcançar os seus objetivos. De muitas formas, o DM é fundamentalmente a adaptação das técnicas da Machine Learning para as aplicações de negócios. Desse modo, podemos descrevê-lo como a união dos históricos e dos recentes desenvolvimentos em estatística, em IA e Machine Learning. Essas técnicas são usadas juntas para estudar os dados e achar tendências e padrões nos mesmos. Hoje, o DM tem experimentado uma crescente aceitação nas ciências e nos negócios que precisam analisar grandes volumes de dados e achar tendências que eles não poderiam achar de outra forma. 1.1.2. Aplicando Data Mining em um ambiente de negócio Na mineração de dados, o que gera valor de fato é o conjunto de ações que são tomadas as decisões a partir dos processamentos dos dados. Para isso, é preciso saber onde aplicar as técnicas e quais ferramentas de mineração são mais adequadas para cada caso, dando vida a um novo perfil de profissionais chamada Cientista de Dados. Conforme Prates (2018) em seu artigo “O que é Data Mining”, usa-se a mineração de dados no momento em que as alternativas iniciais de análise foram esgotadas, como análises a “olho nú”, com planilhas dinâmicas ou ainda com o 51 uso de estatística descritiva, entre outros. Em seu artigo ele destaca a seguinte lista de exemplos práticos da aplicação da mineração de dados em ambientes de negócio: a. Dados gerados internamente nas organizações; b. Dados sociais; c. Área da saúde; d. Obras públicas; e. Capital de risco em empresas de base tecnológica. 1.1.3 Principais características de Data Mining, BI e Big Data Em seu artigo publicado pela Aquare.la, Joni Hoppen apresenta as 7 características para se diferenciar Data Mining, Big Data e BI Características Data Mining Big Data BI (Business Intelligence) Virtude da solução Metodologia científica e algoritmos. Descobrir padrões de comportamento de dados. Detecção de pontos cegos da gestão. Análise estatística intensa e pontual. Data mining em grande escala. Geração de conhecimento de gestão, apoiado por inteligência e capacidade computacional. Análise estatística intensa e contínua Volumetria – Monitorar o desempenho dos indicadores das operações Tipos de dados Dados estruturados em planilhas, Dados estruturados, semiestruturados Dados estruturados em planilhas, banco de ##Você Sabia ## Uma das primeiras soluções focadas em data mining, para fins de exemplificação, foi o Software Weka. O Weka, criado em 1993 e mantido até os dias atuais, é uma rica coleção de algoritmos de machine learning e data mining. O propósito do software em sua concepção foi permitir que o usuário não precisasse conhecer linguagens de programação para fazer o pré- processamento dos dados (organizá-los) e assim aplicar diversos algoritmos prontos em seus próprios dados. https://www.cs.waikato.ac.nz/ml/weka/ 52 banco de dados relacionais e dimensionais, etc. e não estruturados em bancos de dados NoSQL ou TripleStores dados relacionais e dimensionais, etc. Estilo de análise Permite fazer a predição e descoberta de fatores relevantes ao negócio em pequena escala usando inteligência computacional. Necessita de profissionais da gestão trabalhando em colaboração com cientistas da informação. Permite fazer a predição e descoberta de fatores relevantes ao negócio em grande escala usando inteligência computacional. Necessita de profissionais da gestão trabalhando em colaboração com cientistas da informação. Reflete apenas o passado dos dados em pequena ou grande escala. Não há inteligência no sistema, sendo necessário profissionais da gestão para interpretar as informações e tomada de decisão. Resultados Esperados Relatório de recomendação Painéis de controle com indicadores preditivos e recomendações estratégicas. Diversas visualizações de gráficos consolidadas em painéis de controle conhecidos como dashboards Foco Identificar padrões de comportamento dos dados, criando novos indicadores de análise para o BI Extração do conhecimento de grandes massas de dados com fontes e tipos variados Monitorar indicadores tais como preço, valor, temperatura, custo total, etc. Comercialização Valor do projeto, envolvendo o custo da produção do relatório Custo de implantação, integração do sistema e/ou comissionamento sobre o resultado do faturamento. Custo de implementação, integração do sistema e mensalidade por usuário Volume de dados Baixo, trabalho por amostragem (pequenas parcelas) de dados com alto custo de processamento Alto, com estruturas distribuídas e grande demanda de processamento. Alto, porém limitado ao processamento dos bancos de dados relacionais/dimensionais 53 Apesar da análise se restringir a apenas 7 características, os resultados mostram que existem diferenças importantes entre Data Mining, Big Data e BI, algumas delas pode-se citar: Empresas que possuem uma solução de BI já consolidada tem mais maturidade para embarcar em projetos extensivos de Data mining e Advanced Analytics. O Big Data só faz sentido em grandes volumes de dados e a melhor opção para o seu negócio depende de quais perguntas estão sendo feitas e quais os dados disponíveis. Todas as soluções são dependentes do dado de entrada. Consequentemente se a qualidade das fontes de informação for ruim, há grande chance de que a reposta seja ruim como frisa a expressão em inglês “garbage in, garbage out” Lixo entra, lixo saí. Enquanto os painéis do BI podem ajudar a fazer sentido de seus dados de maneira bastante visual e facilitada, não é possível fazer análises muito ricas com ele. Para isso é necessário soluções mais complexas, capazes de enriquecer a sua percepção da realidade do negócio, ajudando a encontrar correlações, novos segmentos de mercado (classificação, predição), fazer previsões, controlar variáveis e seus efeitos em com relação as diversas outras por meio das análises multivariadas. O BI é fortemente dependente de dados estruturados que são os mais utilizados atualmente, porém a tendência é de crescimento em dados não estruturados. Também, não demanda profissionais especialistas em estatística e ou engenharia do conhecimento. O Big Data estende a possibilidade de análise sobre não estruturados. Ex: posts de redes sociais, imagens, vídeos, músicas e etc. Porém o grau de complexidade e exigência de conhecimento do operador é maior, bem como o alinhamento com os profissionais da gestão. Para evitar frustrações é importante levar em consideração as diferenças nas virtudes (proposta de valor) e resultados de cada solução. Por exemplo, não esperar por descoberta de padrões e insights de negócio da própria ferramenta de BI, este é o papel do operador do BI. O Big Data pode ser considerado em parte, a junção do BI e Data Mining. O BI com seus dados estruturados em conjunção com a gama 54 de algoritmos e técnicas do Data Mining empoderado pelas novas tecnologias de grande processamento, armazenamento e memória; tudo processado de forma paralela e distribuída sobre uma gama gigantesca de fontes de informação heterogêneas. Podemos observar que os resultados dos três geram inteligência para o negócio, da mesma forma como o bom uso de uma simples planilha também pode gerar inteligência, mas é importante avaliar se isso é suficiente para atender as ambições ou dilemas do seu negócio. Vemos que o potencial do Big Data ainda não está sendo plenamente reconhecido, porém as empresas mais avançadas em termos de tecnologia, hoje, o têm como ponto chave de suas estratégias oferecendo gratuitamente seus serviços para alimentarsuas bases com dados estruturados e não estruturados. Ex. Gmail, Facebook, Twitter e OLX. A tendência é que o crescimento do volume dos dados e sua variedade continue cada vez de forma menos estruturada. 2. AS DIFERENTES METODOLOGIAS DE BUSINESS ANALYTICS Como já foi apresentado neste material as diferenças de BI e BA, já podemos prosseguir conferindo os diferentes métodos usados em uma estratégia de Business Analytics. A MJV Technology & Innovation apresenta em seu e-book os diferentes métodos usados em uma estratégia de Business Analytics, são eles: a. Análise descritiva A análise descritiva é um estágio preliminar do processamento de dados que cria um resumo de dados históricos para gerar informações úteis e, possivelmente, preparar os dados para análise posterior. Nessa etapa, técnicas de mineração de dados são empregadas para organizar as informações e identificar padrões e relacionamentos que de outra forma não seriam visíveis. Consultas, relatórios e técnicas de visualização de dados também podem ser aplicados para gerar mais insights. Às vezes, 55 a análise descritiva fornece informações sobre o histórico dos acontecimentos de um negócio. Você pode ver, por exemplo, um aumento nos seguidores do Twitter após um tweet em particular. b. Análise diagnóstica A análise diagnóstica (ou de diagnóstico) é uma forma de análise avançada que examina dados ou conteúdos para responder à pergunta: “por que isso aconteceu?”. É caracterizada por técnicas como: 1. Detalhamento 2. Descoberta 3. Mineração 4. Correlações de dados Business Analytics. Também bastante empregada em estratégias de Business Intelligence, a análise de diagnóstico analisa os dados com mais profundidade para tentar entender as causas dos eventos e comportamentos. A análise de diagnóstico permite entender os dados mais rapidamente para responder a perguntas críticas sobre a força de trabalho. Nela, ferramentas interativas de visualização de dados são empregadas para que, por exemplo, os gerentes pesquisem, filtrem e comparem facilmente as pessoas, centralizando as informações de todo o conjunto de gerenciamento de talentos unificados. c. Análise preditiva A análise preditiva é uma forma de análise avançada que usa dados novos e históricos para prever atividade, comportamento e tendências. Envolve da aplicação de técnicas de análise estatística, consultas analíticas e algoritmos automatizados de aprendizado de máquina a conjuntos de dados para criar modelos preditivos que colocam um valor numérico ou pontuação na probabilidade de um determinado evento acontecer. Os softwares de análise preditiva usam variáveis que podem ser medidas e analisadas para prever o provável comportamento de indivíduos, máquinas ou outras entidades. Por exemplo, uma companhia de seguros provavelmente levará em conta possíveis variáveis de segurança de direção, como: idade, sexo, localização, tipo de veículo e histórico de condução, para melhor precificar e emitir apólices de seguro de automóvel. Múltiplas variáveis são combinadas em um modelo preditivo capaz de avaliar probabilidades futuras com um nível aceitável de confiabilidade. Assim, o sistema baseia-se fortemente em algoritmos e metodologias avançadas, como modelos de regressão logística, análise 56 de séries temporais e árvores de decisão. A análise preditiva cresceu em destaque junto com o surgimento de sistemas de Big Data. À medida que empresas acumularam conjuntos de dados maiores e mais amplos nos clusters do Hadoop e em outras plataformas de Big Data, elas criaram maiores oportunidades de mineração de dados para obter insights preditivos. O aumento do desenvolvimento e a comercialização de ferramentas de aprendizado de máquina pelos fornecedores de TI também ajudaram a expandir os recursos de análise preditiva. Empresas de marketing, serviços financeiros e seguradoras têm sido notáveis na adoção de análises preditivas, assim como grandes provedores de serviços de busca e serviços online. A análise preditiva também é comumente usada em setores como saúde, varejo e manutenção. Os aplicativos de negócios para análise preditiva incluem: c.1. Análise do comportamento do cliente para determinar padrões de compra, como a sinalização de transações financeiras potencialmente fraudulentas; c.2. Segmentação de anúncios online, por exemplo através de identificação de pacientes em risco de desenvolver determinadas condições médicas; c.3. Detecção de falhas de peças iminentes em equipamentos industriais antes que ocorram. d. Análise prescritiva A análise prescritiva é a área de Business Analytics dedicada a encontrar o melhor curso de ação para uma determinada situação. Ela está relacionada à análise descritiva e preditiva. Embora a análise descritiva tenha como objetivo fornecer informações sobre o que aconteceu e a análise preditiva ajude a modelar e prever o que pode acontecer, a análise prescritiva procura determinar a melhor solução ou resultado entre várias opções, dados os parâmetros conhecidos. A análise prescritiva também pode sugerir opções de decisão sobre como aproveitar uma oportunidade futura ou atenuar um risco futuro e ilustrar as implicações de cada opção de decisão. Na prática, a análise prescritiva pode processar de forma contínua e automática novos dados para melhorar a precisão das previsões e fornecer melhores opções de decisão. Uma tarefa de processo intensivo, a abordagem prescritiva analisa as decisões potenciais, as interações 57 entre as decisões, as influências que incidem sobre essas decisões e o impacto de tudo o que foi dito em um resultado para, em última instância, prescrever um curso ideal de ação em tempo real. 2.1 Business Intelligence x Business Analytics O Business Intelligence, ou BI é uma técnica para auxiliar o gestor no planejamento estratégico. Ele é uma forma de coleta e análise de conjunto amplo de dados de uma empresa para entender a sua performance e, a partir daí, planejar o futuro de forma mais eficiente. Permite identificar os acertos e aquilo que não deu muito certo para auxiliar nas próximas decisões. Os dados do BI são disponibilizados em métricas estabelecidas e planilhas relativamente complexas, é aí que o Business Analytics, ganha espaço. O BA tem uma análise de dados mais eficiente, vai mais fundo e permite uma compreensão dos dados que vai além dos fatos concretos, ele mostra o que aconteceu, como aconteceu e quando aconteceu, o BA ajuda a responder questões relativas às razões pelas quais determinados acontecimentos ocorrem. Assim como o BI, o BA faz uso da tecnologia e da estatística para a tradução das informações, mas permite uma investigação mais aprofundada e contínua do negócio. ##Saiba Mais## ENTENDENDO O ANALYTICS Inteligência analítica (em inglês, analytics), é um campo abrangente e multidimensional que se utiliza de técnicas matemáticas, estatísticas de modelagem preditiva e machine learning para encontrar padrões e conhecimento significativos em dados. 58 Camargo (2018) em seu artigo indica 5 passos para a aplicação de Business Analytics nas empresas: Passo 1: Defina claramente o problema – Com essa definição é possível determinar quais ferramentas e técnicas serão utilizadas, os modelos que serão aplicados, dados que serão imprescindíveis e quais os procedimentos serão tomados durante as fases de pré-processamento, mineração e pós- processamento para criação do modelo preditivo. Passo 2: Selecione seus dados – A qualidade dos dados de entrada determinará a qualidade do modelo na saída. Essa é a etapa de coleta e organização dos dados. Passo 3: Minere seus dados – Mineração de dados é o processo de exploração de grandes quantidades de dados com o objetivo de encontrar anomalias, padrões e correlações para suportar a tomadade decisões e proporcionar vantagens estratégicas. Nesta etapa são aplicadas técnicas estatísticas e algoritmos computacionais para construção dos modelos de predição ou classificação, segmentação de clientes e identificação de perfis. Passo 4: Defina seu ambiente de processamento – Outro aspecto importante é saber em qual arquitetura sua modelagem será processada. Algoritmos mais avançados aplicados a grandes conjuntos de dados podem levar dias ou semanas concluírem seu processamento. Passo 5: Gere bons dashboards – Ter um bom dashboard garante não apenas visualizar as previsões por diversos ângulos, mas ajuda a compreender outro grande problema que é o overfitting (Sobreajuste é um termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto de dados anteriormente observado, mas se mostra ineficaz para prever novos resultados). Um modelo com esse problema não consegue detectar os relacionamentos entre os dados e, por consequência, não consegue fazer as previsões com novos dados de produção. 59 Acessar novas fontes de dados e conseguir determinar o que é valioso e o que é apenas boato não é tarefa fácil. Sem tempo ou sem tecnologias adequadas para que os negócios cresçam, o que resta para as empresas é apenas continuar fazendo as tarefas comuns, e não investindo em inovações. Por este motivo a pratica de Business Analytics e todos os seus complementos são necessários. ## Você sabia ##. Estatística Descritiva é o tipo mais antigo de analytics. O Suecos em 1749, tabularam a contagem da população, essa foi a primeira investida de análise descritiva. Hoje ainda existem diversas análises descritivas, desde quantos cliques uma página recebe à razão entre quantas unidades são produzidas sobre os números de unidades vendidas, entre outras. 60 3. ÁREAS DE NEGÓCIOS PARA A APLICAÇÃO DE BUSINESS ANALYTICS 3.1. Marketing Analytics Marketing Analytics compreende os processos e tecnologias que permitem que profissionais de marketing avaliem o sucesso de suas iniciativas ao mensurarem o desempenho delas (por exemplo, comparando blogs com mídias sociais ou canas de comunicação), através de métricas importante de negócios, como ROI, atribuição de marketing e efetividade geral de marketing. O Marketing Analytics informa como e quais as campanhas que estão performando de verdade. Ele reúne e consolida dados de diversos canais em uma visão comum. No que se refere ao conceito de Marketing Analytics, ainda são apresentadas abordagens diferentes; umas específicas (Rackley, 2015; Spais & Veloutsou, 2005) com o foco na prestação de contas das atividades de marketing e outras mais abrangentes em que o conceito é tratado de forma mais ampla, abarcando não somente a prestação de contas, mas também o processo de coleta e análise de grandes massas de dados para gerar informações relevantes para o direcionamento das decisões de marketing (Banasiewicz, 2013). Wedel e Kana(2016) definiram Marketing Analytics como coleta, gerenciamento e análise de dados, descritivos, preditivos e prescritivos, para obter insights sobre o desempenho do marketing, para maximizar a eficácia dos instrumentos de controle de marketing e para otimizar o retorno sobre os investimentos das empresas. 61 3.1.1. A importância do Marketing Analytics Ao longo dos anos, conforme empresas empreendiam em novas categorias de marketing, novas tecnologias foram adotadas para suportá-las. Como cada nova tecnologia costumava ser implantada isoladamente, o resultado foi mistura de ambientes de dados desconectados. Consequentemente, profissionais de marketing acabam tomando decisões baseadas em dados de canais individuais (métricas de sites, por exemplo), sem considerar todo o panorama do marketing. Dados de mídias socias sozinhos não são suficientes. Dados de web analytics sozinhos não são suficientes. E ferramentas que olham apenas para um instante no tempo em um único canal são totalmente inadequados. Marketing Analytics, por outro lado, considera todos os esforços de marketing entre todos os canais por um período de tempo determinado, o que é essencial para tomar decisões sólidas e executar programas eficientes. 3.2. RH Analytics A gestão de pessoas trata-se da mobilização, da orientação, do direcionamento e da administração no ambiente organizacional do fator humano, que é dotado de personalidades, normas, valores e atitudes que existem sob um padrão complexo e multidimensional. Nesse contexto emerge a necessidade do uso do Human Resources Analytics(RH Analytics), que segundo Bersin(2015), pode ser chamado também de Talent Analytics ou People Analytics, o qual começou nos anos de 1800 com Frederick Taylor e seus estudos sobre análise de dados na profissão de RH. Fitz- 62 Enz(2010) afirma que o RH Analytics esteve no mundo dos negócios desde a década de 60 com o lançamento do sistema de reservas Sabre da American Airlines. People Analytics nada mais é do que um novo termo para a mesma ideia de cruzar dados de fontes diversas, porém agora aplicado para sustentar decisões estratégicas sobre pessoas, ou seja é uma análise de dados aplicada à gestão de pessoas. People Analytics não é uma ferramenta, mas o uso de uma metodologia para a guiar e ajudar na análise dos dados sobre pessoas. É a prática de tomar decisões baseadas em dados sobre funcionários e pessoas. Esse termo foi primeiro introduzido pela Google, o conceito é novo, só chamou a atenção do público pela primeira vez em 2013, mas continua passando por mudanças transformacionais. Apesar de ser completamente orientado por dados, o People Analytics tem o poder de resolver problemas intrinsecamente humanos, como insatisfação no local de trabalho, frustação pela má gestão e fraca cultura empresarial. O People Analytics auxilia também no processo de recrutamento, e pode reduzir muito os erros humanos e impedir decisões tomadas com base em tendências pessoais. Ele ajuda os departamentos de RH a cumprir as normas legais. As normas atuais cada vez mais enfatizam a contratação não discriminatória. Ao aplicar processos baseados em dados para encontrar novos candidatos, o People Analytics impede a violação da lei. 3.2.1. Principais componentes do People Analytics a. Avaliação de Desempenho – A avaliação de desempenho é um componente essencial do People Analytics. O desempenho pode ser medido de muitas maneiras diferentes, mas a forma como a medição do desempenho é realizada hoje em dia em muitas empresas implica que o resultado é mais valorizado do que o processo. Esse é um fator humano que frequentemente se interpõe em avaliação correta do desempenho. O People Analytics ajuda a eliminar esse fator. A avaliação de desempenho é baseada em quatro componentes principais: regressão à média, tamanho da amostra, 63 independência do sinal e processo versus resultado. Com o People Analytics, os profissionais de RH podem separa a sorte da competência real. b. Recrutamento – Uma das funções mais importantes do RH é recrutar. Na área de recursos humanos, o People Analytics lida com três componentes: contratação, progressão na carreira e o Burnout, ou exaustão ocupacional. O People Analytics também pode melhorar a felicidade dos funcionários, à medida que você se torna mais informado sobre as atitudes e o humor dos funcionários. c. Colaboração - Existem uma infinidade de dados usados para descrever e avaliar a eficácia da colaboração, o People Analytics permite criar um mapa organizacional de colaboração, que mostre os padrões que as pessoas seguem quando trabalham juntas em um projeto ou tarefa. d. Gestão de Talentos – Com a melhoria da avaliação de desempenho, a equipe e a colaboração, a organização se torna mais enxuta e estável. O próximo passo é ajudar as pessoas a se desenvolverem dentro daempresa em apoiar e promover seus próprios funcionários – gerenciamento de talentos. O People Analytics auxilia o gerenciamento de talentos de muitas maneiras diferentes: revela os padrões de comportamento dos funcionários dentro da empresa, acompanha o desenvolvimento dos funcionários dentro da empresa e identifica os pontos altos e baixos no engajamento dos funcionários. e. Previsões para o futuro – Atualmente muitas empresas veem o People Analytics como um instrumento de negócios que pode ser aplicado em todos os níveis da organização. As empresas estão constantemente expandindo os tipos de dados que analisam. Isso é parcialmente ditado pela maior quantidade de dados disponíveis à medida que os funcionários usam ativamente vários canais de comunicação e mídias sociais, mas também as empresas expressam grande interesse em tomar decisões baseadas em dados. Outra tendência que afeta o desenvolvimento de People Analytics é a IA e Aprendizado de Máquina. Um exemplo de IA usado no People Analytics pode ser um algoritmo de aprendizado de máquina que identifique o comportamento 64 dos melhores vendedores e depois usa os dados coletados para treinar novas pessoas. Junto com as oportunidades, o People Analytics levanta muitas preocupações. A capacidade da ferramenta para fornecer recomendações altamente personalizadas pode sair do controle, à medida que cada vez mais funcionários se tornam defensores ativos da privacidade pessoal. O People Analytics requer um conjunto específico de habilidades necessárias incluem habilidades técnicas, analíticas e as de comunicação, o que é uma mistura curiosa e difícil de encontrar. Existe uma solução gratuita a Bitrix24 com mais de 25 ferramentas de RH, como rede social privada, gráfico de ausências, agendas compartilhadas, gerenciamento de documentos, armazenamento de currículos, portal de funcionários, solicitações de licenças, planejamento de carga de trabalho, tarefas e gerenciamento de projetos, entre outros. 3.3. Financial Analytics O Financial Analytics surgiu a partir da necessidade de áreas de finanças nas empresas de visualizar e analisar dados para responder questões dos 65 negócios, bem como simular e prever possíveis cenários futuros, com o objetivo de auxiliar na tomada de decisão. De acordo com Felipe Pena, consultor da empresa Visagio, quando se analisa iniciativas de analytics em uma empresa, faz-se necessário avaliar as áreas em 3 principais aspectos: Cultura e Organização, Informações e Ferramentas, Habilidades e Competências. Cultura e Organização – A importância do incentivo a grupos focados em analytics. Para garantir que a organização possua uma área de finanças com alta maturidade em relação a iniciativas de analytics, é fundamental que haja valorização de uma cultura analítica, com área estruturada de uma maneira de fomentar o desenvolvimento e implantação de novas soluções no tema. Com a evolução da cultura analítica nas empresas, é fundamental que as organizações criem mecanismos de incentivo às discussões no tema, e, consequentemente, haverá um direcionamento eficiente, com um ambiente propício para o desenvolvimento e implantação de soluções em analytics para finanças. http://visagio.com/pt/wp-content/uploads/2017/12/3-img1-financial-analytcis.png http://visagio.com/pt/wp-content/uploads/2017/12/3-img2-financial-analytics.png 66 Informações e Ferramentas – A baixa democratização de acesso a ferramentas e dados Na grande maioria das empresas em relação à disponibilidade de ferramentas analytics, muitos colaboradores não possuem fácil acesso a essas ferramentas. Outro ponto é que as empresas não utilizam todo o potencial das soluções de analytics é a dificuldade de acesso e manipulação aos dados. No que se refere a disponibilização de ferramentas de TI para viabilizar as iniciativas analytics, deve-se observar os seguintes pontos: Se existe uma coordenação nas ferramentas de análise disponíveis na organização? Se as ferramentas de análise e conjunto de serviços de tecnologias comuns disponíveis na organização estão estabelecidas; Se a qualidade dos dados é elevada e os modelos de dados e taxonomia são comuns; Se os dados de alta qualidade estão disponíveis; Se os sistemas não integrados e baixa disponibilidade de dados são confiáveis; Entre outras. Para que iniciativas em analytics sejam implantadas com sucesso e recorrência nas organizações, a democratização de informações e ferramentas torna-se fundamental, uma vez que, com a evolução da tecnologia e aumento da quantidade de dados, ferramentas e dados precisam estar facilmente acessíveis para os colaboradores possam experimentar, criar novas soluções e implantar de maneira ágil. Habilidades e Competências – O Foco na visualização de dados na estruturação de relatórios. http://visagio.com/pt/wp-content/uploads/2017/12/3-img6-financial-analytics.png http://visagio.com/pt/wp-content/uploads/2017/12/3-img6-financial-analytics.png http://visagio.com/pt/wp-content/uploads/2017/12/3-martelinho.png http://visagio.com/pt/wp-content/uploads/2017/12/3-img7-financial-analytics.png 67 A habilidade de visualização de dados e estruturação de relatórios é a competência mais importante de Financial Analytics. Para a maioria das empresas os dashboards de performance financeira é a principal aplicação. Com o aumento da disponibilidade e redução de custos das ferramentas de armazenamento e processamento de dados, habilidades relacionadas ao desenvolvimento de soluções que utilizam data mining e machine learning tornam-se cada vez mais frequentes, possibilitanto análises robustas, utilizando os milhões de dados transacionais que uma empresa pode gerar, como modelos estatísticos para análise de crédito e detecção de fraude. O sucesso para o desenvolvimento de uma área de finanças com a cultura analítica baseia-se em três principais pilares: o primeiro reflete como a organização e a área de finanças valoriza o analytics; o segundo pilar é garantir que informações e ferramentas sejam facilmentes acessíveis aos colaboradores; o terceiro pilar, que é o desenvolvimento e implantação de iniciativas através de pessoas com habilidades e competências necessárias. 3.4. Fraud Analytics (Análise para Detectação de Fraudes) 3.4.1. Definição de Fraude Do latim fraus, uma fraude é uma ação que é contrária àquilo que é verdade que é correto e honesto. A fraude é cometida com vista a prejudicar uma pessoa ou uma organização (como o Estado ou uma empresa). 68 Para o direito, uma fraude é um delito cometido pela pessoa incumbida de supervisionar a execução de contratos, sejam estes públicos ou privados, para representar interesses opostos. A fraude é, por conseguinte, penalizada judicialmente. 3.4.2 A Análise de Fraude A análise de fraude pode ser definida como um campo multidisciplinar que combina várias ciências quantitativas, é um termo genérico que abrange muitas tecnologias, as duas principais são: a. Business Intelligence No espaço de gerenciamento de fraudes, o BI pode ser considerado um repórter de desempenho descritivo. Ele resume os dados disponíveis para fornecer painéis de negócios e insights aos líderes empresariais e gerentes de fraude, para que eles possam tomar decisões mais informadas. Isso pode envolver, por exemplo, a análise do desempenho das regras da estratégia de fraude. Para que o BI faça seu trabalho, é necessária uma arquitetura robusta de data warehousing, para que os dados possam ser acessados facilmente para fins de informações de gerenciamento (Management Information - MI). O MI refere-se à criação de painéis executivos, visualização de dados, narração de dados e quaisquer outros métodos de relatório. b. Data Science A ciência de dados está relacionada a um conjunto de tecnologiasmais sofisticadas para executar análises preditivas e prescritivas. A análise preditiva está focada em fazer previsões sobre o futuro de eventos desconhecidos (ou, no caso de fraude, resultados de eventos atuais). A análise prescritiva refere-se à escolha do curso de ação ideal com base no resultado dessas previsões. Uma vez no armazenamento de Big Data, os analistas podem trabalhar com os dados e desenvolver um entendimento dos recursos preditivos ao detectar fraudes. 69 3.4.3. Inteligência Artificial e Machine Learning Indiscutivelmente, as tecnologias mais empolgantes da análise de fraudes atualmente são inteligência artificial (IA), aprendizado de máquina e aprendizado profundo. A IA refere-se à implementação por computador dos processos de pensamento humano de maneira computadorizada e eficiente. O aprendizado de máquina é um subconjunto de IA relacionado à ciência dos algoritmos. O aprendizado de máquina é um conjunto de inúmeras técnicas algorítmicas que podem ser usadas para extrair relacionamentos complexos em dados que um ser humano não conseguiu encontrar. O aprendizado profundo é uma classe de algoritmos de aprendizado de máquina focados especificamente na construção de redes neurais "profundas" (multicamadas), uma forma de IA amplamente usada na detecção de fraudes. No caso do aprendizado supervisionado, ele ainda não é aplicável ao sistema bancário aberto porque os dados históricos ainda não estão disponíveis e a evolução do sistema bancário aberto em termos de adoção ainda não é clara. Portanto, o aprendizado de máquina não supervisionado fornece uma alternativa valiosa para aqueles que não possuem grandes armazenamentos de dados de transações fraudulentas e não fraudulentas. Eles podem construir conjuntos de dados que devem simular o próximo ambiente de banco aberto ou se beneficiar de lançamentos anteriores de banco aberto. 70 3.5. Text Analytics A Análise de texto é o processo de extrair o significado da comunicação escrita. Em um contexto de experiência do cliente, análise de texto significa examinar o texto que foi escrito por ou sobre os clientes. Você encontra padrões e tópicos de interesse e executa ações práticas com base no que aprendeu. A Análise de texto pode ser realizada manualmente, mas é um processo ineficiente. Portanto, foi criado um software de análise de texto que usa mineração de texto e algoritmos de processamento de linguagem natural para encontrar significado em grandes quantidades de texto. 3.5.1. Onde o Text Analytics é usado? E-mails, análises on line, tweets, notas de agentes de call center, resultados de pesquisas e outros tipos de feedback por escrito oferecem informações sobre seus clientes. Também há muitas informações nas interações gravadas que podem ser facilmente transformadas em texto. A análise de texto é a maneira de desbloquear o significado de todo esse texto não estruturado. Permite descobrir padrões e temas, para que você saiba o que os clientes estão pensando. Revela seus desejos e necessidades. Além disso, o software de análise de texto pode fornecer um alerta precoce de problemas, porque mostra do que os clientes estão reclamando. O uso de ferramentas de análise de texto fornece informações valiosas de dados que não são facilmente quantificados de qualquer outra maneira. Transforma os pensamentos não estruturados dos clientes em dados estruturados que podem ser usados pelos negócios. 3.5.2. API Azure 71 A API de Análise de Texto é um serviço baseado em nuvem que fornece um processamento de idioma natural avançado sobre texto bruto e inclui quatro funções principais: análise de sentimento, extração de frases-chave, detecção de idioma e reconhecimento de entidade. A API faz parte dos Serviços Cognitivos do Azure, uma coleção de algoritmos de IA e aprendizado de máquina na nuvem para seus projetos de desenvolvimento. Análise de texto pode significar coisas diferentes, mas, em Serviços Cognitivos, a API de Análise de Texto oferece quatro tipos de análise: Análise de Sentimento Análise de Sentimento pode ser usada para descobrir o que os clientes pensam da marca ou tópico, analisando texto bruto em busca de pistas sobre sentimentos positivos ou negativos. Essa API retorna uma pontuação de sentimento entre 0 e 1 para cada documento, em que 1 é a mais positiva. Os modelos de análise são pré-treinados usando um amplo corpo de texto e tecnologias de idioma natural da Microsoft. Para idiomas selecionados, a API pode analisar e pontuar qualquer texto bruto que você forneça, retornando diretamente os resultados ao aplicativo responsável pela chamada. Extração de Frases-Chave Extraia frases-chave automaticamente para identificar rapidamente os principais pontos. Por exemplo, para o texto de entrada "A comida estava deliciosa e a equipe era maravilhosa", a API retorna os principais pontos de discussão: "comida" e "equipe maravilhosa". Detecção de Idioma Você pode detectar em qual idioma o texto de entrada está escrito e relatar um código de idioma único para cada documento enviado na solicitação em uma ampla variedade de idiomas, variantes, dialetos e alguns idiomas regionais/culturais. O código de idioma é emparelhado com uma pontuação que indica a intensidade da pontuação. https://docs.microsoft.com/azure/cognitive-services/ https://docs.microsoft.com/pt-br/azure/cognitive-services/text-analytics/how-tos/text-analytics-how-to-keyword-extraction https://docs.microsoft.com/pt-br/azure/cognitive-services/text-analytics/how-tos/text-analytics-how-to-language-detection 72 Reconhecimento de Entidade Nomeada Identifique e categorize entidades em seu texto como pessoas, locais, organizações, data/hora, quantidades, percentuais, moedas e muito mais. Entidades conhecidas também são reconhecidas e vinculadas a mais informações na Web. 3.6. Social Network Analytics O advento das redes sociais online tem sido um dos eventos mais emocionantes da década. Muitas redes sociais online com Twitter, Instagram, LinkedIn e Facebook tornaram-se cada vez mais populares. Além disso, várias redes de multimídia, como o Flickr, também viram um nível crescente de popularidade nos últimos anos. Muitas dessas redes sociais são extremamente ricas em conteúdo e geralmente contêm uma quantidade enorme de conteúdo e vínculo que podem ser aproveitados para análise. Os dados de ligação são essencialmente a estrutura gráfica da rede social e as comunicações entre entidades. Este conjunto de ferramentas avalia e quantifica as interações dos indivíduos nos ambientes sociais. As técnicas de SNA(Social Network Analytics) fornecem novas métricas que podem gerar informações mais detalhadas sobre os usuários, como qual ator de rede (nó na terminologia do SNA) tem mais influência, para ajustar a estratégia de marketing, descobrir padrões de comunicação ou entender como o cliente se comporta. As redes e suas interações tendem a ser mostradas como representações visuais. Eles baseiam-se na ideia de que os seres humanos, quando interagem entre si, desenvolvem diferentes tipos de relacionamentos, desde amizade a 73 trocas comerciais, e esses laços sociais são como uma rede porque conectam indivíduos. Ao coletar sistematicamente dados sobre essas relações entre os atores, é possível investigar mais profundamente o comportamento dos sujeitos de acordo com sua posição na rede e entender, por exemplo, por que um conteúdo é compartilhado de forma viral, enquanto outro não. Em teoria, essa disciplina é baseada na sociometria, que deriva da sociologia e da teoria matemática dos gráficos. Não deve ser confundido com a análise das mídias sociais , que podem fazer parte do SNA, mas não é a única parte. A riqueza dessa rede oferece oportunidades sem precedentes para análise de dados no contexto das redessociais 4. CERTIFICAÇÕES DE BUSINESS ANALYTICS As certificações para Analytics ainda estão surgindo, mas já existem algumas organizações que oferecem exames para certificar as habilidades características desses profissionais. Os Business Analytics ajudam as organizações a aproveitar ao máximo os dados coletados ao encontrar tendências, padrões e erros que, de outra forma, poderiam passar despercebidos. Profissionais bem-sucedidos na área têm as habilidades para trabalhar com dados, a perspicácia para entender o lado A análise de mídia social é o processo de coleta e análise de dados de redes sociais virtuais como Facebook, Instagram e Twitter. É comumente usada pelos profissionais de marketing para rastrear conversas online sobre produtos e empresas, empregando técnicas e coletas de dados como métricas e big data. Wikipédia https://www.zorraquino.com/en/dictionary/digital-marketing/what-is-viral.html https://www.zorraquino.com/en/dictionary/internet/what-are-social-networks.html https://pt.wikipedia.org/wiki/An%C3%A1lise_de_m%C3%ADdia_social 74 comercial da organização e a capacidade de comunicar essas informações a pessoas de fora da TI. Deluca (2018) em sua publicação na revista on line CIO, apresenta sete certificações de BA reconhecidas mundialmente: 1 - IIBA Entry Certificate in Business Analysis (ECBA) O ECBA é o primeiro nível de certificação do Instituto Internacional de Análise de Negócios (IIBA), projetado para Business analysts (analistas de negócio) menos experientes e iniciantes. Não há necessidade de renovação da certificação ECBA, mas é aconselhável passar para o segundo ou terceiro nível de certificação. 2 - IIBA Certification of Competency in Business Analysis (CCBA) O segundo nível da certificação IIBA, a certificação CCBA, requer um mínimo de 3.750 horas de trabalho com Business Analytics alinhado com o guia IIBA’s Business Analysis Book of Knowledge (BABOK), que é um conjunto de melhores práticas em análise de negócios, ter 900 horas em duas das seis áreas de conhecimento BABOK ou 500 horas em quatro das seis áreas de conhecimento do BABOK. A certificação também exige um mínimo de 21 horas de treinamento em desenvolvimento profissional nos últimos quatro anos e duas referências profissionais. O exame CCBA consiste em 130 questões de múltipla escolha baseadas em cenários e que exigem algumas análises. Abrange fundamentos, competências subjacentes, conceitos-chave, técnicas e todas as seis áreas de conhecimento cobertas no BABOK. 3 - IIBA Certified Business Analysis Professional (CBAP) O CBAP é o terceiro nível de certificação do IIBA e é projetado para “indivíduos com ampla experiência em Business Analytics”. Para se qualificar para esta certificação, o profissional precisará de um mínimo de 7.500 horas de experiência de trabalho como analista de negócios nos últimos 10 anos, 900 horas de experiência de trabalho em quatro das seis áreas de conhecimento do 75 BABOK, pelo menos 35 horas de desenvolvimento profissional nos últimos quatro anos e referências profissionais. O exame CBAP tem duração de 3,5 horas e inclui 120 perguntas de múltipla escolha baseadas em estudos de caso. Depois de passar, o profissional precisará informar pelo menos 60 horas de unidades de desenvolvimento contínuo a cada três anos. 4 - IIBA Agile Analysis Certification (IIBA-AAC) O exame AAC foi projetado para abordar esse conjunto de habilidades da BA e para certificar profissionais da BA que trabalham em ambientes ágeis, que exigem rápida adaptação e rápida mudança. O exame foi desenvolvido usando o Agile Extension para o guia BABOK e foi lançado em maio de 2018. É uma certificação independente e é separada das outras certificações de do IIBA, que são empilhadas umas sobre as outras. O exame é oferecido através de supervisão remota online - consiste em 85 perguntas de múltipla escolha baseadas em cenários e deve ser concluído em 2 horas. Quatro temas principais são abordados no exame, incluindo a mentalidade ágil (30%), horizonte de estratégia (10%), horizonte de iniciativa (25%) e horizonte de entrega (35%). A certificação tem duração de três anos, ao fim dos quais precisará ser renovada. Não há nenhum requisito de elegibilidade para fazer o exame, mas o IIBA recomenda pelo menos dois a cinco anos de experiência relacionada à metodologia Agile. 5 - IQBBA Certified Foundation Level Business Analyst (CFLBA) O IQBBA oferece o CFLBA como uma certificação de nível básico, que qualifica o profissional para ganhar níveis mais altos de certificação. Ele é projetado para “pessoas envolvidas na análise de processos de negócios dentro de uma organização, modelagem de negócios e melhoria de processos.” O nível básico abrange análise corporativa, planejamento de processos de Business Analytics, levantamento de requisitos, análise de requisitos, validação de soluções, ferramentas e técnicas, inovação e design. 76 Depois de concluir o exame de nível de entrada, o profissional pode continuar nas certificações Certified Advanced Level Business Analyst (CALBA) e Certified Expert Level Business Analyst (CELBA). Atualmente, os centros de treinamento e exame credenciados nos Estados Unidos são limitados, com centros em Chicago, Maryland, Oklahoma, Flórida e Texas. No entanto, existem opções para realizar cursos de treinamento e exames online. 6 - IREB Certified Professional for Requirements Engineering (CPRE) A certificação CPRE é projetada para aqueles que trabalham em engenharia de requisitos (RE) e é oferecida em três níveis. O nível de fundação é o primeiro, onde o profissional será certificado nos fundamentos do RE. O nível Avançado é o próximo, onde você pode escolher entre três caminhos, incluindo Elicitation e Consolidation, Requirements Modeling e Requirements Management - mas o profissional precisará aguardar 12 meses após concluir o primeiro exame para fazer o exame de nível Avançado. O nível de Especialista certifica o profissional no “nível mais alto de conhecimento especializado”, que inclui tanto sua experiência prática quanto seu conhecimento e habilidades adquiridos por meio de certificações anteriores. Sua certificação não expirará e o profissional não precisará renová-la. O IREB afirma que o CPRE é “baseado nos métodos e abordagens fundamentais da Engenharia de Requisitos, e estes só se alteram lentamente”, então, neste momento, eles não vêem necessidade de renovação. 7 - PMI-Professional in Business Analysis (PBA) Certification A certificação PMI-PBA é projetada para profissionais de BA que trabalham com projetos ou programas, ou gerentes de projetos e programas que trabalham com análises. É oferecido através do Project Management Institute, especializado em certificações de gerenciamento de projetos amplamente reconhecidas. A certificação se concentra em treinamento de Business Analytics através de projetos práticos e testes em princípios de análise de negócios, ferramentas e fundamentos. 77 Ceo profissional já obteve um diploma de bacharel, precisará de pelo menos três anos de experiência, ou 4.500 horas, em análise de negócios consecutivamente nos últimos oito anos para obter essa certificação. Sem um diploma de bacharel, o profissional precisará de cinco anos ou 7.500 horas de experiência. O profissional será solicitado a ganhar 60 unidades de desenvolvimento profissional dentro de três anos após concluir a certificação para manter seu status de renovação. Se deixar sua renovação expirar, suas credenciais serão suspensas por um ano até que atenda aos requisitos. Depois disso, ela será encerrada e o profissional precisará se inscrever novamente. Exame atualizado lançado em junho de 2018 para melhor alinhamento com a terminologia usada no PMI Guide to Business Analysis. O papel de um profissional de BA ou analista de negóciosestá em constante evolução e mudança, especialmente porque as empresas confiam mais em dados para assessorar as operações de negócios. Cada empresa tem diferentes problemas que um analista de negócios pode abordar, seja lidando com sistemas legados desatualizados, tecnologias em transformação, processos quebrados, baixa satisfação do cliente ou grandes organizações isoladas. 78 Referências Bibliográficas BANASIEWICZ, A.D. (2013). Marketing database analytics: Transforming data for competitive advatage. Routledge. DAVENPORT, T., & Harris, J. (2007). Competing on analytics: The new Science of winning. Harvard Business Press. FITZ-ENZ, Jac.(2001). Retorno do investimento em capital humano: medindo o valor econômico do desempenho dos funcionários. São Paulo: Makron Books, 2001. FITZ-ENZ, Jac. The New HR Analytics: Predicting the Economic Value of Your Company's Human Capital Investments. Amacom Div American Mgmt Assn. Copyright., 2010. RACKLEY, J. (2015). Marketing Analytics Roadmap. New York City: Apress. ROCHA, Armando. Conceitos Básicos sobre Data Mining, Salvador, 2003. Cientifico. Ano III, Volume 2. SPAIS, G., & Veloutsou, C. (2005). Marketing analytics: managing incomplete information in cosumer markets and the contribution of mathematics to the accountability of marketing decisions. South European Review of Business Finance and Accountin3(1), pp, 127-150. SOUZA, Michel. Data Mining. São Paulo: 2003. WEDEL, M. & KANNAN, P.K. (2016). Marketing Analytics for data-rich environments. Journal of Marketing, 80(6), pp. 97-121. Referências online ABEL, C: Análise de dados: conheça as 8 principais ferramentas de Big Data para usar nos negócios artigo publicado pela MindMiners/ 2018. Disponível em: https://mindminers.com/blog/ferramentas-de-big-data/ acesso em :10/07/2019. BERSIN, Josh. The Geeks Arrive In HR: People Analytics Is Here. 2015. Disponível em: https://www.forbes.com/sites/joshbersin/2015/02/01/geeks-arrive-in-hr-people- analytics-is-here/#4181debe73b4. Acesso em: 21 nov. 2019. BROWN, C: 7 desafios que as organizações enfrentam para extrair valor do big data artigo publicado pela CIO from IDG/2019. https://cio.com.br/7-desafios-que- organizacoes-enfrentam-para-extrair-valor-do-big-data/ Disponível em 08/07/2019. Camargo. G: 5 motivos para transformar seu negócio em business analytics. Disponível em: https://computerworld.com.br/2018/05/08/5-motivos-para-transformar- seu-negocio-em-business-analytics/ acesso em 15/06/2019. Cordeiro, C.: Vantagens gerais e específicas do Big Data – artigo publicado pelo neomind / 2017. Disponível em: https://blog.neomind.com.br/big-data-quais-as- vantagens-gerais-e-especificas/ acesso em : 10/07/2019. https://mindminers.com/blog/ferramentas-de-big-data/ https://www.forbes.com/sites/joshbersin/2015/02/01/geeks-arrive-in-hr-people-analytics-is-here/#4181debe73b4 https://www.forbes.com/sites/joshbersin/2015/02/01/geeks-arrive-in-hr-people-analytics-is-here/#4181debe73b4 https://cio.com.br/7-desafios-que-organizacoes-enfrentam-para-extrair-valor-do-big-data/ https://cio.com.br/7-desafios-que-organizacoes-enfrentam-para-extrair-valor-do-big-data/ https://computerworld.com.br/2018/05/08/5-motivos-para-transformar-seu-negocio-em-business-analytics/ https://computerworld.com.br/2018/05/08/5-motivos-para-transformar-seu-negocio-em-business-analytics/ https://blog.neomind.com.br/big-data-quais-as-vantagens-gerais-e-especificas/ https://blog.neomind.com.br/big-data-quais-as-vantagens-gerais-e-especificas/ 79 Deluca, C. 7 certificações de Business Analytics para melhorar sua carreira analítica. 2018 Disponível em:https://cio.com.br/7-certificacoes-de-business-analytics- para-melhorar-sua-carreira-analitica/ acesso em 10/01/2020 Mathias, L.: Ferramentas de BI: conheça as 8 melhores para utilizar na sua empresa artigo publicado pela MindMiners/2018. Disponível em https://mindminers.com/blog/ferramentas-de-bi/ acesso em :15/07/2019. Pena, F.: Financial Analytics: Impulsionando a saúde financeira das organizações. Disponível em: https://visagio.com/pt/insights/financial-analytics-impulsionando-saude- financeira-das-organizacoes acesso em 20/10/2019. Prates, W. R.: O que é Data Mining? - artigo publicado pela Revista Aquare.la/ 02/2018. Disponível em https://www.aquare.la/o-que-e-data-mining-mineracao-de- dados/ acesso em 11/09/2019. Analytics – que é e qual a sua importância. Disponível em: https://www.sas.com/pt_br/insights/analytics/analytics.html acesso em :20/06/2019. Business Analytics a era dos Dados já começou. Disponível em : https://conteudo.mjv.com.br/obrigado/business-analytics-a-era-dos- dados?submissionGuid=8b3a70e3-e2c9-44c1-86da-73d7d5bec946 acesso em :21/08/2019. Entenda como o big data e uma grande vantagem competitiva. Disponível em: https://www.santodigital.com.br/entenda-como-o-big-data-e-uma-grande-vantagem- competitiva/ acesso em 13/06/2019. Fraud Analytics Using Descriptive, Prescritive and Social Network Techniques Disponível em: https://www.dataminingapps.com/wp- content/uploads/2015/08/68614_excerpt-1.pdf acesso em 22/01/2020 O que é a API de Análise de texto? Disponível : https://docs.microsoft.com/pt- br/azure/cognitive-services/text-analytics/overview acesso 22/01/2020 O que é People Analytics: Principais tendências de RH que todo gerente deve saber. Disponível em :https://www.bitrix24.com.br/blogs/comunicaco/o-que-e-people- analytics-principais-tendencias-de-rh-que-todo-gerente- dev.php?gclid=Cj0KCQiAmZDxBRDIARIsABnkbYSaqEERnUGKer2Ib2s0iJxl2y_EGX6i ohtObRFXtYkB3VviVvBv3rwaAkmfEALw_wcB acesso em :20/09/2019 Por que business analytics está crescendo. Disponível em http://dataexperience.com.br/por-que-business-analytics-esta -crescendo/ acesso em : 15/06/2019. What is Text Analytics. Disponível : https://www.clarabridge.com/customer- experience-dictionary/text-analytics acesso em 20/01/2020. https://cio.com.br/7-certificacoes-de-business-analytics-para-melhorar-sua-carreira-analitica/ https://cio.com.br/7-certificacoes-de-business-analytics-para-melhorar-sua-carreira-analitica/ https://cio.com.br/7-certificacoes-de-business-analytics-para-melhorar-sua-carreira-analitica/ https://mindminers.com/blog/ferramentas-de-bi/ https://visagio.com/pt/insights/financial-analytics-impulsionando-saude-financeira-das-organizacoes https://visagio.com/pt/insights/financial-analytics-impulsionando-saude-financeira-das-organizacoes https://www.aquare.la/o-que-e-data-mining-mineracao-de-dados/ https://www.aquare.la/o-que-e-data-mining-mineracao-de-dados/ https://www.sas.com/pt_br/insights/analytics/analytics.html https://conteudo.mjv.com.br/obrigado/business-analytics-a-era-dos-dados?submissionGuid=8b3a70e3-e2c9-44c1-86da-73d7d5bec946 https://conteudo.mjv.com.br/obrigado/business-analytics-a-era-dos-dados?submissionGuid=8b3a70e3-e2c9-44c1-86da-73d7d5bec946 https://www.santodigital.com.br/entenda-como-o-big-data-e-uma-grande-vantagem-competitiva/ https://www.santodigital.com.br/entenda-como-o-big-data-e-uma-grande-vantagem-competitiva/ https://www.dataminingapps.com/wp-content/uploads/2015/08/68614_excerpt-1.pdf%20acesso%20em%2022/01/2020 https://www.dataminingapps.com/wp-content/uploads/2015/08/68614_excerpt-1.pdf%20acesso%20em%2022/01/2020 https://docs.microsoft.com/pt-br/azure/cognitive-services/text-analytics/overview https://docs.microsoft.com/pt-br/azure/cognitive-services/text-analytics/overview https://www.bitrix24.com.br/blogs/comunicaco/o-que-e-people-analytics-principais-tendencias-de-rh-que-todo-gerente-dev.php?gclid=Cj0KCQiAmZDxBRDIARIsABnkbYSaqEERnUGKer2Ib2s0iJxl2y_EGX6iohtObRFXtYkB3VviVvBv3rwaAkmfEALw_wcB https://www.bitrix24.com.br/blogs/comunicaco/o-que-e-people-analytics-principais-tendencias-de-rh-que-todo-gerente-dev.php?gclid=Cj0KCQiAmZDxBRDIARIsABnkbYSaqEERnUGKer2Ib2s0iJxl2y_EGX6iohtObRFXtYkB3VviVvBv3rwaAkmfEALw_wcB https://www.bitrix24.com.br/blogs/comunicaco/o-que-e-people-analytics-principais-tendencias-de-rh-que-todo-gerente-dev.php?gclid=Cj0KCQiAmZDxBRDIARIsABnkbYSaqEERnUGKer2Ib2s0iJxl2y_EGX6iohtObRFXtYkB3VviVvBv3rwaAkmfEALw_wcBhttps://www.bitrix24.com.br/blogs/comunicaco/o-que-e-people-analytics-principais-tendencias-de-rh-que-todo-gerente-dev.php?gclid=Cj0KCQiAmZDxBRDIARIsABnkbYSaqEERnUGKer2Ib2s0iJxl2y_EGX6iohtObRFXtYkB3VviVvBv3rwaAkmfEALw_wcB http://dataexperience.com.br/por-que-business-analytics-esta%20-crescendo/ https://www.clarabridge.com/customer-experience-dictionary/text-analytics https://www.clarabridge.com/customer-experience-dictionary/text-analytics 80 Sugestão de Leitura: Data Mining: Concepts and Techniques (The Morgan Kaufmann Series in Data Management Systems) 3rd Edition – Amazon 81 UNIDADE III – Ferramentas de Data Analytics e Big Data Objetivos: Conceituar Data Analytics; Entender sobre Aprendizado de Máquina; Conhecer o Framework Hadoop; Apresentar as ferramentas de Data Analytics e Big Data. 82 INTRODUÇÃO Nesta unidade, será apresentada o conceito Data Analytics que é o processo de analisar informações (dados) com um propósito específico. Será exposto uma introdução a Machine Learning, o estudo de reconhecimento de padrões e da teoria do aprendizado computacional em inteligência artificial. Será apresentado também o Hadoop uma estrutura de software open-source que serve para armazenar dados e executar aplicações em clusters de hardwares comuns. O Hadoop fornece armazenamento massivo para qualquer tipo de dado, tem grande poder de processamento e capacidade de lidar quase ilimitadamente com tarefas e trabalhos ocorrendo ao mesmo tempo. Também serão apresentadas ferramentas de Data Analytics e Big Data para captação, tratamento e análise de grandes massas de dados. 83 1. O QUE É DATA ANALYTICS Para conhecermos sobre o Data Analytics, será necessário citar alguns termos como: Big Data, Business Inteligente, Business Analtytics e o próprio Data Analytics. O Data Analytics e o Big Data são processos diferentes, mas frequentemente confundidos. Embora seja possível se especializar em Big Data, o termo refere-se apenas ao aglomerado de informações acumulados on e offline. O termo Data Analytics se refere a uma porção de aplicações, como as ferramentas de BI. O Data Analytics tem um foco mais amplo, podendo ser utilizado também em pesquisas acadêmicas, por exemplo, já o Business Analytics é focado no uso de dados dentro dos negócios. Podemos verificar nas aulas anteriores que o principal benefício do Big Data é que ele permite uma visão completa sobre os principais desafios enfrentados. Administrar um empreendimento e seus vários processos envolve responder muitas perguntas, como “o que o cliente busca em nossos produtos?” e “por que alguém escolhe uma marca e não outra?”. Todas essas perguntas são mais fáceis de se responder com o auxílio de dados detalhados, já que a tecnologia permite lidar com informações originadas de diversas fontes (como um CRM ou até um mapa), ajudando a obter respostas precisas. Sozinho, o Big Data não é uma estratégia eficiente para visualizar as respostas das questões citadas anteriormente. É o Data Analytics que consegue organizar e colocar todos esses dados em uma perspectiva. Podemos concluir que o Data Analytics lida com ferramentas de visualização, como dashboards intuitivos com respostas em tempo real, esses recursos são o que permite que uma empresa tome decisões embasadas. 1.1 Cultura de Data Analytics Com o tempo, notamos que mesmo coisas simples podem gerar dificuldades nas análises de dados. Assim, para que os indicadores possam ser coletados de forma adequada e as análises possam ocorrer com o maior número https://blog.academiain1.com.br/como-escolher-um-curso-de-especializacao-em-big-data/ https://blog.academiain1.com.br/afinal-o-big-data-e-realmente-eficaz-na-analise-de-dados/ https://blog.academiain1.com.br/afinal-o-big-data-e-realmente-eficaz-na-analise-de-dados/ 84 de pessoas (de forma a se replicar dentro dos diversos setores), é fundamental níveis elevados de cultura de Data Analytics, como definido no Diagrama abaixo. Fonte: https://www.aquare.la/o-que-e-data-analytics/ 1.2 Como funciona o Data Analytics? Data Analytics geralmente contempla três categorias de dados: Social Data – são dados que contém perfis e comportamento das pessoas, por exemplo as redes sociais; Enterprise Data – são dados gerados especialmente por empresas, dados como operações e financeiros; Personal Data – é a novidade, tem como base a integração entre os dispositivos por meio da internet, tem como base a integração https://www.aquare.la/o-que-e-data-analytics/ 85 entre os dispositivos por meio da internet, termo usado em segurança da informação, referem-se a informações que podem ser usadas para identificar, contactar ou localizar uma única pessoa, o principal exemplo são os smartphones. O processo de análise de dados é capaz de explorar os dados, a fim de criar princípios para otimizar o entendimento de cenários e padrões. Tudo isso é consequência de uma análise cautelosa e exata. Todos esses padrões são elaborados com o objetivo de filtrar e levar aos interessados todas as informações úteis. Por detrás disso, tem todo um ciclo que começa com extração dos dados, organização, tratamento e compreensão. 86 2. INTRODUÇÃO AO APRENDIZADO DE MÁQUINA (MACHINE LEARNING) Machine Learning é uma tecnologia onde os computadores tem a capacidade de aprender de acordo com as respostas esperadas por meio associações de diferentes dados, os quais podem ser imagens, números e tudo que essa tecnologia possa identificar. Quando se desenvolve um sistema de aprendizado de máquina, a estrutura utilizada na programação é diferente da programação de software tradicional. No método tradicional se cria um conjunto de regras para gerar uma resposta a partir do processamento dos dados introduzidos. Os algoritmos de Machine Learning são criados a partir dos dados que serão analisados e as repostas (ou resultados) que se esperam dessa análise, no final do processo o sistema cria as próprias regras ou perguntas. 2.1 O aprendizado de uma plataforma de Machine Learning A tecnologia Machine Learning permite que os modelos sejam treinados em conjuntos de dados antes de serem implementados. Um aplicativo ou software com Machine Learning é um tipo de programa que melhora automaticamente e gradualmente com o número de experiências em que ele é colocado para treinar. Nessa primeira etapa o treinamento é assistido. O processo iterativo leva à uma melhoria nos tipos de associações feitas entre elementos e dados, os quais são apresentados em uma grande quantidade. Devido a essa grande quantidade de dados que serão analisados, os padrões e associações feitas somente por observação humana poderiam ser ineficientes, em caso de que sejam feitas sem um suporte das tecnologias Machine Learning. Após o treinamento inicial de um aplicativo ou software de Machine Learning ele poderá ser usado em tempo real para aprender sozinho com os dados apresentando com maior precisão nos resultados no passar do tempo. Para trabalhar com o sistema de aprendizado de máquina é necessário utilizar um certo conjunto de dados. O Big Data permite que os dados sejam virtualizados para que possam ser armazenados da maneira mais eficiente e 87 econômica, seja on premises (instalados localmente) ou na cloud. Além da eficiência o Big Data também auxilia na melhoria da velocidade e confiabilidade da rede, removendo outras limitações físicas associadas ao gerenciamento de dados em grande quantidade. Apesar das vantagens oferecidas no processo, uma empresa não necessita ter Big Data para trabalhar com Machine Learning. 2.2 Abordagens de Machine Learning Técnicas de machine learning são necessárias para melhorar a precisão dos modelos preditivos. Dependendo da naturezado problema dos negócios em questão, existem diferentes abordagens com base no tipo e no volume dos dados. As categorias de machine learning são: Deep learning (ML / DL) Deep learning é um método específico de aprendizado de máquina que incorpora redes neurais em camadas sucessivas para aprender com os dados de uma maneira iterativa.Deep learning é especialmente útil quando você está tentando aprender padrões de dados não estruturados. Redes neurais complexas de Deep learning são projetadas para emular como o cérebro humano funciona, para que os computadores possam ser treinados para lidar com abstrações e problemas mal definidos. A criança com cinco anos de idade pode reconhecer facilmente a diferença entre o rosto do professor e o rosto do guarda de trânsito. Em contraste, o computador deve trabalhar muito para descobrir quem é quem. Redes neurais e deep learning são frequentemente usados em aplicativos de reconhecimento de imagem, fala e visão computacional. Aprendizado por reforço O aprendizado por reforço é um modelo de aprendizado comportamental. O algoritmo recebe feedback da análise de dados, orientando o usuário para o melhor resultado. O aprendizado de reforço difere de outros tipos de aprendizado supervisionado, porque o sistema não é treinado com o conjunto de dados de amostra. Em vez disso, o sistema aprende por meio 88 de tentativa e erro. Portanto, uma sequência de decisões bem-sucedidas resultará no processo que deve ser reforçado, para melhor resolução do problema em questão. Aprendizado de máquina supervisionado O aprendizado supervisionado geralmente começa com um conjunto estabelecido de dados e um certo entendimento de como esses dados são classificados. O aprendizado supervisionado destina-se a encontrar padrões em dados que possam ser aplicados em um processo analítico. Esses dados rotulam recursos que definem o seu significado. Por exemplo, é possível criar um aplicativo de machine learning que faça a melhor distinção entre milhões de animais, com base em imagens e suas descrições. Aprendizado de máquina não supervisionado O aprendizado não supervisionado é usado quando o problema requer uma grande quantia de dados não rotulados. Por exemplo, aplicativos de mídia social, como Twitter, Instagram e Snapchat, têm grandes quantias de dados não rotulados. Entender o significado por trás desses dados requer algoritmos que classificam os dados com base nos padrões ou clusters encontrados. O aprendizado não supervisionado conduz a um processo iterativo, que analisa os dados sem intervenção humana. Ele é usado com tecnologia de detecção de spam por e-mail. Existem muitas variáveis em e-mails legítimos e de spam para que um analista possa marcar um e-mail, em massa que não foi solicitado. Em vez disso, os classificadores de machine learning, baseados em cluster e associação, são aplicados para identificar e-mails indesejados. 3. FRAMEWORK BIG DATA HADOOP Na internet, uma infinidade de dados é gerada diariamente e de forma massiva, cerca de 40 mil pesquisas são feitas por segundo no Google. Existem diversas soluções de frameworks de Big Data, para que as empresas possam 89 analisar esses dados e convertê-los em informações relevantes para os negócios. Nesta secção estaremos apresentando o framework Apache Hadoop. Apache Hadoop O Hadoop é um framework Open- source desenvolvido pela Apache e baseado na linguagem Java que tem como principal objetivo processar uma grande quantidade de dados de forma mais eficientes possível. Hadoop permite executar aplicações em sistemas distribuídos através de diversos computadores(nodes), envolvendo petabytes de dados. Esse aplicativo funciona em ambientes de computação distribuída, nos quais são utilizados clusters. Ele foi projetado para realizar a expansão de um servidor único para milhares de outras máquinas, cada uma disponibilizando computação local e armazenamento. O Hadoop é uma implementação do Map-reduce, paradigma de programação introduzido pelo Google com o objetivo de processar e analisar uma quantidade massiva de informações. Ele é baseado no Google File System (GFS). Figura: Google File System Fonte: http://hbelbase.com/ Quase todos os grandes nomes on-line o utilizam o Hadoop, e como ele é um software livre, cada um pode alterá-lo para seus propósitos. As http://hbelbase.com/ 90 modificações feitas no software por engenheiros da Amazon e Google, por exemplo, são realimentadas à comunidade de desenvolvimento. 3.1 Componentes base do Hadoop Figura: Hadoop versão 1.0 O Framework do Hadoop é composto por dois módulos principais: o módulo de armazenamento e o de processamento. O HDFS (Hadoop Distributed File System), gerencia o armazenamento de grandes conjuntos de dados, também de forma distribuída. O MapReduce é a implementação de um algoritmo responsável por gerir toda a parte do processamento do framework. O MapReduce, define uma arquitetura para a realização do processamento de conjuntos de dados em paralelo. De modo que possam ser executados em vários servidores. A razão para a escalabilidade desse paradigma é a natureza intrinsecamente distribuída do funcionamento da solução. Uma tarefa complexa é dividida em várias tarefas menores. Elas são executadas em máquinas diferentes e posteriormente combinadas para gerar a 91 solução da tarefa mais complexa. Um exemplo comum de uso do Hadoop é a análise de padrões dos usuários em sites de e-commerce. Isso permite que novos produtos sejam sugeridos ao usuário. 3.1.1 Hadoop 2.0 Os componentes chaves do Hadoop são o modelo de programação MapReduce e o sistema de arquivos distribuídos HDFS, versão 1.0. Entretanto em meio a sua evolução, novos subprojetos, foram incorporados como componentes à arquitetura Hadoop, completando assim uma infraestrutura do framework para resolver problemas específicos. Podemos dividir em componentes principais e componentes adicionais. Figura: Hadoop versão 2. Componentes Principais: a. Hadoop Common: aqui são incluídas as bibliotecas Java e demais utilitários exigidos para o funcionamento dos outros módulos do framework. São essas bibliotecas que fornecem uma abstração do sistema de arquivos e do sistema operacional para iniciar o Hadoop; b. Hadoop Distributed File System (HDFS)Sistema de arquivos distribuídos: um sistema de arquivos distribuídos nativo do Hadoop. 92 Permite o armazenamento e transmissão de grandes conjuntos de dados em máquinas de baixo custo. Possui mecanismos que o caracteriza como um sistema altamente tolerante a falhas; c. Hadoop MapReduce: implementa um modelo de programação na forma de uma biblioteca de classes especializadas no processamento de conjuntos de dados distribuídos em um aglomerado computacional. Abstrai toda a computação paralela em apenas duas funções Map e Reduce; d. Hadoop YARN: Significa Yet Another Resource Negotiator é a tecnologia de gerenciamento de recursos e agendamento de tarefas para vários aplicativos em execução em um cluster Haddop e agendar tarefas a serem executadas em diferentes nós do cluster. Componentes adicionais Aqui são apresentados outros projetos na comunidade Apache que adicionam funcionalidades ao Hadoop, como: a. Ambari: ferramenta baseada na Web para o suporte, gerenciamento e monitoramento de outros módulos Hadoop, como HDFS, MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig e Sqoop; b. Avro: sistema de serialização de dados; c. Cassandra: banco de dados escalável, com tolerância a falhas; d. Flume e Chukwa: sistemas que tratam da coleta de ocorrências (logs) para o monitoramento do Hadoop; e. HBase: banco de dados escalável e distribuído que suporta o armazenamento de dados estruturados para grandes tabelas; f. Hive: infraestrutura de data warehouse que fornecesumarização de dados e consultas adhoc; g. Mahout: sistema para desenvolvimento de aplicações de aprendizagem de máquina e biblioteca com funções de mineração de dados; 93 h. Pig: fornece uma linguagem de consulta de alto nível (PigLatin) orientada a fluxo de dados, e uma estrutura de execução para computação paralela; i. ZooKeeper: serviço de coordenação de alto desempenho para aplicações distribuídas. j. OOzie - O Apache Oozie é um sistema de agendamento de fluxo de trabalho baseado em servidor para gerenciar tarefas do Hadoop. Os fluxos de trabalho no Oozie são definidos como uma coleção de nós de controle e fluxo de ação em um gráfico acíclico direcionado Figura: Hadoop Ecossistema e seus componentes Fonte: https://data-flair.training/ 3.1.2 Funcionamento da arquitetura básica https://data-flair.training/ 94 HDFS A arquitetura do HDFS é estruturada em master-slave (mestre-escravo), com dois processos principais, que são: Namenode: responsável por gerenciar os dados (arquivos) armazenados no HDFS, registrando as informações sobre quais datanodes são responsáveis por quais blocos de dados de cada arquivo, organizando todas essas informações em uma tabela de metadados. Suas funções incluem mapear a localização, realizar a divisão dos arquivos em blocos, encaminhar os blocos aos nós escravos, obter os metadados dos arquivos e controlar a localização de suas réplicas. Como o NameNode é constantemente acessado, por questões de desempenho, ele mantém todas as suas informações em memória. Ele integra o sistema HDFS e fica localizado no nó mestre da aplicação, juntamente com o JobTracker; Datanode: responsável pelo armazenamento do conteúdo dos arquivos nos computadores escravos. Como o HDFS é um sistema de arquivos distribuído, é comum a existência de diversas instâncias de DataNode em uma aplicação Hadoop, permitindo que os arquivos sejam particionados em blocos e então replicados em máquinas diferentes. Um DataNode poderá armazenar múltiplos blocos, inclusive de diferentes arquivos, entretanto, eles precisam se reportar constantemente ao 95 NameNode, informando-o sobre as operações que estão sendo realizadas nos blocos. MapReduce A arquitetura do MapReduce segue o mesmo princípio master-slave, necessitando de três processos que darão suporte à execução das funções map e reduce do usuário, a saber: JobTracker: recebe a aplicação MapReduce e programa as tarefas map e reduce para execução, coordenando as atividades nos TaskTrackers. Sua função então é designar diferentes nós para processar as tarefas de uma aplicação e monitorá-las enquanto estiverem em execução. Um dos objetivos do monitoramento é, em caso de falha, identificar e reiniciar uma tarefa no mesmo nó, ou, em caso de necessidade, em um nó diferente; TaskTracker: processo responsável por executar as tarefas de map e reduce e informar o progresso das atividades. Assim como os DataNodes, uma aplicação Hadoop é composta por diversas instâncias de TaskTrackers, cada uma em um nó escravo. Um TaskTracker executa uma tarefa map ou uma tarefa reduce designada a ele. Como os TaskTrackers rodam sobre máquinas virtuais, é possível criar várias máquinas virtuais em uma mesma máquina física, de forma a explorar melhor os recursos computacionais; SecondaryNameNode: utilizado para auxiliar o NameNode a manter seu serviço, e ser uma alternativa de recuperação no caso de uma falha do NameNode. Sua única função é realizar pontos de checagem (checkpointing) do NameNode em intervalos pré-definidos, de modo a garantir a sua recuperação e atenuar o seu tempo de reinicialização. 3.1.3 Análise de dados O Hadoop busca simplificar o processamento paralelo. Ele permite os Cientistas de Dados se preocupar com a forma em que os dados devem ser 96 processados e facilita para que os desenvolvedores não se preocupem com problemas relativos ao processamento paralelo. A versão estável do Hadoop é a 3.03(31/05/2018). A instalação e configuração do ecossistema do Hadoop não é simples, então faz-se necessário a criação de uma plataforma para análise de dados com o Hadoop 3, Hive 3 e Spark 2.4. E não é necessário ter um grande datacenter, ou seja, é possível em máquinas mais simples como notebooks e desktops para estudo, provas de conceito ou demonstração. Na verdade, é possível rodas um cluster completo em uma única máquina (com Linux). A análise de dados é uma atividade cada vez mais importante para empresas e o Hadoop se tornou sinônimo de software para o big data. Neste sentido, o ecossistema do Hadoop tem evoluído com a inclusão de novas ferramentas para análises, sendo que a primeira dessas ferramentas foi o Hive, uma ferramenta de data warehouse. Em seguida, o Spark surgiu como uma alternativa mais performática para processamento in-memory, no lugar do processamento batch do Hadoop. Estas 3 ferramentas (Hadoop, Hive e Spark) estão integradas para entregar uma solução bastante satisfatória para análise de dados. Apache Hive O Apache Hive é um data warehouse para o Hadoop e permite a execução de comandos SQL. Esta técnica de integração entre Hadoop e SQL, conhecida como SQL-on-Hadoop, tem se popularizado. O Hive permite escrever o ETL (extract, transform and load) para os dados corporativos, assim temos a integração do Hive com ferramentas de relatório de BI tradicionais. O Hive é uma ferramenta útil para conversão de formatos, ou seja, podemos trabalhar com arquivos XML e JSON, formatos comuns para a transferência de dados. 97 Apache Spark O Apache Spark é um sistema para computação distribuída de alto desempenho. Por padrão, o Hive usa MapReduce para execução das consultas, mas este modelo tem performance bastante ruim e não é recomendado. O Spark é um mecanismo para processamento de dados de propósito geral e pode ser usado em diversas situações. Ele é a base para outras soluções como machine learning, grafos, SQL, processamento em tempo real, integração de dados e análise interativa. Ele suporta as linguagens de programação Java, Python, Scala e a linguagem R. Muito mais do que apenas um mecanismo de execução, o Spark é uma das ferramentas mais importantes para os sistemas de big data. 3.1.4 Onde se aplica o Hadoop? Hoje em dia existem diversas aplicações para o Hadoop, abaixo serão apresentadas as principais: a. Análise e sugestão de produtos – Dentro de um e-commerce, o Hadoop pode ser utilizado para verificar, analisar e identificar quais são as preferências de um determinado cliente, sugerindo alguns produtos que poderiam atender as suas demandas. b. Análise de sequência de cliques – Outra aplicação interessante para o Hadoop é na análise de sequência de cliques realizados pelo usuário, identificando quais são seus maiores interesses. c. Processamento de logs – Processar uma quantidade enorme de logs de um sistema quando se conta com milhares de usuários pode ser 98 um grande problema e o framework Hadoop se apresenta como solução. É possível utilizá-lo para processar e estruturar uma série de dados recebidos de forma não estruturada, facilitando assim a sua análise e compreensão por parte da equipe responsável. Uma das vantagens do Hadoop é que com ele não é preciso contar com um hardware específico para prevenir falhas, pois a própria biblioteca da aplicação já realiza o tratamento de possíveis erros. Outra vantagem é que todos os servidores que fazem parte do cluster podem ser retirados a qualquer momento e o Hadoop se reorganiza e continua a operar normalmente. Seu grande diferencial também é o fato de ser Open-Source e não exigir um investimento para aquisição do sistema. 99 4. FERRAMENTAS DE BIG DATA E DATA ANALYTICS Ferramentas de BIG DATA Abel (2018) em seu artigo elenca as seguintes ferramentas de Big Data: a.Import.io – é uma plataforma que serve para extrair dados open source, sem precisar digitar nenhum tipo de código de acesso. Isso significa que todo o ambiente web é visto como um grande banco de dados. Os dados coletados serão armazenados na nuvem dos servidores do Import.io, podendo ser exportados nos formatos de Excel, CSV, JSON ou acessados via Interface de Programação de Aplicações (API). b. Oracle Data Mining (ODM) – A mineração de dados é uma das etapas da análise de Big Data que consiste em “peneirar” as informações mais relevantes em meio a todo aquele volume coletado. Esta ferramenta fornece poderosos algoritmos de mineração de dados que permitem aos analistas obterem insights, fazer previsões e alavancar investimentos. Com o ODM, é possível criar e aplicar modelos preditivos e fazer projeções sobre o comportamento do cliente, desenvolver perfis, identificar oportunidades de vendas e detectar possíveis anomalias e fraudes. c. Statwing – é uma ferramenta muito útil para análise estatística. Para utilizá-lo, basta importar uma planilha para essa plataforma e os dados serão verificados automaticamente. Por meio do Statwing, é possível construir relações entre diferentes dados e chegar a conclusões bem fundamentadas. A ferramenta também gera tabelas e gráficos automaticamente. 100 d. Chartio – permite que seja combinado os diferentes dados coletados e crie relatórios diretamente no seu navegador. Os arquivos, então, poderão ser convertidos em formato PDF e enviados por e-mail. Esta ferramenta está disponível em versões gratuitas e versões pagas. e. Pentaho – é uma ferramenta que permite a integração das informações com diferentes plataformas e softwares. Com o Pentaho é possível conectar o Tableau com redes sociais da sua empresa e, a partir disso, ser mais eficiente no uso dessas informações. f. Pesquisas automatizadas – Contar com todas essas ferramentas ajuda a filtrar, selecionar e visualizar dados. Mas, muitas vezes, é necessário fazer pesquisas específicas para responder perguntas que ficaram ainda sem resposta clara para as peculiaridades do seu negócio. 101 Ferramentas de Data Analytics A análise de dados é cada vez mais importante para empresas que buscam descobrir insights que possam estar ocultos em um vasto mar de dados. As organizações podem obter uma perspectiva tremendamente valiosa sobre seus clientes e objetivos comerciais usando ferramentas projetadas para organizar, categorizar e inferir conclusões estatísticas de várias fontes de dados. As empresas têm muitas ponderações e escolhas a serem feitas ao avaliar as ferramentas de análise de dados, mas encontrar o aplicativo correto e usar seus recursos com eficácia pode levar a uma transformação radical. Matt Kapko, em sua publicação pela revista CIO de 17/03/2019, examinou dezenas de fornecedores para identificar os melhores softwares gratuitos de análise de dados disponíveis. Depois de avaliar seus pontos fortes e limitações, estudar as análises de líderes do setor e analisar classificações de várias empresas de pesquisa, selecionou 7(sete) ferramentas a seguir: a. DataMelt O DataMelt, também conhecida como DMelt, é uma plataforma computacional para análise estatística de Big Data e visualização científica. O programa é usado com mais frequência em ciências naturais, engenharia e modelagem e análise de mercados financeiros. A plataforma suporta muitas linguagens de programação, incluindo Python, BeanShell, Groovy, Ruby, Java e outras. As organizações podem acessar vastas bibliotecas por meio de scripts dinâmicos, incluindo mais de 40 mil classes Java para computação e visualização e 500 módulos Python. Recursos mais avançados exigem uma licença de desenvolvedor ou comercial, mas a edição gratuita da DataMelt inclui muitos dos principais recursos necessários para explorar, analisar e visualizar dados. http://jwork.org/dmelt/ http://jwork.org/dmelt/ 102 b. KNIME Analytics Platform A Plataforma KNIME Analytics foi projetada para ajudar as organizações a manipular, analisar e modelar dados por meio de programação visual. O software inclui mais de 1 mil módulos, centenas de exemplos prontos para uso e uma variedade de ferramentas integradas para ajudar os usuários a descobrir possíveis insights ocultos em seus dados e prever futuros com o auxílio do aprendizado de máquina. Em vez de escrever código, o KNIME permite que as organizações arrastem e soltem os pontos de conexão entre as atividades. A ferramenta de análise de dados também oferece suporte à combinação de dados entre arquivos de texto simples, bancos de dados, documentos, imagens, redes e dados baseados no Hadoop em um único fluxo de trabalho visual. A KNIME Analytics Platform é de código aberto e atualizada com novos lançamentos em uma base semestral. https://www.knime.com/knime-analytics-platform c. OpenRefine O OpenRefine, antigo Google Refine, ajuda as organizações a lidar com dados confusos. O Google deixou de apoiar o projeto em 2012, mas o aplicativo ainda está disponível e é atualizado regularmente por voluntários. O OpenRefine pode executar várias tarefas em dados, incluindo limpeza, transformação e formatação de dados para torná-los mais adequados para análise e exploração. A ferramenta também permite que os usuários recuperem dados de serviços da Web externos para reconciliar e correlacionar dados de várias origens. O OpenRefine não é a melhor ferramenta para grandes bancos de dados, mas continua sendo uma opção importante e bem vista por muitas organizações, devido à quantidade significativa de tempo que os analistas gastam na limpeza de dados para modelagem preditiva. http://openrefine.org/ https://www.knime.com/knime-analytics-platform http://openrefine.org/ 103 d.Orange Orange é uma ferramenta de análise e visualização de dados de código aberto desenvolvida na Universidade de Ljubljana, na Eslovênia. Os usuários podem extrair dados via programação visual ou scripts Python em uma janela de terminal; explorar estatísticas, box plots ou scatter plots; e aprofundar seus dados com árvores de decisão, agrupamento hierárquico, heatmaps e projeções lineares. A interface gráfica do usuário da Orange permite que os usuários se concentrem na análise exploratória de dados, em vez de codificação. A ferramenta também possui componentes para Machine Learning e complementos que estendem a funcionalidade de mineração de dados de fontes externas para execução de processamento de linguagem natural, mineração de texto, bioinformática, análise de rede e mineração de regras de associação. https://orange.biolab.si e. Linguagem de Programação - R A linguagem de programação R é amplamente utilizada para pesquisa em metodologia estatística. As organizações também podem aproveitar um conjunto integrado de software para manipulação de dados, cálculo e exibição gráfica. As principais características estatísticas incluem modelagem linear e não linear, testes estatísticos clássicos, análise de séries temporais, classificação e agrupamento. https://www.r-project.org/ f.Tableau Public O Tableau Public é um aplicativo de análise e visualização de dados que permite aos usuários publicar dados interativos na web. A versão gratuita do Tableau é limitada a 1 GB de armazenamento de dados e 1 milhão de linhas de dados. A simplicidade e a https://orange.biolab.si/ https://www.r-project.org/ 104 intuição do Tableau Public tornaram-no uma das ferramentas de análise de dados mais populares. O Tableau Public pode extrair dados do Planilhas Google, do Microsoft Excel, arquivos CSV, arquivos JSON, arquivos estatísticos, arquivos espaciais, conectores de dados da Web e OData. Os usuários podem gerar gráficos interativos, gráficos e mapas para serem compartilhados em mídias sociais ou incorporadosem sites para disponibilidade pública. https://public.tableau.com/pt-br/s/download g. Trifacta Wrangler O Trifacta Wrangler é outro aplicativo projetado para ajudar os analistas de dados a limpar e preparar dados confusos de diversas fontes. Depois que os conjuntos de dados são importados para o Trifacta Wrangler, o aplicativo organizará e estruturará os dados automaticamente. Algoritmos de aprendizado de máquina ajudam a preparar dados para análises mais detalhadas, sugerindo transformações e agregações comuns. O Trifacta Wrangler pode importar dados do Microsoft Excel, arquivos JSON e arquivos CSV brutos. A ferramenta também faz o perfil dos dados para indicar a porcentagem de linhas com valores ausentes, incompatíveis ou inconsistentes e categoriza visualmente os dados por tipo, como a data ou hora, a string ou o endereço IP associado a cada ponto de dados. https://www.trifacta.com/products/wrangler https://public.tableau.com/en-us/s/download https://www.trifacta.com/products/wrangler/ 105 Referências Bibliográfica INTEL. Guia de Planejamento: saiba mais sobre Big Data. 2013. Disponível em em: https://www.intel.com.br/content/dam/www/public/lar/br/pt/documents/articles/90 318386-1-por.pdf. Acesso em:10/01/2020. LIMA JUNIOR, W.T. Jornalismo Computacional em função da Era do Big Data. SBPJor – Associação Brasileira de Pesquisadores em Jornalismo. In: 9º. Encontro Nacional de Pesquisadores em Jornalismo. Rio de Janeiro, Universidade Federal do Rio de Janeiro, 3 a 5 nov.2011. Referências on Line Big Data Analytics: você sabe o que é e como funciona? Disponível em: https://www.voitto.com.br/blog/artigo/big-data-analytics. Acesso em :12/01/2020 O que é o framework hadoop Disponível em : https://gaea.com.br/o-que-e-o- framework-hadoop-nos-te-ensinamos/ . Acesso em: 06/06/2019. Plataforma de Big Data para análise de dados com o Hadoop. Disponível em: http://blog.marcoreis.net/plataforma-de-big-data-para-analise-de-dados-com- hadoop-3-hive-3-e-spaprk-2-4/ . Acesso em 08/01/2020. What is Big Data. Disponível em : https://www.guru99.com/what-is-big- data.html#1. Acesso em 08/12/2019. Machine Learning. Disponível em : https://www.ibm.com/br- pt/analytics/machine-learning. Acesso em 12/01/2020. 7 ferramentas gratuitas de análise de dados. Diponível em : https://cio.com.br/7-ferramentas-gratuitas-de-analise-de-dados-que-voce-deve- conhecer/. Acesso em 12/01/2020. https://www.intel.com.br/content/dam/www/public/lar/br/pt/documents/articles/90318386-1-por.pdf https://www.intel.com.br/content/dam/www/public/lar/br/pt/documents/articles/90318386-1-por.pdf https://www.voitto.com.br/blog/artigo/big-data-analytics.%20Acesso%20em%20:12/01/2020 https://gaea.com.br/o-que-e-o-framework-hadoop-nos-te-ensinamos/ https://gaea.com.br/o-que-e-o-framework-hadoop-nos-te-ensinamos/ http://blog.marcoreis.net/plataforma-de-big-data-para-analise-de-dados-com-hadoop-3-hive-3-e-spaprk-2-4/ http://blog.marcoreis.net/plataforma-de-big-data-para-analise-de-dados-com-hadoop-3-hive-3-e-spaprk-2-4/ https://www.guru99.com/what-is-big-data.html#1 https://www.guru99.com/what-is-big-data.html#1 https://www.ibm.com/br-pt/analytics/machine-learning.%20Acesso%20em%2012/01/2020 https://www.ibm.com/br-pt/analytics/machine-learning.%20Acesso%20em%2012/01/2020 https://cio.com.br/7-ferramentas-gratuitas-de-analise-de-dados-que-voce-deve-conhecer/ https://cio.com.br/7-ferramentas-gratuitas-de-analise-de-dados-que-voce-deve-conhecer/ 106 Sugestão de Leitura: https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_- Cloud+and+Data+Platform_Data+Science-_-EP_BR-_- %2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7 =1031803&cm_mmca8=aud-311016886972:kwd- 26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXO HiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11= b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nC mgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds https://www.ibm.com/br-pt/analytics/machine-learning?cm_mmc=Search_Google-_-Cloud+and+Data+Platform_Data+Science-_-EP_BR-_-%2Bmachine%20%2Blearning_b&cm_mmca1=000038LA&cm_mmca2=10012457&cm_mmca7=1031803&cm_mmca8=aud-311016886972:kwd-26527633773&cm_mmca9=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&cm_mmca10=364010079823&cm_mmca11=b&gclid=CjwKCAiA1rPyBRAREiwA1UIy8MQ2BJG_2qNYQCLTF_61Ui3ixhtXOHiZe4U15XUrirf5nCmgOPBrkBoCm2sQAvD_BwE&gclsrc=aw.ds107 UNIDADE IV – Alternativas em BD para BigData Objetivos: Apresentar uma visão do modelo de Banco de Dados NoSQL, suas vantagens enfatizando as características de cada tipo de estrutura; Entender a aplicação do Banco de Dados In - Memory, sua arquitetura, tecnologias, a persistência dos dados; Definir como iniciar um projeto de BigData, o Business Case, realizar o planejamento, definir os requisitos técnicos, e realizar uma avaliação do valor total do negócio. 108 INTRODUÇÃO Nesta unidade, estaremos verificando que com o surgimento da Web 2.0 e o crescimento do volume de dados, o modelo de banco de dados, conhecido como NoSQL, tem se destacado no mercado, propondo alto desempenho, e processamento de grandes volumes de dados não-estruturados. Os bancos de dados NoSQL possuem características particulares em relação a recuperação de dados ou formas de consulta: de uma maneira geral, os comandos são semelhantes à sintaxe tradicional do SQL, porém não há um padrão da linguagem entre as famílias NoSQL e, o nível de conhecimento exigido dos usuários para escrever simples consultas é mais avançado do que nos SGBD relacionais. Também será abordado os conceitos de os Bancos de Dados In- Memory, sua arquitetura e tecnologias. Um banco de dados em memória (IMDB), é um sistema de gerenciamento de banco de dados que basicamente depende da memória principal para armazenamento de dados de computador. Nas etapas para a criação de um projeto de Big Data bem-sucedido é necessária uma profunda compreensão dos problemas de negócios que se desejar resolver e do valor que se deseja obter. 109 1. O que são Banco de Dados NoSql NoSQL (originalmente se referindo a "no SQL": "não SQL" ou "não relacional", posteriormente estendido para Not Only SQL - Não Somente SQL) é um termo genérico que representa os bancos de dados não relacionais. Cerca de 80% do Big Data são dados não estruturados. Armazenar e processar esses dados em bancos relacionais não é uma tarefa viável, considerando principalmente que eles não foram concebidos com esse objetivo. Exatamente aí os bancos de dados NoSQL estão senso usados cada vez mais, para atender aplicações analíticas criadas na era do Big Data. Desenvolvedores e especialistas analisam a dificuldade, às vezes a impossibilidade, de utilizar modelos relacionais para armazenar todos esses dados mantendo uma escalabilidade dinâmica e a performance necessária com o aumento dos dados. Para utilizarmos todos esses dados que geramos a todo momento, e extrair informações, é necessário ferramentas especiais. Dentre todas as ferramentas, desde ferramentas para armazenamento, extração, análise, formatação, etc. Começamos pela forma como armazenamos essa grande quantidade de dados. É aí que entra o NoSQL. 1.1 Por que usar um banco de dados NoSQL? Os bancos de dados NoSQL são ideais para muitos aplicativos modernos, como dispositivos móveis, Web e jogos, que exigem bancos de dados flexíveis, escaláveis, de alta performance e altamente funcionais para 110 proporcionar ótimas experiências aos usuários. As vantagens para a utilização de um banco de dados NoSQL são: Flexibilidade: os bancos de dados NoSQL geralmente fornecem esquemas flexíveis que permitem um desenvolvimento mais rápido e iterativo. O modelo de dados flexível torna os bancos de dados NoSQL ideais para dados semiestruturados e não estruturados. Escalabilidade: os bancos de dados NoSQL geralmente são projetados para serem escalados horizontalmente usando clusters distribuídos de hardware, em vez de escalá-los verticalmente adicionando servidores caros e robustos. Alguns provedores de nuvem lidam com essas operações nos bastidores como um serviço totalmente gerenciado. Alta performance: o banco de dados NoSQL é otimizado para modelos de dados específicos (como documento, chave-valor e gráfico) e padrões de acesso que permitem maior performance do que quando se tenta realizar uma funcionalidade semelhante com bancos de dados relacionais. Altamente funcional: os bancos de dados NoSQL fornecem APIs e tipos de dados altamente funcionais criados especificamente para cada um de seus respectivos modelos de dados. 1.2 Estruturas ou Categorias de bancos de dados NoSQL Os bancos de dados NoSQL usam diversos modelos/estruturas para acessar e gerenciar dados, como documento, gráfico, chave-valor, em memória e pesquisa. Esses tipos de banco de dados são otimizados especificamente para aplicativos que exigem modelos de grande volume de dados, baixa latência e flexibilidade. Esses requisitos são atendidos mediante o relaxamento de algumas restrições de consistência de dados dos outros bancos. 111 Abaixo a descrição de cada estrutura, publicada no site da Micreiros.com Chave-valor: consiste em uma modelagem que indexa os dados a uma chave. Ao se armazenar os dados, sua forma de procura se dá por uma base similar a um dicionário, onde estes possuem uma chave. Esta forma de armazenamento é livre de “schema”, permite a inserção de dados em tempo de execução, sem conflitar o banco e não influenciando na disponibilidade, pois seus valores são isolados e independentes entre si. Nesta categoria, os dados são armazenados no formato key-value (chave-valor) e os valores (dados) são identificados pelas chaves. É possível armazenar bilhões de registros de forma eficiente e o processo de escrita é bem rápido. Os dados podem ser então pesquisados através das chaves associadas. Alguns exemplos são: Oracle NoSQL, Riak, Azure Table Storage, BerkeleyDB e Redis. Figura 1. Documento: consiste em uma estrutura baseada em uma coleção de documentos, sendo um documento um objeto que contém um código único com um conjunto de informações, podendo ser strings, documentos aninhados ou ainda listas. Inicialmente pode ser semelhante ao modelo de chave-valor (Key-value), no entanto, diferencia-se por ter um conjunto de documentos e cada um destes receber um identificador único, assim como as chaves, dentro da coleção. Ao se armazenar os dados em JSON, o desenvolvimento é facilitado, pois há suporte a vários tipos de dados. Esta categoria de Bancos de Dados NoSQL permite o armazenamento de milhões de 112 documentos. Por exemplo, você pode armazenar detalhes sobre um empregado, junto com o currículo dele (como um documento) e então pesquisar sobre potenciais candidatos a uma vaga, usando um campo específico, como telefone ou conhecimento em uma tecnologia. Exemplos destes são o MongoDB e CouchBase. Figura 2 Grafos: Este modelo de armazenamento utiliza três componentes básicos: um grafo para representar um dado, arrestas ou ligações para representar a associação entre os grafos e os atributos (ou propriedades) dos nós e relacionamentos. Esta categoria de Bancos de Dados NoSQL, geralmente é aderente a cenários de rede social online, onde os nós representam as entidades e os laços representam as interconexões entre eles. Desta forma, é possível atravessar o grafo seguindo as relações. Esta categoria tem sido usada para lidar com problemas relacionados a sistemas de recomendação e listas de controle de acesso, fazendo uso de sua capacidade de lidar com dados altamente interligados. Alguns exemplos são: Neo4J, OrientedDB, GraphBase e InfiniteGraph. Figura 3 Colunas: Este modelo foi inicialmente desenvolvido baseado no Big Table do Google (é o armazenamento nas nuvens que é utilizado por diversas aplicações do Google). De todos os modelos de armazenamento NoSQL, provavelmente o orientado a colunas seja o mais complexo. Esse modelo também é considerado uma extensão do armazenamento orientado a chave-valor e possui conceitos similares ao do modelo relacional, como a criação de linhas e colunas. Neste modelo, as entidades são representadas por tabelas e os dados gravados em disco. São bancos dedados indicados para mídias sociais e problemas que envolvem consultas complexas. Também chamados bancos de dados orientados a coluna, os dados são organizados em grupos de colunas e tanto o armazenamento, quanto as pesquisas de dados são baseados em chaves. São exemplos de bancos orientados a coluna o HBase e o Cassandra. Figura 4 113 Figura 1 – Exemplo de organização de um banco de dados NoSQL chave-valor. Figura 2 – Exemplo de organização de um banco de dados NoSQL documento. Figura 3 – Exemplo de organização de um banco de dados NoSQL grafos. Figura 4 – Exemplo de organização de um banco de dados NoSQL colunas. 114 Fonte: http://nosql-database.org/ 1.3 Principais Banco de dados NoSQL De acordo com o levantamento, feito em fevereiro de 2018, pela revista on line Ciencia e Dados, aponta como principais mecanismos de banco de dados NoSQL: MongoDB, Redis, Cassandra, HBase, Amazon DynamoDB e Neo4j. 115 1. MongoDB O MongoDB é um document store e o atual líder no segmento de banco de dados NoSQL. Como é o requisito para os engines NoSQL, o MongoDB não usa um esquema relacional, em vez disso, usa “documentos” semelhantes ao formato JSON (Java Script Object Notation), para armazenar dados. O documento é semelhante a um registro, com campos e valores. O MongoDB suporta esquemas dinâmicos, é um software livre e de código aberto. 2. Cassandra Originalmente desenvolvido no Facebook, Cassandra é um mecanismo de banco de dados descentralizado, distribuído e orientado a coluna. É otimizado para clusters, especialmente aqueles em vários datacenters, e graças à sua atualização assíncrona e design sem mestre (master), o Cassandra fornece acesso de baixa latência a clientes. Como o MongoDB, também é gratuito e de código aberto. Cassandra é um banco de dados orientado por coluna, o que significa que suas linhas realmente contêm o que geralmente pensamos como dados verticais, ou o que é tradicionalmente realizado em colunas relacionais. A vantagem do design de banco de dados orientado por coluna é que alguns tipos de pesquisas de dados podem se tornar muito rápidos, uma vez que os dados desejados podem ser armazenados consecutivamente em uma única linha. https://www.mongodb.com/ http://cassandra.apache.org/ 116 3. Redis O Redis é a implementação key-value store mais popular e amplamente utilizado. O que é um key-value store? É um paradigma simples: onde se atribui valores às chaves para facilitar o acesso e o armazenamento desses valores, que sempre são encontrados através das suas chaves. O Redis mantém seus pares de valores-chave na memória, tornando seu acesso rápido. Se a durabilidade dos dados pode ser sacrificada principalmente com dados não críticos, ou em situações de somente leitura. 4. HBase Outro banco de dados orientado a coluna, o HBase é uma implementação gratuita e aberta do BigTable do Google. Embora a HBase seja um legítimo software por direito próprio, sua popularidade e seu uso generalizado, sem dúvida, vem da sua estreita associação com o Hadoop, pois faz parte do projeto Apache. Isso facilita a busca eficiente de dados dispersos e distribuídos, que é um dos seus pontos mais fortes. O HBase possui uma série de implementações em gigantes da internet, incluindo LinkedIn, Facebook e Spotify. 5. Amazon DynamoDB O Amazon DynamoDB é um serviço de banco de dados NoSQL em nuvem oferecido pela AWS (Amazon Web Service). O DynamoDB é rápido e flexível para todas as aplicações que precisam de latência constante abaixo de 10 milissegundos em qualquer escala. O serviço é um banco de dados em nuvem totalmente gerenciado e é compatível com os modelos de armazenamento de documentos e de chave-valor. 6. Neo4j Neo4j é o sistema de gerenciamento de banco de dados baseado em grafos (ou Graph Database), sendo o sistema mais popular desta categoria em uso atualmente. Um Graph Database é baseado em arestas que atuam como relacionamentos entre os vértices (ou nodes), relacionando diretamente https://redis.io/ https://hbase.apache.org/ http://www.cienciaedados.com/processamento-de-dados-com-hadoop/ https://aws.amazon.com/pt/dynamodb/ https://neo4j.com/ 117 instâncias de dados umas com as outras. Como outros na lista, o Neo4j também possui uma implementação de código aberto. Os bancos de dados baseados em grafos (e o Neo4j) têm vantagens em alguns casos de uso, incluindo determinados cenários de mineração de dados e reconhecimento de padrões, uma vez que as associações entre instâncias de dados são explicitamente declaradas. 1.4 Banco de dados SQL (relacional) x NoSQL(não relacional) Com a crescente popularização da internet, diversos novos dados foram surgindo e tratá-los foi se tornando gradualmente mais complexo e sua manutenção cada vez mais cara. Embora existam muitos tipos de bancos de dados NoSQL com recursos variados, a tabela a seguir, disponibilizada pela AWS mostra algumas das diferenças entre os bancos de dados SQL (relacional) e NoSQL (não relacional). Na tabela abaixo é possível verificar algumas das características de um Banco de Dados SQL e um de um Banco de Dados NoSQL. SQL NoSQL SQL é um Banco de Dados Relacional NoSQL não é um Banco de dados Relacional 118 SQL é baseado em tabelas NoSQL é baseado em Documento É predefinido esquemas para a estrutura de dados É dinamico os esquemas para a estrutura de dados SQL é verticalmente escalavel NoSQL é horizontalmente escalável SQL não é adequado para trabalho hierarquico NoSQL é o mais adequado para trabalho hierárquico. 119 Fonte: https://aws.amazon.com/pt/nosql/ A cada dia, o tema do Big Data vem crescendo no contexto das aplicações web, no qual o volume, variedade e velocidade de informações tem- se tornado uma preocupação para as organizações. O aumento contínuo de dispositivos conectados à internet é surpreendente. A Internet das Coisas já é realidade, onde tudo pode estar conectado à rede. E a quantidade de dados gerados a todo momento é algo gigantesco. Em todos os setores, imagina a quantidade de transações que acontecem o tempo inteiro em bancos de dados do mundo inteiro. Nesse contexto, surgiram os SGBDs NoSQL com o objetivo de prover uma modelagem de dados simplificada, possibilitando ganhos de desempenho, maior grau de escalabilidade, flexibilidade e disponibilidade. Por outro lado, os SGBDs NoSQL não são uma novidade simples de ser adotada. Por essa razão, identificar critérios para seleção de SGBDs NoSQL se mostra importante, até porque para se desenvolver um software que vai crescer (escalar) MUITO, a melhor alternativa é um NoSQL. https://aws.amazon.com/pt/nosql/ 120 2. In-Memory Databases Bancos de dados em memória principal são sistemas computacionais de gerência de bancos de dados onde toda a massa de dados está armazenada em memória principal, ao invés de estar em discos rígidos como ocorre na maior parte dos casos. Para ser capaz de processar grandes volumes de dados no ritmo imposto pela Internet of Things (IoT), um Database Of Things (DoT) usa sistema de armazenamento In-Memory em vez do tradicional armazenamento em disco atualmente usado. O principal propósito do Banco de Dados In-Memory é o “alocamento” na memória principal feito justamente para facilitar o acesso de aplicações que precisam de informações em tempo real. Nos sistemas de armazenamento In-Memory (IMDS), os dados são armazenados em formato compacto e não relacional na memória principal. Por isso, um IMDS gerencia grandes volumes de informação com muito mais agilidade e eficiência que os bancos de armazenamento em disco. Os bancos de dados In-Memory geralmente demandam menos da memória da CPU, propiciando o processamento e a consulta de informações com um curto tempo de resposta. Justamente por issoé que os sistemas IMDS vêm sendo 121 usados como DoT por organizações, permitindo a análise de dados para auxiliar na tomada de decisões. De acordo com David Matos em sua publicação na revista eletrônica Data Science for professional, trabalhar com dados na memória é muito mais rápido do que escrever e ler a partir de um sistema de arquivos, e IMDSs podem executar funções de gerenciamento de dados das aplicações em uma ordem de magnitude muito maior. O design é tipicamente mais simples do que a de bases de dados em disco e IMDSs também podem impor requisitos de memória e CPU significativamente mais baixos. IMDS fornece tempos de resposta de consulta extremamente rápidos, In-Memory databases podem reduzir ou eliminar a necessidade de indexação de dados, armazenamento de dados pré-agregados em cubos OLAP ou tabelas agregadas. Esta capacidade reduz os custos de TI e permite uma implementação mais rápida de aplicações Analytics e Business Intelligence. 2.1 Arquitetura do Banco de Dados In-Memory O Banco de Dados In-Memory possui alguns pontos que o diferencia dos bancos convencionais, sendo: O armazenamento é feito diretamente na memória principal, ou seja, memória RAM; Seus algoritmos e mecanismos são mais simples; É mais simples se comparado aos SGBDs comuns; De acordo com o artigo “Banco de dados In-Memory”, publicado por João Mello Correia, da revista on line Micreiros: “Os bancos de dados em memória irão sim utilizar o disco rígido ou memórias flash, para a persistência de dados. É como se um backup estivesse nessa memória permanente porém o processo e execução dos dados ocorre diretamente na RAM. Aí está o ganho de performasse sem correr o risco de perder informação. Dessa forma a utilização dos dados sempre presentes na memória otimiza a performance eliminando o 122 tempo duplo gasto na transferência dos arquivos do banco de dados para o buffer e vice-versa.” 2.2 Tecnologia de Banco de Dados In-Memory A agilidade trazida por Banco de Dados In-Memory é fundamental para realizar a análise de informações em tempo real, o que assegura uma resposta mais rápida ao mercado, garantindo inovação ao seu negócio para o aproveitamento das oportunidades. A tecnologia ainda contribui para a redução de custos com TI, já que ela diminui a necessidade de investimento em hardwares e manutenção de banco de dados. A Forrester (uma empresa de pesquisa americana), divulgou um relatório com os principais bancos de dados em memória que estão sendo usados como Database of Things. Algumas das soluções mais significantes atualmente: 123 Aerospike Altibase DataStax IBM DB2 com BLU acceleration e dashDB Kognitio MemSQL Microsoft SQL Server 2014 Oracle TimesTen e Oracle 12c In-Memory Pivotal SAP Hana Teradata Intelligent Memory VoltDB Dentre as diversas soluções de Banco de Dados In-Memory a empresa ArtSoft Sistemas publicou em seu blog a respeito da tecnologia SAP HANA. Em testes realizados, o SAP HANA (SAP High Performance Analytic Appliance) trouxe resultado 1000 vezes maior para o processamento de dados que os bancos de dados convencionais. Um resultado e tanto para considerar a aplicação em sua empresa e obter acesso às informações de forma mais ágil. Esta ferramenta de computação In-Memory da SAP transfere a análise de dados em grande volume dos discos rígidos para a memória principal dos servidores. Isso significa que todas as aplicações do produto SAP são combinadas com a tecnologia para uma maior velocidade e precisão no processamento dos dados de sua empresa, influenciando na agilidade de decisões para o aproveitamento das oportunidades de negócio em seu mercado de atuação. O principal fator disso é que, com o SAP HANA, não mais haverá necessidade de depender de um DBA para o acesso a estas informações, o que propicia análises em tempo real. Fazer rápido é essencial. E fazer certo é fundamental, aqui acompanhamos ferramentas que de fato influenciam na velocidade e performance para trabalhar as informações. Deve-se sempre analisar sempre a situação, e verificar qual é a solução ideal para sua empresa. http://www.aerospike.com/ http://altibase.com/ http://www.datastax.com/ https://www-01.ibm.com/software/data/db2/linux-unix-windows/db2-blu-acceleration/ http://kognitio.com/ http://www.memsql.com/ http://www.oracle.com/technetwork/products/timesten/faq-091526.html http://pivotal.io/ http://hana.sap.com/abouthana.html http://www.teradata.com/Resources/White-Papers/Teradata-Intelligent-Memory/?LangType=1033&LangSelect=true https://voltdb.com/ 124 3. ETAPAS PARA CRIAÇÃO DE UM PROJETO BIG DATA A empresa Analitycs10 em seu blog destaca que: “Os sistemas disruptivos estão transformando os modelos de negócio. O uso de ferramentas analíticas já está consolidando nos mais diferentes nichos de mercado. A era do Big Data obrigou as corporações a procurar meios de se atualizar e seguir adiante com esta nova realidade de mercado. Na verdade, a maioria das organizações já entendeu que devem promover a integração de plataformas. Sejam elas ERP (Sistema Integrado de Gestão Empresarial) ou CRM (Gerenciamento de Relacionamento com o Cliente). E mesmo sistemas customizados próprios, RH (Recursos Humanos), WMS (Warehouse Management System), arquivos em excel ou txt ou dados das redes sociais.” Para que seja possível realizar esta integração de plataformas, faz-se necessário a elaboração de um Projeto Big Data. Vamos apresentar aqui uma versão fundamentada academicamente nas fases do processo de análise sugerido pelo Big Data, e algumas etapas/dicas que foram coletadas de um apanhado de publicações. Conforme ZHENG et all (2013), o Big Data Analytics explora grandes quantidades de dados estruturados e não estruturados para fornecer resultados inteligentes e em tempo real, permitindo que os usuários executem provisionamento, análise e colaboração de autoatendimento. O Big Data Analytics é tipicamente hospedado na Web, multi-tenancy (é a capacidade da aplicação suportar a execução de diversos usuários ou grupos de usuários que possuem alguma ligação e precisam do funcionamento dela de uma forma específica) e usa o Hadoop, noSQL e uma variedade de tecnologias de descoberta de padrões e aprendizado de máquina. Os usuários normalmente executavam scripts e consultas que cientistas e programadores de dados desenvolveram para gerar relatórios e visualizações. Várias abordagens de análise de big data podem ser implementadas e encapsuladas em serviços. Dessa maneira, os usuários poderão interagir facilmente com os 125 serviços de análise baseados na Web, sem se preocupar com os procedimentos subjacentes de armazenamento, gerenciamento e análise de dados. Para que as empresas tenham sucesso na implementação de Big Data é necessário seguir as seguintes fases do processo, representado na figura 1. Figura 1. The Big Data Analysis Pipeline Fonte: https://cra.org/ccc/wp-content/uploads/sites/2/2015/05/bigdatawhitepaper.pdf A coleta de dados ou aquisição e agravação é a primeira fase do processo de Big Data. Nesse momento devem ser analisados o volume e a variedade dos dados que serão coletados. É necessário que se faça uma limpeza, formatação e validação dos dados coletados, para que sejam eliminados erros, dados incompletos e incoerentes, evitando assim contaminar análises futuras. Depois disso vem a fase de integração, agregação e representação dos dados obtidos, pois diferentes tipos e formatos de dados devem receber tratamentos específicos. Nesta fase é importante definir categorias de dados e critérios de validação e aceitação, também critérios de segurança variam de acordo com as fontes de dados. https://cra.org/ccc/wp-content/uploads/sites/2/2015/05/bigdatawhitepaper.pdf 126 Em seguida encontra-se a fase de análise emodelagem dos dados. Como se trata de dados de diversas fontes para serem analisados, requer conhecimento elevado por parte dos usuários. Aqui entra o, “datascientist” um profissional com habilidades em ciência da computação, matemática, estatística e conhecimento de negócio. Esta fase também requer investimentos em pesquisas de novas formas de visualização, que ajudam na melhor interpretação dos dados, que se trata da última fase do pipeline. De acordo com a equipe da DSA (Data Science Academy) em sua publicação de 28/07/2018, o Big Data está transformando os negócios e as decisões e aplicações em dados que criam vantagem competitiva para as empresas, utilizando fontes de dados para descobrir, apresentar e operacionalizar importantes insights empresariais. Não é mais uma questão de usar ou não Big Data na tomada de decisões, mas sim como o Big Data deve ser utilizado de forma eficiente. Um projeto de Big Data irá variar dependendo do caso de uso específico e perfil da empresa, existem 4 etapas principais para implementar com sucesso um projeto de Big Data: a. Definição do Business Case – com objetivos claramente definidos que geram valor comercial para o negócio da empresa. b. Planejamento do Projeto – um plano e um escopo bem geridos levarão ao sucesso. c. Definição dos Requisitos Técnicos – os requisitos detalhados assegurarão que você construa o que precisa para alcançar seus objetivos. d. Criação de um “Total Business Value Assessment” – uma visão holística que deve desconsiderar decisões políticas e emocionais. É importante ressaltar que um projeto de Big Data Analytics deve ser uma decisão de negócio, não uma decisão do departamento de TI, cujo papel deve ser o suporte para que a solução seja implementada de maneira eficiente, profissional e com baixo custo. 127 3.1 Definição do Business Case À medida que as empresas exploram Big Data, os requisitos de negócios variam amplamente do crescimento da receita para a diferenciação do mercado. As empresas percebem os benefícios mais significativos dos projetos de Big Data quando começam com um inventário de desafios e metas de negócio e rapidamente os reduzem para aqueles que esperam fornecer o maior retorno. Para explorar as expectativas da organização em projetos de Big Data, é recomendado responder estas perguntas primeiro: • Qual é o objetivo do projeto? • Em que direção o negócio está indo? • Quais são os obstáculos para chegar lá? • Quem são os principais interessados e quais são seus papéis? • Qual é o caso de uso de Big Data mais importante determinado pelas principais partes interessadas? Outras questões mais específicas, podem ser aplicadas. • Determinar os objetivos de alto nível da empresa e como Big Data pode suportar esses objetivos. • Identificar a área problemática, como marketing, atendimento ao cliente ou desenvolvimento de negócios, e as motivações por trás do projeto. • Descrever o problema e os obstáculos em termos não-técnicos. • Fazer um inventário de quaisquer soluções e ferramentas usadas atualmente para solucionar o problema comercial. • Considerar as vantagens e desvantagens das soluções atuais. • Navegar no processo para iniciar novos projetos e implementar soluções. • Identificar as partes interessadas que se beneficiarão do projeto de Big Data. • Entrevistar as partes interessadas individualmente para determinar os objetivos e preocupações do projeto. • Documentar os objetivos comerciais decididos pelos principais tomadores de decisão. • Atribuir prioridades aos objetivos de negócio. • Criar o Business Case, detalhando todos os itens anteriores. 128 3.2 Planejamento do Projeto Esta etapa pretende construir um objetivo concreto e específico acordado pelas partes interessadas do projeto. É nesta será necessário: • Especificar metas esperadas em termos comerciais mensuráveis. • Identificar todas as questões comerciais com a maior precisão possível. • Determinar quaisquer outros requisitos de negócio quantificáveis. • Definir como seria uma implementação bem-sucedida de Big Data. É importante definir critérios de sucesso e objetivos específicos. E ao determinar os critérios de sucesso, é importante escolher critérios mensuráveis, como uma métrica de desempenho chave específica. As tarefas seguintes são considerações que poderá ser utilizada para garantir que se tenha capturado corretamente os critérios de sucesso: • Com a maior precisão possível, documentar os critérios de sucesso para este projeto. • Certificar de que cada objetivo comercial identificado tenha um critério mensurável que determinará se esse objetivo foi cumprido com sucesso. • Compartilhar e obter aprovação de seus critérios de sucesso entre os principais interessados. • Determinar o escopo adequado, especificamente o que está incluído e o que não está incluído. •Desenvolver um orçamento aproximado. • Definir uma linha de tempo e marcos de sucesso em 3 meses, 6 meses e um ano. 3.3 Definição dos Requisitos Técnicos A fase de requisitos técnicos envolve uma análise mais detalhada dos dados disponíveis para o projeto de Big Data. Esta etapa permitirá que se determine a qualidade de seus dados e descreva os resultados dessas etapas na documentação do projeto. É importante entender quais ferramentas são usadas e a arquitetura em que são usadas, como se encontra sua infraestrutura atual e o inventário de todas as ferramentas usadas atualmente. Isso é importante pois o projeto de Big Data não será algo isolado, mas sim integrado à infraestrutura atual da empresa. 129 Considerar quais fontes de dados serão aproveitadas: • Fontes de dados existentes. Isso inclui uma grande variedade de dados, como dados transacionais, dados de pesquisa, logs de servidores, dados de redes sociais, arquivos pdf, etc. Considerar se as fontes de dados existentes são suficientes para atender às necessidades. • Comprar fontes de dados. Se organização usar dados suplementares, como dados demográficos, pode ser relevante para o processo de análise e complementação dos dados existentes. • Fontes de dados adicionais. Se as fontes acima não atenderem às necessidades, talvez seja necessário realizar pesquisas ou iniciar o rastreamento adicional para complementar os dados existentes. Ao examinar as fontes de dados, deve-se perguntar: • Quais atributos do (s) banco (s) de dados parecem mais promissores? • Quais atributos parecem irrelevantes e podem ser excluídos? • Há dados suficientes para tirar conclusões generalizáveis ou fazer previsões precisas? • Existem muitos atributos para o seu método analítico escolhido? • Está mesclando várias fontes de dados? Em caso afirmativo, existem áreas que podem representar um problema na fusão? • Já considerou como os valores em falta (missing data) são tratados em cada uma das suas fontes de dados? • Será usado Streaming de Dados? Como esses dados serão coletados e armazenados? Há muitas maneiras de descrever os dados, mas a maioria das descrições se concentra na quantidade e qualidade dos dados. Abaixo são apresentadas algumas características-chave para descrever os dados: Volume de dados. Para a maioria das técnicas analíticas, existem trade- offs associados ao tamanho dos dados. Grandes conjuntos de dados podem produzir modelos mais precisos, mas também podem aumentar o tempo de processamento. Velocidade dos dados. Há também trade-offs associados com os dados em repouso ou em movimento (estático ou em tempo real). A velocidade 130 se traduz em quão rápido os dados são criados dentro de um determinado período de tempo. Variedade de dados. Os dados podem ter uma variedade de formatos, como numérico, categórico (string) ou Booleano (verdadeiro / falso). Prestar atenção ao tipo de dado pode evitar problemas durante análises posteriores. Frequentemente,os valores no banco de dados são representações de características como gênero ou tipo de produto. Por exemplo, um conjunto de dados pode usar M e F para representar masculino e feminino, enquanto outro pode usar os valores numéricos 1 e 2. Observe qualquer esquema conflitante nos dados. Tempo para a ação. Os dados podem ser usados para tomar medidas imediatas, além de serem armazenados para futuras análises sem tempo crítico. É importante identificar quais dados provavelmente serão usados para ações em tempo real (<150ms), ações próximas em tempo real (segundos) ou ações críticas sem tempo (minutos a horas). Considerar quais interfaces e ferramentas são necessárias para que sua empresa trabalhe com suas fontes de dados. Além da implementação da infraestrutura, o projeto de Big Data deve oferecer a capacidade de criar aplicativos e análises personalizadas usando API e ferramentas nativas como parte do Hadoop, bancos de dados e processamento de fluxo – além de interfaces abstraídas e unificadas para melhorar a experiência do usuário. Os usuários devem ter a capacidade de produzir tabelas, gráficos e outros elementos de visualização usando ferramentas de BI, como: Business Objects, Microstrategy, Cognos, Tableau, Datameer ou outras ferramentas similares. Tais análises visuais podem ajudar a abordar os objetivos do projeto de Big Data definidos durante a fase de compreensão do negócio. Outras vezes, é mais apropriado utilizar ferramentas que suportem análises estatísticas e construção de modelos de Machine Learning: R, Python, Java, Scala, SAS, Matlab, etc. E oferecer suporte a aplicações de Inteligência Artificial. Isso tudo leva a mais um grupo de questões que devem ser respondidas: • Quem precisa trabalhar com os dados? • Quais são suas habilidades técnicas? • Treinamento será necessário? • Quais ferramentas que a empresa possui e que gostaria de aproveitar? 131 • Essas ferramentas possuem conectores de Big Data ou métodos de interface? • Quais novas ferramentas podem ajudar com a mineração de dados, análise, visualização, relatórios, etc.? • Como e onde os dados serão armazenados? • Serão utilizados Data Lakes? Em nuvem ou on-premises? • Arquiteturas de Enterprise Data Hubs serão consideradas? • Quais são as ferramentas de relatórios e visualização necessárias para alcançar o sucesso aos olhos dos usuários finais? 3.4 Criação de um “Total Business Value Assessment” Avaliar as opções com um “Total Business Value Assessment”, significa que será realizada pelo menos uma análise de custo total de propriedade de 3 anos, e incluir itens como o “time-to-business value”, facilidade de uso, escalabilidade, base em padrões e o nível de maturidade da empresa. Um Projeto de Big Data, exige muito trabalho, e o ambiente da organização deve estar propício ao desenvolvimento do projeto. Trata-se da disseminação da cultura orientada a dados, mudar o mindset do “eu acho” para “eu tenho certeza”. Esclarecer a todos, que os dados possuem valor, promover a sinergia e comunicação transparente, para que isso não seja entrave à execução de projetos futuros. As etapas de Big Data podem variar de acordo com as características do negócio e os objetivos que estão sendo perseguidos. Contudo, pontos como o estabelecimento de metas, o garimpo e validação das informações e a integração de dados são elementares em qualquer abordagem. Seguindo esses passos, será possível a geração de insights que possibilitam decisões mais efetivas e o sucesso do negócio. 132 # VOCÊ SABIA # # Segundo levantamento realizado pelo Gartner, em 2020 75% das organizações já vão, ou pretendem investir em Big Data # A previsão do IDC é de que em 2020 sejam gerados 35 trilhões de gigabytes. https://www.gartner.com/en https://www.idc.com/ 133 Referência Bibliográficas/ Referências OnLine Challenges and opportunities with big data, leading researchers across the United States, Tech. Rep., 2011. Machine Learning with Big Data: Challenges and Approaches in IEEE Access PP(99):1-1 · April 2017 with 4,829 Reads DOI: 10.1109/ACCESS.2017.2696365 Pereira, R.C.: Banco de dados em memória principal, um estudo de caso: Oracle Timesten solução de alto desempenho. Dissertação de mestrado profissionalizante submetida ao departamento de Engenharia Elétrica da Faculdade de Tecnologia da Universidade de Brasília. 2010 ZHENG, Z.; ZHU, J. and LYU, M.R. Service-generated Big Data and Big Data- as-a-Service: An Overview. 2nd IEEE International Congress on Big Data, Santa Clara Marriott, CA, USA, June 27-July 2, 2013. 6 passos de como implementar Big Data. Disponível: https://www.siteware.com.br/gestao-estrategica/como-implementar-big-data/ 6 dicas para implementar o Big Data na sua empresa. Disponível em: https://eleflow.com.br/2016/12/19/6-dicas-para-implementar-o-big-data-na-sua- empresa-2/. Acesso em: 12/01/2020 Bando de Dados In Memory. Disponível em: http://micreiros.com/bando-de- dados-In-Memory/. Acesso em 30/11/2019. Como iniciar um projeto de Big Data Analytics? Disponível em: http://datascienceacademy.com.br/blog/como-iniciar-um-projeto-de-big-data- analytics/. Acesso em: 12/01/2020 Entenda como o In Memory computing é essescial para aproveitar as oportunidades do mercado. Disponível em: https://www.artsoftsistemas.com.br/blog/entenda-como-o-In-Memory- computing-e-essencial-para-aproveitar-as-oportunidades-do-mercado. Acesso em 20/10/2019. Entenda quais são as principais etapas de Big Data. Disponível: https://blog.leucotron.com.br/etapas-de-big-data/. Acesso em:10/01/2020 Fases do processo de análise sugerido pelo Big Data. Disponível: https://www.devmedia.com.br/big-data-tutorial/30918. Acesso em: 12/01/2020 ORACLE. Extreme Performance Using Oracle TimesTen In-Memory Database. Disponível em: https://www.oracle.com/technology/products/timesten/pdf/wp/wp_timesten_tech .pdf,2009. Acesso em:10/10/2019. https://www.researchgate.net/journal/2169-3536_IEEE_Access https://www.researchgate.net/journal/2169-3536_IEEE_Access https://www.siteware.com.br/gestao-estrategica/como-implementar-big-data/ https://eleflow.com.br/2016/12/19/6-dicas-para-implementar-o-big-data-na-sua-empresa-2/ https://eleflow.com.br/2016/12/19/6-dicas-para-implementar-o-big-data-na-sua-empresa-2/ http://micreiros.com/bando-de-dados-In-Memory/ http://micreiros.com/bando-de-dados-In-Memory/ http://datascienceacademy.com.br/blog/como-iniciar-um-projeto-de-big-data-analytics/ http://datascienceacademy.com.br/blog/como-iniciar-um-projeto-de-big-data-analytics/ https://www.artsoftsistemas.com.br/blog/entenda-como-o-In-Memory-computing-e-essencial-para-aproveitar-as-oportunidades-do-mercado.%20Acesso%20em%2020/10/2019 https://www.artsoftsistemas.com.br/blog/entenda-como-o-In-Memory-computing-e-essencial-para-aproveitar-as-oportunidades-do-mercado.%20Acesso%20em%2020/10/2019 https://www.artsoftsistemas.com.br/blog/entenda-como-o-In-Memory-computing-e-essencial-para-aproveitar-as-oportunidades-do-mercado.%20Acesso%20em%2020/10/2019 https://blog.leucotron.com.br/etapas-de-big-data/ https://www.devmedia.com.br/big-data-tutorial/30918 https://www.oracle.com/technology/products/timesten/pdf/wp/wp_timesten_tech.pdf,2009 https://www.oracle.com/technology/products/timesten/pdf/wp/wp_timesten_tech.pdf,2009 134 Quando e como implementar Big Data? Disponível: https://blog.geekhunter.com.br/quando-e-como-implementar-big- data/#A_base_para_um_projeto_de_Big_Data. Acesso em: 10/01/2020 Top 6 NoSQL Database. Disponível em : http://www.cienciaedados.com/top-6- nosql-databases/ https://dicasdeprogramacao.com.br/6-motivos-para-usar-bancos-de-dados- nosql/. Acesso em 25/11/2019 Why Big Data project fail and to make – 2017. Disponível em: https://www.networkworld.com/article/3170137/why-big-data-projects-fail-and- how-to-make-2017-different.html. Acesso em: 15/01/2020. How to starta Big Data Analytics Project. Disponível em: https://www.javacodegeeks.com/2014/02/how-to-start-a-big-data-analytics- project.html. Acesso em 15/01/2020 http://www.agiledata.org https://www.gartner.com/en/newsroom https://www.mongodb.com/agile-development https://nosql-database.org/ Sugestão de Leitura: https://blog.geekhunter.com.br/quando-e-como-implementar-big-data/#A_base_para_um_projeto_de_Big_Data https://blog.geekhunter.com.br/quando-e-como-implementar-big-data/#A_base_para_um_projeto_de_Big_Data http://www.cienciaedados.com/top-6-nosql-databases/ http://www.cienciaedados.com/top-6-nosql-databases/ https://dicasdeprogramacao.com.br/6-motivos-para-usar-bancos-de-dados-nosql/ https://dicasdeprogramacao.com.br/6-motivos-para-usar-bancos-de-dados-nosql/ https://www.networkworld.com/article/3170137/why-big-data-projects-fail-and-how-to-make-2017-different.html https://www.networkworld.com/article/3170137/why-big-data-projects-fail-and-how-to-make-2017-different.html https://www.javacodegeeks.com/2014/02/how-to-start-a-big-data-analytics-project.html https://www.javacodegeeks.com/2014/02/how-to-start-a-big-data-analytics-project.html http://www.agiledata.org/ https://www.gartner.com/en/newsroom https://www.mongodb.com/agile-development https://nosql-database.org/