Baixe o app para aproveitar ainda mais
Prévia do material em texto
BIG DATA ANALYTIC E A TOMADA DE DECISÕES Programa de Pós-Graduação EAD UNIASSELVI-PÓS Autoria: Fernando Gama da Mata CENTRO UNIVERSITÁRIO LEONARDO DA VINCI Rodovia BR 470, Km 71, no 1.040, Bairro Benedito Cx. P. 191 - 89.130-000 – INDAIAL/SC Fone Fax: (47) 3281-9000/3281-9090 Reitor: Prof. Hermínio Kloch Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol Equipe Multidisciplinar da Pós-Graduação EAD: Carlos Fabiano Fistarol Ilana Gunilda Gerber Cavichioli Jóice Gadotti Consatti Norberto Siegel Camila Roczanski Julia dos Santos Ariana Monique Dalri Marcelo Bucci Revisão Gramatical: Equipe Produção de Materiais Diagramação e Capa: Centro Universitário Leonardo da Vinci – UNIASSELVI Copyright © UNIASSELVI 2019 Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri UNIASSELVI – Indaial. M425b Mata, Fernando Gama da Big data analytic e a tomada de decisões. / Fernando Gama da Mata. – Indaial: UNIASSELVI, 2019. 137 p.; il. ISBN 978-85-7141-305-4 1. Big data analytic - Brasil. 2. Administração da produção – Brasil. II. Centro Universitário Leonardo Da Vinci. CDD 658.5 Impresso por: Sumário APRESENTAÇÃO ............................................................................5 CAPÍTULO 1 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA ...............................7 CAPÍTULO 2 COMPREENDENDO E EXPLORANDO TÉCNICAS PARA ANÁLISE DE BIG DATA ....................................49 CAPÍTULO 3 FUNDAMENTOS PARA INTEGRAÇÃO ANALÍTICA, TÓPICOS AVANÇADOS E TENDÊNCIAS EM BIG DATA ANALYTICS ..........97 APRESENTAÇÃO A dinâmica dos dados precisa ser compreendida para quem deseja trabalhar com eles. Tudo começou com a transição Web, que permitiu novas formas de armazenar conteúdo. Alinhado a isso, novas tecnologias surgiram. Custos de hardware e software, fortalecimento da computação em nuvem, entre outros fatores, permitiram que nos últimos anos houvesse uma explosão de dados. Além do contexto histórico, mostraremos alguns exemplos para que você compreenda como as novas tecnologias já estão sendo incorporadas em nosso cotidiano e serão utilizadas como fontes de dados para nossas análises. Na seção seguinte, exibiremos alguns exemplos de tipos de análise de dados que podem ser aplicadas nos contextos de negócio. Neste sentido, você compreenderá como diferenciar um tipo de análise de outro. A análise tradicional será apresentada para que tenha condições de saber algumas limitações e estabelecer algumas distinções com relação ao Big Data. Por falar nisso, serão apresentados conceitos relacionados ao Big Data, bem como citaremos alguns exemplos. Conceitos complementares e úteis também serão mostrados, como dados estruturados, semiestruturados e não estruturados; introdução a bancos de dados não relacionais e seus tipos: chave-valor, orientado a documentos, orientado a colunas e aqueles baseados em grafos. Além disso, apresentaremos uma importante diferença entre o processamento em batch (lote) e processamento em tempo real. Na parte final do capítulo será apresentada uma arquitetura típica de Big Data composta pelas respectivas camadas: camada de extração de integração, camada de armazenamento e fluxo de dados, camada de análise e camada de apresentação. Será ainda conceituado o Hadoop e os componentes core, que são fundamentais para o adequado funcionamento, assim como alguns módulos complementares que podem ser utilizados de acordo com as necessidades do projeto. Neste capítulo abordaremos uma gama de técnicas voltadas especialmente para as análises em cluster e mineração de texto. Você compreenderá o contexto nos quais essas técnicas possuem a sua devida importância. A primeira seção abordará os conceitos e os algoritmos para a análise de cluster, técnicas tradicionais de particionamento e suas limitações, assim como os algoritmos que podem ser empregados. Em seguida, serão apresentadas as evoluções das técnicas que se adequaram às exigências de Big Data. Já a segunda seção apresentará os principais conceitos voltados para um subcampo da análise de rede - as redes socias. Você conhecerá as técnicas, as métricas e as aplicações voltadas para esse amplo campo de estudo. Ao final desta seção serão apresentadas algumas ferramentas que você poderá utilizar nas suas análises. Dando continuidade, a terceira seção abordará as técnicas voltadas à mineração de texto. A contextualização do tema reforçará a complexidade adicional de trabalhar com dados dessa natureza. Assim, é possível empregar análises e utilizar métricas na tentativa de extrair insights interessantes mesmo em grandes volumes de dados. Por fim, a quarta e última seção deste capítulo encerrará tratando do Digital Analytics e suas implicações no mundo dos negócios. Serão mostrados alguns conceitos relacionados a esse campo de aplicação e como algumas empresas estão tirando proveito de métricas digitais para impulsionar seus negócios. Ao longo do capítulo procure experimentar ferramentas e pesquisar adicionalmente alguns pontos que foram destacados. Neste capítulo você terá um conteúdo um pouco mais voltado para a prática. Antes, é necessário que você compreenda e consiga distinguir a relação entre um ambiente de Extração-Transformação-Carga (ETL) de um ambiente de Extração- Carga-Transformação. A diferença pode parecer sutil, mas na realidade revela dois cenários distintos. Em seguida você conhecerá o Apache Spark, como realizar a extração, a transformação e a manipulação de dados. Além disso, conhecerá seus principais componentes e características que os diferem. Destacaremos o principal componente de sua estrutura - o RDD, na qual, inclusive, você será convidado a implementar e assim consolidar seu aprendizado. Na Seção 4 você aprenderá com mais profundidade a respeito dos conceitos e aplicações de Internet das Coisas, bem como conhecerá algumas soluções já disponíveis que podem ser utilizadas. Na Seção 5 apresentaremos algumas tendências de Big Data para que você esteja por dentro do que estará por vir e se antecipar para lidar com novos problemas e soluções que virão. Bons estudos! CAPÍTULO 1 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA A partir da perspectiva do saber-fazer, são apresentados os seguintes objetivos de aprendizagem: Defi nir e esclarecer os principais conceitos relacionados ao Big Data. Apresentar componentes que compõem a arquitetura. Analisar e discutir, a partir dos conceitos e da compreensão dos componentes que fazem parte da arquitetura de Big Data, a distinção entre o emprego da análise de dados tradicional e o Big Data. 8 BiG DATA ANALYTiC E A TomADA DE DECiSÕES 9 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 1 CONTEXTUALIZAÇÃO No atual século, o surgimento de novas tecnologias tem contribuído signifi cativamente para uma explosão de dados gerados. Não à toa, vivemos no ápice de uma era conhecida como a Era da Informação. É conveniente pensar que grande parte dos dados gerados podem ser consumidos para os mais diversos fi ns. Diante deste cenário, empresas e Institutos de Pesquisa e Desenvolvimento (P&D) têm investido cada vez mais em infraestrutura, sejam físicas ou em nuvem, para suportar análises de dados cada vez mais robustas. No âmbito de empresas, em geral, o intuito sempre visa no mínimo, tentar manter ou elevar suas capacidades analíticas e assim tomar decisões que impulsionem seus negócios. No que diz respeito aos Institutos de Pesquisa e Desenvolvimento, implementar soluções que atendam aos requisitos de alto desempenho computacional é um grande desafi o: são vídeos, imagens, textos, vozes, sons e os mais variados tipos e estruturas de dados que precisam ser analisados na tentativa de prover novas soluções em inúmeras áreas da ciência. Desta forma, estão ganhando destaque nas mídias: InteligênciaArtifi cial (IA), Aprendizagem de Máquina (ou Machine Learning), Inteligência de Negócios (ou Business Intelligence), Ciência de Dados e Big Data. O que há de comum entre eles? O fato de que a essência para a existência destes são os dados. Por exemplo, a Aprendizagem de Máquina pode ser compreendida como um subcampo da IA, que tem como objetivo automatizar processos por meio da construção de modelos analíticos que recebem como parâmetro um conjunto de dados como entrada (input). Para isso, é fundamental que esse conjunto de dados obedeça a uma série de requisitos para que a aprendizagem de fato ocorra. O que acontece quando você tem um conjunto de dados bem amplo e precisa extrair de fontes de diferentes naturezas e tipos de dados heterogêneos? Concorda que a complexidade cresce proporcionalmente? Diante desses questionamentos, é fundamental que a priori você refl ita sobre o cenário informacional que vivemos e também mergulhe nos conceitos úteis relacionados ao Big Data, como compreender os elementos que compõem a sua arquitetura. Todas essas questões serão abordadas neste capítulo. Bons estudos! 10 BiG DATA ANALYTiC E A TomADA DE DECiSÕES 2 CENÁRIO ATUAL E VISÃO GERAL DO BIG DATA Você consegue imaginar o quanto de informação tem sido gerada na internet em apenas um minuto? Um relatório apresentado pelo grupo Domo (s.d.) destaca que a população que utiliza a internet aumentou nos últimos anos. Em 2012, o número de usuários girava em torno dos 2,5 bilhões enquanto que, em 2017, 47% da população mundial estava conectada, o que representa 3,8 bilhões de usuários. O mesmo relatório aponta que a cada minuto são assistidos 4.333.560 vídeos no Youtube, 473.400 tweets são publicados no Twitter, 176.220 chamadas são realizadas pelo Skype, 49.380 fotos são postadas no Instagram, entre outros casos. Observe a diversidade de dados que estão sendo produzidos e consumidos pelos usuários constantemente: vídeos, fotos, textos, vozes e assim por diante. Essa realidade está diretamente relacionada ao contexto histórico da Web, abrangendo suas transições conhecidas como Web 1.0, Web 2.0 e a mais recente Web 3.0. A Figura 1 exibe as fases da Web ao longo do tempo. É possível constatar que as tecnologias evoluíram para atender à demanda de cada etapa. Por exemplo, na Web 1.0, o HTML constituiu-se como uma tecnologia-chave para o desenvolvimento de websites, enquanto que na etapa posterior, a Web 2.0, tecnologias dinâmicas, como a linguagem PHP, emergiram para atender uma demanda de produção de conteúdo e interação com o usuário. FIGURA 1 – EVOLUÇÃO DA WEB E SUAS FERRAMENTAS/TECNOLOGIAS AO LONGO DO TEMPO NESSAS ETAPAS DE TRANSIÇÃO DA WEB FONTE: O autor 11 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 Enfatiza-se também que, na Web 1.0, os sistemas Web eram estáticos, o que signifi ca que o objetivo era apenas informar, produzir conteúdo dependia diretamente do administrador do sistema, que alimentava o website e o resultado era exibido para o usuário. Por outro lado, na Web 2.0, o papel do usuário não se restringia ao mero consumo de conteúdo, mas também na produção deste, seja através de blogues, como também de aplicações Web dinâmicas. A transição da Web 2.0 para Web 3.0 foi impulsionada pelo uso crescente de smartphones e tablets. Além disso, o acesso à Web foi facilitado com o barateamento destes dispositivos e, assim, os usuários se tornaram mais ativos na rede. Outro fator importante foi o surgimento das redes sociais, que contribuíram para uma rápida explosão de conteúdos produzidos pelo usuário, bem como o surgimento de novas tecnologias e o barateamento de software e hardware. O advento da computação em nuvem também é considerado precursor nesta importante transição. A Web 3.0, também conhecida como Web Semântica, está relacionada a uma nova forma de Web, que tem a ver com a compreensão do signifi cado do seu uso e apresenta como característica o fato de que o entendimento sobre o comportamento do usuário perante a rede permite, por exemplo, que campanhas digitais publicitárias possam atingir um público-alvo desejado de maneira mais assertiva. Atividades do usuário, como cliques no mouse, podem ser monitoradas para diferentes propósitos. Uma outra maneira de reforçar a Web 3.0 é o aumento da importância dos cookies. Quando você acessa pela primeira vez um website, uma mensagem é exibida solicitando sua autorização para utilização de cookies. Quando concedemos permissão estamos, na verdade, autorizando o site a enviar cookies que armazenam informações do nosso comportamento de navegação. Assim, websites de cunho jornalístico podem reordenar as notícias publicadas conforme nossas preferências. No caso de lojas virtuais, você já notou que um carrinho de compras continua cheio depois de você ter encerrado a sessão e voltar naquele website? Naturalmente, para muitos, é vantajoso e prático ter informações de login e senha armazenadas em um website. Até que ponto podemos confi ar que nossas informações confi denciais não estão sendo armazenadas ou quão seguro é este armazenamento? Qual o limite da nossa privacidade neste atual contexto? 12 BiG DATA ANALYTiC E A TomADA DE DECiSÕES Acesse <https://web.archive.org/>. Este site armazena um conjunto de arquivos históricos de modifi cações salvas de mais de 300 bilhões de websites. Escolha um website de sua preferência e experimente checar suas modifi cações ao longo do tempo. Você consegue perceber algumas das diferenças que mencionamos aqui e sentir essa transição de contextos web? Além do mais, as transições da Web 1.0, 2.0 e 3.0 refl etem uma realidade na qual vivemos - existindo uma sobrecarga de informação, isto é, em uma excessiva quantidade de informação, o gerenciamento depende da ação humana, mas de forma inviável. Como gerenciar essas informações? De que maneira podemos extrair aquilo que é útil para nós? Por exemplo, quando desejamos pesquisar algo na internet, a primeira coisa que fazemos é realizar uma busca através de um site de busca, como o Google. Por que fazemos isso? Porque ao digitar palavras-chave no buscador, este nos retornará apenas um conjunto de informações que é do nosso interesse. Da mesma forma ocorre quando empresas buscam alternativas para encontrar informações úteis e alavancarem seus negócios. Neste caso, a ideia geral é fi ltrar informações que sejam relevantes, seja no âmbito interno (entender e/ou otimizar seus processos), como também externos (por exemplo, informações sobre a concorrência), com a fi nalidade de se tornarem cada vez mais competitivas. A revolução dos dados tem tornado o mundo “mais inteligente”, antes, apenas conectado. A inteligência já faz parte dos dispositivos, como o celular, que há alguns anos, possuía recursos limitados a SMS e voz (ligação) e, posteriormente, conexão com a internet. Atualmente, existem aplicativos inteligentes que monitoram o nosso dia a dia e, progressivamente, conhecem mais nossos hábitos. O GPS ativo permite que aplicativos conheçam nossa rotina diária, tais como perceber se praticamos exercícios físicos, se dormimos bem ou não nas últimas noites, com qual contato da nossa agenda nos comunicamos mais e assim por diante. Note que tudo isso já faz parte da nossa vida diária e estamos mergulhados nesse mar de tecnologias, ou seja, a onipresença desses meios é algo que retrata o atual momento em que vivemos. Não é difícil imaginar que grande parte dessa onda de dados afetará, além de Uuma realidade na qual vivemos - existindo uma sobrecarga de informação, isto é, em uma excessiva quantidade de informação, o gerenciamento depende da ação humana, mas de forma inviável 13 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 outros segmentos, o esporte, a saúde, a nossa casa e até o relacionamento com as pessoas e a nossa família.Marr (2015) destaca algumas dessas mudanças que tornarão o mundo mais “inteligente”, no qual sistemas de GPS e microssensores terão grande utilidade. A seguir, apresenta-se alguns segmentos que estarão (ou já estão) diante desta revolução: • Saúde: a capacidade de monitorar nossa própria saúde permitirá que a medicina atue de forma preventiva com base nos dados disponíveis. Apps de dispositivos móveis, como também pulseiras e relógios que se conectam à Web, podem ser considerados mecanismos de coleta de dados. É possível que, por exemplo, esses dados fi quem armazenados em nuvem e sejam compartilhados com seu plano de saúde ou seu médico em tempo real. Microssensores também podem ser úteis para monitorar e/ou alertar pacientes que estão se medicando adequadamente no horário correto e até avisar membros da sua família para lembrá- lo sobre a medicação. Além disso, scanners com alta tecnologia estão sendo utilizados para detectar lesões cerebrais e/ou tumores e assim aumentar a precisão do diagnóstico. • Casa: quando falamos de inteligência em lares é importante destacar que isso está diretamente relacionado à autonomia de sistemas de aquecimento, geladeiras e até objetos se tornarem capazes de “entender” o ambiente que os cerca e tomar ações para lidar com as tarefas rotineiras. Isso signifi ca chegarmos em casa com nosso carro equipado com câmeras e sensores “inteligentes” capazes de detectar obstáculos, medir temperatura ambiente, pressão barométrica, entre outros atributos, que se comunicarão com a garagem da nossa casa por intermédio de um portão equipado com sensores, detectando se estamos próximos de casa e, assim, com base na distância e velocidade calculará o exato momento para sua abertura. Ao mesmo tempo, nosso chuveiro elétrico se ajustará, de acordo com a temperatura ambiente, a um banho quente, frio ou moderado. Nossa geladeira, guiada por GPS, saberá exatamente onde estamos, medirá a temperatura e ao acusar alta temperatura externa aumentará sua potência e diminuirá a temperatura interna para que, assim que chegarmos, nos ofereça uma água bem gelada. A TV da nossa casa, por intermédio do uso de reconhecimento facial, nos dará segurança como pais e garantirá que crianças não assistam conteúdo inapropriado de acordo com sua faixa etária. Tudo isto retrata uma realidade que, quase todo objeto que temos, se conectará à internet e ganhará “vida”, tornando-se ainda mais útil para nossa rotina. Todo esse ambiente de comunicação produzirá mais dados. É algo real e que, progressivamente, será inserido em nossos ambientes. 14 BiG DATA ANALYTiC E A TomADA DE DECiSÕES • Amor mais inteligente: o relacionamento com as pessoas vem se modifi cando ao longo dos anos. As pessoas estão se relacionando bastante pela internet. Possuímos mais amigos virtuais do que reais e parece que isso será uma tendência nos próximos anos, pelo menos no que diz respeito a relacionamentos amorosos. Sites e aplicativos de encontros combinam pessoas considerando como base variáveis referentes aos comportamentos, às crenças, aos valores, aos traços de personalidade e às habilidades sociais. Normalmente, esses dados são coletados no momento do cadastro por meio de um questionário. Os matches (ou correspondências) são traçados no momento em que o modelo classifi ca um usuário como match potencial em relação a outro usuário. Outro critério que pode ser utilizado é comparar os matches em potencial com base em outros perfi s similares, defi nindo scores em função de probabilidades que atribuem um valor para qualifi car um perfi l como match ou não match. O seguimento de relacionamento foi um dos mais afetados com a difusão da tecnologia. Alguns aplicativos ganham destaque neste ramo, com a promessa de fornecer um conjunto de pessoas que se aproximam do nosso perfi l. Faça uma pesquisa e cite um case de sucesso de aplicativos voltados para este fi m. Observe seu contexto histórico, suas estratégias e os resultados que alcançou considerando parâmetros, como número de usuários ativos, lucratividade e assim por diante. Em muitas empresas, o Big Data já vem sendo implementado. As empresas de vendas e varejo estão interessadas em coletar informações sobre seus clientes para compreender seus padrões de compra e assim conhecê-los mais a fundo. Empresas de fabricação buscam reduzir custos de fabricação e maximizar sua produção. Alguns exemplos apresentados por Marr (2015) mostram que, em 2013, uma gigante do ramo farmacêutico utilizou análise de dados para reduzir drasticamente a quantidade de desperdício causada pela variação das condições no ambiente de fabricação. Os dados obtidos permitiram que a empresa descobrisse condições ótimas durante o processo de fermentação. Outro exemplo são as empresas do ramo automotivo, que também têm explorado soluções de Big Data, especialmente em processos de fabricação para avaliar a efi ciência de cada máquina. Já na agricultura, a análise de dados tem auxiliado a indústria a 15 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 enfrentar os desafi os frente à crescente produção de alimentos no mundo, pois as máquinas que operam nos campos estão equipadas com sensores que captam diversas informações que são utilizadas para estabelecer condições ideais para suas culturas. Em 2014, a Cisco anunciou um investimento de 150 milhões de dólares para fi nanciar startups que trabalhem para melhorar a integração com o mundo físico, com o intuito de controlar o estoque, mantendo elevada efi ciência e reduzindo desperdícios. Os exemplos citados reforçam apenas uma pequena parcela do total de empresas com real interesse em fi nanciar ou investir na sua capacidade de explorar dados ou as que têm proposto iniciativas em análise de dados. Contudo, existem muitos outros cases espalhados pela internet que corroboram com o avanço da análise dos dados, com a tendência que as empresas estão em busca de insights valiosos que possam ser utilizados para melhorar sua cadeia de produção, conhecer melhor seus clientes e assim tornarem-se mais competitivas. 2.1 ANÁLISE DE DADOS: POTENCIAIS E LIMITAÇÕES Os dados que antes eram apenas armazenados em planilhas eletrônicas ou em Banco de Dados Relacionais para fi ns de consulta e/ou conformidade, hoje estão prontos para uso com as mais diversas fi nalidades. Essa realidade permitiu que áreas da ciência começassem a ganhar destaque, tais como a Computação, a Estatística, a Matemática, o Processamento de Linguagem Natural e muitas outras que abrangem o conhecimento. Além disso, novas tecnologias emergiram a partir dessa nova realidade, em que muitas empresas investem recursos em soluções de Análise de Dados (Data Analytics) cada vez mais robustas, sejam proprietárias ou open-sources. Com base nisso, a análise de dados tradicional tornou-se uma alternativa importante para as empresas encontrarem valor em dados que fi cavam apenas armazenados em seus sistemas legados. No entanto, para que isso aconteça, é necessário seguir etapas importantes, como a aquisição e a exploração dos dados, descrevê-los e minerá-los na tentativa de encontrar padrões que possam conduzir a um entendimento maior do objeto de estudo que está sendo analisado. Dessa forma, existe uma diversidade de conceitos, técnicas e algoritmos que permitirão extrair o que há de melhor no conjunto de dados. Isso signifi ca que nem sempre a tarefa é simples de ser realizada e, por isso, é necessário que o profi ssional seja amplamente capacitado com um mix de conhecimentos, 16 BiG DATA ANALYTiC E A TomADA DE DECiSÕES tais como: habilidades para trabalhar com Bancos de Dados, especialmente tarefas de Data Manipulation Language (DML), para realizar manipulação de dados com comandos de leitura, inserção, alteração e deleção, também habilidades estatísticas para compreensão de como os dados estão distribuídos e relacionados entre si,testar ou refutar hipóteses, anexar novos conjuntos de dados para enriquecer a análise, pelo menos alguma linguagem de programação ou ferramenta para análise de dados e construção de visualizações para que o dado seja transmitido de forma mais clara e objetiva aos tomadores de decisão. Assim, é importante que você compreenda que a análise de dados é um processo constituído por pelo menos quatro etapas bem defi nidas, conforme mostrado na Figura 2, e que serão delineadas a seguir. Apesar de todas elas estarem dispostas em sequência, isso não signifi ca necessariamente que todas devam ser executadas. Isso porque tudo dependerá do escopo do projeto que você trabalhará. Por outro lado, estas etapas são altamente dependentes, não sendo recomendado, portanto, pular etapas e/ou ignorar importantes subprocessos que as compõem. Por exemplo, começar diretamente a etapa preditiva sem antes conhecer a fundo os dados - como eles estão distribuídos ou se algum fenômeno causou discrepância em um intervalo de tempo. Faria algum sentido desconsiderar isso? Se você não conhece seus dados, a máquina muito menos. Em outras palavras, o mínimo que você fará é consultar e selecionar informações que realmente possam ser relevantes para dar prosseguimento a sua análise. Desse modo, considere sempre explorar com profundidade cada uma das etapas anteriores. O processo de análise de dados pode ser defi nido em quatro etapas: análise descritiva, diagnóstica, preditiva e prescritiva. FIGURA 2 – ANÁLISE DESCRITIVA, DIAGNÓSTICA, PREDITIVA E PRESCRITIVA FONTE: <http://arunkottolli.blogspot.com/2018/08/4-types-of- data-analytics.html>. Acesso em: 15 nov. 2018. 17 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 2.1.1 ETAPA 1: ANáLiSE DESCriTiVA A análise descritiva diz respeito à primeira etapa do processo de análise de dados, é o momento em que estamos interessados em saber “o que aconteceu” ou “o que está acontecendo”, ou seja, fatos do passado são utilizados para que compreendamos o cenário e tomemos as decisões no presente. Dessa maneira, essa etapa possui um alto grau de dependência humana para compreender e avaliar as variáveis em questão na tentativa de encontrar inconsistências. Normalmente, a utilização deste tipo de análise é feita em pequenos projetos ou alguma análise ad-hoc, um tipo de análise que visa atender a um determinado propósito em um intervalo de tempo específi co. Por exemplo, o gestor da empresa está interessado em saber qual cliente mais comprou na loja nos últimos dois meses. De posse dessa informação, ele poderá decidir os top-n em um grupo seleto de clientes, que passarão a ter direito a descontos especiais em lançamentos de produtos na loja. Dependendo da modelagem do sistema, implementando medidas estatísticas básicas, como a moda, seria o sufi ciente para solucionar esse problema ou uma contagem simples de ocorrência de compras. Observe que situações que envolvam análises descritivas, técnicas ou medidas básicas podem auxiliar gestores e o próprio analista de dados ou de negócios a extrair insights úteis no dia a dia. Assim, é comum que nessa etapa medidas como: médias, medianas, variância, desvio padrão, frequência cumulativa, bem como visualizações que utilizam gráfi cos em barras ou em linhas, gráfi cos de dispersão ou de pizza, não resumidos a estes, sejam comumente exploradas. 2.1.2 ETAPA 2: ANáLiSE DiAGNÓSTiCA A análise diagnóstica está interessada em saber o porquê das coisas, isto é, o motivo pelo qual determinados eventos aconteceram na tentativa de encontrar pistas que possam sinalizar tendências de ocorrência e assim tomar medidas práticas para minimizar eventuais problemas que possam surgir. Da mesma maneira que a etapa anterior, a análise diagnóstica está preocupada com dados do passado para que ações sejam tomadas no presente. Por exemplo, para alocar produtos na prateleira de um supermercado, o analista aplica técnicas de mineração de dados para tentar encontrar padrões de consumo, eleger os produtos mais consumidos e, com base nos resultados, propor ao gerente a alocação de produtos em prateleiras mais acessíveis ao consumidor. 18 BiG DATA ANALYTiC E A TomADA DE DECiSÕES Algoritmos de associação podem ser aplicados sobre os dados históricos para identifi car regras e encontrar padrões associativos entre os elementos. Além das técnicas de mineração de dados e ferramentas voltadas para atender às demandas de negócio, também pode ser utilizada a análise multidimensional, bem explorada em cenários de Business Intelligence. Essa análise permite que gestores obtenham insights sob diferentes perspectivas e em altos (Drill Up) ou baixos níveis de granularidade (Drill Down). Adicionalmente, percebe-se que nessa etapa ocorre um gradual decréscimo da ação humana e, consequentemente, os algoritmos passam a ter mais independência para descrever o cenário da empresa com base nos dados. 2.1.3 ETAPA 3: ANáLiSE PrEDiTiVA A análise preditiva representa um avanço signifi cativo no processo de análise de dados. Nesse momento, o cientista de dados ganha destaque, especialmente por ser o responsável por construir modelos preditivos que possam ter autonomia para classifi car conjuntos de dados com base na aprendizagem obtida a respeito destes. Quando trabalhamos com modelos preditivos, estamos interessados em responder à pergunta: “o que (provavelmente) acontecerá?”. De fato, isso está diretamente relacionado ao contexto de aprendizado de máquina, o que signifi ca que a ação humana é cada vez menor e o algoritmo progressivamente vai se aprimorando e aprendendo mais a respeito dos padrões históricos contidos nos dados. Por isso, é essencial que, antes de aplicar técnicas e algoritmos de Machine Learning, sejam identifi cados os dados que servirão de input para o modelo que será construído. Algumas técnicas de Machine Learning se destacam, como: Árvores de Decisão, Florestas Aleatórias (Random Forest), Redes Neurais, Support Vector Machines (SVM), K-Nearest Neighbor (KNN), entre outras. Por exemplo, uma empresa de crédito talvez esteja interessada em saber se houve alguma compra suspeita com o número do cartão de crédito de seus clientes. O rastreio pode se dar em um nível no qual o resultado obtido seja um alerta à empresa e ao cliente informando a respeito da atividade suspeita. Nesse caso, a variável valor de compra pode ser utilizada para rastrear essa questão. Por exemplo, se o valor de compra for extremamente maior em relação a outras atividades de compra do consumidor. É lógico que esse é um modelo simplifi cado, mas didaticamente viável. Por fi m, um modelo de classifi cação poderia discriminar a atividade de compra como normal ou anômala. 19 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 2.1.4 ETAPA 4: ANáLiSE PrESCriTiVA A etapa de análise prescritiva é a mais complexa, porém, a que acrescenta mais valor para a organização e fornece suporte à decisão de forma automatizada. Nesse momento, a máquina consegue aprender com as experiências nas previsões e a ação humana é mínima ou nula. Técnicas analíticas avançadas podem ser utilizadas para fi ns de otimização, sendo capazes de responder à pergunta: “o que devo fazer?” e assim mostrar às organizações as ações necessárias na tomada de decisão. Obviamente que, para chegar até aqui, é necessário um elevado nível de maturidade nos processos de análise anteriores, por isso que na maioria das vezes ou quase sempre, a implementação desse tipo de análise é feita por grandes corporações. Algumas técnicas que são utilizadas na etapa prescritiva são: simulações, redes neurais convolucionais, heurísticas, processamento de eventos complexos, entre outras. Um exemplo que retrata a análise prescritiva são os carros ou os caminhões autônomos (inteligentes). Modelos construídos para esse fi m apresentam um alto nível de robustez eutilizam como referência dados históricos e previsões anteriores para decidirem a melhor rota e assim aperfeiçoar suas tarefas com base na experiência. 2.2 ANÁLISE AVANÇADA DE DADOS O Grupo Gartner (2017) defi ne o conceito de Advanced Analytics como um processo de observação autônomo ou semiautônomo de dados ou conteúdo por intermédio de técnicas e ferramentas sofi sticadas, normalmente além daquelas de Inteligência de Negócios (BI) tradicional para descobrir insights mais profundos, realizar previsões ou gerar recomendações de produtos ou serviços. Além disso, compreende técnicas analíticas avançadas, como mineração e dados/textos, aprendizado de máquina, correspondência de padrões, virtualização, análise semântica, de sentimento, de rede e em cluster, estatística multivariada, análise de gráfi cos, simulação, processamento de eventos complexos e redes neurais. Algumas dessas técnicas variam em complexidade e, consequentemente, em tempo de implementação. Modelos analíticos avançados apontam para um elevado nível de maturidade e sugerem que a empresa já possua uma grande quantidade de dados. Mais do que isso, pode ser que o desempenho das análises esteja sendo afetado, novas 20 BiG DATA ANALYTiC E A TomADA DE DECiSÕES estruturas de dados vêm sendo incorporadas e quando a infraestrutura básica, anteriormente construída para atender à demanda da análise de dados, não esteja mais suportando o fl uxo. A potencialização do seu uso está diretamente relacionada ao advento do Big Data e das necessidades atuais de negócio. 1 Cite um exemplo de “casa inteligente” e explique como a análise de dados pode melhorar nossa rotina automatizando tarefas cotidianas. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 2 O processo de análise pode ser dividido em etapas. Cite e explique cada uma delas. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 21 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 2.3 VISÃO GERAL DO BIG DATA Nas seções anteriores, exploramos um contexto histórico e apresentamos os tipos de análise de dados que estão sendo aplicados em diferentes segmentos empresariais. Acontece que a abordagem tradicional de análise de dados possui algumas limitações que merecem a nossa atenção. Antes de mais nada, é importante frisar que o conceito de Big Data ainda não é bem defi nido. Entretanto, existem algumas defi nições que fazem todo sentido, entre estas, cabe mencionar que: O Big Data pode ser introduzido como uma combinação de tecnologias novas e antigas que ajudam empresas a conseguirem ideias viáveis. Portanto, Big Data é a capacidade de administrar um volume enorme de dados diferentes na velocidade certa e dentro do prazo certo para permitir análises e reações em tempo real (HURWITZ et al., 2016, p. 15-16). Adicionalmente, Gartner (2018, s.p.) defi ne o Big Data como “um grande volume de informações, com alta velocidade e/ou ativos de informações de alta variedade que exige formas inovadoras e econômicas de processamento de informações que permitem uma melhor percepção na tomada de decisão e automação de processos”. Notamos que, em ambos conceitos, existem termos em comum que precisamos considerar: volume, velocidade e variedade. De fato, esses termos podem ser utilizados para compreender melhor o que de fato é o Big Data. Considere que você esteja trabalhando em um projeto de análise consolidado. Em um determinado momento você nota que seja viável trabalhar com informações de outros ambientes para enriquecer sua análise, tais como: informações de redes sociais, ou blogues, ou informações não estruturadas armazenadas em arquivos de texto, ou até de Bancos de Dados não Relacionais. Diante disso, você extrai essas informações de diferentes fontes, mas percebe que não tem hardware necessário para armazená-las, tampouco uma infraestrutura que possa processar toda essa informação em tempo hábil. De fato, estamos em uma realidade que foge do escopo da análise de dados tradicionais. As questões relativas a desempenho até podiam ser consideradas anteriormente. Entretanto, nesse atual momento, essa questão assume um papel central, ou seja, para prosseguir com suas análises, você precisa, necessariamente, adquirir um servidor ou um espaço de armazenamento em nuvem para suportar o volume de dados ou considerar uma infraestrutura que suporte computação paralela. Os sistemas tradicionais de análise de dados muitas vezes não suportam estruturas de dados com formatos e tamanhos diversifi cados. Assim, você 22 BiG DATA ANALYTiC E A TomADA DE DECiSÕES precisará também garantir que a infraestrutura seja capaz de suportar essa diversidade de dados. Por fi m, uma vez que você consiga armazenar uma grande quantidade de dados de múltiplas fontes, é fundamental que você se certifi que de que os dados estão sendo processados em um adequado intervalo de tempo. Observe que quando falávamos em análise de dados tradicional não comentamos os pontos mencionados sobre os Vs de Big Data, porque estamos exatamente em uma transição entre esse tipo de análise e o Big Data. Assim, podemos concluir que estamos diante do Big Data quando percebemos que as análises, tradicionalmente aplicadas, não estão mais suportando o volume, a velocidade e a variedade dos dados que estão chegando e, como consequência disso, é necessário examinar novas estratégias para suportar esse “mar de dados”, sem comprometer nossas análises. Obviamente, a análise de dados tradicional e o Big Data estão longe de serem abordagens antagônicas, pelo contrário, complementam-se e são fundamentais para que as empresas mantenham elevado poder analítico e, como consequência, sejam competitivas no mercado contemporâneo. Erroneamente, algumas pessoas conceituam Big Data como uma ferramenta. Entretanto, como mostramos, Big Data não se resume apenas a uma ou mais ferramentas. Big Data é um conceito, compreendido de forma simplifi cada. Em função dos 3Vs mencionados - volume, velocidade e variedade -, existem abordagens que ampliam o conceito para 4, 5, 6 e até 7Vs. Independentemente disso, é importante que você compreenda que, nestes casos, não existe um conceito certo ou errado. Lembre-se de que o conceito de Big Data ainda está em formação. Desta maneira, para este livro optamos pela abordagem baseada em 5Vs, conforme mostra a Figura 3. Essa abordagem é amplamente utilizada e compreende: Volume, Velocidade, Variedade, Veracidade e Valor. Vamos delinear cada uma dessas etapas. Estamos diante do Big Data quando percebemos que as análises, tradicionalmente aplicadas, não estão mais suportando o volume, a velocidade e a variedade dos dados que estão chegando e, como consequência disso, é necessário examinar novas estratégias para suportar esse “mar de dados”, sem comprometer nossas análises. Obviamente, a análise de dados tradicional e o Big Data estão longede serem abordagens antagônicas, pelo contrário, complementam- se e são fundamentais para que as empresas mantenham elevado poder analítico e, como consequência, sejam competitivas no mercado contemporâneo. 23 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 FIGURA 3 – 5Vs: VOLUME, VELOCIDADE, VARIEDADE, VERACIDADE E VALOR FONTE: <https://www.omnivex.com/company/blog/what- is-big-data/>. Acesso em: 15 nov. 2018. • Volume: diz respeito à quantidade de dados - com tamanhos na ordem de peta, hepta ou exabytes sendo gerados e que, uma vez extraídos, deverão ser suportados na arquitetura de Big Data. Isso quer dizer que o quesito escalabilidade precisa ser pensado no início de uma implementação do Big Data. • Variedade: dados estruturados, semiestruturados ou não estruturados estão espalhados no meio digital. Eventualmente, desejamos incrementar em nossas análises informações obtidas de websites (neste caso, certifi que-se de ser autorizado para fazer isso). A ferramenta de coleta precisa “raspar” os dados (ou realizar Web Scrapping) que serão obtidos em um formato de tags e texto. Talvez estejamos interessados em informações de um Banco de Dados não transacional que armazena as informações em formato JSON, ou dados de redes sociais, como Twitter ou Facebook. Enfi m, a arquitetura de Big Data precisa ser robusta o sufi ciente para lidar com essa diversidade de formatos e estruturas, tendo como desafi o tornar a tarefa de integração e extração de dados o mais transparente possível. • Velocidade: está relacionada a questões de desempenho. O processamento dos dados precisa ser efi ciente a ponto de não 24 BiG DATA ANALYTiC E A TomADA DE DECiSÕES causar altas taxas de latência no fl uxo de dados. O sucesso de uma implementação do Big Data também está relacionado a entregar respostas em tempo hábil e, por isso, estratégias (por exemplo, cache dos dados) podem ser adotadas para otimizar o desempenho. É importante considerar também qual o foco da análise, isto é, se o processamento será em lote (batch) ou em tempo real, ou ambos (arquitetura Lambda). Essa questão é um importante requisito de negócio, pois quando lidamos com processamento em lote são alocados maiores recursos de armazenamentos em detrimento ao processamento em tempo real. • Veracidade: precisamos confi ar nos dados adquiridos e a veracidade está relacionada à inconsistência, à ambiguidade e à incompletude desses dados. Quando anexamos fontes de dados externas à nossa arquitetura, precisamos ter um cuidado especial, uma vez que não temos total controle desses dados, como teríamos se estivéssemos coletando dados de sistemas legados da empresa. Por isso, devemos sempre questionar os dados que adquirimos e garantir que a origem da nossa arquitetura não seja comprometida com dados que possam enviesar ou distorcer nossas análises. Assim, a veracidade desempenha um papel importante dentro do Big Data. • Valor: o verdadeiro sentido do Big Data é na geração de valor para a organização. De nada adianta elevados investimentos em qualifi cações dos profi ssionais, aquisição de soluções proprietárias, entre outros recursos, se os resultados obtidos não agregam valor e a organização apenas extrai informações desconexas que não agregam novos conhecimentos. Essa frustação certamente poderia colocar em risco o andamento de todo o processo de Big Data. Na verdade, a obtenção do real valor pode trazer para a empresa uma consequência de todo o processo de Big Data. Contudo, quando pensamos em termos-chave para compor o conceito de Big Data, faz todo sentido acrescentar o valor resultante que queremos obter em um processo de Big Data. Além destes aspectos, algumas outras keywords também podem ser incorporadas ao conceito de Big Data, como a Variabilidade e a Visualização. A primeira está relacionada à rastreabilidade dos dados, ou seja, verifi car o quanto o signifi cado dos dados vem se modifi cando ao longo do tempo, enquanto que a segunda corresponde à etapa de apresentação dos dados em um formato amigável para o usuário, ou seja, queremos nos certifi car que os resultados das nossas análises de Big Data estão prontos para serem consumidos por usuários com facilidade e transparência. 25 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 Antes de entrarmos em uma discussão mais profunda a respeito de Big Data, é importante que você esteja habituado com alguns conceitos introdutórios, porém relevantes, e que também servirão de base para todo o conteúdo deste livro. Por essa razão, reservamos a próxima seção para discutirmos um pouco isso. 1 Descreva o conceito de Big Data. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 2 Análise de dados tradicional e análise em Big Data são a mesma coisa? Justifi que sua resposta. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 3 BIG DATA: CONCEITOS ÚTEIS Nesta seção, exploraremos alguns conceitos necessários para a compreensão das etapas seguintes do ecossistema Big Data. Neste sentido, serão apresentados conceitos e diferenças entre dados estruturados, semiestruturados e não estruturados, bem como comentaremos tipos de Bancos de Dados não Relacionais existentes, apresentando as ferramentas que os compõem e que podem ser anexadas no seu projeto. Por fi m, encerraremos a seção comentando diferenças entre processamento em lote (batch) e em tempo real, realçando suas particularidades, vantagens e desvantagens. 26 BiG DATA ANALYTiC E A TomADA DE DECiSÕES 3.1 DADOS ESTRUTURADOS, SEMIESTRUTURADOS E NÃO ESTRUTURADOS Como vimos, a disseminação de dados refl ete em uma nova Era da Informação na qual vivemos. Esses dados podem estar em um formato pronto para análise, como é o caso dos dados estruturados contidos em planilha ou em um Banco de Dados Relacional. Contudo, na prática não é algo que sempre acontece, especialmente em tempos de Big Data. Por conseguinte, é imprescindível que compreendamos as diferenças entre dados estruturados, semiestruturados e não estruturados, tão presentes nos dias de hoje, conforme mostra a Figura 4. Lidar com diferentes estruturas de dados é algo comum na era Big Data. FIGURA 4 – ESTRUTURAS DE DADOS NA ERA BIG DATA FONTE: <https://www.building-blocks.nl/blog/different-types- of-data-sources>. Acesso em: 16 nov. 2018. Os dados estruturados compreendem apenas uma pequena parcela dos dados que estão sendo analisados no mundo. Esse formato é representado por linhas e colunas e estão armazenados em Bancos de Dados Relacionais ou planilhas eletrônicas, tais como: Oracle, Excel, MySQL, entre outros. Algumas características dessas estruturas são a facilidade de acesso e manipulação, além de um esquema de armazenamento e organização bem defi nido. Isso quer dizer que podemos obter respostas rápidas para alguns tipos de perguntas ao realizar uma simples consulta em um banco de dados. Para exemplifi car, podemos extrair a média de idade dos alunos com sexo masculino do Ensino Médio considerando uma determinada escola com um simples SQL e utilizando campos estruturados, como idade, sexo, escolaridade e escola. No que se refere a dados semiestruturados, estes normalmente estão espalhados pela Web em arquivos HTML, XML ou em Banco de Dados não 27 COMPREENDENDOA ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 Relacionais, como o MongoDB, que possui uma estrutura semelhante a um arquivo JSON. Se pensarmos em um arquivo XML ou HTML, perceberemos que existe uma diferença nesses tipos de estruturas: a hierarquia ou a estrutura em árvore. As tags ou elementos possuem uma certa organização e qualifi cam os documentos. Os nós apresentam uma certa fl exibilidade e não contêm uma representação fi xa ou rígida como em um modelo estruturado, ao contrário, alguns campos (tags) podem conter descrições ou informações textuais, por exemplo, páginas web (como HTML e CSS), campos de e-mail, informações de redes sociais etc. Além disso, quando trabalhamos com projetos de Web Scraping, normalmente nos deparamos com esse tipo de estrutura. Cerca de 80% dos dados existentes que estão sendo difundidos não possuem estrutura bem defi nida, ou seja, são não estruturados ou desestruturados. Por exemplo: arquivos textuais, vídeos, imagens, dados de sensores, mensagens em formulários ou em campos de e-mails, posts no Facebook ou Twitter, arquivos de áudio e assim por diante. São infi nidades de fontes diferentes que contêm dados não estruturados. Uma simples pesquisa no Google, uma conversa no WhatsApp, uma chamada de vídeo pelo Skype. A verdade é que estamos mergulhados em uma quantidade de informação desestruturada que poderia ser perfeitamente analisada. Entretanto, há um aumento de complexidade para analisar esse tipo de dado. Dados textuais estão sujeitos a problemas de erros sintáticos ou semânticos provenientes da linguagem natural, isso poderia inviabilizar todo o processo de análise. Felizmente, existem técnicas específi cas para esse fi m e, além de realizar o tratamento adequado, podemos converter os dados não estruturados em um formato estruturado e assim dar continuidade ao processo de análise a partir de uma única visão sobre os dados. Antigamente, incorporar informações não estruturadas ao processo de análise era algo extremamente custoso ou muitas vezes inviável. Então, as empresas direcionavam suas decisões apenas a uma pequena parcela das informações que possuía. Todavia, essa fronteira para integração dos dados progressivamente foi se rompendo ao longo do tempo, especialmente com o surgimento do Big Data. Por isso, é imprescindível que compreendamos essas diferenças e não limitemos nossas análises. O tipo de estrutura de dados que vamos manipular precisa ser indiferente para nós, precisamos focar nas estratégias e posteriormente nas análises para implementarmos com sucesso e extrairmos valor nas análises de Big Data. 28 BiG DATA ANALYTiC E A TomADA DE DECiSÕES 3.2 BANCOS DE DADOS NÃO RELACIONAIS Os Bancos de Dados não Relacionais surgiram no fi nal do século passado, mas começaram a ganhar destaque também com o advento do Big Data. Observe que mais uma tecnologia emergiu a partir do conceito de Big Data. No passado, tarefas analíticas eram realizadas em cima de armazém de dados (Data Warehouse) que era um banco, à parte de um SGBD (para não concorrer recursos), que armazenava informações estruturadas em um formato multidimensional para agilizar consultas. Outra alternativa mais simplifi cada era baseada em cubos multidimensionais que permitiam aos gestores analisar informações e extrair insights sob diferentes perspectivas. Com o passar dos anos, diante do expressivo aumento no volume e variedade dos dados, recursos computacionais mais robustos eram requeridos. Neste caso, surgiam duas alternativas para resolver o problema: uma seria alocar mais investimentos em infraestrutura física, outra seria utilizar um Banco de Dados que pudesse armazenar dados em um formato adequado para rápida consulta e análise. Não é de se admirar que muitas empresas optaram pelo uso de Banco de Dados não Relacional. Afi nal, ele compreendia exatamente essas vantagens mencionadas: agilidade na busca de respostas, elevada capacidade de armazenamento e, mais além, capacidade de trabalhar com dados não estruturados. Os Bancos de Dados não Relacionais são também conhecidos como NoSQL. Não caia na tentação de concluir pela nomenclatura de que esses bancos surgiram como concorrentes da linguagem SQL ou não incentivam mais o uso dessa linguagem. Ao contrário, NoSQL signifi ca (Not Only SQL) ou não somente SQL, isto é, Bancos de Bados NoSQL surgiram como uma alternativa para armazenamento de dados com a fi nalidade de oferecer uma solução mais robusta e escalável para suportar grandes volumes de dados. No entanto, em Bancos de Dados não Relacionais não existe uma maneira única de armazenar um conjunto de dados. Assim, eles podem ser classifi cados em quatro tipos: banco de dados chave-valor (key- value), orientado a documentos (document store), orientado a famílias de colunas (column-family stores) e os que são baseados em grafos (graph-databases). A Figura 5 ilustra os tipos de Bancos de Dados não Relacionais e a seguir explicaremos cada um deles. NoSQL surgiram como uma alternativa para armazenamento de dados com a fi nalidade de oferecer uma solução mais robusta e escalável para suportar grandes volumes de dados. 29 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 FIGURA 5 – À ESQUERDA SÃO APRESENTADOS FORMATOS DOS BANCOS DE DADOS RELACIONAIS BASEADOS EM SQL. À DIREITA OS QUATRO TIPOS DE BANCOS DE DADOS NÃO RELACIONAIS FONTE: <https://www.kdnuggets.com/2016/07/seven-steps- understanding-nosql-databases.html>. Acesso em: 15 nov. 2018. • Banco de dados chave-valor: você talvez já tenha tido algum contato com esse tipo de estrutura quando programou em Java ou Python, por exemplo. A compreensão é simples: para toda chave existe um valor vinculado. Para ilustrar, talvez você tenha observado que na biblioteca, há estantes numeradas que armazenam um conjunto de livros. Se você precisar consultar alguma informação de um livro específi co, você abre a gaveta ou o localiza na estante por meio de uma chave que o identifi ca e captura a informação que deseja em um determinado capítulo do livro. O conceito é simples, por isso a complexidade para manipular os dados é baixa. Além disso, esses tipos de bancos possuem como característica a alta escalabilidade, fl exibilidade e uma boa performance. Podemos mencionar alguns exemplos de Bancos de Dados que se encaixam nessa categoria, tais como: Redis, Riak, Oracle NoSQL. Observe um exemplo genérico de um banco chave-valor: 30 BiG DATA ANALYTiC E A TomADA DE DECiSÕES “Gustavo” “idade: 22; sexo: M; escolaridade: ensino médio completo; fi lhos: não” “Maria” “idade: 27; sexo: F; escolaridade: ensino superior comple- to”; fi lhos: não” • Banco de dados orientado a documentos: são Bancos de Dados que armazenam dados em forma de coleção de documentos. Cada documento é único e pode conter diversas informações com dados aninhados, “tipados” como strings, valores numéricos, listas. É um dos tipos de Bancos de Dados não Relacionais mais utilizado e possui uma estrutura muito semelhante a objetos JSON. Estes bancos possuem baixa complexidade e elevada performance e escalabilidade, embora não possuam tanta fl exibilidade quanto os outros Bancos não Relacionais. Alguns exemplos de bancos orientados a documentos são MongoDB, Apache CouchDB, Azure Cosmos DB. Observe um exemplo a seguir: { “id”: 12, “nome”: “UNIASSELVI”, “unidades”: { “SP”: “Bragança Paulista”, “AC”: “Cruzeiro do Sul”, “MA”: “Bacabal”, “GO”: “Anápolis”, “RS”: “Bagé” } } • Banco de dados orientado a colunas: são úteis quando você deseja recuperar informações com efi ciência de bases de dados com poucas colunas e muitos registros, ou seja, em uma tabela você pode ter uma família de colunas com número igual ou diferente de colunas. A estrutura desse tipo de banco pode ser demonstrada no exemplo a seguir. Nós mostramos exemplos de uma famíliae, nesse caso, existem três chaves, cada uma apontando para um conjunto de registros que possuem tamanho de colunas diferentes. O ID = 1, por exemplo, possui uma quantidade de colunas menor que os outros dois IDS. Essa é uma característica importante desses tipos de Bancos de Dados. Além disso, bancos colunares também possuem elevada performance, boa fl exibilidade e alta escalabilidade. Evidentemente que isso pode variar de acordo com o domínio que você está trabalhando. É possível obter registros de mídias sociais para serem armazenados em um banco orientado a colunas. Os seguintes bancos podem ser utilizados: Cassandra, HBase, Vertica etc. 31 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 “ID” = 1 Nome: Gustavo Idade: 21 Estado: Minas Gerais “ID” = 2 Nome: Samanta Idade: 30 Estado: São Paulo Telefone: (11) 4310-0234 “ID” = 3 Nome: Maria Sexo: F Idade: 31 Estado: Paraná Telefone: (11) 4310-0234 • Banco de dados orientado a grafos: sugere um formato diferente de armazenamento dos bancos anteriores, baseado na teoria dos gafos. Os nós são dados que queremos armazenar e as arestas exibem o relacionamento entre um conjunto de nós. O grafo dirigido e ponderado reforça a ideia de que, para esse tipo de banco, há necessidade de uma forte ligação entre os dados. Por esta razão, o Banco de Dados orientado a grafos é utilizado somente em alguns casos específi cos. Apesar de possuir bastante fl exibilidade, sua performance e escalabilidade variam de acordo com o domínio que está sendo trabalhado e sua implementação não é trivial, podendo demandar tempo. O banco mais popular é o Neo4JS, mas também é possível utilizar o OrientDB e o GraphBase. Um exemplo deste modelo de banco pode ser mostrado através da Figura 6. Os nós centrais são pessoas que estão conectadas às cidades que visitaram ou residiram. Por exemplo, Jonas morou em Recife e João Pessoa e visitou Belo Horizonte. FIGURA 6 – MODELO DE BANCO FONTE: <https://www.researchgate.net/publication/268201466_NoSQL_no_ desenvolvimento_de_aplicacoes_Web_colaborativas>. Acesso em: 15 nov. 2018. 32 BiG DATA ANALYTiC E A TomADA DE DECiSÕES 3.3 PROCESSAMENTO EM BATCH E EM TEMPO REAL Não devemos pensar em Big Data somente em função dos tipos e estruturas de dados que manipularemos, ou mesmo se extrairemos ou manipularemos informações de Bancos de Dados Relacionais ou não Relacionais. Outro ponto que precisamos considerar diz respeito ao volume de dados serem processados em batch (lote) ou em tempo real. Por isso, você precisa compreender e distinguir ambos, é o que faremos nesta seção. 3.3.1 ProCESSAmENTo Em LoTE O processamento em lote ou em batch refere-se à forma de processar transações, tendo em vista um grupo de registros armazenados em um intervalo de tempo. Quando desejamos obter os dados de vendas dos produtos em uma grande loja de varejo considerando a última quinzena de vendas, nós já temos um conjunto signifi cativo de informações armazenadas em lote dentro de uma janela temporal de duas semanas, o que pode representar um volume de petabytes de dados para processar. Por outro lado, talvez estejamos interessados em analisar dados da próxima semana. Nesse caso, somente ao fi nal de sete dias, quando a janela temporal de lote estiver completa ou cheia, podemos processar todos esses dados. Isso representa uma característica importante desse tipo de processamento: você primeiro armazena o dado em grandes lotes de dados respeitando uma janela temporal, para posteriormente processá-los. No entanto, trabalhar com esse tipo de processamento nem sempre é adequado. Por exemplo, ao notarmos que precisamos trabalhar com uma janela temporal mais curta, talvez uma semana, ao invés de duas semanas, precisaríamos reprocessar todo aquele lote de dados novamente ou mesmo criar códigos para lidar com essas variações. Cabe considerar que o processamento em lote é utilizado há várias décadas, então, alguns consideram um modelo ultrapassado, tendo em vista que a tomada de decisões atualmente está muito mais dinâmica e com demandas de respostas cada vez mais ágeis. Em compensação, você pode processar lotes de forma independente e atemporal, o que torna este modelo mais fl exível, sendo ideal para processar imensos conjuntos de dados de forma mais efi ciente. A Figura 7 ilustra o fl uxo de dados em um ambiente de processamento em lotes. 33 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 FIGURA 7 – OS DADOS SÃO COLETADOS E ARMAZENADOS E LOGO EM SEGUIDA PROCESSADOS PARA POSTERIOR ANÁLISE FONTE: <http://www.irisidea.com/lambda-architecture-big- data-processing/>. Acesso em: 15 nov. 2018. 3.3.2 ProCESSAmENTo Em TEmPo rEAL Com o surgimento e a redução de custo de novos dispositivos físicos, como câmeras de alta defi nição para áudio, vídeo e imagens, drones para mapear informações geográfi cas, sensores para implantação na indústria ou na agricultura, uma nova demanda de análise foi ganhando espaço - a análise em tempo real. Diferentemente do processamento baseado em grandes lotes de dados, o processamento em tempo real captura um microlote de dados e disponibiliza de forma imediata para análise. Assim, você pode capturar informações em tempo real do Twitter e de imediato aplicar um processo de tratamento (como transformação e limpeza) e, em seguida, aplicar um modelo de Machine Learning para realizar alguma previsão. Por exemplo, investidores estão interessados em mitigar riscos de investimento em novos negócios, tomando como base a Bolsa de Valores. Um sistema baseado em Machine Learning pode ser criado para mapear fontes, coletar, tratar, analisar e prever riscos de investimento. Além disso, detectar eventos anômalos de atividades de cartão de crédito baseados em microlotes de dados também necessitam de uma arquitetura que suporte processamento em tempo real. Note que o foco não é o armazenamento e sim a análise, por este motivo, frameworks de Big Data criados para esta fi nalidade não possuem a mesma robustez em termos de armazenamento do que àqueles voltados ao processamento em batch. Em uma eventual necessidade, combinações de componentes de Big Data em uma única arquitetura, por exemplo, combinando o Hadoop e o Spark, podem ser úteis para enfrentar situações nas quais você precise processar e armazenar grandes volumes de dados em tempo real. 34 BiG DATA ANALYTiC E A TomADA DE DECiSÕES O Hadoop será apresentado a você na última seção deste capítulo. Além disso, você conhecerá o Spark em mais detalhes no Capítulo 3. Podemos elencar algumas vantagens dessa forma de processamento, a saber: respostas ágeis, informações atualizadas, identifi cação de padrões ou detecção de eventos em tempo de execução de modo a oferecer a gestores decisões mais ágeis e assertivas em um determinado momento. Por outro lado, existe aumento de complexidade se comparado ao modelo tradicional em lote. Como os dados, muitas vezes, são analisados e logo após descartados, o processo de auditoria pode ser comprometido. A Figura 8 mostra um pipeline que exemplifi ca o processamento em tempo real. FIGURA 8 – OS DADOS SÃO COLETADOS, PROCESSADOS À CADA MICROLOTE, EM SEGUIDA, ANALISADOS E POSTERIORMENTE DESCARTADOS FONTE: <http://www.irisidea.com/lambda-architecture-big- data-processing/>. Acesso em: 15 nov. 2018. 1 Explique as principais diferenças entre processamento de dados estruturados, semiestruturados e não estruturados. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 35 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATACapítulo 1 ____________________________________________________ 2 Quais são os tipos de bancos de dados NoSQL existentes? Cite uma ferramenta indicada para cada um dos tipos. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 3 Qual a principal diferença entre o processamento em lote e o processamento em tempo real? R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 4 ARQUITETURA DE BIG DATA E SEUS COMPONENTES Agora que você possui conhecimento dos conceitos básicos, conseguirá distinguir diferenças importantes no contexto de Big Data e assim generalizar seu aprendizado. Nesta seção, apresentaremos a arquitetura tradicional de Big Data e seus componentes. A partir destes conhecimentos será possível que você consiga refl etir sobre as novas abordagens e enfrentar desafi os em cenários reais. 4.1 ARQUITETURA TRADICIONAL DE BIG DATA Em seções anteriores comentamos a respeito do valor que a análise de Big Data pode trazer para as organizações. A construção de uma arquitetura que possa atender a todas as demandas e expectativas de negócios desempenha um papel central para que a implementação de Big Data realmente apresente 36 BiG DATA ANALYTiC E A TomADA DE DECiSÕES resultados e forneça insights valiosos para a organização, fazendo valer a pena todo o investimento dispensado, tais como pessoas, recursos, dinheiro e tempo. Tendo isso em mente, não podemos pular etapas sem antes pensar em mecanismos que precisamos considerar ao implementar o Big Data. Uma arquitetura de Big Data precisa ser robusta o sufi ciente para lidar com a ingestão, o processamento e a análise dos dados com efi ciência, uma sólida infraestrutura e capacidade de fornecer insights confi áveis que gerem valor real para o usuário fi nal. Pensando em um alto nível podemos considerar que a arquitetura típica do Big Data não difere muito de uma arquitetura de análise de dados tradicional, visto que considera as fases de: extração, integração, organização, análise e apresentação dos resultados. Contudo, as ferramentas, o armazenamento e o processamento, a infraestrutura, a segurança, o hardware, a computação paralela e as técnicas realçam a diferença entre os dois campos. De um modo geral, podemos dividir a arquitetura de Big Data em camadas. Uma arquitetura de Big Data precisa ser robusta o sufi ciente para lidar com a ingestão, o processamento e a análise dos dados com efi ciência, uma sólida infraestrutura e capacidade de fornecer insights confi áveis que gerem valor real para o usuário fi nal. Uma proposta de arquitetura interessante pode ser encontrada em: <https://docs.microsoft.com/en-us/azure/architecture/guide/ architecture-styles/big-data>. É um material adicional, porém, importante e que pode ser utilizado para complementar seu conhecimento. Mais que isso, a arquitetura proposta possui benefícios que podem auxiliá-lo em um projeto pessoal ou em um cenário real de negócio. 4.1.1 CAmADA DE EXTrAÇÃo E iNTEGrAÇÃo DE DADoS Esta camada representa o primeiro contato que você terá com as fontes de dados, por isso, antes de mais nada, certifi que-se de perguntar: “com base nos requisitos de negócios coletados, onde devo buscar as informações que preciso?”. Este autoquestionamento lhe direcionará a ir em busca de informações a respeito da disponibilidade das fontes de dados. É importante também que você considere a confi abilidade das informações, especialmente em épocas de Fake News e robôs produzindo conteúdo. Por isso, considere sempre dar preferência 37 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 para sistemas onde a empresa possua mais controle sobre os dados e, caso precise adicionar conteúdo externo, busque informações de empresas, entidades ou órgãos governamentais que assegurem a integridade, a confi abilidade e a qualidade dos dados que estão sendo fornecidos. De posse das fontes, você precisa realizar a etapa de extração dos dados e então se perguntar: “os dados serão analisados em tempo real ou em batch?”. É importante que você se certifi que dessa questão para construir uma arquitetura apropriada de acordo com o objetivo da análise. Os dados podem vir de diferentes fontes, com tipos e formatos diversifi cados: dados de sensores, tweets, informações com características geoespaciais, sistemas ERP, entre outros, ou seja, existe um mix de fontes compostas de informações completamente diferentes e a arquitetura de Big Data precisa fornecer uma transparência para que essa extração exija esforço mínimo. Não é uma tarefa trivial, mas possuir uma arquitetura que possa enxergar toda essa diversidade de forma única tanto na fase de extração quanto na fase de integração, é algo extremamente útil. Isso porque todo processo de Big Data é iterativo e precisa de um acompanhamento contínuo. Assim, diante de um possível colapso ou mesmo algum reparo durante o processo de uma tarefa automatizada e transparente tenderia a agilizar bastante os ajustes que seriam realizados. Esta etapa pode exceder consideravelmente o consumo de recursos previstos, mas isso dependerá da variabilidade e variedade dos dados entre as fontes. Quer dizer, fontes de diferentes naturezas podem consumir mais tempo do que àquelas que compartilham de dados mais homogêneos entre si. Ainda, fi ca a seu critério realizar algum tipo de tratamento e limpeza dos dados nesses estágios iniciais, mas não é uma regra. Novamente, tudo depende do domínio que você está lidando. Por exemplo, se estivermos trabalhando em um banco e desejamos extrair informações da Bolsa de Valores, provavelmente realizaremos transformação e limpeza de dados no que se refere a correções de valores e unidades na moeda (dólar para real, por exemplo). Na prática, a tarefa de transformação e limpeza dos dados na origem é algo comum pelo fato de não existir uma padronização em termos de armazenamento entre as fontes. 4.1.2 CAmADA DE ArmAZENAmENTo ou FLuXo DE DADoS Uma vez que extraímos os dados podemos armazená-los em um destino, em uma arquitetura tradicional de BI. Após a extração dos dados na fonte, cria- Considere sempre dar preferência para sistemas onde a empresa possua mais controle sobre os dados e, caso precise adicionar conteúdo externo, busque informações de empresas, entidades ou órgãos governamentais que assegurem a integridade, a confi abilidade e a qualidade dos dados que estão sendo fornecidos. 38 BiG DATA ANALYTiC E A TomADA DE DECiSÕES se uma base de dados intermediária denominada Staging Area, que constitui em uma “zona de repouso” para os dados, antes de serem carregados em uma fonte destino - como um Data Warehouse, ou Data Mart ou mesmo em uma ferramenta OLAP ( Online Analytical Processing). Entretanto, essa abordagem possui sérias limitações quando o volume de dados aumenta demasiadamente e lidamos com dados não estruturados. Por outro lado, podemos dispensar o uso de Stages se espalharmos todos os nossos dados em um Data Lake (“Lago de dados”). A Amazon (AWS, s.d.) defi ne um Data Lake como um repositório centralizado que possibilita o armazenamento de dados estruturados e não estruturados em suas formas brutas sem a necessidade de defi nir um esquema previamente, como ocorre em bases tradicionais. Você pode construir Data Lakes em um servidor físicoou utilizando a nuvem. Essa característica permitiu que o Data Lake emergisse em tempos de Big Data. James Dixon (2010), fundador do Pentaho, fez a seguinte analogia: você pode imaginar um Data Mart como uma loja de garrafas de água - limpa, embalada e estruturada para fácil consumo - o Data Lake é uma grande reserva de água em seu estado mais natural. Essa analogia é bem pertinente. A Figura 9 retrata o funcionamento do Data Lake: os dados de diferentes fontes com formatos, estruturas e tamanhos diferentes chegam no reservatório (dataset) e vão sendo armazenados no seu estado bruto. O cientista de dados vai ao reservatório e seleciona apenas uma amostra de água (subset) que possa ser útil para sua análise. Ora, em uma análise ad-hoc, uma amostra pequena pode ser o sufi ciente para extrair insights em um determinado momento. Com isso em mente, o cientista analisa a amostra coletada e constrói visualizações que estarão prontas para serem consumidas pelos usuários fi nais. Microsoft e Amazon já oferecem soluções para construir Data Lakes. Data Lake é um lago que armazena dados de diferentes fontes, estruturas e tamanhos: é uma nova abordagem de armazenamento no processo de gestão de dados. 39 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 FIGURA 9 – MODELO DE DATA LAKE FONTE: <https://canaltech.com.br/infra/EMC-oferece-solucao-de- armazenamento-e-analise-de-Data-Lake/>. Acesso em: 15 nov. 2018. Além disso, existem outras possibilidades de armazenamento que podem ser consideradas, tais como: Bancos de Dados não Relacionais, como HBase, ou mesmo no próprio Hadoop por meio do seu sistema de arquivo distribuído (HDFS) que detalharemos mais à frente. A estratégia para persistência dos dados varia de acordo com o seu objetivo, por isso não existe uma maneira universal ou uma solução única para Big Data. Cabe também frisar que os dados não podem ser armazenados de qualquer modo, ao contrário, necessitam de mecanismos de controle e acesso. Quando falamos de fl uxo de dados estamos nos referindo ao processo de conduzir os dados que estão chegando em tempo real. Nesta situação, o armazenamento precisa ser robusto o sufi ciente para resistir a seguidas leituras e gravações em grandes volumes de dados. Eventualmente ocorrem falhas e, nesse caso, é necessário implantar mecanismos que forneçam suporte de tolerância a falhas. Por exemplo, em casos de ambiente em lote, existem muitos frameworks que oferecem suporte necessário para lidar com fl uxo contínuo de dados, como frameworks da família Apache, Apache Kafka, Apache Spark, Apache Flume e Apache Storm. A Amazon também oferece uma solução para armazenamento de dados streaming, como o Amazon Kinesis Firehouse (AWS, s.d.). 40 BiG DATA ANALYTiC E A TomADA DE DECiSÕES 4.1.3 CAmADA DE ANáLiSE A camada analítica consome os dados como foram armazenados na etapa anterior. Dessa maneira, os objetivos de análise precisam estar defi nidos, algo como: • Você fará uma análise exploratória? • Está buscando identifi car padrões nos dados ou segmentar um grupo de clientes ou produtos de acordo com algum critério? • Precisa fazer uma análise rápida para aquele atual momento (análise ad- hoc)? • Talvez precise de algo mais avançado, como prever comportamento de compra de um consumidor, com base nas suas últimas compras e/ou informações obtidas de conteúdo postado em seu blogue pessoal, ou até mesmo baseado em preferências de seus amigos mais próximos? Esses questionamentos são importantes para direcionar suas análises de Big Data. Técnicas de análise de dados tradicionais podem ser empregadas, contudo, precisam suportar o grande volume de dados ou o fl uxo em tempo real. Além disso, ferramentas, frameworks e técnicas avançadas voltados para Big Data podem ser utilizados para lidar com dados distribuídos. A etapa de análise de Big Data é fundamental para extrair valor para os negócios e precisa ser bem projetada, por essa razão, precisa dar conta de toda a demanda, fornecendo máxima transparência ao usuário fi nal e entregando informações consistentes à próxima camada. Alguns desses valores são essenciais para maximizar o lucro das empresas e também aprimorar o conhecimento de seu próprio negócio e dos seus concorrentes. Com isso em mente, indústrias que trabalham com quaisquer segmentos de fabricação (automotiva, alimentação, hospitalar etc.) visam sempre à melhoria da sua efi ciência na cadeia de produção com a otimização de recursos e redução de lucros. Não somente isso, o conhecimento a respeito dos seus clientes, a busca pela sua fi delização e a defi nição de estratégias para captura de novos clientes são atividades que representam o âmago da existência dessas companhias. 4.1.4 CAmADA DE APrESENTAÇÃo A camada de apresentação pode ser chamada de camada de consumo ou front-end, diz respeito a como publicar e apresentar os resultados obtidos pela análise. Por exemplo, na camada de armazenamento, é importante você defi nir 41 COMPREENDENDO A ANÁLISE DE INFORMAÇÃO NO CONTEXTO DE BIG DATA Capítulo 1 controle de acesso aos dados que serão consumidos, certifi cando quais áreas ou pessoas da empresa podem interagir com os resultados e extrair os devidos insights. Os requisitos de negócios podem exigir que se construa uma API específi ca ou mesmo uma ferramenta de análise, um dashboard, um relatório ou mesmo um sistema de recomendação de produtos. Além de usuários a camada de aplicação pode ser responsável por consumir aplicativos de diversos segmentos, como de marketing (Myrrix) ou de mídias (Bluefi n). Essa camada também pode alimentar processos de negócio, resolvendo rapidamente problemas e respondendo a mudanças inerentes a esses ambientes. A Figura 10 esquematiza a arquitetura de Big Data comentada nesta seção. A camada de extração e integração é onde tudo começa e a camada de apresentação tem a ver com o consumo dos resultados gerados pelas análises. FIGURA 10 – UMA ARQUITETURA GENÉRICA PARA IMPLANTAÇÃO DE BIG DATA ANALYTICS FONTE: O autor 42 BiG DATA ANALYTiC E A TomADA DE DECiSÕES 1 Uma arquitetura típica para projetos de Big Data é formada por quais componentes? R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 2 Descreva um Data Lake. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 4.2 ECOSSISTEMA HADOOP Uma arquitetura típica de Big Data precisa suportar o alto volume e a variedade de dados e processá-los em um tempo hábil. O Hadoop é um framework Open-Source que permite o processamento distribuído de grandes massas de dados por intermédio de clusters de computadores considerando modelos de programação simples. Esses clusters são máquinas ou nós que estão distribuídos oferecendo recursos de computação e armazenamento locais gerenciados por um servidor. Por intermédio do Apache Hadoop é possível gerenciar um grande volume de dados dos mais variados formatos. Mais do que isso, a biblioteca fornece mecanismos automatizados para detecção e correção de falhas e serviços com alta disponibilidade e escalabilidade. O Hadoop é um framework Open- Source que permite o processamento distribuído de grandes massas de dados por intermédio de clusters de computadores considerando modelos de programação simples. Esses clusters são máquinas ou nós que estão distribuídos oferecendo recursos de computação e armazenamento locais gerenciados por um servidor.
Compartilhar