Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade 3 Estrutura e organização do Big Data Big Data e Ciência de Dados Diretor Executivo DAVID LIRA STEPHEN BARROS Gerente Editorial CRISTIANE SILVEIRA CESAR DE OLIVEIRA Projeto Gráfico TIAGO DA ROCHA Autoria JÉSSICA LAISA DIAS DA SILVA ALAN DE OLIVEIRA SANTANA AUTORIA Jéssica Laisa Dias da Silva Olá. Sou graduada em Sistemas da Informação pela Universidade de Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente, sou doutoranda em Sistema e Computação pela UFRN e professora conteudista na elaboração de cadernos. Alan de Oliveira Santana Olá. Sou graduado em Ciência da Computação pela Universidade do Estado do Rio Grande do Norte (UERN) e mestre em Sistemas da Computação pela Universidade Federal do Rio Grande do Norte (UFRN). Atualmente, sou professor conteudista, elaborador de cadernos de questões e doutorando em Ciências da Computação. Como cientista, atuo no desenvolvimento e avaliação de técnicas de desenvolvimento de sistemas com ênfase na educação. Desse modo, fomos convidados pela Editora Telesapiens a integrar seu elenco de autores independentes. Estamos muito satisfeitos com o convite e a possibilidade de auxiliar em seu desenvolvimento intelectual e profissional. Bons estudos! ICONOGRÁFICOS Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez que: OBJETIVO: para o início do desenvolvimento de uma nova competência; DEFINIÇÃO: houver necessidade de se apresentar um novo conceito; NOTA: quando necessária observações ou complementações para o seu conhecimento; IMPORTANTE: as observações escritas tiveram que ser priorizadas para você; EXPLICANDO MELHOR: algo precisa ser melhor explicado ou detalhado; VOCÊ SABIA? curiosidades e indagações lúdicas sobre o tema em estudo, se forem necessárias; SAIBA MAIS: textos, referências bibliográficas e links para aprofundamento do seu conhecimento; REFLITA: se houver a necessidade de chamar a atenção sobre algo a ser refletido ou discutido sobre; ACESSE: se for preciso acessar um ou mais sites para fazer download, assistir vídeos, ler textos, ouvir podcast; RESUMINDO: quando for preciso se fazer um resumo acumulativo das últimas abordagens; ATIVIDADES: quando alguma atividade de autoaprendizagem for aplicada; TESTANDO: quando uma competência for concluída e questões forem explicadas; SUMÁRIO Processamento de grandes volumes de dados ............................12 Produção de dados ...................................................................................................................... 14 Armazenamento ............................................................................................................................. 16 Framework para processamento de dados ................................................................. 18 Hadoop ................................................................................................................................ 19 Spark ..................................................................................................................................... 20 Storm ..................................................................................................................................... 21 Inteligência de negócio para Big Data .................................................. 22 Big Data e sua importância no mercado de negócio ............................................22 Inteligência de negócio para Big Data .......................................................26 Perfil comportamental do profissional de análise de inteligência de negócios ......................................................................................................................28 Big Data aplicado no mercado ..............................................................................................29 Magazine Luiza ..............................................................................................................29 Amazon ................................................................................................................................29 Nordstrom......................................................................................................................... 30 Bancos de dados para Big Data ............................................................ 32 Banco NoSql .......................................................................................................................................33 Características bancos de dados NoSQL ...................................................34 Tipos de banco de dados NoSQL ....................................................................35 Principais mecanismos de banco de dados NoSQL ............................................ 36 Cassandra ......................................................................................................................... 36 MongoDB ...........................................................................................................................37 Redis ..................................................................................................................................... 38 HBase ................................................................................................................................... 38 Amazon DynamoDB .............................................................................. 39 Neo4j .................................................................................................................................... 39 Recuperação de informações ................................................................41 Big Data e a recuperação da informação ...................................................43 Ontologia ............................................................................................................................44 Data Warehouse............................................................................................................45 Apache Lucene.................................................................................................................................45 9 UNIDADE 03 Big Data e Ciência de Dados 10 INTRODUÇÃO Estudamos, anteriormente, como a quantidade de dados é grande hoje e como é importante a utilização de soluções computacionais como Big Data e ciência de dados. Assim, nesta unidade vamos nos deter a estudar como processar grandes massas de dados. Abordaremos sobre ferramentas e recursos importantes que ajudam a processar a enorme quantidade de informação. Veremos ainda sobre inteligência de negócio e como a utilização de Big Data pode favorecer neste ambiente. Além disso, entenderemos o tipo de Banco de dados adotado em aplicações de Big Data, bem como a sua estrutura e tecnologias envolvidas. Estudaremos ainda, nesta unidade, sobre o Banco de dado utilizado em aplicações em Big Data, como também a estrutura e as particularidades destes. Também iremos abordar sobre a importância do Banco de dados e apresentar exemplos de banco de dados aplicados em trabalhos que adotam Big Data. Por fim, abordaremos sobre a recuperação de informação utilizando as soluções de Big Data e Data Science como outros recursos computacionais que surgiram. Big Data e Ciência de Dados 11 OBJETIVOS Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no desenvolvimento das seguintes objetivos de aprendizagem até o término desta etapa de estudos: 1. Conhecer o processamento de grandes volumes de dados. 2. Entender a inteligência de negócio para Big Data. 3. Conhecer os bancos de dados para Big Data. 4. Conhecer o processo de recuperação de informação. Então? Preparado para adquirir conhecimento sobre um assunto fascinante e inovador como esse? Vamos lá! Big Data e Ciênciade Dados 12 Processamento de grandes volumes de dados OBJETIVO: Neste capítulo, abordaremos como funciona o processa- mento de grande volume de dados a partir da explanação de como os grandes volumes de dados são produzidos e armazenados. Logo após, exploraremos os frameworks que realizam este processamento. Prontos? Vamos lá! É importante relembrar que o Big Data está relacionado e aplicado à análise, ao processamento e armazenamento de grandes volumes de dados e que as suas soluções computacionais e seus métodos são usualmente precisos quando as tecnologias e técnicas clássicas já não são suficientes para a execução destas atividades (ERL; KHATTAK; BUHLER, 2016). Ainda sobre o conceito de Big Data que já estudamos, precisamos recordar também as características dos “Vs” que o compõe, representado por esta fórmula apresentada por (TAURION, 2013): Big Data = volume + variedade + velocidade + veracidade gerando + valor. Deste modo, o volume representa a quantidade de petabytes de dados produzidas a cada dia, a qual se estima que este volume dobre a cada dezoito meses Segundo Taurion (2013), cada uma desses Vs, conforme apresentado a seguir, são relacionados com a produção de dados: • Variedade: caracteriza os dados oriundos de sistemas estruturados e não estruturados, originados por e-mails, redes sociais como: Facebook, Twitter, YouTube, entre outras, documentos eletrônicos, apresentações estilo Powerpoint, mensagens instantâneas, sensores, etiquetas RFID, câmeras de vídeo, entre outros (TAURION, 2013). Big Data e Ciência de Dados 13 Figura 1 – Redes sociais Fonte: Freepik • Velocidade: característica relacionada às práticas em tempo real sobre o grande volume de dados. Esta representa um critério que se torna muito importante por causa da crescente agilidade com que as empresas precisam reagir às modificações no cenário de negócios, bem como a necessidade de dados em tempo real, interferindo na execução do próprio processo de negócios (TAURION, 2013). • Veracidade: essa característica implica em garantir a integridade dos dados, verificando se fazem sentido e são autênticos (TAURION, 2013). • Valor: representando a junção das demais características (TAURION, 2013). Podemos citar ainda que, em 2013, a ISACA determinou o Big Data como conjuntos de dados de grandes volumes ou com rápidas modificações para serem analisados com processos de banco de dados relacionais tradicionais, multidimensionais ou ferramentas de software usualmente utilizadas para capturar, gerenciar e processar os dados em um tempo favorável (ISACA, 2013). Dessa forma, a partir desta revisão, entendemos que o Big Data é justamente uma solução computacional que trabalha como esses Big Data e Ciência de Dados 14 grandes volumes de dados. Na próxima sessão, teremos a explanação de onde vem todos esses dados. Produção de dados A produção dos dados cresce exponencialmente. Um estudo da A Universe of Opportunities and Challenges, desenvolvido pela consultoria EMC, relatou que, de 2006 a 2010, o volume de dados digitais gerados aumentou de 166 exabytes para 988 exabytes, fazendo a perspectiva que o volume de dados alcance a casa dos 40.000 exabytes, ou 40 zettabytes (ou 40 trilhões de Gigabytes), nos próximos anos (GANTZ, 2012). Figura 2 – Escala de dados Fonte: Elaborada pelos autores (2020). Amaral (2016) entende que a produção de dados não está somente relacionada pela entrada de algum dispositivo, mas também pela análise ou para execução de procedimentos operacionais, podendo ser responsáveis por produzir volumes significativos de dados. Ainda abordando sobre os grandes volumes de dados, vale ressaltar que estes são processados pelas soluções de Big Data, o qual crescem e atribuem exigências diferentes de armazenamento e processamento, expondo um grande desafio às organizações de TI clássicas, visto como os grandes volumes de dados, necessitam de armazenamento escalonável e um enfoque distribuído para permitir a consulta deles (ERL et al., 2016). Big Data e Ciência de Dados 15 Os dados estão sendo produzidos cada vez mais e vem de todas as partes. Segundo Amaral (2016), dados podem ser comprados, produzidos ou simplesmente coletados. Segue a descrição de cada um dos tipos de dados: • Dados comprados: podem derivar de empresas especializadas em vender dados, conhecidas como “data brokers”. Os data brokers permitem o entendimento de como se dá a coleta de informações sobre os consumidores de diferentes e abundantes fontes comerciais (FRAZÃO, 2019). • Dados produzidos: são originados por sistemas transacionais, operações de processamento exemplificando o fechamento da folha de pagamento, os processos de transformação de dados e o ELT (extração, carregamento, transformação). • Dados coletados: podem ser originados de outros sistemas, pesquisas, históricos, arquivos ou até de um data warehouse. Um data warehouse refere-se a um sistema de gerenciamento de dados projetados para ativar e fornece suporte às tarefas de business intelligence (BI) (ORACLE, 2020). Por outro lado, destacamos os dados que são produzidos pelos sensores, por exemplo, os tipos de sensores em um smartphone são as câmeras, responsáveis por produzir o maior volume de dados; os sensores de Touch screen; GPS; como ainda, os sensores direcionados para a comunicação, como bluetooth, WiFi, WiDi, NFC, entre outros. Cada vez mais, aumenta-se a tendência de utilização de carros, bússola, GPS, rádio, TV, câmera fotográfica, filmadora, videogame e carros, e consequentemente a produção de dados gerados por eles (AMARAL, 2016). Big Data e Ciência de Dados https://www.jota.info/autor/ana-frazao https://www.oracle.com/br/database/what-is-data-management/ https://www.oracle.com/br/database/what-is-data-management/ 16 SAIBA MAIS: As grandes massas de dados produzidas pelos diversos equipamentos no artigo Volume de dados exigirá velocidade para sobreviver ao Big Data. Nele, são citados alguns exemplos atuais de equipamentos que estão produzindo grandes volumes de dados e sobre a necessidade da velocidade exigida para o processamento e análise destes. Acesse clicando aqui. Armazenamento Tendo em vista que os dados estão sendo produzidos a todo momento e de forma exponencial, este fator acarreta na necessidade de se ter meios de armazenamento para esses dados devido aos recursos clássicos já não comportarem tanto as massas de informações criadas, de forma que, além deste volume de dados, existem as capacidades de transferência das redes de comunicação que ficam excedidas (KAISLER et al., 2013). Isto implica afirmar que existe uma necessidade crescente em revolucionar as tecnologias de armazenamento e de comunicação (JUSTIN, et al., 2006). Figura 3 – Armazenamento de dados Fonte: Freepik Big Data e Ciência de Dados https://www.sas.com/pt_br/insights/articles/data-management/volume-de-dados-exigira-velocidade-para-sobreviver-ao-big-data.html 17 Conforme Amaral (2016), o armazenamento viabiliza que posteriormente os dados possam ser readquiridos facilmente para se fazer uma cópia, ou para replicar o processo ocorrido, bem como, para produzir informação ou conhecimento. É importante ressaltar que o armazenamento deve primar por: segurança da informação, integridade, minimização de redundância, concorrência, otimização de espaço etc. Vale salientar ainda que o armazenamento pode ser realizado em um dispositivo volátil ou não volátil. Atualmente, algumas empresas utilizam as aplicações de Big Data para armazenamento, o ambiente de Cloud Computing ou Computação em Nuvem. A computação em Nuvem admite que empresas aluguem capacidade de computação e armazenamento sob solicitação e com pagamento relacionado à utilização, ao invés de bancarem grandes investimentos para a construção e instalação de dispositivos de computação em grandeescala (SOUSA et al., 2010). Assim, a computação em Nuvem é uma tecnologia que permite maior viabilidade do Big Data e, por meio dela, as organizações podem aproveitar as grandes massas de dados sem ter que investir em grandes instalações de armazenamento e processamento de dados (DSA, 2017). IMPORTANTE: É importante ressaltar que em muitas circunstâncias o processo de análise dos dados deve ser eficiente e quase em tempo real, assim, o armazenamento de todos os dados capturados é quase inviável (WU et al., 2013). Ao mesmo tempo, a computação em Nuvem oferece ambientes com ampla capacidade de armazenamento, escaláveis, flexíveis, com alto desempenho e disponibilidade, tornando-se um importante recurso que serve como uma opção para viabilizar a construção de aplicações de gestão e análise de grandes volumes de dados (AGRAWAL et al., 2011). Big Data e Ciência de Dados 18 Podemos destacar a computação em nuvens com um grande aliado na utilização de ferramentas de Big Data. Framework para processamento de dados Já é sabido que o Big Data pode ser conceituado como grandes volumes de dados, com diversos níveis de complexidade e muitas vezes desestruturados, os quais necessitam de outros tipos de ferramentas e procedimentos para serem processados ou analisados (MAURO et al., 2015). NOTA: Para realizar o processamento eficiente dessas grandes massas de dados, é preciso de um processamento paralelo extenso e também novos algoritmos de análise, de modo a obter e fornecer informação apropriada e a tempo de ocorrer uma tomada de decisão. Isto se deve ao fato de grandes quantidades de dados implicarem grandes custos de tempo, pelo que, são necessárias novas estruturas que possibilitem minimizar consideravelmente o tempo de processamento (KATAL et al., 2013). Por seguinte, há algumas tecnologias orientadas a tratar volumes muito grandes como Hadoop e sistemas de bancos de dados específicos, como o Cassandra, utilizado hoje pelo Facebook, Twitter e Reddit, os quais, necessitam trabalhar com muita velocidade com grandes volumes de dados de modo distribuído (TAURION, 2013). É importante saber que no contexto de processamento de dados, pode-se ter três tipos (DU, 2015): • Processamento em batch: versa para processar dados em lotes, de modo que, neste tipo de processamento, um conjunto de dados é instruído da fonte de dados, sendo posteriormente processado e anotado na fonte de destino. É importante ressaltar que, historicamente, a grande maioria das tecnologias de processamento de dados foram projetadas para este tipo de processamento (STREAMLIO, 2018). Big Data e Ciência de Dados 19 • Processamento em tempo real: refere-se a processar os dados e conseguir os resultados quase imediatamente (DU, 2015). • Processamento em stream: versa em processar dados consecu- tivamente e atuar sobre os dados em live stream para se obter os resultados. Os dados são processados como artefatos individuais, ao invés de serem processados como um lote gradativamente (DU, 2015). A seguir, seguem sessões apresentando alguns exemplos de frameworks que trabalham com processamento de grandes massas de dados. Hadoop O Hadoop, como já estudamos, é uma plataforma de software idealizada pela Apache Software Foundation, open source, escrito em Java, o qual possibilita o processamento de grandes massas de dados em clusters de computadores. É necessário ressaltar que o Hadoop é conhecido pela capacidade de armazenamento, porém, é também uma ferramenta para processamento por meio do MapReduce. Este possui dois componentes principais: a estrutura de programação HDFS e MapReduce, que estão intensamente relacionados entre si (WHITE, 2015), segue uma descrição dos dois componentes: • Hadoop Distributed File System (HDFS): trata-se de um sistema de arquivos distribuído, idealizado para armazenar grandes massas de dados de modo confiável e realizar a transmissão para os usuários. O HDFS tem características de tolerância a falhas e pode ser expandido de um único servidor para milhares de máquinas, cada uma proporcionando armazenamento local. Este ainda trabalha em dois tipos de nós, o “Mestre” – gerencia a hierarquia de sistemas, e vários “Escravos” – nós de dados (SHVACHKO et al. 2010). • MapReduce: é um modelo de programação para processar e gerar grandes conjuntos de dados úteis para atividades no mundo real (DEAN, 2004). Este tem as funções map (mapeamento) e reduce (redução), de modo que, a função map atende a par Big Data e Ciência de Dados 20 chave/valor (chave trata o identificador do registro e, valor, o seu conteúdo) como entrada, e gera pares chave/valor intermediários. Por sua vez, a função reduce mescla todos os pares associados à mesma chave (intermediários), permitindo a geração de uma saída (HASHEM, 2014). Spark O Spark é um framework para processamento de Big Data idealizado com foco em velocidade, facilidade de utilização e análises aprimoradas. Este foi projetado para garantir uma vasta gama de cargas de tarefas, como aplicativos em lote, algoritmos interativos, consultas interativas e streaming, permitindo a tolerância a toda essa carga de trabalho e minimizando a carga de gerenciamento da manutenção de ferramentas separadas (SPARK, 2020). Vale ressaltar que o principal atributo do Spark é a computação em cluster na memória, aumentando a velocidade de processamento de um aplicativo. Este, por sua vez, proporciona um framework padronizado e de simples compreensão para gerenciar e processar Big Data com uma diversidade de conjuntos de dados de várias naturezas e origens (batch ou streaming de dados em tempo real). O framework também suporta as linguagens Python, Java e Scala, ainda possuindo outros módulos para aprendizado de máquina e inteligência artificial (PENCHIKALA, 2015). O conceito principal deste framework é o Resilient Distributed Datasets (RDD), pelo qual funciona como uma tabela do banco de dados que pode arquivar qualquer tipo de dado. Outras características do Spark são, conforme Penchikala (2015): • Dar suporte a mais do que somente as funções de map e reduce. • Otimização da utilização de operadores de grafos arbitrários. • Avaliação sob demanda de consultas de Big Data, favorecendo a otimização do fluxo global do processamento de dados. • Apresenta shell interativo para Scala e Python. Big Data e Ciência de Dados https://spark.apache.org/ https://spark.apache.org/ https://blog.geekhunter.com.br/o-java-ainda-faz-historia/ https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/ 21 O Spark armazena os dados do RDD em distintas partições, isso auxilia a reorganização computacional e a questão de otimizar o processamento dos dados (PENCHIKALA, 2015). Storm O Apache Storm é um sistema de computação em tempo real distribuído e de código aberto que trabalha no processamento de fluxos de dados ilimitados, fazendo para o processamento em tempo real, o que o Hadoop fez no processamento em lote. O Storm trabalha com modelos de streaming para processamento por meio da camada principal do Storm (APACHE, 2020). Algumas vantagens do Storm é a facilidade em sua utilização, o funcionamento como qualquer linguagem de programação, estabilidade e tolerância a falhas, existem desvantagens também, como confiabilidade, desempenho, eficiência e gerenciamento (YAQOOB et al., 2016). RESUMINDO: Finalizamos este capítulo entendendo que, quando abordamos grandes massas de dados, lidamos com Big Data e seu ambiente de trabalho. Podemos perceber as diversas fontes de dados atuais e como aumentam a quantidade de dados, contribuindo para esta grande massa existente e que necessita ser processada. Estudamos um pouco sobre os tipos de armazenamento quando se trata de dados e chegamos ao final abordando os tipos de processamento existentes. Ainda estudando sobre o processamentoem batch, tempo real e stream, apresentamos alguns frameworks que trabalham com o processamento de grandes massas de dados. Big Data e Ciência de Dados 22 Inteligência de negócio para Big Data OBJETIVO: Seguindo os estudos, vamos abordar neste capítulo sobre inteligência de negócio e como a utilização de Big Data pode favorecer neste ambiente. Apresentaremos a relação do Big Data e Business Intelligence e como ambos trabalham. Abordaremos ainda os ganhos e exemplos de como se dá suas aplicações. Vamos lá! Big Data e sua importância no mercado de negócio Com a grande produção de dados por meio das análises do Big Data, é propiciado inovações em tecnologias, produtos, na gestão e na estratégia das organizações (ZHANG; CHEN; LI, 2013). Vale ressaltar que o Big Data foi destacado por Cearley (2013) como uma das 10 tendências de tecnologias estratégicas com a potencialidade de impacto na vida dos indivíduos e das empresas. Esta lista foi fundamentada no potencial de cada tecnologia. Figura 4 – Mercado de negócio Fonte: Freepik Big Data e Ciência de Dados 23 Tendo em vista os produtos em abundância e as informações dos clientes, bem como, registros e a massa de dados disponíveis para ampliar constantemente novas tecnologias, vê-se o aperfeiçoamento dos serviços existentes, pois tendem a melhorar a eficiência da produção, diminuir custos, criar inovações e trazer a satisfação as necessidades dos clientes (ZHANG et al., 2013). Segundo Isaca (2013) relata, a análise do Big Data pode impactar no mercado de negócio de modo positivo nos seguintes processos: • Desenvolvimento de produto. • Desenvolvimento do mercado. • Eficiência nas operações. • Experiência e fidelidade do cliente. • Prever a demanda de mercado. Porém, Bughin (2011) destaca que muitos executivos só buscam por recursos de Big Data quando precisam urgentemente responder a uma ameaça ou para encontrar uma oportunidade em um determinado escopo de mercado. Um exemplo dado, pelo autor citado acima, relata uma organização de telecomunicações europeia que após aumentar sua parte de participação no mercado, decidiu criar um sistema que possibilite identificar as causas que poderiam levar seus clientes a selecionar uma ou outra empresa. Isso foi possível por meio da análise de grandes massas de dados e o aumento de informações disponibilizadas pelos próprios usuários em redes sociais e portais das empresas. Big Data e Ciência de Dados 24 SAIBA MAIS: Para saber mais sobre a importância e as perspectivas do Big Data nas empresas, leia este artigo Big Data: informação e inteligência para os negócios. Nele, é citada uma pesquisa realizada pela Dell, destacando que as empresas que utilizam o Big Data apresentaram crescimento de receita até 53% maior do que as que não exploram esses conceitos. Acesse clicando aqui. É importante entender que o Big Data gera modificação na organização do modelo de negócios devido a trazer consigo as três características de dados estruturados e não estruturados, em que necessita de novas capacidades e conhecimentos para que cada setor realizar o tratamento de dados de modo mais eficiente (ZIKOPOULOS; EATON, 2012). O uso de Big Data nas organizações é alavancado pela necessidade de existir planejamento apropriado e a idealização de estratégias que resultem na realização das metas e objetivos determinados. Neste sentido, adotar o Big Data pode contribuir nas empresas no aspecto de elaboração do planejamento estratégico, de modo a promover o alcance e na criação de vantagem competitiva (TEIXEIRA; ALONSO, 2014). Para autores como Chen e Zhang (2014), o Big Data modificou a forma como fazemos negócios, gestão e pesquisas. Desta forma, ciências intensivas de dados, notadamente em computação intensiva de dados, estão chegando a um mundo que deseja fornecer as ferramentas que precisamos para lidar com problemas de Big Data. Desta forma, percebe-se como o Big Data possibilita trazer resultados extraordinários para as empresas, contudo, a decisão e visão do executivo sempre será fundamental para o negócio, mas, agora, sendo mais respaldada pela análise dos dados (GALLANT, 2011). Podemos destacar o exposto acima mostrando o exemplo trazido por Vivek Ranadive, CEO da Tibco, um conhecido autor de livros sobre Big Data e Ciência de Dados https://www.up.edu.br/blogs/pos-graduacao/big-data-informacao-e-inteligencia-para-os-negocios/ 25 o tema, o qual em uma certa loja varejista de material de jardinagem, é sabido que compradores de semente tem 90% de probabilidade de comprar fertilizante e 40% de chance de comprar móveis de jardim. Partindo para uma primeira análise, pode-se imaginar que a melhor estratégia seja estimular a compra de fertilizante ou expor este próximo das sementes. Entretanto, analisando com mais detalhe, pode-se verificar que a melhor estratégia é desenvolver ações que impulsionem a venda dos móveis, afinal, existe uma margem maior de crescimento para estes produtos (GALLANT, 2011). Conforme Davenport (2012) relata, o Big Data motiva a inovação nos modelos de negócios por meio da análise dos ambientes, desenvolvendo novos produtos e serviços com a análise de dados originados pelos consumidores, permitindo cooperações estratégicas ao compartilhar a grande massa de informações com outras empresas. IMPORTANTE: Uma grande contribuição no contexto da aplicação do Big Data nas empresas é o crescente aumento das fontes de informações às empresas extraídas das redes sociais, recursos informatizados de cooperação, bem como os sensores em vários produtos ou registros de tráfego de internet, entre outros (DAVENPORT, 2014). Outras fontes de informações geradas a partir de equipamentos que originam grandes quantidades de dados e que possibilitam ter relevância para as empresas, são: telefones celulares, vendas na internet, redes sociais, comunicação eletrônica, GPS e maquinário computadorizado (BRYNJOLFSSON, 2012). Assim, vimos as contribuições que a utilização do Big Data para as empresas e executivos no contexto geral de mercado e negócio. Contudo, na próxima sessão vamos entender um pouco mais da aplicação do Bussines Intelligence trabalhando com Big Data. Big Data e Ciência de Dados 26 Inteligência de negócio para Big Data Diante da produção de dados, a busca das empresas por melhorias em seus negócios e vantagens competitivas entre seus concorrentes, destaca-se nesse cenário a inteligência de negócios ou Business Intelligence (BI), um recurso que trata tecnologias, aplicativos e métodos para a coleta, integração, análise e apresentação de informações no contexto de negócios. Em síntese, BI possibilita aos executivos das empresas e tomadores de decisão de negócios, os recursos apropriados para tomar decisões melhoradas (LOUZADA, 2019). Conforme Machado (2018), BI depende de dados estruturados e refere-se somente ao que já aconteceu, além do mais, não são necessários cientistas de dados para desenvolverem boas aplicações em BI. Os painéis que mostram métricas e indicadores importantes de BI, ganham significado com os dados internos das empresas, exibidos de modo visual e facilitado. Entretanto, eles não conseguem ir fora dos limites de operação da empresa. Disto surge a necessidade de utilizar soluções mais robustas com o Big Data, apropriados para fazer análises sobre dados não estruturados e, com isso, enriquecendo a percepção do negócio por meio das correlações de dados e análises preditivas e prescritivas (MACHADO, 2018). NOTA: A análise de Big Data, além de ajudar a lidar com esses dados complexos, também ampliam a finalidade do BI, o qual, na maioria das vezes, tem o foco nos bancos de dados internos das empresas, buscando extrair valor de dados externo. Assim, o Big Data favorece trabalhar com grandes volumes de dados de bancos externos, enriquecendo o processo de tomada de decisãoe consequentemente os negócios. Big Data e Ciência de Dados 27 Figura 5 – Inteligência de mercado Fonte: Freepik O trabalho com Big Data corresponde a uma preocupação para a inteligência de negócios, visto que se caracterizam por alto volume, variedade e velocidade, requerendo competências tecnológicas avançadas, muitas vezes, ainda não desenvolvidas ou consolidadas para manipular e gerar conhecimento antecipado aos fatos (KWON; SIM, 2013). Vale ressaltar que a solução de Big Data não permite definir as causas das correlações encontradas, porém, por meio de análises multivariadas, é possível controlar as variáveis e seus efeitos em outras variáveis. Isso implica uma exigência maior na escolha de profissionais em projetos de Big Data devido a complexidade e habilidades específicas exigidas (MACHADO, 2018). Já com relação ao Business Intelligence, podemos entender, de modo geral, como um recurso ou etapa a ser seguida após o Big Data extrair e utilizar os dados para compreender o negócio, ensina os profissionais envolvidos a tomarem ações de modo melhor. Desta forma, o BI será adotado como uma solução que proporciona o filtro e ordena as informações, possibilitando com que elas se compartilhem entre si avaliando e as direcionando estrategicamente. Big Data e Ciência de Dados 28 SAIBA MAIS: No artigo Inteligência de negócios: o que é e como fazer a análise de dados?, você poderá ver uma explanação de ambos recursos tecnológicos e algumas características de cada. Acesse clicando aqui. Assim, ainda podemos inferir que o BI é a sustentação do Big Data, empresas com sistemas de Business Intelligence robustos terão maior probabilidade de começarem projetos em Big Data, uma vez que descobertas, permitem ser testadas e monitoradas de modo rápido pelo sistema de BI (MACHADO, 2018). Perfil comportamental do profissional de análise de inteligência de negócios Garro (2017) listou algumas habilidades de perfis comportamentais dos profissionais analistas de BI precisam ter para vencer os desafios da área, segue a lista: • Comunicação: ter a habilidade de se expressar e se fazer entender são pontos importantes. Transmitir com clareza na conceituação de premissas para realizar as tarefas, deliberar escopos e riscos procurando oferecer as soluções de Inteligência em uma linguagem clara e prática. • Pacificador: é importante o analista de BI fazer a ponte entre os envolvidos, apresentando a capacidade de traduzir a regra de negócio para o ambiente técnico. • Liderança: é de extrema importância que o analista de BI tenha o perfil de liderança para delegar as soluções e definir os papéis dos envolvidos. Necessitará também ter uma postura apropriada e segura de suas definições, bem como, nortear a equipe e as áreas interessadas. • Conhecimento técnico: é de extrema importância que o analista de BI tenha conhecimento técnico profundo e não apenas saber o Big Data e Ciência de Dados https://www.up.edu.br/blogs/pos-graduacao/big-data-informacao-e-inteligencia-para-os-negocios/ 29 desenho da solução. Este também é responsável por dar garantias que a solução seja elaborada com a tecnologia adequada e no melhor ambiente. • Atitude: é importante que o analista de BI compreenda que ele é efetivamente quem tem a responsabilidade de fazer as coisas acontecerem. É ele quem possui o raciocínio lógico e quem define processos, desenha modelos de soluções e detém o conhecimento do negócio e técnico, portanto, sem ele as coisas não funcionam. Em suma, é importante que você saiba que os analistas de BI, de modo geral, lidam com análise e projetos de modelagem de dados utilizando dados coletados, seja de um armazém de dados centralizado ou de variados bancos de dados em toda a organização. Cada organização pode escolher as habilidades mais relevantes para escolher o seu analista de BI. Big Data aplicado no mercado Apresentaremos, nesta seção, alguns exemplos de sucesso de empresas que utilizam as soluções de Big Data para poderem otimizar seus serviços. Magazine Luiza Uma das iniciativas do 2014 do Magazine Luiza foi criar o Luizalabs, um laboratório de Tecnologia e Inovação com intuito de produzir produtos e serviços para o varejo, aperfeiçoando a experiência de compra dos clientes. Outro projeto que merece destaque e muito importante é o Bob, um aplicativo de Big Data que tem a finalidade atual de fazer recomendações do Magazine Luiza e também responsável por enviar propostas de compras por e-mail e outros dispositivos (FÉLIX, 2018). Amazon A Amazon passou por uma expansão por um determinado tempo no seu modelo de negócios, o qual antes era só de venda online de Big Data e Ciência de Dados 30 livros e atualmente se transformou em uma das maiores varejistas de bens físicos e virtuais, como: ebooks, streaming de vídeos e serviços web. Implementaram o Amazon Now e passaram a competir com supermercados, oferecendo produtos frescos e com uma entrega rápida (MARR, 2016). Conforme Marr (2016), a Amazon tem utilizado o Big Data para os seus recursos de recomendações, por meio dos dados e da monitoração do que os usuários compram, o que eles veem, qual horário da navegação, o endereço de entrega para determinar dados demográficos, seus comentários e opiniões registradas no site. Nos usuários do aplicativo para celular, também coletam a localização pelo GPS e informações sobre aplicativos usados no celular. Nordstrom A Nordstrom é uma empresa varejista de moda de luxo dos Estados Unidos. É reconhecida pela qualidade no atendimento e serviço ao consumidor, assim como no merchandising. Essa marca adotou como marketing um projeto de Big Data, criando um laboratório que o aplica para gerar insights por meio de tendências de comportamento de compra de seus clientes e, com isso, promove produtos específicos em canais direcionados para seus clientes (MACHADO, 2018). Figura 6 – Marketing Fonte: Freepik Big Data e Ciência de Dados 31 É interessante ressaltar que a Nordstrom extrai os dados de suas páginas na web, perfis em redes sociais (Facebook: possui 3 milhões de likes, Pinterest: 2,5 milhões de seguidores e Twitter: meio milhão de seguidores), estatísticas de vendas em lojas físicas, programa de fidelidade e até por meio da wi-fi. Um exemplo com monitoração da rede wi-fi foi um experimento na loja física em Dallas, monitorando o comportamento de consumidores (MACHADO, 2018). RESUMINDO: Estudamos neste capítulo como os produtos em abundância e as informações dos clientes, bem como, registros de dados e a massa de dados disponíveis, são usadas como solução computacional de Big Data, na qual pode agregar valor para os modelos de negócio. Vimos ainda, no decorrer do capítulo, a importância e as contribuições geradas pela utilização do Big Data, como também a sua relação com BI e como estes recursos se complementam. Além do exposto, destacamos o perfil de comportamento do analista de BI. Por fim, abordamos exemplos de empresas que adotaram o Big Data para melhorar seus negócios e atrair mais clientes. Big Data e Ciência de Dados 32 Bancos de dados para Big Data OBJETIVO: Neste capítulo, estudaremos sobre Banco de dados que trabalhe com Big Data, a estrutura e as particularidades destes. Também iremos abordar sobre a importância do Banco de Dados e demonstrar exemplos de banco de dados aplicados em trabalhos que adotam Big Data. Preparados? Vamos lá! Já estudamos e sabemos que a definição de Big Data trata de conjuntos de dados, cujo tamanho e capacidade permitem capturar, armazenar, gerenciar e analisar dados (MANYKA et al., 2011). Figura 7 – Banco de dados Fonte: Freepik Conforme Amaral (2016), atualmente, com as exigências de aplicações mais robustas, surgiram necessidades de novos meios de gerenciamento de dados, por causa das aplicações que agregam grandes volumes de dados, como prontuário eletrônico,gestão de documentos, análises de séries temporais, entre outros. Big Data e Ciência de Dados 33 Antes, existia o modelo relacional que tinha foco em primar pela normalização, integridade e não redundância de dados, porém a nova aplicação tem como prioridade maior escalabilidade, volume e processamento (AMARAL, 2016). Por conseguinte, é exigido outro tipo de banco de dados para trabalhar com Big Data, justamente devido aos diferentes tipos de dados, sejam eles estruturados, semiestruturados e não estruturados. Com isto, nas próximas seções iremos abordar sobre essas estruturas que surgiram para ajudar a trabalhar com Big Data. Banco NoSql Com a necessidade de ter estruturas de banco de dados que tratem dados em grande volume, variedade e velocidade do Big Data, precisou surgir outros modelos, como os softwares de banco de dados NoSQL, desenhados para tratar imensas massas de dados estruturados e não estruturados (TAURION, 2013). O termo “NoSql” originou-se em 1998, porém iniciou-se, de modo efetivo, em 2004, com a idealização do Banco de Dados BigTable pela empresa Google. Logo após, vieram outras iniciativas pela empresa Amazon, em 2007, e Facebook, em 2008, pelos quais distribuíram, respectivamente, os BDs Dynamo e Cassandra. A partir daí, surgiram diversas soluções em Banco de Dados NoSql (IANNI, 2013). É importante destacar ainda que este termo, NoSQL, não implica especificamente que não se pode utilizar uma linguagem declarativa para consultar dados em um gerenciador NoSQL, porém significa que são bancos de dados que não estão somente com base no modelo relacional (AMARAL, 2016). Nos bancos de dados NoSQL, as tabelas são denominadas como tabelas de hash distribuídas, de modo que, uma vez armazenado objetos indexados por chaves, objetos são encontrados pelas suas chaves. Diferentemente dos bancos de dados estruturados, o banco de dados NoSQL é modelado para aumentar a sua escala em sentido horizontal, Big Data e Ciência de Dados 34 isso implica dizer que a indexação se dá por meio de clusters distribuídos em hardwares de baixo custo (MACHADO, 2018). SAIBA MAIS: Leia sobre as diferenças de NoSQL no artigo O que é NoSQL? Você poderá ter uma explanação geral sobre NoSQL e a diferença com banco de dados relacional. Acesse clicando aqui. Podemos ressaltar também que os bancos de dados NoSQL trabalham usando uma variedade de modelos de dados para acessar e gerenciar os dados. De modo geral, esses bancos são aperfeiçoados designadamente para aplicativos que exigem modelos de grande volume de dados, menor latência e flexibilidade. Essas condições são consentidas mediante a flexibilização de algumas restrições de consistência de dados dos outros bancos. Características bancos de dados NoSQL Tendo em vista que há vários bancos de dados NoSQL em que cada um foi idealizado para resolver diferentes problemas, esses, em sua maioria, contêm características em comum que se tornam dos bancos de dados NoSQL. Estão descritas a seguir, conforme (LÓSCIO, et al. 2008): • Alta escalabilidade. • Alta performance. • Alta disponibilidade. • Processamento distribuído. • Ausência de esquema. • Manter a replicação de dados. • Trabalha com armazenamento de dados estruturados e não estruturados. • Contém um API simples para acesso aos dados. Big Data e Ciência de Dados https://aws.amazon.com/pt/nosql/ 35 • Maior flexibilidade às propriedades ACID (Atomicidade, Consistência, Isolamento e Durabilidade). • Não suportam a linguagem SQL. • São produtos novos. Após a descrição desse banco de dados, na próxima seção vamos abordar sobre os tipos de bancos de dados NoSQL. Tipos de banco de dados NoSQL Segundo Amaral (2016), existem diversas famílias de produtos NoSQL, com cada família partilhando um mesmo conjunto de padrão de armazenamento. A seguir, temos a descrição de modo geral de cada um desses tipos: • Chave-valor: os BDs, com base neste modelo, utilizam o conceito de uma chave e um valor conhecido, como uma tabela hash para constituída dos registros e garantindo que não ocorra redundância (VARDANYAN, 2013). Esse modelo mais tradicional ao invés de conter uma tabela com um número fixo de colunas tipadas, trabalha com o termo chave-valor, ou KVS, acrônimo para Key- Value Store, de modo que, em vez de conter um conjunto de atributos, a operação adiciona informações nos bancos somente com a chave e um valor. Algumas implementações do tipo KVS são Couchbase, Kyoto Cabinet, Redis e DynamoDB da Amazon. • Banco de Dados orientado a documentos: o modelo armazena chave e valor, porém são organizados em conjuntos, permitindo o armazenamento de estruturas como um arquivo JSON. São exemplos de implementações deste modelo o MongoDB e o CouchDB, com este último também da função Apache (AMARAL, 2016). • Banco de dados orientado a grafos: este modelo usa a estrutura de grafo para guardar as informações, de modo que, as informações são classificadas e armazenadas como entidades, bem como, suas relações são estabelecidas por meio das ligações Big Data e Ciência de Dados 36 entre os elementos do grafo. Este modelo é flexível e pode ser escalado através de várias máquinas (VARDANYAN, 2013). Estes são aplicados em várias áreas na medicina, genética, economia e matemática. Exemplos destes bancos de dados são o Neo4j e FlockDB, que utilizam estruturas otimizadas para armazenar e operar sobre grafos (AMARAL, 2016). NOTA: Assim, percebemos que os Banco de dados NoSql surgiram para solucionar problemas com aplicações que trabalham de maneira distribuída e com volume de dados. Contudo, merece ser enfatizado que NoSql não foi idealizado para substituir os bancos de dados relacionais, e sim para solucionar problemas de escalabilidade e disponibilidade de servidores de bancos de dados para as aplicações. Em suma, o NoSql é uma opção alternativa ao Modelo Relacional para atender determinados escopos, nos quais os Bancos de Dados Relacionais apresentam lacunas. Principais mecanismos de banco de dados NoSQL Diante do exposto, podemos destacar alguns dos principais mecanismos de banco de dados NoSQL como MongoDB, Redis, Cassandra, HBase, Amazon DynamoDB e Neo4j, dessa forma, nas próximas seções serão apresentadas as características e funções de cada um. Cassandra O Apache Cassandra é um banco de dados NoSQL open source escalável, adotado para gerenciar dados estruturados, semiestruturados e não estruturados sobre múltiplos meios de dados e na Nuvem. O Cassandra tem características que proporcionam a contínua disponibilidade, escalabilidade linear e um operacional simples por Big Data e Ciência de Dados 37 meio de muitos servidores sem um único ponto de falha, o qual, contém uma arquitetura masterless em forma de anel, em que não existe um nó principal, funcionando juntamente como um modelo de dados dinâmicos criados para obter maior flexibilidade e rápidas respostas (APACHE, 2020). Outra característica é que o Cassandra é um de banco de dados descentralizado, distribuído e orientado à coluna, de modo que, este é otimizado para clusters e fornece acesso de baixa latência a clientes. Uma das vantagens do design de banco de dados Cassandra é por ele ser orientado por coluna, facilitando alguns tipos de pesquisas de dados e podendo se tornar mais veloz devido aos dados esperados poderem ser armazenados continuamente em uma única linha (MATOS, 2019). É interessante destacar que Cassandra é utilizado por grandes empresas como Facebook, Twitter e Digg. MongoDB O MongoDB tem o foco em determinar modelos de dados apropriados para sua aplicação, contudo, as técnicas utilizadas são muito variadas daquelas consideradas nos bancos de dados relacionais. Isso se deve por se atentar com os dados que são extraídos do banco diferente dos bancos de dados tradicionais no escopo relacional. Vale ressaltar que,no MongoDB, os dados não são tratados como registros, mas como documentos no formato JSON e usam conceitos de coleções (CRIVELINI, 2018). O MongoDB também fornece os recursos necessários para um meio de produção, por meio de: balanceamento de carga, replicação, indexação, consulta e pode operar como um sistema de arquivos com balanceamento de carga e tolerância a falhas. Outra característica importante do MongoDB é a escalabilidade criada para grandes volumes de dados (MATOS, 2019). Conforme Queiroz et al. (2013), o MongoDB trabalha com coleções de documentos lembrando o conceito de tabelas e linhas da tecnologia Big Data e Ciência de Dados 38 relacional, porém com a diferença dos documentos não precisarem ter o mesmo esquema. O MongoDB está em uso no Foursquare e SourceForge. Redis O Redis tem uma implementação key-value store, esta trata de ser um paradigma que atribui valores às chaves para facilitar a entrada e o armazenamento desses valores. Esta tecnologia suporta seus pares de valores-chave na memória, permitindo seu acesso rápido. Ao longo do tempo, muitas APIs foram elaboradas para uma variedade maior de linguagens de programação, tornando o Redis uma boa opção para desenvolvedores (MATOS, 2019). Dessa forma, temos o Remote Dictionary Server (Redis) sendo um banco de dados NoSQL do tipo chave-valor e que armazena os dados em memória. É importante destacar também que os comandos são atômicos, de modo que a ordem de execução das operações é a mesma ordem das chamadas. Outras características são criar as chaves e decidir por quanto tempo elas devem existir, ou seja, possibilita configurar o tempo em que as chaves são deletadas automaticamente. Um exemplo prático disso é a característica em sessões de usuário e carrinhos de compras. Ainda merece destaque que toda consulta é realizada por meio da chave, na qual se retorna um valor e as redundâncias de dados não são um problema tão grave (MONTEIRO, 2020). HBase O HBase é um banco de dados orientado à coluna, distribuído em implementação gratuita e aberta do BigTable do Google. Este tem a característica de facilitar e encontrar de modo eficiente os dados dispersos e distribuídos, sendo um dos seus pontos fortes. O HBase possui uma série de implementações em empresas como LinkedIn, Facebook e Spotify (MATOS, 2019). Big Data e Ciência de Dados 39 Podemos destacar que muitos projetos relacionados do Apache oferecem suporte ao HBase, fornecendo uma camada SQL para acesso a dados, o que ajuda os administradores de banco de dados relacionais que buscam implementar uma solução NoSQL e como existe um número grande de instalações Hadoop, o HBase é uma importante solução de armazenamento NoSQL (MATOS, 2019). Amazon DynamoDB O Amazon DynamoDB é um serviço do banco de dados NoSQL em Nuvem disponibilizado pela Amazon Web Service (AWS). O DynamoDB é muito veloz e flexível para todas as aplicações que precisam de latência constante abaixo de 10 milissegundos em qualquer escala. O serviço deste banco de dados em Nuvem é todo gerenciável e compatível com os modelos de armazenamento de documentos e de chave- valor, propiciando dados flexíveis, desempenho confiável e a escalabilidade automática da capacidade de throughput, fazendo desse serviço uma opção apropriada para aplicações móveis, web, jogos, tecnologia de anúncios e internet das coisas (IoT), por exemplo (MATOS, 2019). Merece destaque algumas empresas como Lyft, Airbnb e Redfin, bem como, Samsung, Toyota, e Capital One, que dependem da escala e da atuação do DynamoDB para comportar seus volumes de trabalho (AWS, 2020). Neo4j O Neo4j é o sistema de gerenciamento de banco de dados com base em grafos (ou Graph Database), sendo o sistema mais conhecido e usado atualmente desta categoria. Esse Graph Database é estruturado com forma de grafo, de modo que, as arestas atuam como relacionamentos entre os vértices, relacionando diretamente com as instâncias de dados umas com as outras. Este também possui uma implementação de código aberto, em que os dados no Neo4j podem ser acessados e atualizados por meio da Cypher Query Language, uma linguagem semelhante à linguagem SQL (MATOS, 2019). Big Data e Ciência de Dados http://www.cienciaedados.com/aprendendo-internet-of-things-com-raspberry-pi/ 40 Podemos apresentar que uma das vantagens de banco é, em alguns casos de uso, como cenários de mineração de dados e reconhecimento de padrões, as associações entre instâncias de dados serem explicitamente declaradas (MATOS, 2019). RESUMINDO: Estudamos, neste capítulo, que, devido à grande produção de dados e os avanços das aplicações, houve o incentivo para o surgimento de um banco de dados que pudesse trabalhar com os diferentes tipos de dados que os bancos relacionais não poderiam trabalhar. Com isto, abordamos ainda o surgimento dos bancos de dados da família NoSQL e trabalham usando uma variedade de modelos de dados para acessar e gerenciar as informações. De modo geral, esses bancos são aperfeiçoados designadamente para aplicativos que exigem modelos de grande volume de dados, menor latência e flexibilidade. Abordamos ainda sobre os princípios, características e os seus tipos de banco de dados NoSQL se baseando em chave-valor e outro baseando-se em documentos, bem como os que usam como base grafos. Vimos também as características e exemplos práticos de banco de dados adotados por empresas de sucesso. Big Data e Ciência de Dados 41 Recuperação de informações OBJETIVO: Neste capítulo, vamos abordar aqui sobre a recuperação de informação utilizando as soluções de Big Data e Data Science como outros recursos computacionais que surgiram. Prontos? Vamos lá! Atualmente, as áreas de gestão, recuperação da Informação e Apoio à Decisão estão sendo provocadas devido ao volume, variedade e velocidade de uma grande massa de dados de diversos tipos, semiestruturados e não estruturados, de origem complexa que precisam ser buscados e analisados quanto ao seu valor e veracidade, que também é disponibilizado às organizações como grandes oportunidades de terem um conhecimento profundo e mais preciso de seus negócios. Figura 8 – Recuperar informações Fonte: Freepik Com isto, temos a recuperação da informação se tornando o centro de muitas pesquisas por conta da grande quantidade de informações, que atualmente se encontram espalhadas pela rede. Big Data e Ciência de Dados 42 A recuperação da informação trata com a representação, armazenamento, a organização e acesso às informações, precisando prover ao usuário aquilo que ele necessita de um modo facilitado (YATES; NETO, 1999). Conforme Araújo Júnior (2007), a recuperação da informação é o processo de buscar documentos e itens de informação que foram objeto de armazenamento com intuito de possibilitar o acesso dos usuários aos componentes de informações e objetos de uma solicitação. IMPORTANTE: É importante que você entenda que o processo de Recuperação da Informação visa buscar um conjunto de documentos de um sistema, os quais são os que suprem as necessidades informacionais do usuário. Deste modo, o usuário não está interessado em recuperar dados, nem achar documentos que atendam sua expressão de busca, contudo, deseja encontrar a informação sobre um determinado assunto (FERNEDA, 2003). Para Guedes e Araújo Júnior (2014), o processamento da informação se torna mais eficiente se o armazenamento tiver ocorrido com melhor qualidade e os produtos resultantes deste processamento forem apresentados na linguagem apropriada ao usuário. Os autores ainda afirmam que a atenção com o ruído, redundância, canal de comunicação e codificação têm impactos positivos na etapa de interrogação e busca, devido ao sistema estar organizado e livre de informações desnecessárias ou distorcidas, contribuindo com a recuperação da informação. Segundo a Associação Nacionalde Pesquisa e Pós-Graduação em Ciência da Informação, os sucessivos avanços das tecnologias da informação, têm favorecido novos modos de acessar, recuperar, armazenar, gerir e interagir com a informação. Assim, os objetos tradicionais para apresentar a informação já não são satisfatórios, bem como, os ambientes de interação com a informação têm estado em transformação, tal como o comportamento das pessoas (ENANCIB, 2014). Big Data e Ciência de Dados 43 Big Data e a recuperação da informação Como já vimos, em ambientes de Big Data, o uso de bancos de dados relacionais não é apropriado para a persistência, processamento e recuperação dos dados em ambientes escaláveis e com diferentes tipos de dados. Estudamos que, para tentar resolver este quesito da persistência da informação, foram originados novos conceitos nas tecnologias de banco de dados, como o NoSQL (Not Only SQL). Conforme Diana e Gerosa (2010) afirmam, esses bancos vieram para representar soluções viáveis ao modelo relacional, proporcionando maior escalabilidade e velocidade no armazenamento dos dados. Beyer e Laney (2012) definem Big Data como grande volume, velocidade e/ou alta variedade de informações que necessitam de novas formas de processamento para permitir a melhor tomada de decisão, nova descoberta do conhecimento e otimização de processos. Assim, no processo de busca da informação em cenários da Inteligência Competitiva e Big Data, são utilizados robôs de extração de dados na Internet. Segundo Deters e Adaime (2003), esses são sistemas que coletam os dados da web e montam uma base de dados, que é processada para aumentar a rapidez na recuperação de informação. Conforme afirma Silva (2003), a extração de informações importantes pode classificar uma página seguindo um contexto de domínio e também recuperar informações estruturando-as e armazenando-as em bases de dados. Com o propósito de adicionar significado aos conteúdos buscados em domínio específico, associam-se aos robôs de busca na web conceitos semânticos que permitem realizar a procura, não mais por palavras- chave num processo de busca textual, mas sim por significado e valor, extraindo das páginas e serviços da web informações de real relevância, descartando aquilo que é desnecessário (SILVA, 2003). Big Data e Ciência de Dados 44 Figura 9 – Busca da informação Fonte: Freepik A partir disso, a ontologia aparece como solução na busca de inserir semântica neste processo. Veja a seguir um pouco mais sobre ontologia. Ontologia Na busca por realizar a coleta dos dados referente a um escopo determinado de conhecimento, surge o termo Ontologia. Aplicada a Ciência da Computação e Informática, a Ontologia é uma estrutura de dados utilizada para representar um conjunto de termos de uma determinada área do conhecimento ou domínio. A ontologia, conforme Silva (2003), é definida como um elemento da ciência que estuda o ser e seus relacionamentos e, neste sentido, a utilização de ontologias é essencial no processo de desenvolvimento dos robôs de busca semântica, sendo aplicada na Ciência da Computação e na Ciência da Informação para permitir uma descoberta de modo mais inteligente e mais próxima do funcionamento do processo cognitivo do usuário, de forma que a extração de dados se torne muito mais relevante. Segundo Santarém (2010), a Ciência da Computação usa a ontologia quando se trata da obtenção de conhecimentos por meio de dados Big Data e Ciência de Dados 45 semiestruturados, usando-a para aplicar técnicas e métodos, para processar as informações. Data Warehouse Segundo Inmon (2005), um Data Warehouse é um conjunto de dados orientado a assuntos integrados não voláteis, com variações no tempo e com dados corporativos granulares que permitem dar suporte às decisões da gestão. Isto implica dizer que um Data Warehouse está orientado para as principais áreas de uma organização e é suportada por múltiplas fontes de dados, as quais os dados são transformados, formatados, reorganizados e integrados, bem como, uma vez armazenada a informação, esta fica guarda e não se perde, sendo mantido um histórico de dados (INMON, 2005). O Data Warehouse é uma variante no tempo que implica num avanço dos dados ao longo do tempo, como também é diferente de uma base de dados operacional (GOLFARELLI; RIZZI, 2009). Enquanto estas últimas são transacionais, os Data Warehouses têm as características particulares de estarem direcionados a aplicações de apoio à decisão e de serem otimizados para a recuperação de dados e não para o processamento de transações rotineiras (ELMASRI; NAVATHE, 2003). Apache Lucene A tecnologia Apache Lucene é considerada uma biblioteca de software livre para indexação e recuperação de informações que em sua elaboração foi escrita em Java. Essa foi desenvolvida por Doug Cuttingol, no ano 2000, foi aperfeiçoada e, logo após, incorporada à Fundação Apache (MILHOMEM, 2013). Conforme Andrade (2010) afirma, Lucene concede um nível adequado de abstração para um conjunto robusto de técnicas fundamentadas no modelo Vetorial e Booleano. A biblioteca Lucene é formada por duas partes: indexação e pesquisa, com base em palavra-chave, o algoritmo processa os dados gerando um formato que possibilita a realização de consultas. Big Data e Ciência de Dados 46 Por conseguinte, temos que Lucene é utilizado para indexar e pesquisar dados em páginas de web, documentos armazenados em sistemas locais de arquivo, arquivos de texto simples, HTML ou qualquer outro formato por meio do qual é possível coletar informações textuais (ANDRADE, 2010). IMPORTANTE: Entretanto, é importante que você saiba que para pesquisar grandes quantidades de texto de modo rápido em um primeiro momento, de acordo com Andrade (2010), Lucene indexa o texto e o transforma em um formato que o permite deixá-lo mais veloz na busca. Este processo é chamado de indexação e sua saída é denominada de índice. Logo, a busca ou pesquisa se trata do processo de buscar palavras em um índice para encontrar documentos em que elas aparecem. Já existem fundamentalmente duas funcionalidades importantes: o processo de indexação, acessível por meio do comando indexer, e o processo de busca, disponível por meio do comando searcher (ANDRADE, 2010). Abaixo segue a descrição das duas etapas: • Indexação: usa em seu índice a estrutura de dados denominada de índice invertido, em que cada conceito acrescentado possui uma referência para o arquivo que o contém (MACHADO, 2013). • Busca: no Lucene, para cada documento atual no resultado de alguma busca, é aplicada uma pontuação que representa a semelhança de tal documento com a consulta. O cálculo dessa pontuação é feito baseando-se no modelo de recuperação de informação escolhido. Big Data e Ciência de Dados 47 Figura 10 – Indexar e Buscar documento Fonte: Freepik Ainda, podemos citar o que o autor Machado (2013) relata: a biblioteca Lucene suporta os seguintes modelos: • Modelo Booleano. • Modelo Espaço Vetorial. • Modelo Probabilístico. • Modelo com base em Linguagem Natural. Todavia, é bom destacar que por padrão, a busca no Lucene acontece por meio da combinação de duas técnicas de recuperação de informação: Modelo Espaço Vetorial e Modelo Booleano. Contudo, uma vantagem para o programador é que não precisa implementar algoritmos de busca e classificação, pois a biblioteca Lucene tem mecanismos para calcular a pontuação de cada documento que seja referente a uma consulta e retornar documentos relevantes conforme com essas pontuações (MILHOMEM, 2013). SAIBA MAIS: Para saber mais sobre o assunto, leia o artigo Usando o Apache Lucene para procura de texto. Acesse clicando aqui. Big Data e Ciência de Dados https://www.ibm.com/developerworks/br/java/library/os-apache-lucenesearch/index.html 48 No artigo citado, é dada uma explanação geralsobre esta tecnologia e exemplos como o da biblioteca Lucene para fornecer recursos de busca para o Eclipse IDE e empresas como IBM, AOL e Hewlett-Packard, destacando a linguagem de programação, o qual, suporta Perl, Python, C++ e .NET. RESUMINDO: Finalizamos este capítulo estudando um pouco sobre recuperação de informação, fazendo uma abordagem no contexto geral sobre o que ela trata e passando sobre seu processo. Vimos que a recuperação da informação trata a representação, armazenamento, a organização e acesso às informações. Assim, abordamos ainda sua importância para a tomada de decisão e mostramos como é relacionada à ciência de dados e da informação, de modo que, explanamos como o Big Data, Data Warehouse e ontologias estão relacionadas neste processo. Por fim, foi apresentada a biblioteca Apache que trabalha no processo de recuperação de informação, o Lucene. Big Data e Ciência de Dados 49 REFERÊNCIAS 4 Componentes principais para a infraestrutura de big Data. DSA, 2017. Disponível em: http://datascienceacademy.com.br/blog/4- componentes- principais-para-a-infraestrutura-de-big-data/. Acesso em: 04 jun. 2020. AGRAWAL, D.; DAS, S.; EL ABBADI, A. Big data and cloud computing: current state and future opportunities. In: INTERNATIONAL CONFERENCE ON EXTENDING DATABASE TECHNOLOGY, 14., 2011, New York. Anais […] New York: EDBT/ICDT, 2011. p. 530-533. AMARAL, F. Introdução à Ciência de Dados: mineração de dados e Big Data. Rio de Janeiro: ALTA Books, 2016. AMAZON DynamoDB. AWS, [s. d]. Disponível em: https://aws. amazon.com/pt/dynamodb. Acesso em: 04 jun. 2020. ANDRADE, C.; SOUZA, C.; MAFORT, F. Sistema gerenciador de documentos. Orientador: Orientador: Jonh Edson Ribeiro de Carvalho. 2011. Monografia (Graduação em Ciência da Computação). Universidade Gama Filho. Piedade. 2011. APACHE Spark - Introduction. Tutorials Point, [s. d]. Disponível em:https://www.tutorialspoint.com/apache_spark/apache_spark_ introduction.htm. Acesso em: 01 jun. 2020. ARAÚJO, H. Precisão no processo de busca e recuperação da informação. Brasília: Thesaurus, 2007. BIG Data: impactos e benefícios. ISACA, [s. d.]. Disponível em: http:// www.isaca.org/Knowledge-Center/Research/Documents/BigData_ whp_Por_0413.pdf. Acesso em: 01 jun. 2020. BOSSO, M. Volume de dados exigirá velocidade para sobreviver ao Big Data. SAS, 2019. Disponível em: https://www.sas.com/pt_br/insights/ articles/data-management/volume-de-dados-exigira-velocidade-para- sobreviver-ao-big-data.html. Acesso em: 01 jun. 2020. Big Data e Ciência de Dados 50 BRYNJOLFSSON, E; MCAFEE, A. Big Data – A Revolução da Gestão. Harvard Business Review, 2012. BUGHIN, J; LIVINGSTON, J. Marwaha, S. Seizing the potential of ‘big data’. Atlanta: McKinsey Global Institute, 2011. CEARLEY, D; CLAUNCH, C. The Top 10 Strategic Technology Trends for Gartner. Gartner, 2013. Disponível em: https://www.gartner.com/en/ documents/2335015/the-top-10-strategic-technology-trends-for-2013. Acesso em: 15 fev. 2022. CHEN, P.; ZHANG, Y. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. Information Sciences, v. 275, p. 314-347, 2014. CRIVELINI, W. Começando a Entender os Bancos de Dados NoSQL: o MongoDB. Meu Negócio, 2020. Disponível em: https://meunegocio.uol. com.br/academia/tecnologia/comecando-a-entender-os-bancos-de- dados-nosql-o-mongodb.html#rmcl. Acesso em: 5 mai. 2020) DAVENPORT, T.; BARTH, P.; BEAN, R. How ‘Big Data’ is Different. MIT Sloan Management Review, 2012. DEAN, J.; GHEMAWAT, S. MapReduce: simplified data processing on large clusters. Communications of the ACM, v. 52, n. 1, p. 107-113, jan. 2008. DETERS, I.; ADAIME, F. Um estudo comparativo dos sistemas de busca na web. ENCONTRO DE ESTUDANTES DE INFORMÁTICA DO TOCANTINS, 5., 2003, Palmas. Anais [...] Palmas: [s. n.], 2003. p. 189-200. DIANA, M. de; GEROSA, A. Nosql na web 2.0: um estudo comparativo de bancos não relacionais para armazenamento de dados na web 2.0. WORKSHOP DE TESES E DISSERTAÇÕES EM BANCO DE DADOS, 9., [s. l.]. Anais [...] [s. l. s. n.], 2012. DOCUMENTATION. Apache Cassandra 3.0, [s. d.]. Disponível em: https://cassandra.apache.org/doc/latest/. Acesso em: 5 jun. 2020. ELMASRI, R.; NAVATHE, B. Fundamentals of Database Systems. 4. ed. Boston: Addison-Wesley Longman Publishing Co., Inc, 2013. Big Data e Ciência de Dados 51 EREVELLES, S.; FUKAWA, N.; SWAYNE, L. Big Data consumer analytics and the transformation of marketing. Journal of Business, p. 897-904,2014. ERL, T.; KHATTAK, W.; BUHLER, P. Big Data Fundamentals: concepts, drivers & techniques. Boston: Prentice Hall, 2016. FÉLIX, M. et al. Critical Success Factors for Big Data Adoption in the Virtual Retail: Magazine Luiza Case Study. Rev. Bras. Gest. Neg, São Paulo, v. 20, n. 1, jan-mar. 2018 p.112-126. FERNEDA, E. Recuperação da Informação: análise sobre a contribuição da Ciência da Computação para a Ciência da Informação. 2003. Tese (Doutorado em Ciência da Computação.) – Escola de Comunicação e Artes. USP. São Paulo. 2003. FRAZÃO, A. A indústria dos dados pessoais e os data brokers. Minuto de Segurança, 2019. Disponível em: https://minutodaseguranca. blog.br/a-industria-dos-dados-pessoais-e-os-data-brokers/. Acesso em: 4 jun. 2020. GANTZ, J.; REINSEL, D. The Digital Universe. Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. EMC, 2020. Disponível em:http://www.emc.com/collateral/analyst-reports/idc-the-digital- universe-in-2020.pdf. Acesso em: 03 jun. 2020. GARRO, F. Inteligência de negócios é uma especialização muito valorizada pelo mercado: entenda seus desafios e diferenciais. IGTI, 2017. Disponível em: https://www.igti.com.br/blog/carreira-inteligencia- negocios/. Acesso em: 03 jun. 2020. GOLFARELLI, M.; RIZZI, S. Data Warehouse Design: modern principles and methodologies. New York: McGrawHill Inc., 2009. HASHEM, T. et al. The rise of “big data” on cloud computing: Review and open research issues. Information Systems, v. 47, p. 98-111. 2014. IANNI, V. Introdução aos bancos de dados NoSQL. DevMedia, [s. d.]. Disponível em: http://www.devmedia.com.br/introducao-aos-bancos- de-dados-nosql/26044. Acesso em: 03 jun. 2020. Big Data e Ciência de Dados 52 INMON, H.; HACKATHORN, D. Como Usar o Data Warehouse. Rio de Janeiro: Infobook, 2013. INTELIGÊNCIA de negócios: o que é e como fazer a análise de dados? Mutant BR, [s. d.]. Disponível em: https://mutantbr.com/blog/ inteligencia-de-negocios-o-que-e-e-como-fazer-a-analise-de-dados/. Acesso em: 03 jun. 2020. JUSTIN, S. et al. A Survey on Big Data and Its Research Challenges. ARPN Journal of Engineering and Applied Sciences, v. 10, n. 8, p. 3343- 3347. 2011. KAISLER, S. et al. Big Data: Issues and Challenges Moving Forward. System sciences (HICSS). In: HAWAII INTERNATIONAL CONFERENCE ON, 46., 2013, [s. l.]. Anais […] [s. l. s. n.], 2013. p. 995-1004. KWON, O.; SIM, J. Effects of data set features on the performances of classification algorithms. Expert Systems with Applications, v. 40, n. 5, p. 1847-1857. 2013. LÓSCIO, F.; PONTES, S.; OLIVEIRA, R. Nosql no desenvolvimento de aplocações web colaborativas. São Paulo: [s. n.], 2011. LOUZADA, P. Inteligência de negócios e Big Data: 2 passos em direção ao future. FM2S, 2019. Disponível em: https://www.fm2s.com.br/ inteligencia-de-negocios-e-big-data-2-passos-em-direcao-ao-futuro/. Acesso em: 04 jun. 2020. MACHADO, D. A Percepção de Big Data do varejo: características e desafios. FGV, 2017. Disponível em: http://bibliotecadigital.fgv.br/ocs/ index.php/clav/clav2017/paper/view/6124. Acesso em: 04 jun. 2020. MANYIKA, J.; CHUI, M. Big Data: a próxima fronteira para inovação, concorrência e produtividade. [s. l.]: McKinsey Global Institute, 2011. MARR, B. Big Data in Practice. West Sussex: Wiley, 2016. MATOS, D. Top 6 NoSQL Databases. Ciência e Dados, 2019. Disponível em: http://www.cienciaedados.com/top-6-nosql-databases.Acesso em: 05 jun. 2020. Big Data e Ciência de Dados 53 MILHOMEM, W. Indexação de termos para um sistema de recuperação da informação utilizando computação distribuída. Orientador: Orientador: Fernando Luiz de Oliveira. 2013. Monografia (Graduação em Sistemas de Informação) – Centro Universitário Luterano de Palmas. Palmas. 2013. MONTEIRO, D. SQL ou NoSQL? Você conhece o Redis? Db4Beginners, 2020. Disponível em: http://db4beginners.com/blog/sql- ou-nosql-redis/. Acesso em: 05 jun. 2020. O QUE é NoSQL? AWS, [s. d.]. Disponível em: https://aws.amazon. com/pt/nosql/. Acesso em: 05 jun. 2020 PENCHIKALA, S. Big Data com Apache Spark - Parte 1: Introdução. INFOQ, 2015. Disponível em: https://www.infoq.com/br/articles/apache- spark-introduction/. Acesso em: 03 jun. 2020. QUEIROZ, R. et al. Geographic Databases and NoSQL. Accomlishments and future directions. Revista Brasileira de Cartografia, p. 479-492, 2013. SANTAREM, E. Representação Iterativa: um modelo para Repositórios Digitais. Tese (Doutorado em Ciência da Informação) – Faculdade de Filosofia e Ciências. Universidade Estadual Paulista. Marília. 2010. SHVACHKO, K.; KUANG, H.; RADIA, S. The Hadoop Distributed File System. Incline Village. IEEEXPLORE, 2010. Disponível em: https:// ieeexplore.ieee.org/abstract/document/5496972. Acesso em: 1 jun. 2020. SILVA, P. Inteligência competitiva na Internet: um processo otimizado por agentes inteligentes. Ciência da informação, v. 1, n. 32. 2003. SONAWANE, A. Usando o Apache Lucene para procura de texto. IBM, [s. d.]. Disponível em: https://www.ibm.com/developerworks/br/ java/library/os-apache-lucenesearch/index.html. Acesso em: 5 jun. 2020. SOUSA, C. et al. Gerenciamento de dados em Nuvem: Conceitos, sistemas e desafios. SBBD, p. 101-130. 2010. Big Data e Ciência de Dados 54 STREAMLIO. Understanding Batch, Microbatch, and Streaming. Dzone, 2018. Disponível em: https://dzone.com/articles/understanding- batch-microbatch-and-stream-processi. Acesso em: 01 jun. 2020. TAURION, C. Big Data. Rio de Janeiro: Brasport, 2013. TEIXEIRA, C.; ALONSO, C. A importância do planejamento estratégico para as pequenas empresas. Rio de Janeiro: SEGET, 2014. VARDANYAN, M. Escolhendo a ferramenta certa para o banco de dados NoSql. iMaters, [s. d.]. Disponível em: http://imasters.com.br/ artigo/21781/banco-de-dados/escolhendo--aferramenta-certa-para-o- banco-de-dados-nosql/. Acesso em: 04 jun. 2020. WHAT is a data warehouse. Oracle. [s. d.]. Disponível em: https:// www.oracle.com/br/database/what-is-a-data-warehouse/. Acesso em: 01 jun. 2020. WHITE, T. Hadoop: The Definitive Guide. 4. ed. Paris: O’Reilly Media, 2015. WU, X. et al. Top 10 algorithms in data mining. Knowledge and Information Systems, v. 14, n. 1, p. 1-37. 2008. YAQOOB et al. Big data: From beginning to future. International Journal of Information Management, v. 36, n. 6, p. 1231-1247, dez. 2016. YATES, B.; RIBEIRO, B. Modern information retrieval. New York: ACM; Harlow: Addison – Wesley, 1999. ZHANG, J. et al. Opportunities of innovation under challenges of big data. 2013, In: INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY, 10., 2013, [s. l.]. Anais […]. [s. l.]: FSKD, 2013. p. 669-673. ZIKOPOULOS, P.; EATON, C. Understanding Big Data: Analytics for enterprise class hadoop and streaming data. New York: Mc Ghram Hill, 2012. Big Data e Ciência de Dados Processamento de grandes volumes de dados Produção de dados Armazenamento Framework para processamento de dados Hadoop Spark Storm Inteligência de negócio para Big Data Big Data e sua importância no mercado de negócio Inteligência de negócio para Big Data Perfil comportamental do profissional de análise de inteligência de negócios Big Data aplicado no mercado Magazine Luiza Amazon Nordstrom Bancos de dados para Big Data Banco NoSql Características bancos de dados NoSQL Tipos de banco de dados NoSQL Principais mecanismos de banco de dados NoSQL Cassandra MongoDB Redis HBase Amazon DynamoDB Neo4j Recuperação de informações Big Data e a recuperação da informação Ontologia Data Warehouse Apache Lucene
Compartilhar