Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade 4 Big Data, Ia e Cloud Computing Big Data e Ciência de Dados Diretor Executivo DAVID LIRA STEPHEN BARROS Gerente Editorial CRISTIANE SILVEIRA CESAR DE OLIVEIRA Projeto Gráfico TIAGO DA ROCHA Autoria JÉSSICA LAISA DIAS DA SILVA ALAN DE OLIVEIRA SANTANA AUTORIA Jéssica Laisa Dias da Silva Olá. Sou graduada em Sistemas da Informação pela Universidade de Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente, sou doutoranda em Sistema e Computação pela UFRN e professora conteudista na elaboração de cadernos. Alan de Oliveira Santana Olá. Sou graduado em Ciência da Computação pela Universidade do Estado do Rio Grande do Norte (UERN) e mestre em Sistemas da Computação pela Universidade Federal do Rio Grande do Norte (UFRN). Atualmente, sou professor conteudista, elaborador de cadernos de questões e doutorando em Ciências da Computação. Como cientista, atuo no desenvolvimento e avaliação de técnicas de desenvolvimento de sistemas com ênfase na educação. Desse modo, fomos convidados pela Editora Telesapiens a integrar seu elenco de autores independentes. Estamos muito satisfeitos com o convite e a possibilidade de auxiliar em seu desenvolvimento intelectual e profissional. Bons estudos! ICONOGRÁFICOS Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez que: OBJETIVO: para o início do desenvolvimento de uma nova competência; DEFINIÇÃO: houver necessidade de se apresentar um novo conceito; NOTA: quando necessária observações ou complementações para o seu conhecimento; IMPORTANTE: as observações escritas tiveram que ser priorizadas para você; EXPLICANDO MELHOR: algo precisa ser melhor explicado ou detalhado; VOCÊ SABIA? curiosidades e indagações lúdicas sobre o tema em estudo, se forem necessárias; SAIBA MAIS: textos, referências bibliográficas e links para aprofundamento do seu conhecimento; REFLITA: se houver a necessidade de chamar a atenção sobre algo a ser refletido ou discutido sobre; ACESSE: se for preciso acessar um ou mais sites para fazer download, assistir vídeos, ler textos, ouvir podcast; RESUMINDO: quando for preciso se fazer um resumo acumulativo das últimas abordagens; ATIVIDADES: quando alguma atividade de autoaprendizagem for aplicada; TESTANDO: quando uma competência for concluída e questões forem explicadas; SUMÁRIO Técnicas de Aprendizado de Máquina ................................................... 12 Abordagem de técnicas gerais de Big Data ...............................................12 Entendendo o Aprendizado de Máquina ..................................................................... 15 Aprendizagem supervisionada .......................................................................... 17 Aprendizagem não supervisionada ............................................................... 17 Técnicas de aprendizado usadas em Big Data ......................................................... 17 Análise preditiva .......................................................................................................... 19 Previsão de demanda .............................................................................................. 19 Sistemas de recomendação ............................................................................... 20 Agrupamento ................................................................................................................. 21 Gerência de Dados e Computação na Nuvem ...................................22 Computação na Nuvem .............................................................................................................22 Modelo de implementação .................................................................................24 Modelos de serviço ....................................................................................................25 Computação em Nuvem e Big Data ................................................................................26 Gerenciamento de dados de Computação em Nuvem .....................................29 Bioinformática ....................................................................................................32 Histórico da Bioinformática .....................................................................................................32 Workflow de Bioinformática ...................................................................................35 Proveniência de dados em Bioinformática .............................................. 36 Aplicações da Bioinformática ................................................................................................ 39 Bioinformata ....................................................................................................................................... 40 Inovação Tecnológica e Novas Tendências ........................................................ 42 Inovação tecnológica ..................................................................................................................43 Big Social Data ...............................................................................................................44 Tecnologia Blockchain .....................................................................46 Internet das Coisas......................................................................................................47 9 UNIDADE 04 Big Data e Ciência de Dados 10 INTRODUÇÃO Nesta unidade, vamos abordar sobre o aprendizado de máquina e suas técnicas, bem como estas podem contribuir no processo de análise de dados e tomada de decisão. As organizações usam várias técnicas e tecnologias para realizar a manipulação, análise e visualização de Big Data. Estas técnicas surgiram com contribuições dos campos da estatística, ciência da Computação, matemática e economia, com algumas idealizadas para lidar especificamente com Big Data e outras foram ajustadas para trabalhar nesse contexto. Estudaremos ainda sobre gerência de dados por meio da Computação na Nuvem e como esse modelo possibilita acesso por demanda a um agrupamento de elementos computacionais que podem ser configuráveis, como CPU, armazenamento e memória. Serão abordados os modelos de implantações e modelos de serviço em Nuvem. Ao longo do capítulo, abordaremos sobre Bioinformática, juntamente com seus conceitos, características, histórico e aplicações. Também abordaremos exemplos de tecnologias que trabalham com esse tipo de solução e ainda veremos como esta se relaciona com a ciência dos dados e Big Data. Por fim, será estudado nessa unidade sobre inovações e tendências tecnológicas no campo de ciência de dados e Big Data, como também, abordaremos os desafios futuros neste campo. Vamos lá! Big Data e Ciência de Dados 11 OBJETIVOS Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no desenvolvimento das seguintes objetivos de aprendizagem até o término desta etapa de estudos: 1. Compreender as técnicas de aprendizado de máquina. 2. Entender a gerência de dados e Computação na Nuvem. 3. Assimilar o conceito de Bioinformática. 4. Adquirir noções de inovação tecnológica e novas tendências. Então? Preparado para adquirir conhecimento sobre um assunto fascinante e inovador como esse? Vamos lá! Big Data e Ciência de Dados 12 Técnicas de Aprendizado de Máquina OBJETIVO: Neste capítulo, conceituaremos sobre o aprendizado de máquina e suas técnicas, bem como estas podem contribuir no processo de análise de dados e tomada decisão. Vamos lá! Abordagem de técnicas gerais de Big Data Conforme Pai (2016), as organizações utilizam algumas técnicas e tecnologias para realizar a manipulação, análise e visualização de Big Data. Estas técnicas surgiram com contribuições dos campos da estatística, ciência da Computação,matemática e economia, com algumas idealizadas para lidar especificamente com Big Data e outras foram ajustadas para trabalhar nesse contexto. Neste sentido, a contribuição das áreas citadas para a análise em Big Data, precisa de técnicas multidisciplinares para processar com qualidade o grande volume de dados no momento da execução (PAI, 2016). A seguir será exposto a contribuição de cada área previamente citada: • Matemática: utiliza técnicas e fórmulas matemáticas tradicionais com o intuito de resolver problemas relacionados à correlação de dados. • Estatística: conjunto de técnicas matemáticas que contribuem com a análise e apresentação de dados. A análise estatística e suas decisões são fundamentadas no entendimento de como o acaso implica certos eventos ou resultados (KALLA, 2018). • Métodos otimizados: referem-se a reduzir custos ou aumentar a eficiência da produção. Um algoritmo de otimização é um método que é executado interativamente fazendo um comparativo com diversas soluções até que se encontre uma ótima ou pelo menos, uma satisfatória (IIT Madras). Estes algoritmos são aplicados para Big Data e Ciência de Dados 13 resolver problemas quantitativos em muitas áreas, como física, biologia, engenharia e economia (PAI, 2016). • Data Mining: como já estudamos anteriormente em outra unidade, a mineração de dados está inserida como parte do processo de Descoberta de Conhecimento em Banco de Dado (KDD – Knowledge Discovery in Databases), o qual tem por objetivo a seleção dos métodos a serem usados por busca de padrões nos dados, seguido da busca por padrões de interesse num modo particular de representação, juntamente com o objetivo pelo melhor ajuste dos parâmetros do algoritmo para atividades que se deseja aplicar (TAN et al., 2005). • Machine Learning: conjunto de procedimentos que podem identificar de modo automático, padrões em dados e, em consequência, utilizar os padrões descobertos para prever dados futuros ou executar outros tipos de tomadas de decisão (LI et al., 2001). • Redes neurais: trata-se de um paradigma de programação de inspiração biológica que permite um computador aprender a partir de dados observacionais. • Processamento de sinal: tem por objetivo de operar, analisar e deduzir de um sinal, dados que possam ser extraídos de forma útil. • Métodos de visualização: são técnicas utilizadas para elaborar tabelas, imagens, diagramas e outras formas de disponibilização de modo intuitivo para entender os dados. REFLITA: Você deve recordar das outras unidades algumas das técnicas acima, porém nesta fazemos uma reflexão delas alinhadas ao Big Data. É muito importante que o profissional de TI trabalhe com técnicas como: data mining, redes neurais, aprendizado de máquina, principalmente os profissionais de ciência de dados, devem estar atentos a essas habilidades. Big Data e Ciência de Dados 14 Assim, você pode observar no contexto geral, temos essas técnicas sendo utilizadas para as mais diversas aplicações, como já estudamos no contexto de Big Data, destacadas na Figura 1 abaixo, como a área da Computação Social relacionada com as interações em mídias sociais na Internet, Bioinformática, Finanças e na Astronomia, alguns exemplos são apresentados a seguir. Figura 1 – Ferramentas, técnicas e aplicação Matemática Fundamental Data Minig Método de Visualização Processamento de sinal Redes Neurais Aprendizado de Maquina Computação social Astronomia Ferramentas Matemáticas Técnicas de Análises de dados Aplicações Big Data Estáticas Binformática Financeira Métodos otimizados Fonte: Zhoua et al. (2017). Big Data e Ciência de Dados 15 Dessa forma, abordaremos nas próximas sessões sobre técnicas de Aprendizado de Máquina e como elas podem contribuir no contexto de Big Data. SAIBA MAIS: No artigo Big Data e o aprendizado de máquina, realiza- se uma abordagem geral sobre como o aprendizado de máquina pode ser utilizado e como traz valor para as aplicações de Big Data. Acesse clicando aqui. Na próxima seção, será explanado melhor o que é o Aprendizado de Máquina e as técnicas mais usadas no contexto de Big Data. Entendendo o Aprendizado de Máquina Conforme Zhou et al. (2017), as técnicas de Machine Learning (Aprendizado de Máquina) promovem grandes impactos em uma variedade de aplicações na Computação, tais como: processamento, compreensão de linguagem natural, neurociência e Internet das Coisas. Vale ressaltar que o surgimento e o avançar da era Big Data estimulou amplos interesses no aprendizado de máquina. Dessa forma, temos o Big Data produzindo informações importantes e utilizando algoritmos de aprendizado de máquina, em que podemos extrair padrões e criar modelos preditivos. Nesse contexto, temos por outro lado os algoritmos de aprendizado de máquina clássicos que passaram por impactos críticos para atender às necessidades, gerando a necessidade de escalabilidade para o aprendizado de máquina poder crescer e trazer aperfeiçoamento nas técnicas para trabalhar com os grandes volumes de dados (GANTZ, 2012). As técnicas de aprendizado de máquina possibilitam aos usuários a realização de previsões por meio de grandes volumes de dados. Esses, por sua vez, ajudam o desenvolver por meio de algoritmos eficientes, os quais são responsáveis por fornecer um grande potencial e ser uma parte essencial da análise de Big Data (GANTZ, 2012). Big Data e Ciência de Dados https://www.institutodeengenharia.org.br/site/2018/08/24/big-data-e-o-aprendizado-de-maquina/ 16 Conforme com Michalski et al. (2013), a área de aprendizado de máquina (AM) fornece o desenvolvimento de técnicas computacionais que modificam os aspectos de seu comportamento na forma em que a experiência é adquirida. Figura 2 – Aprendizado de máquina Fonte: Freepik O aprendizado indutivo pode ser dividido em três tipos: aprendizado supervisionado, aprendizado não supervisionado e aprendizado semi- supervisionado. Desta forma, a classificação está relacionada com os métodos adotados no processo de generalização do conhecimento (MONARD; BARANAUSKAS, 2003). IMPORTANTE: É importante destacar que existem quatro métodos: apren- dizado supervisionado, aprendizado não supervisionado, aprendizado semissupervisionado e aprendizado por re- forço, porém, destacamos apenas os três mais usados, o aprendizado supervisionado e o aprendizado não supervi- sionado (MOURA, 2017). Big Data e Ciência de Dados 17 Aprendizagem supervisionada A aprendizagem supervisionada é direcionada quando se é aplicada técnicas em que algoritmos indutores podem realizar inferências por meio de exemplos rotulados, ou seja, cada exemplo observado é descrito por um conjunto de atributos e pelo valor da classe, também chamado de atributo meta, a qual o exemplo pertence (RUSSELL; NORVIG, 2003). Dessa forma, o objetivo do algoritmo é obter um modelo capaz de classificar exemplos não rotulados recebidos como entrada. Um exemplo seria um caso de aprendizagem no qual se consegue prever se uma transação do cartão de crédito de certo indivíduo é falsa ou não.. Aprendizagem não supervisionada Aprendizagem não supervisionada se refere ao algoritmo indutor não possuir a informação sobre a classe à qual pertence. O intuito na aprendizagem não supervisionada é buscar similaridades ou diferenças no conjunto de valores dos atributos dos exemplos que possibilitam a elaboração de agrupamentos ou clusters. Desta forma, exemplos agrupados podem ser atribuídos a uma mesma classe, enquanto exemplos dispersos estão mais propensos a pertencer a classes distintas (RUSSELL; NORVIG, 2003). O algoritmo k-médias e o algoritmo de agrupamento hierárquico são exemplos de técnicas de aprendizado não supervisionado. Um exemplo deste tipo pode ser a classificação de indivíduo que tenha predisposição em adquirir diabetes por meio da avaliação de sua alimentaçãoe rotina. Entretanto, não é informado quais pessoas realmente têm ou não diabetes. Técnicas de aprendizado usadas em Big Data É importante frisar que depois que se tem um conjunto de dados estruturados, o passo seguinte no processo de aprendizado é a aplicação de um método de aprendizagem. Big Data e Ciência de Dados 18 As técnicas de aprendizado de máquina utilizam algoritmos que, por sua vez, realizam o trabalho computacional e todo o processamento dos dados (MOURA, 2017). Conforme Moura (2017) descreve, algumas técnicas de aprendizado de máquina são: • Redes neurais: existem vários tipos de redes neurais, mas em suma, elas consistem em um conjunto de nós, também chamados de neurônios, disponíveis em várias camadas com interconexões ponderadas entre eles, de modo que o neurônio trata um conjunto de valores de entrada para gerar um valor de saída que por sua vez, é passado para outros neurônios nas camadas seguintes. • Árvore de decisão: essa técnica usa algoritmos em formato de árvore, ou seja, uma raiz com galhos que levam até folhas. Cada árvore contém nós, ramos, folhas e ligações entre eles, de forma que um ramo é um conjunto de nós que testam cada atributo da classificação e cada ramo referente ao valor do atributo. Já as folhas fazem a classificação para os ramos. A classificação é o resultado final que se quer encontrar ou prever com o algoritmo. • Regressão: é uma técnica usada quando se deseja prever valores de algo futuro, fundamentando-se em comportamento de variáveis passadas. A análise da regressão pode ser usada como um procedimento descritivo da análise de dados com diversos objetivos, como: descrever a relação entre variáveis para entender um método, prever o valor de uma variável por meio do valor das outras variáveis, substituir a medição de uma variável pela observação dos valores de outras variáveis e controlar os valores de uma variável em uma faixa de interesse (ROZA, 2016). Um exemplo seria prever o valor de mercado de um imóvel utilizando um algoritmo de regressão linear. Big Data e Ciência de Dados 19 Figura 3 – Big Data e Aprendizado de Máquina Fonte: Freepik Análise preditiva Essa é uma das técnicas mais usadas nas aplicações de Big Data para realizar previsão, uma vez que essa análise consiste no uso de dados e técnicas de aprendizado de máquina para determinar a probabilidade de futuros resultados com base nas informações adquiridas no passado. Um exemplo muito conhecido de Big Data e aprendizado de máquina trabalhando em conjunto foi o caso da Target, segunda maior rede de varejo dos EUA. A empresa conseguiu identificar um padrão de itens que suas clientes consumiam quando estavam grávidas, desde hidratantes, até suplementos, a marca ainda detectou as consumidoras que seriam mães, oferecendo produtos específicos e até desconto. Previsão de demanda Uma boa previsão de demanda ajuda qualquer empresa a vender mais nas épocas de pico, assim como a evitar prejuízos e desperdícios em períodos de baixa. Big Data e Ciência de Dados 20 Porém, nem sempre é fácil fazer uma projeção da procura pelos produtos da marca. Para que essas previsões sejam corretas, é necessário contar com um grande volume de dados e com o aprendizado a partir do histórico da própria empresa e do mercado. Justamente por isso, a combinação de Big Data e Machine Learning é extremamente útil para trazer confiança e clareza às decisões de negócios. Com base no processamento de dados, uma companhia pode realizar antecipações de demandas considerando diversos fatores financeiros, econômicos e mercadológicos. Um exemplo de marca que apostou nessa estratégia foi a Nestlé, maior empresa de alimentos e bebidas do mundo, ao utilizar as tecnologias em questão, a companhia conseguiu melhorar em 9% a acuracidade da sua previsão de demanda (SONDA, 2020). Sistemas de recomendação Essa técnica trabalha do seguinte modo: após ter os dados coletados e analisados por meio da combinação das técnicas de aprendizado de máquina e Big Data, é possível realizar recomendações a partir de um conjunto de dados coletados. REFLITA: Você pode perceber no seu cotidiano que sites como Amazon e a plataforma da Netflix utilizam isso para recomendar seus recursos personalizados aos usuários, de forma que os sistemas fazem sugestões ao usuário, aperfeiçoando a experiência e melhorando o engajamento. Conforme Taurion (2013) destaca, a utilização de interfaces de voz com o usuário perguntando e o computador respondendo em viva voz, é um exemplo de sucesso, com o muito conhecido Siri da Apple, é um aplicativo que usa o processamento de linguagem natural para responder perguntas, fazer recomendações e executar várias ações. Big Data e Ciência de Dados 21 Agrupamento Outra técnica que pode podemos destacar é o Clustergram, utilizada para visualizar análises de clusters (cluster analysis) ou agrupamentos, as quais se combina as técnicas de aprendizado de máquina e Big Data para realizar a análise de agrupamentos que fazem a classificação de objetos em diversos grupos, cada um contendo os objetos semelhantes segundo alguma função de distância estatística. Esta classificação deve ser feita de modo automática, sem intervenção do usuário, sem características dos grupos e sem a utilização de grupos de teste previamente conhecidos para direcionar a classificação (TAURION, 2013) RESUMINDO: Chegamos ao final da unidade, pela qual estudamos como a análise do Big Data precisa de técnicas multidisciplinares para processar com qualidade o grande volume de dados no momento da execução. Descrevemos como o surgimento e o avanço das aplicações de Big Data estimularam o amplo interesse no aprendizado de máquina, o que acarretou no fato de Big Data produzir informações importantes e utilizar algoritmos de aprendizado de máquina, em que se podem extrair padrões e criar modelos preditivos. Estudamos ainda como o aprendizado de máquina fornece o desenvolvimento de técnicas computacionais que modificam os aspectos de seu comportamento na forma em que a experiência é adquirida. Destacamos dois tipos mais utilizados e o descrevemos, especialmente, ligando- os ao aprendizado supervisionado e não supervisionado. Por fim, foi descrito algumas técnicas e alguns exemplos de como combinar as técnicas de aprendizado de máquinas e Big Data, pode contribuir em aplicações, como empresas como Netflix, Amazon, e varejista de mercado, ganharam muitas vantagens devido a associarem esses recursos. Big Data e Ciência de Dados 22 Gerência de Dados e Computação na Nuvem OBJETIVO: Como já é do nosso cotidiano utilizarmos os recursos de Computação em Nuvem para “guardar” nossas aplicações, arquivos e trabalhos que ficam disponíveis nela. Agora, neste capítulo, vamos nos deter a estudar mais afinco este recurso tecnológico. Neste capítulo, estudaremos sobre a gerência de dados por meio da Computação na Nuvem e como ela se relaciona com as aplicações em Big Data. Prontos? Vamos lá! Computação na Nuvem A Computação em Nuvem pode ser conceituada como um modelo que possibilita acesso por demanda a um agrupamento de elementos computacionais que podem ser configuráveis, como CPU, armazenamento e memória. Estes, por sua vez, podem ser disponibilizados de modo rápido com o mínimo esforço de gerenciamento ou assistência do provedor da Nuvem (MELL; GRANCE, 2009). Figura 4 – Computação em Nuvem Fonte: Pixabay Big Data e Ciência de Dados 23 Podemos destacar a importância que a Computação em Nuvem traz para as empresas abaixo, como exposto por Savarese Neto (2019): • Redução de custos: tem um custo minimizado com aquisição de hardware e com mão de obra para instalar e dar suporte a softwares, sistemas e servidores, como também, o ganho de custo reduzido com relação à economia de energia com os dispositivos funcionando e de espaço físico nas empresas. • Flexibilidade:um ganho nesse aspecto relaciona-se ao fato de explorar novos meios de organizar a equipe, permitindo, por exemplo, o home office. • Escalabilidade: neste quesito há um ganho relacionado aos gestores de TI, pois não necessitam decidir o que será preciso para contratar os serviços e evita o risco de não utilizar recursos desnecessários ou necessitar obter um aumento da estrutura em curto espaço de tempo. Com a Computação em Nuvem, existe a possibilidade de adquirir maior capacidade de armazenamento e de processo de modo automático. • Desempenho: com relação ao desempenho, obtém-se uma vantagem com relação aos data centers que contêm as principais soluções da Computação em Nuvem, pois sempre estão sendo atualizados, permitindo assim a garantia de utilizar a melhor tecnologia para a experiência dos usuários. Assim, podemos entender que a Computação em Nuvem está sendo um recurso muito importante para a indústria, principalmente para as de tecnologias. A Nuvem é uma metáfora para a Internet ou infraestrutura de comunicação entre os elementos arquiteturais, fundamentado em uma abstração que esconde a complexidade de infraestrutura (BUYYA et al. 2009). Desta maneira, parte dessa infraestrutura é tida como um serviço e estes são geralmente alocados em centros de dados, usando hardwares compartilhados para Computação e armazenamento (BUYYA et al. 2009). Big Data e Ciência de Dados https://fia.com.br/blog/author/eduardos/ 24 IMPORTANTE: É importante destacar que existem algumas propriedades básicas que diferem a Computação em Nuvem dos sistemas distribuídos tradicionais (e.g. sistemas em grade, clusters, P2P etc.) e estão relacionadas ao seu caráter atrativo: autosserviço sob demanda, elasticidade rápida, pagamento conforme o serviço usado (Pay-as-you-go), nível de qualidade de serviço (SLA), agrupamento ou Pooling de recursos. Na próxima seção, serão apresentados os modelos de implementação da Computação em Nuvem. Modelo de implementação É importante descrever que o acesso e disponibilidade aos ambientes de Computação em Nuvem, apresentam diferentes tipos de modelos de implementação. Algumas exceções ou aberturas de acesso dependem do tipo de informação e do nível de visão. Essas particularidades e outras se dão porque as empresas requerem permissões diferentes aos seus usuários para que possam acessar e utilizar determinados recursos em seus ambientes de Computação em Nuvem. Assim, temos os seguintes modelos de implementação da Computação em Nuvem, podendo estes serem divididos em Nuvem pública, privada, comunidade e híbrida (MELL; GRANCE, 2009). Segue a descrição de cada um conforme Machado et al. (2009): • Nuvem privada Nesse modelo de implementação de Nuvem privada, a infraestrutura de Nuvem é usada de forma particular na organização, de modo que, a Nuvem local ou remota, pode ser administrada pela própria empresa ou por terceiros. Este modelo trata a implementação de determinadas políticas de acesso aos serviços. As técnicas Big Data e Ciência de Dados 25 usadas por fornecer tais características podem ser em nível de gerenciamento de redes, configurações dos provedores de serviços e usada em tecnologias de autenticação e autorização. • Nuvem pública Nesse modelo de implementação de Nuvem pública, a infraestrutura de nuvens é disponível para o público em geral, podendo ser acessada por qualquer usuário que conheça a localização do serviço, assim, entendemos este modelo de implementação como não existindo restrições de acesso quanto ao gerenciamento de redes, e menos ainda, usando técnicas para autenticação e autorização. • Nuvem comunidade Nesse modelo de implementação de Nuvem comunidade, acontece o compartilhamento por várias empresas de uma Nuvem, sendo esta mantida por uma comunidade específica que compartilha seus interesses, bem como, os requisitos de segurança, política e requisitos sobre flexibilidade. Vale ressaltar que este tipo de modelo de implementação pode existir localmente ou remotamente e, geralmente, é administrado por alguma empresa da comunidade ou por terceiros. • Nuvem híbrida Nesse modelo de implementação de Nuvem híbrida, há como componente duas ou mais nuvens que podem ser privadas, comunidade ou pública, permanecendo como entidades únicas e ligadas por uma tecnologia padronizada ou proprietária que possibilita a portabilidade de dados e aplicações. Na próxima seção, estudaremos sobre os modelos de serviços oferecidos pela Computação em Nuvem. Modelos de serviço Outro aspecto importante para destacar na Computação em Nuvem, são os modelos de serviços que ajudam a atender às demandas Big Data e Ciência de Dados 26 de serviços conforme os padrões e características, assim, criou-se uma série de modelos de serviço de Cloud. Os principais modelos segundo Pedroso (2014) são: • SaaS (Software como Serviço): esse modelo trata da capacidade de disponibilizar aplicações ao usuário final. A principal contribuição é a abstração de tudo que está por trás da execução da aplicação para usuário, assim o custo é minimizado e não existe a necessidade de saber e interagir com a tecnologia e infraestrutura. Como exemplos que utilizam os serviços do modelo, temos a Customer Relationship Management (CRM) da Salesforce e o Google Docs. • PaaS (Plataforma como Serviço): esse modelo trata a camada que possibilita usar recursos da Nuvem com pouca necessidade de intervenção na infraestrutura de TI. A ênfase está no desenvolvimento de aplicações importantes ao negócio, sem necessidade em dar suporte a toda infraestrutura do ambiente. Exemplos desse modelo são o Google App Engine e Microsoft Azure. • IaaS (Infraestrutura como Serviço): esse modelo trata de prover os recursos computacionais básicos, como o hardware para processamento e armazenamento e deixando os detalhes de responsabilidade do contratante a administração do ambiente de software. Exemplos desse modelo são o Amazon Elastic Cloud Computing (EC2) e o Eucalyptus. Computação em Nuvem e Big Data No contexto para melhorar o gerenciamento e minimizar os custos, as aplicações de Big Data têm usado ambientes de Cloud Computing ou Computação em Nuvem (AGRAWAL et al., 2011). Estes ambientes possibilitam que as empresas e pessoas aluguem capacidade de Computação e armazenamento sob demanda e com pagamento com base na utilização, em vez de fazerem grandes investimentos de capital necessários para a construção e instalação de equipamentos de Computação em larga escala (SOUSA et al., 2010). Big Data e Ciência de Dados 27 Além do que, a Computação em Nuvem disponibiliza ambientes com ampla capacidade de armazenamento, escalabilidade, elásticos, com alto desempenho e elevada disponibilidade. Dessa forma, a Nuvem permite ser uma opção mais viável para a idealização de aplicações de gestão e análise de grandes massas de dados (AGRAWAL et al., 2011) A cada dia as empresas e os consumidores estão buscando na Nuvem um meio mais prático para gerenciar seus dados, uma vez que ela possibilita o acesso rápido e sempre disponível aos dados, mesmo com proporção de que um maior número de dispositivos com amplos níveis de inteligência esteja conectado a diversas redes DURBANO (2020). Desse modo, o consumidor deixa de se importar com a capacidade de armazenamento dos dispositivos e acabam utilizando mais da Computação em Nuvem (REINSEL, 2018). Figura 6 – Computação em Nuvem e Big Data Fonte: Pixabay Conforme Hashem (2013), a Computação em Nuvem e Big Data estão correlacionadas. O Big Data oferece aos usuários a capacidade de utilizar Computação para processar e analisar uma massa de dados em tempo rápido, já a infraestrutura de Computação em Nuvem, pode contribuir como uma plataforma eficiente para trabalhar com o armazenamento de dados precisos por fazer análise de Big Data. Big Data e Ciência de Dados28 Por conseguinte, o desenvolvimento da Computação em Nuvem oferece soluções para o armazenamento e processamento de Big Data, no qual o surgimento de Big Data também foi responsável por acelerar o desenvolvimento da Computação em Nuvem (CHEN, 2016). Entretanto, conforme Taurion (2013) afirma, os custos da Computação em Nuvem são minimizados devido a utilização de servidores virtuais, contudo estes podem gerar um aumento de custo com relação a grande massa de dados por redes de comunicação e para o provedor da Nuvem. SAIBA MAIS: Leia sobre a Computação em Nuvem usada nas aplicações de Big Data no artigo Como usufruir do seu Big Data com a Computação em Nuvem. Acesse clicando aqui. Podemos ainda destacar um exemplo interessante de uso de Big Data em Nuvem, o Etsy, um site de e-commerce especializado em produtos de artesanato e artigos de época que contém mais de onze milhões de usuários, resultando em 25 milhões de visitantes únicos e 1,1 bilhões de page views por mês. Atualmente, o Etsy captura mais de 5GB de dados por dia, dessa forma, a grande massa de dados é analisada em uma Nuvem pública para gerar uma análise melhor do comportamento dos seus clientes e realizar análises preditivas (TAURION, 2013). Dessa forma, o Etsy tem conseguido definir quais os produtos que melhor se adequam e as preferências de um determinado cliente. Assim, não é necessário instalar grandes servidores para realizar esta análise, uma vez que a Etsy utiliza a Nuvem e paga apenas pelo tempo utilizado para realizar a tarefa (TAURION, 2013). Ainda temos empresas como Amazon, Microsoft, Google, entre outras tantas que fazem uso desses recursos de Computação e Nuvem e Big Data. Big Data e Ciência de Dados https://www.tecmundo.com.br/mercado/139695-usufruir-big-data-computacao-nuvem.htm 29 Gerenciamento de dados de Computação em Nuvem Temos que destacar o fator do gerenciamento de dados ser considerado um ponto crítico no aspecto de Computação em Nuvem devido os SGBDs relacionais não possuírem escalabilidade quando milhares de sítios são considerados (WEI et al., 2009). Dessa forma, elementos de armazenamento de dados, processamento de consultas e gerência transacional têm se tornado mais flexíveis para algumas abordagens, de modo a garantir a escalabilidade, porém ainda não há soluções que juntem estes elementos de modo a melhorar o desempenho sem implicar a consistência dos dados (ABADI, 2009). Nesse contexto, diversas abordagens surgem para gerenciar dados em nuvens, dentre as quais podemos citar o Microsoft Azure e HBase (BRANTNER et al., 2008). Um ponto importante é o trade-off entre as funções e os custos operacionais enfrentados pelos provedores de serviços, nos quais destacam-se os serviços em Nuvem para dados que disponibilizam APIs que contêm mais restrições do que os SGBD relacionais, com uma linguagem minimalista de consulta e promovendo a garantia de consistência limitada (ABOUZEID et al., 2009). Por conseguinte, temos a exigência e a necessidade de maior esforço de programação dos desenvolvedores, todavia, possibilita aos provedores idealizarem serviços mais previsíveis. Segundo Armbrust et al. (2009), a construção de um sistema de armazenamento que junta os vários recursos de Computação em Nuvem de modo a ampliar a escalabilidade, a disponibilidade e consistência dos dados, é um problema de campo aberto para estudos e pesquisa. Assim, temos os SGBDs em Nuvem que surgiram para serem usados como atrativo para chamar clientes de vários setores do mercado, desde pequenas empresas com o intuito de minimizar o custo total, por meio da utilização de infraestrutura e sistemas de terceiros, como até grandes empresas que sempre buscam soluções para gerenciar suas Big Data e Ciência de Dados 30 grandes quantidades de máquinas e possibilitar o atendimento de um aumento inesperado de tráfego (ABADI, 2009). Figura 7 – Banco de dados e infraestrutura Fonte: Pixabay A infraestrutura de SGBDs em Nuvem possui várias vantagens para os usuários. A seguir, temos algumas dessas vantagens conforme Curino et al. (2010): • Previsibilidade e custos reduzidos proporcionais à qualidade do serviço (QoS) e cargas de trabalho em tempo real. • Complexidade técnica minimizada devido às interfaces de acesso unificadas e a delegação de tuning, bem como a administração de SGBDs. • Elasticidade e escalabilidade, permitindo a percepção de recursos quase infinitos, como ainda, o provedor tem que possibilitar a garantia da ilusão de recursos infinitos por meio de cargas de trabalho dinâmicas e reduzir os custos operacionais relacionados a cada usuário. Contudo, existem vários sistemas e arquiteturas que estão sendo implementados para atender às novas demandas de aplicações com variados requisitos de processamento e armazenamento (ABOUZEID et al., 2009). Big Data e Ciência de Dados 31 Estes novos sistemas tentam fornecer uma visão de armazenamento e escalabilidade infinitos, mas devem tratar o problema de provisionar recursos. Esse problema, que em SGBDs tradicionais contêm em definir quais recursos são alocados para um único banco de dados, no contexto de ambiente em Nuvem, torna-se um problema de otimização quando se tem uma grande quantidade de usuários, múltiplos SGBDs em Nuvem e grandes centros de dados (ABOUZEID et al., 2009). Dessa forma, os SGBDs em Nuvem oferecem uma oportunidade para explorar a economia em escala, gerando balanceamento dinâmico de carga e gerenciamento da economia em escala (ABOUZEID et al., 2009). RESUMINDO: Neste capítulo, para entender o gerenciamento de Computação em Nuvem, abordamos primeiro um pouco mais sobre o entendimento deste recurso, tendo em vista que a Computação em Nuvem é muito importante para a indústria, principalmente para as áreas de tecnologia. O termo Nuvem é uma metáfora para a Internet ou infraestrutura de comunicação entre os elementos arquiteturais, fundamentado em uma abstração que esconde a complexidade de infraestrutura. Estudamos sobre como descrever o acesso e disponibilidade aos ambientes de Computação em Nuvem, apresentando os diferentes tipos de modelos de implementação, que são: Nuvem pública, privada, comunidade e híbrida. Logo após, estudamos sobre os modelos de serviços e, assim, a partir do entendimento desses conceitos, podemos compreender melhor sobre o gerenciamento de dados em Nuvem, os pontos críticos dessa infraestrutura. Vimos ainda o surgimento dos SGBDs em Nuvem que são usados como atrativo para clientes de vários setores do mercado, desde a pequenas e grandes empresas com o intuito de minimizar o custo. Por fim, apresentamos o uso combinado de Big Data e Computação em Nuvem trazendo a importância destes para as diversas aplicações existentes e para as empresas. Big Data e Ciência de Dados 32 Bioinformática OBJETIVO: Neste capítulo, estudaremos sobre a bioinformática juntamente com seus conceitos, características, histórico e aplicações. Também, abordaremos exemplos de tecnologias que trabalham com esse tipo de solução e ainda veremos como elas se relacionam com a Ciência dos Dados e Big Data. Vamos lá! Histórico da Bioinformática Ao longo do tempo, a biologia molecular cresceu exponencialmente. Isso se deve pelo fato do aperfeiçoamento da automação na produção de dados de sequências de genótipos para fenótipos, tornando-se muito mais uma ciência de informação. Contudo, conforme Medeiros Filho et al. (2002), esse aumento no volume de sequências genéticas a serem armazenadas, passou a precisar de algoritmos computacionais eficientes que fornecessem o compartilhamento, análise e armazenamento desses dados. Figura 8 – Os avanços na Biologia Fonte: Pixabay Big Data e Ciência de Dados 33 De acordo com Edwards et al. (2009), o mais interessante para os cientistas enfatizarem é o quesito da análise desses dados estarem associados a qualidadedas sequências e suas anotações suportadas nos bancos de dados públicos. Deste modo, surgiu a Bioinformática como um novo campo de estudos e trabalho que oferece um meio de conexão entre os dados biológicos e as hipóteses científicas indagadas nas pesquisas ligadas, por exemplo, ao fluxo da informação gênica. Temos a Bioinformática sendo uma área multidisciplinar envolvendo as áreas de engenharia de softwares, matemática, estatística, ciência da Computação e a biologia molecular, em que necessita de sistemas computacionais robustos, bem como profissionais qualificados e especializados (MEDEIROS FILHO et al., 2002). Lorenzoni (2019) descreve algumas funções da Bioinformática, apresentadas a seguir: • A implementação de novos algoritmos e estatísticas. • Análise e interpretação de diversos tipos de dados biológicos. • Desenvolvimento e idealização de ferramentas que possibilitem o acesso e gerenciamento eficazes de variados tipos de informações. Essas funções da Bioinformática, tem como intuito, de modo sucinto, a realização de trabalhos nos seguintes campos, de acordo com Lorenzoni (2019): • Análise de sequência incluindo o alinhamento de sequência, pesquisa em banco de dados, a busca de motivos e padrões, descoberta de genes e promotores, reconstruir as relações evolutivas e montagem e comparação de genoma. • Análises estruturais incluindo comparação, classificação, previsão de proteínas e estruturas de ácidos nucleicos. • Análise funcional que incluem o perfil de expressão gênica, previsão de interação proteína-proteína, prever a localização subcelular, reconstruir e simular as vias metabólicas. Big Data e Ciência de Dados 34 Na Figura 9, há a representação da visão geral com os objetos de estudo relacionados à Bioinformática. Figura 9 – Representação de algumas das principais áreas da Bioinformática Alinhamento de sequência Abordagem computacional para os sistemas biólogicos Predição de função génetica Modelagem comparativa Atrocamento molecular Biologia de sistemas FIlogênia Dinâmica molecular Modelagem ab inito Fonte: Adaptada de Verli (2014). De modo geral, podemos destacar, por meio da representação anterior que os objetos de estudo relacionados à Bioinformática são vários e sequências de biomoléculas, nos quais incluem: comparações entre sequências (alinhamento); identificação de padrões em sequências (assinaturas); caracterização de relações evolutivas (filogenia); construção e anotação de genomas; construção de redes (biologia de sistemas); obtenção de modelos 3D para proteínas e outras biomoléculas (por exemplo, modelagem comparativa); identificação do modo de interação Big Data e Ciência de Dados 35 de moléculas (atracamento); seleção de compostos com maior potencial de inibição (atracamento); caracterização da flexibilidade molecular (dinâmica molecular); avaliação do efeito de mudanças na estrutura e ambiente molecular na dinâmica e função de biomoléculas (dinâmica molecular) (LORENZONI, 2019). SAIBA MAIS: Para saber mais sobre o assunto, faça a leitura do artigoBioinformática: descubra o que é e como essa ciência vem crescendo a cada dia. Acesse clicando aqui. Este artigo traz algumas aplicações que usam Bioinformática, como: armazenamento, processamento de sequências biológicas, manipulação e organização de bases de dados biológicas; modelação de processos metabólicos e regulatórios de tecidos de celulares de organismos e ao nível celular modelação e simulação de processos biológicos. Nessa próxima seção, serão apresentadas outras características de Bioinformática como workflow. Workflow de Bioinformática Um workflow científico pode ser conceituado como uma especificação formal de um processo científico que representa as etapas a serem executadas em algum experimento (DEELMAN et al., 2009). Essas etapas ou atividades podem ser programas ou sistemas que concebem a automatização a um processo, otimizando o modo de trabalho. Várias áreas da biologia molecular usam workflows em seus experimentos científicos (BOEKEL et al., 2015), nos quais, usualmente são processados dados originados de projetos ligados ao genoma, transcriptoma, metaboloma, entre outros, de modo que, cada execução de um workflow científico de Bioinformática pode produzir um grande massa de dados, que devem ser armazenados para execuções novas análises ou confirmações de resultados. Big Data e Ciência de Dados https://www.profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-como-essa-ciencia-vem-crescendo-a-cada-dia/ 36 Podemos destacar que um dos problemas ao qual a Bioinformática é focada, é a montagem de fragmentos de DNA, de modo que os fragmentos de DNA são originados do sequenciamento de alto desempenho e são chamados reads. Entende-se as reads como strings de um alfabeto que representa o DNA ou o RNA. Por meio dos alinhamentos das reads, a montagem consegue sequências contíguas (contigs) que representam o DNA original da amostra (ZERBINO, 2008). Por conseguinte, a montagem de fragmentos pode utilizar um genoma de referência, neste caso, as reads são alinhadas contra um genoma de organismo filogeneticamente próximo ao organismo do qual provêm as reads. Por outro lado, a montagem sem um genoma de referência é chamada de montagem de novo (BLEIDORN, 2017). IMPORTANTE: Vale ressaltar que os experimentos científicos da Bioinformática geralmente são representados como workflows científicos que são usados especialmente em projetos do genoma e transcriptoma em experimentos que englobam análise de sequenciamento de DNA e/ou RNA, como a montagem de fragmentos. Segundo Saldanha (2012), as análises são precisas, pois os fragmentos criados pelos sequenciadores automáticos devem fazer a verificação da sua qualidade, verificando se estão juntos, se os fragmentos forem muito pequenos ou ter identificadas suas funções biológicas, entre outras. Essas análises podem ser feitas em várias etapas e em diferentes ferramentas que compõem os workflows. Proveniência de dados em Bioinformática Já vimos que a Bioinformática é multidisciplinar e que contém a utilização intensa de ferramentas computacionais. Conforme Mattos Big Data e Ciência de Dados 37 et al. (2008), esta ciência tem como intuito a coleta, organização, armazenamento, recuperação e a análise de dados biológicos, promovendo assim a inferência ou busca de informações sobre a biologia e/ou evolução dos organismos. Vale destacar que a Bioinformática e seus experimentos podem ser efetuados por várias fases, sendo executados em programas com configurações específicas e parâmetros por equipes variadas e que processam uma grande massa de dados. Segundo Paula (2012), oferecer a proveniência de dados em projetos de Bioinformática, exige uma solução que possibilite armazenar a ligação entre os dados processados, combinando-os com as informações das execuções de cada processo e de seus resultados. A definição tratada por Buneman et al. (2001) apresenta o termo proveniência como “linhagem” ou “pedigree” que se refere o histórico de como aquele dado foi criado ou derivado. Isto implica relatar que o significado de proveniência é a origem ou procedência. De acordo com Almeida (2015), a proveniência de dados torna- se cada vez mais presente no ambiente científico, tanto para oferecer a garantia da origem dos dados, como para realizar avaliação e a sua acurácia. Figura 10 – Dados biológicos Fonte: Pixabay Big Data e Ciência de Dados 38 Segundo de Paula (2012), a proveniência possibilita que os cientistas estudem com mais detalhes seus experimentos e, sempre que necessário, possam refazê-los de um modo mais estruturado e controlado. A utilidade da proveniência de dados vai além da reprodução de experimentos, pois a procedência tem uma grande utilidade ao fornecer aos cientistas uma variedade de aplicaçõesde análise de dados, possibilitando, por exemplo, a verificação e a qualidade dos dados oriundas por meio da análise de suas referências ancestrais e determinando a confiabilidade dos estudos (MARINHO et al., 2009). Conforme Goble (2002) relata, algumas funcionalidades da proveniência de dados, são: • Qualidade dos dados: por meio do histórico de todo processo de elaborar dados ou execução do experimento de quem o originou, que base de dados veio, em que o dado foi armazenado, entre outros, fazendo a estimativa do grau de qualidade e confiabilidade pelo qual o dado foi utilizado. • Controle de replicação: a proveniência detalhada possibilita que um dado ou experimento possa ser replicado por meio dos mesmos métodos, mesmas ferramentas e parâmetros. • Propriedade e segurança: é contido um controle rigoroso sobre o dono do experimento e todos seus dados, tanto para fins de direitos autorais e citações, como também para responsabilidades caso os dados possam estar errados. • Informacional: informações relevantes para a pesquisa são extraídas na proveniência, como: o autor, membros da equipe, local, etc., pelo qual, oferecem uma certa importância para a interpretação dos dados. Na próxima seção, estudaremos sobre as aplicações da Bioinformática. Big Data e Ciência de Dados 39 Aplicações da Bioinformática Assim, podemos destacar no campo da Bioinformática algumas aplicações e suas contribuições, descritas conforme Lorenzoni (2019): • Aplicada na área agrícola: a Bioinformática é adotada em pesquisas agrícolas por conta do seu grande volume de dados inerentes às diferentes culturas. Essa técnica possibilita uma análise mais completa dos dados, contribuindo com o entendimento dos pesquisadores. Ao associar os recursos genéticos vegetais com a Bioinformática, é possível obter ganhos nos mais diversos programas de melhoramento, obtendo cultivos mais resistentes a estresses bióticos e abióticos, melhorando a qualidade nutricional e gerando novas formas de energia renováveis. Exemplos de uso da Bioinformática: • Genética comparativa: a genética comparativa consiste em avaliar planta modelo e planta não modelo. As espécies podem revelar uma organização de seus genes, uma em relação à outra, que é usada para transferir informações dos sistemas de plantas modelo para outras culturas alimentares. • Fontes de energias renováveis: é sabido que um dos melhores meios para obter energia é a biomassa vegetal, como exemplos temos o milho, cana, entre outras. Por meio das ferramentas de Bioinformática, é possível detectar variações nas sequências associadas a fenotipagem e que possam identificar genótipos superiores para maximizar a produção de biomassa. Assim, combinando o uso da interação das ômicas com a Bioinformática, é possível aumentar a capacidade de desenvolvimento de culturas para serem usadas como matéria-prima de biocombustível. • Melhoramento de plantas: ajuda a compreender a base genética e molecular de todos os processos biológicos nas plantas. Isso é importante, pois possibilita a exploração eficaz de plantas como Big Data e Ciência de Dados https://www.laborgene.com.br/autor/rodrigo/ 40 recursos biológicos no desenvolvimento de novas culturas com melhor qualidade e custos econômicos em ambientais reduzidos. Assim, isso pode acontecer devido aos dados serem acessados e analisados por meio de ferramentas de Bioinformática. • Melhoramento para qualidade nutricional: um dos exemplos mais clássicos de alimentos biofortificados é o arroz dourado, o qual foi enriquecido com betacaroteno que no organismo é facilmente convertido para vitamina A. • Fitopatologia: a Bioinformática possibilitou mapear todo o genoma de muitos organismos, contribuindo, dessa forma, com o entendimento da arquitetura genética de microrganismos e patógenos para verificar como esses afetam a planta hospedeira, usando a abordagem metagenômica e transcriptômica. Destaca-se que a Bioinformática tem muitas aplicações práticas no gerenciamento atual de doenças de plantas no que diz respeito ao estudo das interações do hospedeiro-patógeno. Bioinformata Neste contexto da Bioinformática e seus objetos de estudos, surge outro tipo de profissional: o bioinformata. Esse deve ter a habilidade e competência de identificar os problemas biológicos e solucioná-los por meio do uso de ferramentas computacionais (SOARES, 2006). Esse profissional de Bioinformática deve ter habilidades não somente de aptidão em conhecimentos técnicos computacionais, como também, dominar a ciência de dados e Big Data, saber lidar com o desenvolvimento de sistemas, entender ainda sistemas já existentes e deve ter conhecimentos específicos de Ciências Biológicas, como a Biologia Molecular, destacando-se que a linguagem de programação mais adotada nessa área é o Python. Big Data e Ciência de Dados https://www.profissionaisti.com.br/2017/08/conheca-os-10-livros-mais-recomendados-do-stack-overflow/ https://www.profissionaisti.com.br/2017/08/pesquisa-aponta-python-como-ferramenta-mais-popular-no-mercado/ 41 Figura 11 – Bioinformata Fonte: Pixabay Esse profissional, bioinformata, tem que utilizar ferramentas robustas e de grande poder computacional para solucionar problemas biológicos. Em particular, deve lidar com problemas que envolvem grandes volumes de dados. Atualmente, estamos inseridos na era do Big Data, em que é gerado a cada dia um conjunto gigantesco de dados, assim, é preciso mais recursos para analisá-los. RESUMINDO: Estudamos, neste capítulo, um pouco mais sobre a tecnologia da Bioinformática e como se relaciona com a Computação e soluções como Big Data, tendo em vista que este campo de pesquisa traz grandes contribuições para a biologia e que, por meio dos seus recursos, geram grande quantidade de dados que podem ser analisados trazendo importantes contribuições acadêmicas. Big Data e Ciência de Dados 42 Inovação Tecnológica e Novas Tendências OBJETIVO: Neste capítulo, vamos abordar as novas tendências e inovações tecnológicas no campo de ciência de dados e Big Data, como também, abordaremos os desafios futuros neste campo. Vamos lá! Com a grande produção de dados e novas tecnologias sendo desenvolvidas, as técnicas de Big Data e Ciência de Dados acabam crescendo e contribuindo para estes avanços. Muitos especialistas relatam que o Big Data pode trazer grandes mudanças de contexto econômico e social. Podemos citar algumas tendências tecnológicas relatas por Paredes (2019): • Os sistemas de armazenamento distribuído NoSQL são tendências de crescimento devido a serem tão importantes para grandes necessidades de dados e infraestrutura, como para empresas como Google, Amazon e Facebook. • Os sistemas distribuídos para promover o processamento e análise de sinais e eventos de Internet das Coisas em tempo real que possibilitam analisar uma grande massa de dados de modo imediato. • Os bancos de dados com processamento com base em Unidades de Processamento Gráfico (GPUs) que estimulam o cálculo de informações em massa e ajudam a minimizar os tempos de treinamento de modelos e projetos de aprendizado de máquina. • Os chatbots que possibilitam responder a consultas e executar ações práticas e de modo automático e por meio de uma linguagem natural. Após esses exemplos de algumas tendências tecnológicas, na próxima seção, será estudado sobre exemplos de inovação tecnológica. Big Data e Ciência de Dados 43 Inovação tecnológica O Big Data traz inovações em vários aspectos, como: contribui no desenvolvimento de novas tecnologias, aplicações e na forma de processos de tomada de decisões nas empresas. Já estudamos também que há grandes inovações nas empresas trazendo vantagens competitivas. Segundo Amaral (2016), algumas inovações importantes que o Big Data fornece nas suas aplicações é a capacidade de tornar os processosprodutivos mais eficientes, com custos reduzidos, produtividade e intervalos de paradas não programadas menores. No campo da Administração, o Big Data possibilita um ganho no campo de fraudes, em que fornece a redução delas ao diminuir os passivos judiciais e a verificação do pagamento de impostos. Promove ainda inovação no campo do relacionamento com os clientes, melhorando a fidelização, maior qualidade de seus produtos e serviços. O Big Data também gera modificação no relacionamento das empresas com seus fornecedores e parceiros comerciais (AMARAL, 2016). Conforme Taurion (2013), uma inovação é a capacidade do Big Data impactar nos processos da empresa, dessa forma, acontecer o necessário para que os próprios processos sejam revisados e incorporados os resultados nas análises das fases de suas tarefas. Exemplificando ofertas personalizadas para os clientes, usualmente são realizadas quando planejadas e com antecedência de dias, tendo uma campanha, realizam o filtro de clientes selecionados e enviam para eles os e-mails com as ofertas, ou seja, dessa forma o Big Data se torna uma oportunidade para identificar e enviar ofertas em tempo real. Big Data e Ciência de Dados 44 Figura 12 – Inovação Fonte: Pixabay Nas próximas sessões, serão destacadas tecnologias que surgiram trazendo inovação ligadas à como a Big Data. Big Social Data Uma das grandes tendências atuais de explorar Big Data é nas redes sociais, como Facebook, YouTube e Twitter, por meio da conexão, as pessoas estão produzindo exabytes de dados em suas interações (TAN et al. 2013). O volume, a velocidade e a capacidade de processar os dados de diversas fontes, criam grandes desafios, dispersos ou combinados, a serem superados ligados ao armazenamento, processamento, visualização e análise dos dados. NOTA: Existe uma grande tendência de indivíduos se juntarem e formarem grupos, algo que é uma característica de qualquer sociedade (CASTELLS, 2000). Esse comportamento pode ser replicado nos dias atuais por meio do avanço das mídias sociais e grupos on-line que destacam o poder de unir usuários ao redor de todo mundo. Big Data e Ciência de Dados 45 Já vimos, ao longo dos nossos estudos, que a quantidade de dados gerada na rede só aumenta a cada instante e novas unidades de medida surgem para classificar as grandes massas de dados. Esse grande volume de dados de diferentes tipos está sendo produzido por diferentes fontes independentes, distribuídas e descentralizadas que geram de modo rápido, dados com relações complexas e em evolução, sendo chamados de Big Data (SILVA et al., 2013). Figura 13 – Redes sociais e Big Data Fonte: Pixabay Podemos destacar que o Big Data representa inovação no aspecto da tecnologia, pois por trabalhar com bancos de dados NoSQL, realizar processamento massivo paralelo, conter funções capazes de coletar, tratar e analisar dados não estruturados como comentários postados no Facebook, tem ganhado grande destaque global (TAURION, 2013). Com isto, percebemos como ele traz contribuições devido ao grande uso das redes sociais que acabam se tornando uma grande fonte de dados para aplicar Big Data, trazendo informações importantes para diversos segmentos de empresas. Big Data e Ciência de Dados 46 IMPORTANTE: É importante destacar que toda esta produção massiva e diária das redes sociais, traz um problema muito conhecido que são as tão faladas fake news, fato de espalhar notícias falsas pela web. Percebemos, com a análise adequada dos dados, um fator crítico e que traz um grande impacto, bem como necessidade de poder possibilitar a verificação e veracidade de tantas notícias geradas ao mesmo tempo. Dessa forma, com a diversidade e quantidade de usuários usando as redes sociais, torna este campo bastante explorado por analistas e pesquisadores que buscam extrair ou inferir informações, podendo estar relacionadas a outros campos como: predição de comportamento, marketing, comércio eletrônico, entre outras interações (TAN et al., 2013). Isso implica afirmar que essas análises devem ser eficientes, como efetuadas quase em tempo real e com a capacidade de prover trabalhos com vários grafos. Tecnologia Blockchain Temos atualmente o surgimento de uma nova tecnologia, o banco de dados de blockchain. O BigchainDB trata de combinar as vantagens de bancos de dados distribuídos, por sua vez, o blockchain refere-se a trilhas descentralizadas e imutáveis de auditoria e troca de ativos. Este tipo de tecnologia traz inovação no campo de transações financeiras, assim, o blockchain traz oportunidades para aqueles que trabalham com soluções computacionais como Big Data, ciências de dados e inteligência artificial. Esse banco de dados, blockchain, tem característica de escalabilidade e utiliza ambientes de Big Data. Esse tem a capacidade de liberar o potencial de aplicações altamente importantes em Big Data, contribuindo para o controle compartilhado de infraestrutura, trilhas de auditoria em dados e permitir a troca de dados universal. Big Data e Ciência de Dados https://www.bigchaindb.com/ 47 Figura 14 – Blockchain Fonte: Pixabay Um exemplo do uso de Big Data e Blockchain foi o consórcio de 47 bancos japoneses que se associaram a uma startup de blockchain conhecida como Ripple para facilitar as transferências de dinheiro entre contas bancárias usando o próprio blockchain, visto que os blockchains oferecem risco minimizados quando comparados com as transações tradicionais. Assim, com a utilização, é permitido detectar padrões nos gastos do consumidor e identificar transações de risco com maior velocidade, bem como, reduzir o custo com as transações em tempo real (MATOS, 2020). Internet das Coisas Com certeza você sabe ou já ouviu falar sobre o termo Internet das Coisas, que está tão em alta nas discussões em meios acadêmicos e comerciais. Descrevemos a Internet das Coisas como a tecnologia que contém uma taxa enorme de objetos sendo conectada à Internet, compreendendo o que é denominada hoje como Internet das coisas (Internet of Things ou IoT) (RATHOREA, 2016). Esses objetos podem ser sensores, bancos de dados e outros dispositivos ou software, existindo muitos domínios nos quais IoT ajuda e facilita a vida das pessoas de modo bastante relevante em tarefas como a assistência médica, automação, transporte e respostas emergências a desastres naturais (RATHOREA, 2016). Big Data e Ciência de Dados 48 Figura 15 – Internet das Coisas Fonte: Pixabay Os vários sensores produzem diferentes tipos de características, exemplificando as tags que são aplicadas na identificação por radiofrequência (RFID) e que disponibilizam a localização e tempo; os GPSs, responsáveis por identificar a localização e marca-passos que extraem informações sobre o coração (O’LEARY, 2013). Nisto, os objetos de IoT tem englobando a si uma interface de rede, possibilitando que as comunicações entre eles ofereçam vários serviços para os usuários (NIYATO, 2016). Contudo, muitas oportunidades são descritas pela capacidade de analisar e utilizar grandes quantidades de dados de IoT, inclusive aplicativos em cidades inteligentes, sistemas inteligentes de transporte e de rede, medidores inteligentes de energia e dispositivos remotos de monitoramento de saúde do paciente (MARJANI, 2017) Conforme O’leary (2013), uma grande parte dos dados são originados de objetos do universo da Internet das Coisas, tendo em vista que produzem grandes massas de dados. Outra característica é a velocidade dos dados, relacionada à IoT, ser mais elevada quando comparada com o processamento tradicional, pois os sensores podem capturar dados continuamente. Esses dados também têm característica de grande variedade, visto que temos cada vez mais vários tipos de sensores e diferentes fontes de dados. Big Data e Ciência de Dados 49 Por fim, temos que a veracidade dosdados estão mais garantindo confiabilidade devido ao modo que a qualidade dos sensores e outras fontes de dados, tem melhorado com o tempo. Gerando, assim, que esses aspectos associados impulsionam a geração de Big Data pela Internet das Coisas. RESUMINDO: Estudamos, neste capítulo, uma visão geral de tendências e tecnologias que estão surgindo, bem como elas se relacionam com as aplicações Big Data. Vimos que a solução computacional Big Data possibilita a inovação em vários aspectos, no quesito de contribuir no desenvolvimento de novas tecnologias, aplicações e na forma de processos de tomada de decisões nas empresas. Algumas inovações importantes que o Big Data fornece com suas aplicações é a capacidade de tornar os processos produtivos mais eficientes, com custos reduzidos, produtividade e intervalos de paradas não programadas menores. No campo da administração, o Big Data possibilita um ganho no campo das fraudes, em que fornece a redução delas, reduz passivos judiciais e avalia o pagamento de impostos. Vimos ainda que a grande tendência das redes sociais atuais está sendo um campo bastante explorado por analistas e pesquisadores que buscam extrair ou inferir informações sobre os dados gerados pelas redes. Em seguida, estudamos o surgimento de uma tecnologia, o Blockchain, que traz inovação no campo de transações financeiras e se tornou uma oportunidade para aqueles que trabalham com soluções computacionais como Big Data, ciência de dados e inteligência artificial. Por fim, estudamos outro recurso tecnológico, a Internet das Coisas e vimos como funciona como uma grande geradora de fonte de dados para utilizar Big Data e como elas podem se relacionar. Big Data e Ciência de Dados 50 REFERÊNCIAS ABADI, J. Data management in the cloud: Limitations and opportunities. IEEE Data Eng. Bull, v. 32, p. 3-12. 2009. ABOUZEID, A. et al. Hadoopdb: an architectural hybrid of mapreduce and dbms technologies for analytical workloads. PVLDB, p. 922-933. 2009. AGRAWAL, D.; DAS, S.; El Abbadi, A. Big Data and cloud computing: current state and future opportunities. In: INTERNATIONAL CONFERENCE ON EXTENDING DATABASE TECHNOLOGY, 14., 2009, New York. Proceedings […] New York: EDBT/ICDT, 2009. p. 530-533. ALMEIDA, R. Proveniência de dados em workflow de Bioinformática utilizando banco de dados baseado em grafo. Dissertação (Mestrado) – Departamento de Ciência de Computação. UNB. Brasília. 2015. AMARAL, F. Introdução à Ciência de Dados. São Paulo: Alta Books, 2016. BIOINFORMÁTICA: descubra o que é e como essa ciência vem crescendo a cada dia. Profissionais IT, 2019. Disponível em:https://www. profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e- como-essa-ciencia-vem-crescendo-a-cada-dia/. Acesso em: 19 jun. 2020. BLEIDORN, C. Assembly and data quality. [S. l.]: Springer, 2017. BOEKEL, J. et al. Multi-omic data analysis using galaxy. Nature Research, v. 33, n. 2, p. 137-139. 2015. BRANTNER, M. et al. Building a database on s3. In: ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 8., 2008, New York. Proceedings […] New York: ACM Press, 2008. p. 251. BUNEMAN, P. et al. Why and where: a characterization of data provenance. In: BUSSCHE, J. V. den et al. Database Theory. Berlin: Springer Berlin Heidelberg, 2001. Big Data e Ciência de Dados https://www.profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-como-essa-ciencia-vem-crescendo-a-cada-dia/ https://www.profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-como-essa-ciencia-vem-crescendo-a-cada-dia/ https://www.profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-como-essa-ciencia-vem-crescendo-a-cada-dia/ 51 CHEN, M.; MAO, S.; LIU, Y. Big Data: a survey. New York: [s. n.], 2014. DAVIDSON, J. What is Statistics? SSCC, [s. d.]. Disponível em: https:// www.sscc.edu/home/jdavidso/mathadvising/AboutStatistics.html. Acesso em: 15 jun. 2020. COMO usufruir do seu Big Data com a Computação em Nuvem. Tech Mundo, [s. d.]. Disponível em: https://www.tecmundo.com.br/ mercado/139695-usufruir-big-data-computacao-Nuvem.htm. Acesso em: 18 jun. 2020. DEELMAN, Ewa et al. Workflows and e-Science: An overview of workflow system features and capabilities. Future Generation Computer Systems, v. 25, n. 5, p. 528-540. 2009. DURBANO, V. Computação em Nuvem. Ecoit, [s. d.]. Disponível em: https://ecoit.com.br/computacao-em-Nuvem/. Acesso em: 19 jun. 2020. EDWARDS, D.; STAJICH, J.; HASEN, D. Bioinformatics: tools and applications. New York: Springer, 2009. GOBLE, C. Position statement: Musings on provenance, workflow and (semantic web) annotations for bioinformatics. In: WORKSHOP ON DATA DERIVATION AND PROVENANCE, Chicago. [S.l.: s.n.], 2002. HASHEM, T. et al. The rise of “Big Data” on cloud computing: Review and open research issues. Information Systems, v. 47, p. 98-115. 2014. KALLA, S. What is statistics? Explorable, [s. d.]. Disponível em: https://explorable.com/what-isstatistics. Acesso em: 15 jun. 2020. LI, W; HAN, J; PEI, J. Cmar: Accurate and efficient classification based on multiple class-association rules. In: IEEE INTERNATIONAL CONFERENCE ON DATA MINING, 1., 2001, San Jose. Proceedings […] San Jose: ICDM, 2001. p. 369-376. LORENZONI, R. Bioinformática – parte II: Fundamentos e aplicações. Laborgene, 2020. Disponível em: https://www.laborgene.com.br/ fundamentos-da-bioinformatica/. Acesso em: 18 jun. 2020. Big Data e Ciência de Dados https://www.sscc.edu/home/jdavidso/mathadvising/AboutStatistics.html https://www.sscc.edu/home/jdavidso/mathadvising/AboutStatistics.html 52 MARINHO, A. et al. A strategy for provenance gathering in distributed scientific workflows. In: CONGRESS ON SERVICES, 1., 2009, [S. l.]. Proceedings […] [S.l.: s. n.], 2009. p. 344-347. MATOS, D. Big Data e as Oportunidades com Blockchain. Ciência de Dados, 2020. Disponível em: http://www.cienciaedados.com/big-data-e- as-oportunidades-com-blockchain/. Acesso em: 19 jun. 2020. MATTOS, A. et al. Gerência de Workflows Científicos: uma análise crítica no contexto da Bioinformática. São Paulo: [s. n.], 2008. MEDEIROS FILHO, F. C. et al. Bioinformática: Manual do Usuário. Biotecnologia Ciência e Desenvolvimento, Brasília, v. 5, n. 29, p. 12-25. 2002. MICHALSKI, R. S.; CARBONELL, J. G.; MITCHELL, T. M. Machine learning: An artificial intelligence approach. [S. l.]: Springer Science and Business Media, 2013. MOURA C. Aprendizado de Máquina: conceitos e práticas da área que está movendo o mundo. Profissionais IT, 2017. Disponível em: https:// bit.ly/3zViE27. Acesso em: 17 jun. 2020. NIYATO, D. Market Model and Optimal Pricing Scheme of Big Data and Internet of Things (IoT). IEEEXPLORE, [s. d.]. Disponível em: https:// ieeexplore.ieee.org/document/7510922. Acesso em: 18 jun. 2020. O’LEARY, E. ‘Big Data’, The ‘Internet Of Things’ And The ‘Internet of Signs’. Intell. Sys. Acc. Fin. Mgmt., v. 20, p. 53-65. 2013. PAI, V. Big Data new challenges, tools and techniques. IJERME, v. 1, n. 1, p. 1-8. 2016. PAREDES, A. Tendências Big Data 2019 para que o futuro não te pegue de surpresa. IEB School, 2019. Disponível em: https://www. iebschool.com/pt-br/blog/software-de-gestao/big-data/tendencias- big-data-2019-para-que-o-futuro-nao-te-pegue-de-surpresa/. Acesso em: 19 jun. 2020. Big Data e Ciência de Dados 53 PEDROSO C. Big Data e Cloud Computing. Canal Tech, [s. d.]. Disponível em: https://canaltech.com.br/computacao-na-Nuvem/Big- Data-e-Cloud-Computing/. Acesso em: 18 jun. 2020. RATHOREA, U.; AHMAD, A.; PAUL, A. Urban planning and building smart cities based on the Internet of Things using Big Data analytics. Computer Networks, 2016. REINSEL, D.; GANTZ, J.; RYDNING, E. The Digitization of the World: From Edge to Core. Seagate. Seagate, 2018. Disponível em: https://www. seagate.com/files/www-content/ourstory/trends/files/idc-. Acesso em: 19 jun. 2020. ROZA, S. Aprendizagemde máquina para apoio à tomada de decisão em vendas do varejo utilizando registros de vendas. Instituto de Engenharia, 2018. Disponível em: https://www.institutodeengenharia.org. br/site/2018/08/24/big-data-e-o-aprendizado-de-maquina/. Acesso em: 17 jun. 2020. RUSSELL, S.; NORVIG, P. Artificial intelligence – a modern approach. Prentice Hall, v. 2, n. 1, 2003. SALDANHA, V. Bionimbus: uma arquitetura de federação de nuvens computacionais híbrida para a execução de workflows de Bioinformática. Dissertação (Mestrado em Ciência da Computação). UNB. Brasília. 2012. SAVARESE NETO, E. Computação em Nuvem: o que é, como funciona e importância. Disponível em: https://fia.com.br/blog/ computacao-em-Nuvem/. Acesso em: 18 jun. 2020. SOARES, E. Profissão do futuro: bioinformata vive entre bits e células. [S. l.]: Portal IDGNow, 2006. SOUSA, C.; MOREIRA, O. Computação em Nuvem: conceitos, tecnologias, aplicações e desafios. ResearchGate, [s. d.]. Disponível em:ht tps ://www. researchgate .net/prof i le/Javam_Machado/ publ icat ion/237644729_Computacao_em_Nuvem_Concei tos_ Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3. pdf. Acesso em: 17 jun. 2020. Big Data e Ciência de Dados https://www.institutodeengenharia.org.br/site/2018/08/24/big-data-e-o-aprendizado-de-maquina/ https://www.institutodeengenharia.org.br/site/2018/08/24/big-data-e-o-aprendizado-de-maquina/ https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf 54 TAN, N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining, (First Edition). Boston: Addison-Wesley Longman Publishing Co., Inc., 2005. TAN, W. et al. Social-Network-Sourced Big Data Analytics. Internet Computing. IEEE Computer Society, v. 17, n. 5, p. 62-69, 2013. TAURION, C. Big Data. São Paulo: BRASPORT, 2013. THOMPSON, D.; HIGGINS, G. Machine learning e Big Data. Sonda, [s. d.]. Disponível em: https://blog.sonda.com/machine-learning-e-big- data/. Acesso em: 17 jun. 2020. VERLI, H. et al. Bioinformática da Biologia à flexibilidade molecular. GrandAdm, [s. d.]. Disponível em: http://www.gradadm.ifsc.usp.br/ dados/20171/7600011-3/Bioinformatica_1.1.pdf. Acesso em: 18 jun. 2020. ZERBINO, D. et al. Velvet: algorithms for de novo short read assembly using de bruijn graphs. Genome research, Cold Spring Harbor Lab, v. 18, n. 5, p. 821-829. 2008. ZHOUA, L. et al. Machine learning on Big Data: Opportunities and challenges. Neurocomputing, p. 350-361. 2017. Big Data e Ciência de Dados http://www.gradadm.ifsc.usp.br/dados/20171/7600011-3/Bioinformatica_1.1.pdf http://www.gradadm.ifsc.usp.br/dados/20171/7600011-3/Bioinformatica_1.1.pdf _Hlk45888117 Técnicas de Aprendizado de Máquina Abordagem de técnicas gerais de Big Data Entendendo o Aprendizado de Máquina Aprendizagem supervisionada Aprendizagem não supervisionada Técnicas de aprendizado usadas em Big Data Análise preditiva Previsão de demanda Sistemas de recomendação Agrupamento Gerência de Dados e Computação na Nuvem Computação na Nuvem Modelo de implementação Modelos de serviço Computação em Nuvem e Big Data Gerenciamento de dados de Computação em Nuvem Bioinformática Histórico da Bioinformática Workflow de Bioinformática Proveniência de dados em Bioinformática Aplicações da Bioinformática Bioinformata Inovação Tecnológica e Novas Tendências Inovação tecnológica Big Social Data Tecnologia Blockchain Internet das Coisas
Compartilhar