Prévia do material em texto
Unidade 4 Jéssica Laisa Dias da Silva Alan de Oliveira Santana Big Data e Ciência dos Dados Unidade 4| Introdução Nesta unidade vamos abordar sobre o aprendizado de máquina e suas técnicas, bem como estas podem contribuir no processo de análise de dados e tomada de decisão. Estudaremos ainda sobre gerência de dados por meio da computação na nuvem, sobre a bioinformática juntamente com seus conceitos, características, histórico, aplicações e ainda veremos como esta se relaciona com a ciências dos dados e Big Data. Figura 1 - Máquina. Fonte: Pixabay. Unidade 4| Objetivos 1. Compreender as técnicas de aprendizado de máquina 2. Entender a gerência de dados e computação na nuvem 3. Assimilar o conceito de bioinformática 4. Adquirir noções de inovação tecnológica e novas tendências 1. Técnicas de Aprendizado de Máquinas Conforme Pai (2016), as organizações utilizam algumas técnicas e tecnologias para realizar a manipulação, análise e visualização de Big Data. Estas técnicas surgiram com contribuições dos campos da estatística, ciência da computação, matemática e economia, com algumas idealizadas para lidar especificamente com Big Data e outras foram ajustadas para trabalhar nesse contexto. Figura 2 – Técnicas. Fonte: Pixabay Neste sentido, a contribuição das áreas citadas para a análise em Big Data, precisa de técnicas multidisciplinares para processar com qualidade o grande volume de dados no momento da execução (PAI, 2016). Abaixo será exposto a contribuição de cada área previamente citada: Matemática: utiliza técnicas e fórmulas matemáticas tradicionais com o intuito de resolver problemas relacionados a correlação de dados. Estatística: conjunto de técnicas matemáticas que contribuem com a análise e apresentação de dados. A análise estatística e suas decisões são fundamentadas no entendimento de como o acaso implica em certos eventos ou resultados (KALLA, 2018). Métodos Otimizados: estes se referem a reduzir custos ou aumentar a eficiência da produção. Um algoritmo de otimização é um método que é executado iterativamente fazendo um comparativo com diversas soluções até que se encontre uma ótima ou pelo menos, uma satisfatória (IIT Madras) (PAI, 2016). • Data Mining: A mineração de dados está inserida como parte do processo de Descoberta de Conhecimento em Banco de Dado (KDD – Knowledge Discovery in Databases), o qual, tem por objetivo a seleção dos métodos a serem usados por busca padrões nos dados, seguido da busca por padrões de interesse num modo particular de representação, juntamente com o objetivo pelo melhor ajuste dos parâmetros do algoritmo para atividades que se deseja aplicar (TAN et al., 2005). Machine Learning: conjunto de procedimentos que podem identificar de modo automático, padrões em dados e, em consecutivo, utilizar os padrões descobertos para prever dados futuros ou executar outros tipos de tomadas de decisão (LI et al, 2001). Redes Neurais: trata-se de um paradigma de programação de inspiração biológica que permite um computador aprender a partir de dados observacionais. Processamento de Sinal: tem por objetivo operar, analisar, e deduzir de um sinal, dados que possam ser extraídos de forma útil. Métodos de Visualização: são técnicas utilizadas para elaborar tabelas, imagens, diagramas e outras formas de disponibilização de modo intuitivo para entender os dados. Entendendo de Aprendizado de Máquina Conforme Zhou et al (2017), as técnicas de Machine Learning (Aprendizado de Máquina) promovem grandes impactos em uma variedade de aplicações na computação, tais como: processamento, compreensão de linguagem natural, neurociência e Internet das Coisas. Figura 3 – Aprendizado de Máquina. Fonte: Pixabay As técnicas de aprendizado de máquina possibilitam aos usuários a realização de previsões através de grandes volumes de dados. Esses por sua vez, ajudam o desenvolver através de algoritmos eficientes, o qual, está sendo responsáveis por fornecer um grande potencial e ser uma parte essencial da análise de Big Data (GANTZ, 2012). O aprendizado indutivo pode ser dividido em três tipos: aprendizado supervisionado, aprendizado não supervisionado e aprendizado semi- supervisionado. Desta forma, a classificação está relacionada com os métodos adotados no processo de generalização do conhecimento (MONARD e BARANAUSKAS, 2003). 2. Gerência de Dados e Computação na Nuvem A computação em nuvem pode ser conceituada como um modelo que possibilita acesso por demanda a um agrupamento de elementos computacionais que podem ser configuráveis, como CPU, armazenamento e memória. Estes, por sua vez, podem ser disponibilizados de modo rápido com o mínimo esforço de gerenciamento ou assistência do provedor da nuvem (MELL; GRANCE, 2009). Figura 4 – Computação em Nuvem. Fonte: Pixabay A nuvem é uma metáfora para a internet ou infraestrutura de comunicação entre os elementos arquiteturais, fundamentado em uma abstração que esconde à complexidade de infraestrutura (BUYYA et al. 2009). Desta maneira, parte dessa infraestrutura é tida como um serviço e estes são geralmente alocados em centros de dados, usando hardwares compartilhados para computação e armazenamento (BUYYA et al. 2009). Os diferentes tipos de modelos de implantação de nuvens são: nuvem pública, privada, comunidade e híbrida. Outro aspecto importante para destacar na computação em nuvem, são os modelos de serviços que ajudam a atender às demandas de serviços conforme os padrões e características, assim, criou-se uma série de modelos de serviço de Cloud. Os principais modelos segundo Pedroso (2014) são: SaaS, PaaS e IaaS. Gerenciamento de Dados de computação em Nuvem Temos que destacar o fator do gerenciamento de dados ser considerado um ponto crítico no aspecto de computação em nuvem devido os SGBDs relacionais não possuírem escalabilidade quando milhares de sítios são considerados (WEI et al., 2009). Figura 5 – Banco de Dados. Fonte: Pixabay Dessa forma, elementos de armazenamento de dados, processamento de consultas e gerência transacional, tem se tornado mais flexíveis para algumas abordagens, de modo a garantir a escalabilidade, porém, ainda não há soluções que juntem estes elementos de modo a melhorar o desempenho sem implicar a consistência dos dados (ABADI, 2009). Nesse contexto, diversas abordagens surgem para gerenciar dados em nuvens, dentre as quais podemos citar o Microsoft Azure e HBase (BRANTNER et al., 2008). Um ponto importante é o trade-off entre às funções e custos operacionais enfrentados pelos provedores de serviços., o qual, destaca-se os serviços em nuvem para dados que disponibilizem APIs que contém mais restrições do que os SGBD relacionais, com uma linguagem minimalista de consulta e promovendo a garantia de consistência limitada (ABOUZEID et al., 2009). Segundo Armbrust et al. (2009), a construção de um sistema de armazenamento que junta os vários recursos de computação em nuvem de modo a ampliar a escalabilidade, a disponibilidade e consistência dos dados, é um problema de campo aberto para estudos e pesquisa. Assim, temos os SGBDs em nuvem que surgiram para serem usados como atrativo para chamar clientes de vários setores do mercado, desde pequenas empresas com o intuito de minimizar o custo total, através da utilização de infraestrutura e sistemas de terceiros, como até grandes empresas que sempre buscam soluções para gerenciar suas grandes quantidades de máquinas e possibilitar o atendimento de um aumento inesperado de tráfego (ABADI, 2009). No contexto para melhorar o gerenciamento e minimizar os custos, as aplicações de Big Data têm usado ambientes de Cloud Computing ou Computação em Nuvem (AGRAWAL et al., 2011). Estes ambientes possibilitam que as empresas e pessoas aluguem capacidade de computação e armazenamento sob demanda e com pagamento com base na utilização, em vez de fazerem grandes investimentos de capital necessáriospara a construção e instalação de equipamentos de computação em larga escala (SOUSA et al., 2010). 3. Bioinformática Temos a bioinformática sendo uma área multidisciplinar envolvendo as áreas de engenharia de softwares, matemática, estatística, ciência da computação e a biologia molecular, o qual, necessita de sistemas computacionais robustos, bem como, profissionais qualificados e especializados (CAMARGO FILHO et al., 2002). Figura 6 – Trabalho Junto a Gestão. Fonte: Pixabay Lorenzoni (2019) Descreve algumas funções da bioinformática, apresentadas abaixo: A implementação de novos algoritmos e estatísticas; Análise e interpretação de diversos tipos de dados biológicos; Desenvolvimento e idealização de ferramentas que possibilitem o acesso e gerenciamento eficazes de variados tipos de informações. De modo geral, podemos destacar que os objetos de estudo relacionados a bioinformática são vários e sequências de biomoléculas, o qual, incluem: comparações entre sequências (alinhamento); identificação de padrões em sequências (assinaturas); caracterização de relações evolutivas (filogenia); construção e anotação de genomas; construção de redes (biologia de sistemas); obtenção de modelos 3D para proteínas e outras biomoléculas (por exemplo, modelagem comparativa); Identificação do modo de interação de moléculas (atracamento); seleção de compostos com maior potencial de inibição (atracamento); caracterização da flexibilidade molecular (dinâmica molecular); avaliação do efeito de mudanças na estrutura e ambiente molecular na dinâmica e função de biomoléculas (dinâmica molécula). Segundo de Paula (2012), oferecer a proveniência de dados em projetos de Bioinformática, exige uma solução que possibilite armazenar a ligação entre os dados processados, combinando-os com as informações das execuções de cada processo e de seus resultados. A definição tratada por Buneman et al. (2001) apresenta o termo proveniência como ”linhagem” ou ”pedigree” que se refere o histórico de como aquele dado foi criado ou derivado. Isto implica em relatar que o significado de proveniência é a origem ou procedência. Aplicações da Bioinformática Assim, podemos destacar no campo da bioinformática algumas aplicações e suas contribuições, o qual, estão descritas conforme Lorenzoni (2019): Aplicada na área agrícola: A bioinformática vem sendo adotada em pesquisas agrícolas por conta da seu grande volume de dados inerentes as diferentes culturas. Figura 7 – Bioinformata. Fonte: Pixabay Genética comparativa: A genética comparativa consiste em avaliar planta modelo e planta não modelo. As espécies podem revelar uma organização de seus genes, uma em relação à outra, que é usada para transferir informações dos sistemas de plantas modelo para outras culturas alimentares. Fontes de energias renováveis: é sabido que um dos melhores meios para obter energia é a biomassa vegetal, como exemplos temos o milho, cana, entre ouras. Através das ferramentas de bioinformática é possível detectar variações nas sequências associadas a fenotipagem e que possam identificar genótipos superiores para maximizar a produção de biomassa. Melhoramento de plantas: ajuda a compreender a base genética e molecular de todos os processos biológicos nas plantas. Isso é importante pois possibilita a exploração eficaz de plantas como recursos biológicos no desenvolvimento de novas culturas com melhor qualidade e custos econômicos em ambientais reduzidos. Melhoramento para qualidade nutricional: um dos exemplos mais clássicos de alimentos biofortificados é o arroz dourado, o qual, foi enriquecido com beta caroteno que no organismo é facilmente convertido para vitamina A. Fitopatologia: a bioinformática possibilitou o mapear de todo o genoma de muitos organismos, contribuindo dessa forma com o entendimento da arquitetura genética de microrganismos e patógenos para verificar como esses afetam a planta hospedeira, usando a abordagem meta genômica e transcriptômica. Neste contexto da bioinformática e seus objetos de estudos, surge outro tipo de profissional: o bioinformata. Esse deve ter a habilidade e competência de identificar os problemas biológicos e solucioná-los através do uso de ferramentas computacionais (SOARES, 2006). 4. Inovação Tecnológica E Novas Tendências Com a grande produção de dados e novas tecnologias sendo desenvolvidas, as técnicas de Big Data e Ciências de Dados acabam crescendo e contribuindo para estes avanços. Muitos especialistas relatam que o Big Data pode trazer grandes mudanças de contexto econômico e social. Figura 8 – Inovação Tecnológica. Fonte: Pixabay Podemos citar algumas tendências tecnológicas relatas por Paredes (2019): Os sistemas de armazenamento distribuído NoSQL são tendências de crescimento devido serem tão importantes para grandes necessidades de dados e infraestrutura, como para empresas como Google, Amazon e Facebook. Os bancos de dados com processamento baseado em GPUs (Unidade de Processamento Gráfico) que estimulam o cálculo de informações em massa e ajudam a minimizar os tempos de treinamento de modelos e projetos de aprendizado de máquina. Os chatbots que possibilitam responder a consultas e executar ações prática e de modo automático e através de uma linguagem natural. Inovação Tecnologia Segundo Amaral (2016), algumas inovações importantes que o Big Data vem fornecendo as suas aplicações é a capacidade de tornar os processos produtivos mais eficientes, com custos reduzidos, produtividade e intervalos de paradas não programadas menores. Figura 9 – Inovação Tecnologia. Fonte: Pixabay. No campo da administração, o Big Data possibilita um ganho no campo de fraudes, onde fornece a redução delas ao reduzir os passivos judiciais e a verificação do pagamento de impostos. O Big Data também vem gerando modificação no relacionamento das empresas com seus fornecedores e parceiros comerciais (AMARAL, 2016). O volume, a velocidade e a capacidade de processar os dados de diversas fontes, criam grandes desafios, dispersos ou combinados, a serem superados ligados ao armazenamento, processamento, visualização e análise dos dados. Número do slide 1 Unidade 4| Introdução Unidade 4| Objetivos 1. Técnicas de Aprendizado de Máquinas Número do slide 5 Número do slide 6 Número do slide 7 Número do slide 8 Número do slide 9 Entendendo de Aprendizado de Máquina Número do slide 11 2. Gerência de Dados e Computação na Nuvem Número do slide 13 Número do slide 14 Gerenciamento de Dados de computação em Nuvem Número do slide 16 Número do slide 17 Número do slide 18 Número do slide 19 3. Bioinformática Número do slide 21 Número do slide 22 Número do slide 23 Aplicações da Bioinformática Número do slide 25 Número do slide 26 Número do slide 27 4. Inovação Tecnológica E Novas Tendências Número do slide 29 Inovação Tecnologia Número do slide 31