Baixe o app para aproveitar ainda mais
Prévia do material em texto
Felipe dos Santos Alves Ferreira PROCESSAMENTO MASSIVO DE DADOS De acordo com o estudo de caso, a empresa Expertise PMD tem como objetivo aprimorar os seus serviços de gerência e uso de clusters para oferecer uma melhor experiência aos seus clientes. Hoje em dia sabemos que os dados de uma empresa são o bem mais precioso para a companhia. Eles são uma das principais ferramentas utilizadas na tomada de decisões dentro de uma organização. Eles podem auxiliar a empresa a definir novos investimentos, corte de gastos, otimizar processos, entre outras operações. Foi pensando em como é feito o processamento desses dados e de que forma podemos melhorar o processo que chegamos na questão dos clusters. Cluster é uma arquitetura de sistema que tem a capacidade de unir vários computadores com o objetivo de faze-los trabalharem simultaneamente. Cada máquina recebe o nome de “nó”, e quando agrupados formam um cluster. Dessa forma, a empresa de tecnologia pode implantar a gerência e uso de recursos em clusters para auxiliar na tomada de decisão, por meio do processamento massivo dos dados. Existem duas formas de processamentos quando falamos de clusters, o paralelo e o distribuído. Processamento paralelo é uma maneira considerada eficiente de manipular os dados, tem como objetivo trabalhar com eventos simultaneamente na execução de um programa. Na prática, é a utilização do uso sincronizado de várias unidades de processamento (CPUs) com o objetivo de realizar funções computacionais. Um dos ganhos na utilização do processamento paralelo é que ele pode reduzir as chances de falha no cálculo, pelo fato de que cada unidade ativa pode calcular o mesmo problema simultaneamente. O processamento distribuído é um sistema que interliga vários nós de processamento, de modo que um processo de grande consumo seja executado no nó que estiver "mais disponível". A vantagem do processamento distribuído é o baixo custo, principalmente por conta do avanço da tecnologia dos microprocessadores, que acabaram resultando na baixa dos preços. Sendo assim, a implantação de sistemas distribuídos passa a ter um custo menor e também um melhor desempenho. Um outro fator importante neste projeto, é entender de que forma os dados serão armazenados. Dessa forma entramos na questão do armazenamento de dados distribuído. O armazenamento de dados distribuído é um sistema de arquivos que é salvo em vários locais diferentes, porém, a visualização para o usuário é a mesma do sistema tradicional. Dessa forma, o armazenamento de dados distribuídos possui a mesma capacidade de executar vários dispositivos que estão espalhados pelo o ambiente, que se encontram em um espaço composto por todos os discos da rede. Felipe dos Santos Alves Ferreira As configurações podem variar desde servidores dedicados exclusivamente para o armazenamento ou através de um computador que pode desempenhar o papel de servidor e máquina de usuário. Por fim, a importância do processamento dos dados é um elemento de extrema importância para o negócio. A forma como iremos processar e armazenar o dado é questão que precisa ser analisada e bem estruturada, pois pode influenciar de forma importante na tomada de decisão, números e outras questões da empresa. Referências bibliográficas BAKER, M.; BUYYA, R. Cluster computing at a glace, high performance cluster computing: architectures and systems. Melbourne: Ra jkumar Buyya, 1999. CHOW, R.; JOHNSON, T. Distributed operating systems and algorithms. Massachusetts: Addison Wesley Longman, 1998. COULOURIS, G.; DOLLIMORE, J.; KINDBERG, T. Distributed systems: concepts and design. 4. ed. Harlow: Addison Wesley Longman, 2005. ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 4. ed. Campinas: Pearson, 2005. HORSTMANN, C.; CORNELL, G. Core Java. Campinas: Pearson, 2009. SILBERSCHATZ, A.; GALVIN, P. B.; GAGNE, G. Applied operating system concepts. New York: John Wiley & Sons, 2000. TANENBAUM, A. S. Sistemas operacionais modernos. 3. ed. São Paulo: Campus,1992. TANENBAUM, A. S.; STEEN, M. V. Distributed systems: principles and paradigms. 2. ed. New Jersey: Prentice Hall, 2002. SCHEPKE, C. et al. Panorama de ferramentas para gerenciamento de clusters. III Workshop de Processamento Paralelo e Distribuído, 2005. VON NEUMANN, J.; WIENER, N. From mathematics to the tecnologies of life and death. Cambridge: MIT Press, 1980.
Compartilhar