Buscar

PROCESSAMENTO MASSIVO DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Felipe dos Santos Alves Ferreira 
PROCESSAMENTO MASSIVO DE DADOS 
 
De acordo com o estudo de caso, a empresa Expertise PMD tem como objetivo 
aprimorar os seus serviços de gerência e uso de clusters para oferecer uma melhor experiência 
aos seus clientes. 
Hoje em dia sabemos que os dados de uma empresa são o bem mais precioso para a 
companhia. Eles são uma das principais ferramentas utilizadas na tomada de decisões dentro de 
uma organização. Eles podem auxiliar a empresa a definir novos investimentos, corte de gastos, 
otimizar processos, entre outras operações. 
Foi pensando em como é feito o processamento desses dados e de que forma podemos 
melhorar o processo que chegamos na questão dos clusters. 
Cluster é uma arquitetura de sistema que tem a capacidade de unir vários computadores 
com o objetivo de faze-los trabalharem simultaneamente. Cada máquina recebe o nome de 
“nó”, e quando agrupados formam um cluster. Dessa forma, a empresa de tecnologia pode 
implantar a gerência e uso de recursos em clusters para auxiliar na tomada de decisão, por meio 
do processamento massivo dos dados. 
Existem duas formas de processamentos quando falamos de clusters, o paralelo e o 
distribuído. 
Processamento paralelo é uma maneira considerada eficiente de manipular os dados, 
tem como objetivo trabalhar com eventos simultaneamente na execução de um programa. Na 
prática, é a utilização do uso sincronizado de várias unidades de processamento (CPUs) com o 
objetivo de realizar funções computacionais. 
Um dos ganhos na utilização do processamento paralelo é que ele pode reduzir as 
chances de falha no cálculo, pelo fato de que cada unidade ativa pode calcular o mesmo 
problema simultaneamente. 
O processamento distribuído é um sistema que interliga vários nós de processamento, 
de modo que um processo de grande consumo seja executado no nó que estiver "mais 
disponível". 
A vantagem do processamento distribuído é o baixo custo, principalmente por conta do 
avanço da tecnologia dos microprocessadores, que acabaram resultando na baixa dos preços. 
Sendo assim, a implantação de sistemas distribuídos passa a ter um custo menor e também um 
melhor desempenho. 
Um outro fator importante neste projeto, é entender de que forma os dados serão 
armazenados. Dessa forma entramos na questão do armazenamento de dados distribuído. 
O armazenamento de dados distribuído é um sistema de arquivos que é salvo em vários 
locais diferentes, porém, a visualização para o usuário é a mesma do sistema tradicional. Dessa 
forma, o armazenamento de dados distribuídos possui a mesma capacidade de executar vários 
dispositivos que estão espalhados pelo o ambiente, que se encontram em um espaço composto 
por todos os discos da rede. 
Felipe dos Santos Alves Ferreira 
 As configurações podem variar desde servidores dedicados exclusivamente para o 
armazenamento ou através de um computador que pode desempenhar o papel de servidor e 
máquina de usuário. 
 Por fim, a importância do processamento dos dados é um elemento de extrema 
importância para o negócio. A forma como iremos processar e armazenar o dado é questão que 
precisa ser analisada e bem estruturada, pois pode influenciar de forma importante na tomada 
de decisão, números e outras questões da empresa. 
 
Referências bibliográficas 
 
BAKER, M.; BUYYA, R. Cluster computing at a glace, high performance cluster computing: 
architectures and systems. Melbourne: Ra jkumar Buyya, 1999. 
CHOW, R.; JOHNSON, T. Distributed operating systems and algorithms. Massachusetts: 
Addison Wesley Longman, 1998. 
COULOURIS, G.; DOLLIMORE, J.; KINDBERG, T. Distributed systems: concepts and design. 4. ed. 
Harlow: Addison Wesley Longman, 2005. 
ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 4. ed. Campinas: Pearson, 2005. 
HORSTMANN, C.; CORNELL, G. Core Java. Campinas: Pearson, 2009. 
SILBERSCHATZ, A.; GALVIN, P. B.; GAGNE, G. Applied operating system concepts. New York: 
John Wiley & Sons, 2000. 
TANENBAUM, A. S. Sistemas operacionais modernos. 3. ed. São Paulo: Campus,1992. 
TANENBAUM, A. S.; STEEN, M. V. Distributed systems: principles and paradigms. 2. ed. New 
Jersey: Prentice Hall, 2002. 
SCHEPKE, C. et al. Panorama de ferramentas para gerenciamento de clusters. III Workshop de 
Processamento Paralelo e Distribuído, 2005. 
VON NEUMANN, J.; WIENER, N. From mathematics to the tecnologies of life and death. 
Cambridge: MIT Press, 1980.

Outros materiais