PROCESSAMENTO MASSIVO DE DADOS

•

UAM

5

0

5

0

Felipe Ferreira

26/10/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Processamento de Dados

363 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Felipe dos Santos Alves Ferreira
PROCESSAMENTO MASSIVO DE DADOS

De acordo com o estudo de caso, a empresa Expertise PMD tem como objetivo
aprimorar os seus serviços de gerência e uso de clusters para oferecer uma melhor experiência
aos seus clientes.
Hoje em dia sabemos que os dados de uma empresa são o bem mais precioso para a
companhia. Eles são uma das principais ferramentas utilizadas na tomada de decisões dentro de
uma organização. Eles podem auxiliar a empresa a definir novos investimentos, corte de gastos,
otimizar processos, entre outras operações.
Foi pensando em como é feito o processamento desses dados e de que forma podemos
melhorar o processo que chegamos na questão dos clusters.
Cluster é uma arquitetura de sistema que tem a capacidade de unir vários computadores
com o objetivo de faze-los trabalharem simultaneamente. Cada máquina recebe o nome de
“nó”, e quando agrupados formam um cluster. Dessa forma, a empresa de tecnologia pode
implantar a gerência e uso de recursos em clusters para auxiliar na tomada de decisão, por meio
do processamento massivo dos dados.
Existem duas formas de processamentos quando falamos de clusters, o paralelo e o
distribuído.
Processamento paralelo é uma maneira considerada eficiente de manipular os dados,
tem como objetivo trabalhar com eventos simultaneamente na execução de um programa. Na
prática, é a utilização do uso sincronizado de várias unidades de processamento (CPUs) com o
objetivo de realizar funções computacionais.
Um dos ganhos na utilização do processamento paralelo é que ele pode reduzir as
chances de falha no cálculo, pelo fato de que cada unidade ativa pode calcular o mesmo
problema simultaneamente.
O processamento distribuído é um sistema que interliga vários nós de processamento,
de modo que um processo de grande consumo seja executado no nó que estiver "mais
disponível".
A vantagem do processamento distribuído é o baixo custo, principalmente por conta do
avanço da tecnologia dos microprocessadores, que acabaram resultando na baixa dos preços.
Sendo assim, a implantação de sistemas distribuídos passa a ter um custo menor e também um
melhor desempenho.
Um outro fator importante neste projeto, é entender de que forma os dados serão
armazenados. Dessa forma entramos na questão do armazenamento de dados distribuído.
O armazenamento de dados distribuído é um sistema de arquivos que é salvo em vários
locais diferentes, porém, a visualização para o usuário é a mesma do sistema tradicional. Dessa
forma, o armazenamento de dados distribuídos possui a mesma capacidade de executar vários
dispositivos que estão espalhados pelo o ambiente, que se encontram em um espaço composto
por todos os discos da rede.
Felipe dos Santos Alves Ferreira
As configurações podem variar desde servidores dedicados exclusivamente para o
armazenamento ou através de um computador que pode desempenhar o papel de servidor e
máquina de usuário.
Por fim, a importância do processamento dos dados é um elemento de extrema
importância para o negócio. A forma como iremos processar e armazenar o dado é questão que
precisa ser analisada e bem estruturada, pois pode influenciar de forma importante na tomada
de decisão, números e outras questões da empresa.

Referências bibliográficas

BAKER, M.; BUYYA, R. Cluster computing at a glace, high performance cluster computing:
architectures and systems. Melbourne: Ra jkumar Buyya, 1999.
CHOW, R.; JOHNSON, T. Distributed operating systems and algorithms. Massachusetts:
Addison Wesley Longman, 1998.
COULOURIS, G.; DOLLIMORE, J.; KINDBERG, T. Distributed systems: concepts and design. 4. ed.
Harlow: Addison Wesley Longman, 2005.
ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 4. ed. Campinas: Pearson, 2005.
HORSTMANN, C.; CORNELL, G. Core Java. Campinas: Pearson, 2009.
SILBERSCHATZ, A.; GALVIN, P. B.; GAGNE, G. Applied operating system concepts. New York:
John Wiley & Sons, 2000.
TANENBAUM, A. S. Sistemas operacionais modernos. 3. ed. São Paulo: Campus,1992.
TANENBAUM, A. S.; STEEN, M. V. Distributed systems: principles and paradigms. 2. ed. New
Jersey: Prentice Hall, 2002.
SCHEPKE, C. et al. Panorama de ferramentas para gerenciamento de clusters. III Workshop de
Processamento Paralelo e Distribuído, 2005.
VON NEUMANN, J.; WIENER, N. From mathematics to the tecnologies of life and death.
Cambridge: MIT Press, 1980.