Processamento Massivo de Dados - N1

Data Science

•

UAM

0

W4U

22/12/2023

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.214 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1

PROCESSAMENTO MASSIVO DE DADOS COM CLUSTERIZAÇÃO

Com o avanço da tecnologia e das redes de comunicação, elevou-se o volume de dados
que trafegam na internet gerando a necessidade de um armazenamento e processamento
massivo de dados o famoso Big Data, surge então o uso do processamento paralelo e
distribuído, armazenamento distribuído para dar conta de realizar o processamento dos dados,
assim como se viu a necessidade que na tomada de decisões fosse utilizada a inteligência nos
dados com as diversas técnicas e ferramentas como de BI, mineração de dados, etc.
Para gerenciar o fluxo de processamento utilizaríamos os recursos em clusters, os dados
de um Big Data vêm de diversas fontes e com isso surge a arquitetura Fast Data/Data Lake que
é receber qualquer tipo de dado sem transformação ou com transformação. Para ajudar no
processo de tomada de decisão utilizasse instrumentos analíticos com técnicas de Business
Inteligence para geração de Dashboards, Data Mining para conhecimento através de
processamento orientado a dados via algoritmos implementados em Python e Linguagem R.

Um dos principais conceitos por trás da programação paralela e distribuída, bem como
de sistemas operacionais de modo geral, é o conceito de processo. Processos permitem
a habilidade da operação concorrente em um compu-tador mesmo quando há apenas
uma CPU disponível. A capacidade da CPU de realizar a execução de diversos
processos de forma fragmentada por tempo — a capacidade de realizar trocas de
contexto — permitiu um melhor uso dos recursos da CPU e criou a ilusão de
paralelismo (pseudoparalelismo). O paralelismo real passou a poder ser explorado
com o surgimento de harware com múltiplos processadores e multicore
(TANENBAUM; BOS, 2015).

A adoção dos sistemas de processamento distribuído deve-se a necessidade de um
sistema de alta confiabilidade como por exemplo em sistemas críticos como sistema bancário;
Necessidade de ter um processamento parelho, onde se tem tarefas concomitantes; Necessidade
de um processamento distribuído, onde há uma coordenação de ações em que as mesmas são
distribuídas. Um sistema distribuído tem as características de baixo custo, melhor desempenho,
maior confiabilidade, amplo compartilhamento de tarefas, recursos e maior escalabilidade. A
arquitetura dos clusters utilizam uma estrutura denominada Backbones ou redes de alta
velocidade, tem um protocolo de comunicação próprio, possuem nó ou máquina onde cada uma
compõe um cluster que utiliza a programação paralela.
Diante disso concluímos, o processamento distribuído se tornou importante nas
experiências e projetos modernos, seja de software, aplicativos, serviços de streaming, sites de
comércio eletrônico entre outros que são alimentados por sistemas distribuídos. Esses sistemas
2

sendo centralizados evoluem com maior facilidade e rapidez para sistemas distribuídos para
lidar com o escalonamento.

Referências Bibliográficas

MONTEIRO, Eduarda R.; JUNIOR, Ronaldo C M.; LIMA, Bruno Santos de; et al. Sistemas
Distribuídos. [Digite o Local da Editora]: Grupo A, 2020. E-book. ISBN 9786556901978.
Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9786556901978/. Acesso
em: 07 set. 2023.

COULOURIS, George; DOLLIMORE, Jean; KINDBERG, Tim; et al. Sistemas distribuídos.
[Digite o Local da Editora]: Grupo A, 2013. E-book. ISBN 9788582600542. Disponível em:
https://integrada.minhabiblioteca.com.br/#/books/9788582600542/. Acesso em: 07 set. 2023.

SILBERSCHATZ, Abraham. Sistema de Banco de Dados. [Digite o Local da Editora]: Grupo
GEN, 2020. E-book. ISBN 9788595157552. Disponível em:
https://integrada.minhabiblioteca.com.br/#/books/9788595157552/. Acesso em: 07 set. 2023.

BORDIN, Maycon V.; SERPA, Matheus da S.; BRANDÃO, Daniel dos S.; et al.
Processamento Paralelo e Distribuído. [Digite o Local da Editora]: Grupo A, 2021. E-book.
ISBN 9786556901084. Disponível em:
https://integrada.minhabiblioteca.com.br/#/books/9786556901084/. Acesso em: 08 set. 2023.