Tolerância a Falhas em Sistemas Distribuídos

Humanas / Sociais

Estude com resumos

em 22/05/2023

Conteúdos escolhidos para você

59 pág.

3

ESTÁCIO

7 pág.

SEGURANÇA CIBERNÉTICA

ESTÁCIO

99 pág.

SISTEMAS DISTRIBUIDOS - SAGAH

UNOPAR

27 pág.

Objetivos e Tipos de Sistemas Distribuídos

UNIP

34 pág.

Unidade VI - Teorico

ESTÁCIO

Perguntas dessa disciplina

Questão Em abril de 2024, o chatbot Grok, desenvolvido pela empresa xAI (de Elon Musk) e integrado à plataforma X (antigo Twitter), gerou polêmica...

UAM

TEXTO 1 Em abril de 2024, o chatbot Grok, desenvolvido pela empresa xAI (de Elon Musk) e integrado à plataforma X (antigo Twitter), gerou polêmica ao

Modelagem de sistema é o processo de desenvolvimento de modelos abstratos de um sistema, em que cada modelo apresenta uma visão ou perspectiva, dif...

MULTIVIX

Digitais Data de início: 31/07/2025 15:03 Prazo máximo entrega: 31/07/2025 16:03 0:08:19 Questão 2/10 Comunicações Digitais Muitas dos protocolos. ...

Questão 6/10 - Redes de Computadores Ler em voz alta Uma das tarefas realizadas pelo protocolo TCP é o controle de fluxo, que irá garantir que os term

IFRO

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

59 pág.

3

ESTÁCIO

7 pág.

SEGURANÇA CIBERNÉTICA

ESTÁCIO

99 pág.

SISTEMAS DISTRIBUIDOS - SAGAH

UNOPAR

27 pág.

Objetivos e Tipos de Sistemas Distribuídos

UNIP

34 pág.

Unidade VI - Teorico

ESTÁCIO

Perguntas dessa disciplina

Questão Em abril de 2024, o chatbot Grok, desenvolvido pela empresa xAI (de Elon Musk) e integrado à plataforma X (antigo Twitter), gerou polêmica...

UAM

TEXTO 1 Em abril de 2024, o chatbot Grok, desenvolvido pela empresa xAI (de Elon Musk) e integrado à plataforma X (antigo Twitter), gerou polêmica ao

Modelagem de sistema é o processo de desenvolvimento de modelos abstratos de um sistema, em que cada modelo apresenta uma visão ou perspectiva, dif...

MULTIVIX

Digitais Data de início: 31/07/2025 15:03 Prazo máximo entrega: 31/07/2025 16:03 0:08:19 Questão 2/10 Comunicações Digitais Muitas dos protocolos. ...

Questão 6/10 - Redes de Computadores Ler em voz alta Uma das tarefas realizadas pelo protocolo TCP é o controle de fluxo, que irá garantir que os term

IFRO

Prévia do material em texto

SISTEMAS DISTRIBUÍDOS
CAPÍTULO 8 – TOLERÂNCIA A FALHAS
Slides cedidos pela professora Aline 
Nascimento
RESILIÊNCIA DE PROCESSO – DETECÇÃO DE FALHAS
 Para mascarar falhas é preciso primeiramente detectá-las
 Detecção de falhas pode ser resumida da seguinte forma:
 Dado um grupo de processos, membros não faltosos devem ser 
capazes de decidir quem ainda é um membro e quem não é
 Ou seja, detectar quando um membro falhou
 Existem dois mecanismos para detecção:
 Processos enviam ativamente mensagens uns aos outros 
perguntando: Você está vivo?
 Ou esperam passivamente pela entrada de mensagens de 
processos diferentes
RESILIÊNCIA DE PROCESSO – DETECÇÃO DE FALHAS
 Em essência, falhas são detectadas através de mecanismos 
de temporizadores
 Definir temporizadores de maneira eficiente é muito difícil e 
depende da aplicação
 É difícil distinguir falhas dos processos das falhas da rede
 Possível solução
 Considerar possíveis notificações de falhas entre os membros 
do sistema  Algoritmos de Gossiping, anunciam regularmente 
que estão vivos
COMUNICAÇÃO CONFIÁVEL CLIENTE-SERVIDOR
 Ao se tratar falhas, também devem ser consideradas as 
falhas de comunicação
 Canais de comunicação podem exibir falhas por queda, por 
omissão, de temporização e arbitrárias
 Na construção de canais de comunicação o objetivo principal 
é mascarar falhas por queda e omissão
 Falhas arbitrárias podem ocorrer sob a forma de mensagens 
duplicadas
COMUNICAÇÃO PONTO A PONTO
 Em sistemas distribuídos, a comunicação confiável ponto a 
ponto é estabelecida pelo uso de um protocolo de transporte 
confiável  como TCP
 TCP mascara falhas por omissão, que ocorrem sobre a 
forma de mensagens perdidas, usando reconhecimento e 
retransmissão
 TCP não mascara falhas por queda  conexão interrompida 
abruptamente
 O único modo de mascarar tais falhas é permitindo que o SD 
reestabeleça a conexão através do reenvio de um pedido de 
conexão, que implica que o outro lado se recuperou
COMUNICAÇÃO PONTO A PONTO - RPC
 Chamadas de procedimento remoto (RPC) têm como 
objetivo ocultar comunicação
 Uma RPC faz com que chamadas de procedimentos 
remotos pareçam exatamente como locais
 Se não existem erros, o RPC desempenha bem seu papel
 O problema é quando surgem erros:
 Neste caso, as diferenças entre chamadas locais e remotas 
não são fáceis de se mascarar
COMUNICAÇÃO PONTO A PONTO - RPC
 Cinco classes diferentes de falhas podem ocorrer em um 
sistema com RPC:
1. O cliente não consegue localizar o servidor
2. A mensagem de requisição do cliente para o servidor se perde
3. O servidor cai após receber uma requisição
4. A mensagem de resposta do servidor para o cliente se perde
5. O cliente cai após enviar uma requisição
 Cada uma dessas falhas apresenta problemas diferentes e 
requer soluções diferentes
COMUNICAÇÃO PONTO A PONTO - RPC
 Cliente não consegue localizar servidor:
 O cliente pode não localizar um servidor adequado
 Por exemplo, na atualização de apêndices, o apêndice de cliente 
não é atualizado
 O erro pode ativar uma exceção para permitir seu tratamento e 
emitir uma resposta  programador programa a exceção
 Nem todas linguagens suportam exceções
 A transparência é destruída pois o programador tem que tratar 
a falha de chamar a um procedimento remoto
COMUNICAÇÃO PONTO A PONTO - RPC
 Mensagem de requisição do cliente para o servidor se perde:
 É o erro mais fácil de se tratar: basta fazer um temporizador ao 
enviar a requisição
 Se o temporizador expirar antes do recebimento da resposta de 
reconhecimento, a mensagem é reenviada
 Se a mensagem foi realmente perdida, o servidor não 
conseguirá perceber a diferença entre a retransmissão e a 
mensagem original  tudo funcionará bem
 Se a requisição não foi perdida  permitir que o servidor detecte 
que está recebendo uma retransmissão
COMUNICAÇÃO PONTO A PONTO - RPC
 Quedas do servidor
 O temporizador do cliente não possui discernimento entre os 
2 casos de falha 
 Em (b) o sistema deve informar a falha ao cliente (exceção)
 Em (c) o cliente pode apenas retransmitir a requisição
COMUNICAÇÃO PONTO A PONTO - RPC
 Quedas do servidor
 Há três linhas de pensamento sobre o que fazer
1. Semântica ao menos uma vez
 Garante que a RPC seja executada ao menos uma vez, mas 
possivelmente mais de uma
2. Semântica no máximo uma vez
 Garante que a RPC seja executada no máximo uma vez, mas 
possivelmente nenhuma
3. Não garantir nada
 Infelizmente não é possível fazer uma semântica 
exatamente uma vez
COMUNICAÇÃO PONTO A PONTO - RPC
 Situações possíveis na ocorrência de uma queda do servidor
 Exemplo: O cliente tenta imprimir um documento
 Cliente envia requisição, recebe uma mensagem de 
reconhecimento do servidor
 Servidor pode enviar uma mensagem de conclusão ao cliente
 Antes de acionar a impressora ou depois do texto ter sido impresso
 Considere que 3 eventos podem ocorrer no servidor
 M  enviar mensagem de conclusão
 P  imprimir o texto
 C  cair
COMUNICAÇÃO PONTO A PONTO - RPC
 Com duas estratégias para o servidor e quatro para o 
cliente, existem oito possíveis combinações a considerar
 Nenhuma satisfatória!
COMUNICAÇÃO PONTO A PONTO - RPC
 Mensagens de resposta perdidas:
 A mensagem é entregue, mas a resposta não
 É feito como nas mensagens de requisição perdidas: é feito um 
temporizador ajustado pelo SO do cliente
 Se o temporizador expirar antes do recebimento da resposta de 
reconhecimento, a mensagem é reenviada
 O que torna mais difícil é que o cliente não sabe com certeza o 
motivo da ausência de resposta: a requisição ou a resposta se 
perderam, ou é lentidão do servidor?
COMUNICAÇÃO PONTO A PONTO - RPC
 Mensagens de resposta perdidas:
 Pedidos idempotentes podem ser executados mais de uma vez 
sem problemas, mas nem todos o são
 Solução:
 Cliente gera um número de sequência a cada requisição
 Se o servidor monitorar o número de sequência mais recentemente 
recebido de cada cliente, poderá distinguir entre uma requisição 
original e uma retransmissão 
 O servidor poderá se recusar a executar qualquer requisição uma 
segunda vez
COMUNICAÇÃO PONTO A PONTO - RPC
 Quedas de cliente:
 O que acontece se um cliente enviar uma requisição de serviço 
a um servidor e cair antes de o servidor responder?
 Neste caso, existe uma computação ativa e nenhum pai está 
esperando o resultado  processo órfão
 Processos órfãos podem interferir com a operação normal do 
sistema
 Desperdício de CPU, travar arquivos e amarrar recursos valiosos
 Além disso, se o RPC cliente for reiniciado e executar novamente a 
RPC, mas a resposta voltar logo em seguida, pode haver confusão
COMUNICAÇÃO PONTO A PONTO - RPC
 Quedas de cliente: O que fazer com órfãos?
1. Extermínio de órfão
 Manter registro da RPC no disco  Após uma reinicialização o 
registro é verificado  Se existe órfão, estes são eliminados
 Vários acessos a disco deterioram o desempenho
 Órfãos podem gerar novas RPCs, gerando netos órfãos, etc.
2. Reencarnação
 O tempo é dividido em épocas sequenciais numeradas. 
 Ao ser reiniciado, o cliente envia broadcast declarando início de 
nova época. TODAS as computações remotas em nome dele são 
removidas
COMUNICAÇÃO PONTO A PONTO - RPC
 Quedas de cliente: O que fazer com órfãos?
3. Reencarnação Gentil
 A reencarnação gentil apenas remove as computações se não 
puder localizar os seus proprietários
4. Expiração
 É dado um tempo padrão T para cada RPC 
 Se ela não puder terminar, deve solicitar novo quantum. Caso não 
encontre o cliente, não há a quem solicitar o quantum, e o 
processo é removido.
 Se um órfão obteve um lock em um ou mais arquivos ou registros 
da base de dados  Se o órfão é subitamente eliminado, esses 
bloqueios podem permanecer para sempre.
COMUNICAÇÃO CONFIÁVEL DE GRUPO
 Tem como objetivo garantir entrega a todos os membrosem 
um grupo de processos
 Multicast através de unicasts confiáveis requer que cada 
processo estabeleça conexão ponto-a-ponto com os que se 
quer trabalhar
 Desperdício de largura de banda
 Entretanto se o número de processos for pequeno esta é uma 
solução simples
COMUNICAÇÃO CONFIÁVEL DE GRUPO
 Para implementar o multicast confiável, deve-se definir:
 Se um processo que acabou de entrar em um grupo deve 
receber uma mensagem enviada antes de sua entrada?
 Se um processo que acabou de sair de um grupo deve receber 
uma mensagem enviada antes de sua saída?
 Distinguir entre comunicação confiável que:
 Considera presença de processos faltosos
 Considera que processos funcionam corretamente
COMUNICAÇÃO CONFIÁVEL DE GRUPO
COMUNICAÇÃO CONFIÁVEL DE GRUPO
 Um problema apresentado é a implosão de retorno, que 
pode lotar o remetente com mensagens de confirmação de 
recebimento
 Solução: Não confirmar recebimento, mas apenas devolver 
respostas quando detectar faltas
 Neste caso, o remetente será forçado a manter uma 
mensagem em seu buffer de histórico para sempre!
 Mensagens podem ser apagadas para evitar que o buffer 
transborde  mas pode resultar que uma retransmissão não 
ser honrada
MULTICAST ATÔMICO
 Para multicast confiável na presença de falhas de 
processos, deseja-se:
 Que a mensagem seja entregue a todos os processos ou 
nenhum deles
 Mensagens são entregues na mesma ordem em todos os 
processos
 Este problema é conhecido como Multicast Atômico
 Útil para garantir consistência em réplicas de bancos de dados
MULTICAST ATÔMICO
 Exemplo: Banco de Dados replicado
 Banco de dados é construído como um grupo de processos, um 
processo para cada réplica
 Operações de atualização são enviadas em multicast a todas 
as réplicas
 Suponha que durante a execução de uma das atualizações de 
uma sequência, uma réplica caia
 Quando a réplica se recupera é essencial que seja atualizada 
em relação as outras réplicas
MULTICAST ATÔMICO
 Exemplo: Banco de Dados replicado
 A operação de atualização que foi enviada a todas as réplicas 
um pouco antes de uma delas cair ou é executada em todas as 
réplicas não faltosas ou em nenhuma
 A atualização é realizada se as réplicas restantes concordarem 
que a réplica que caiu não pertence mais ao grupo
 Após a recuperação, a réplica é validada como sendo do grupo 
e recebe as atualizações
 O registro de uma réplica no grupo só é aceito se a réplica se 
atualizar com o grupo
MULTICAST CONFIÁVEL – ORDENAÇÃO DE MENSAGENS
 São distinguidas quatro ordenações diferentes:
 Multicasts não ordenados
 Multicasts ordenados em FIFO
 Multicasts ordenados por causalidade
 Multicast Totalmente ordenados
MULTICAST CONFIÁVEL – ORDENAÇÃO DE MENSAGENS
 Multicasts não ordenados
 Não são dadas garantias quanto à ordem na qual as 
mensagens recebidas são entregues aos diferentes processos
MULTICAST CONFIÁVEL – ORDENAÇÃO DE MENSAGENS
 Multicasts ordenados em FIFO
 Camada de comunicação é forçada a entregar as mensagens 
que chegam do mesmo processo na mesma ordem em que 
elas foram enviadas
MULTICAST CONFIÁVEL – ORDENAÇÃO DE MENSAGENS
 Multicasts ordenados por causalidade
 Entrega de mensagens de modo que a potencial causalidade 
entre mensagens diferentes seja preservada
 Se m1 precede uma outra mensagem m2 por causalidade, 
independentemente de terem sido enviadas por processos 
diferentes, a camada de aplicação sempre entregará m2 após 
ter recebido e entregado m1
 Multicasts totalmente ordenados
 Significa que as mensagens devem ser entregues na mesma 
ordem a todos os membros do grupo
MULTICAST CONFIÁVEL – ORDENAÇÃO DE MENSAGENS
COMPROMETIMENTO DISTRIBUÍDO
 É um problema que envolve a realização de uma operação 
por cada membro de um grupo de processos ou por 
absolutamente nenhum
 No caso do multicast confiável  a operação é a entrega de 
uma mensagem
 Costuma ser estabelecido por um coordenador
 O coordenador informa aos demais processos que estão 
envolvidos, se eles devem ou não realizar a operação em 
questão  protocolo de comprometimento de uma fase
COMPROMETIMENTO DISTRIBUÍDO
 Protocolo de comprometimento de 1 fase
 Se um dos participantes não puder executar a operação, não 
tem como avisar ao coordenador
 Protocolo de comprometimento 2 fases
 Este esquema é o mais comum, solucionando o problema 
anterior
 Não manipula com total eficiência a falha do coordenador
 Protocolo de comprometimento 3 fases
 Um esquema mais complicado que surgiu para lidar de maneira 
mais eficiente com as falhas do coordenador
PROTOCOLO DE COMPROMETIMENTO DE 2 FASES
1. Coordenador envia VOTE_REQUEST a todos os participantes
2. Participante responde com VOTE_COMMIT se preparado 
para comprometer localmente, ou VOTE_ABORT se não 
estiver preparado
3. O Coordenador recebe os votos dos participantes e envia 
uma mensagem multicast:
 GLOBAL_COMMIT se todos concordarem, ou GLOBAL_ABORT 
se um ou mais recusarem
4. Cada participante espera a resposta do coordenador: 
 Caso receba GLOBAL_COMMIT, compromete localmente a 
transação, caso receba GLOBAL_ABORT, aborta a transação
PROTOCOLO DE COMPROMETIMENTO DE 2 FASES
 A primeira fase é a fase da votação  etapas 1 e 2
 A segunda fase é a fase de decisão  etapas 3 e 4
PROTOCOLO DE COMPROMETIMENTO DE 2 FASES
 Surgem alguns problemas em um sistema com falhas
 No diagrama de estados  existem 3 estados nos quais o 
coordenador ou um participante podem ficar bloqueados a 
espera de mensagens
 O protocolo pode falhar quando um processo cai  espera 
indefinida por mensagens  solução é usar temporizador
PROTOCOLO DE COMPROMETIMENTO DE 2 FASES
 O participante está bloqueado em INIT  após certo tempo 
esperando a mensagem  participante decide abortar e envia 
VOTE_ABORT ao coordenador
 O coordenador pode estar bloqueado em WAIT  após certo 
tempo esperando votos dos participantes  coordenador decide 
abortar enviando GLOBAL_ABORT
PROTOCOLO DE COMPROMETIMENTO DE 2 FASES
 O participante está bloqueado em READY  após certo tempo 
esperando a mensagem do voto global do coordenador 
participante não pode abortar
 Neste caso, o participante deve procurar saber qual foi a decisão do 
coordenador
 A solução mais simples é deixar que cada participante bloqueie até a 
recuperação do coordenador
PROTOCOLO DE COMPROMETIMENTO DE 2 FASES
 Em caso de falha do coordenador, os participantes podem 
tomar decisões baseadas no estado dos demais 
participantes:
RECUPERAÇÃO
 Ocorrida uma falha, é necessário não apenas identificá-la, 
mas recuperar-se da mesma e voltar para um estado correto
 Essencialmente existem 2 maneiras de se recuperar:
 Recuperação retroativa (Backward Recovery)
 Volta para um estado anterior à falha
 Recuperação para frente (Forward Recovery)
 Tenta levar o sistema para um novo estado correto para que possa 
continuar a executar
RECUPERAÇÃO
 Recuperação retroativa (Backward Recovery)
 Retorna o sistema a algum estado que antes estava correto, 
continuando a execução após a recuperação.
 É necessário gravar o estado do sistema de tempos em tempos
 Toda vez que o estado do sistema é registrado, diz-se que foi feito 
um ponto de verificação  checkpointing
 Sempre que ocorre uma falha o estado do sistema é restaurado 
para o momento do último ponto de verificação
 Checkpoints podem ser mecanismos caros
 Em alguns casos não é possível retroagir a um estado sem erros
RECUPERAÇÃO
 Recuperação para frente (Forward Recovery)
 Quando o sistema falha ao invés de retroagir para um estado 
anterior, é feita uma tentativa para levar o sistema para um 
novo estado correto
 É preciso saber de antemão quais erros podem ocorrer
 Tendo conhecimento de todos os erros e como levar o sistema 
para um estado correto, é possível recuperar totalmente o 
sistema
RECUPERAÇÃO
 Muitos sistemas combinampontos de verificação 
(checkpointing) com registro de mensagens
 No caso do uso isolado de pontos de verificação, os processos 
são restaurados para o ponto antes da falha e o 
comportamento pode ser diferente após a recuperação 
 Mensagens podem ser entregues em ordenação diferente
 No caso do registro de mensagens, o comportamento é 
reproduzido do mesmo modo entre o ponto de recuperação e o 
ponto em que ocorreu a falha
RECUPERAÇÃO
 Armazenamento Estável
 Para recuperar um estado anterior, é necessário que 
informações necessárias para permitir a recuperação estejam 
seguramente armazenadas
 Segurança neste contexto significa que informações de 
recuperação sobrevivam a quedas de processos e falhas de 
sites, e possivelmente também a falhas de mídia de 
armazenamento
RECUPERAÇÃO
 Tipos de Armazenamento Estável:
1. Armazenamento em memória RAM é perdido se há falta de 
energia elétrica ou se a máquina falhar
2. Armazenamento em disco sobrevive a falhas na CPU mas é 
perdido em falhas no disco
3. Armazenamento num par de discos só não sobrevive a 
terremotos e inundações 
 Cada bloco de um disco possui uma cópia exata no outro
 Dados atualizados são verificados e atualizados no primeiro disco, 
e depois o mesmo é feito no seguinte
RECUPERAÇÃO – PONTOS DE VERIFICAÇÃO
 A recuperação retroativa de erros requer que o sistema 
salve periodicamente seu estado em armazenamento 
estável  snapshot (fotografia)
 Fotografia Distribuída: Registro de um estado global 
consistente
 Em uma fotografia distribuída, se um processo P tiver 
registrado o recebimento de uma mensagem, então também 
deve existir um processo Q que registrou o envio desta 
mensagem
RECUPERAÇÃO – PONTOS DE VERIFICAÇÃO
 Cada processo salva seu estado periodicamente em um 
armazenamento estável disponível localmente
 A recuperação após uma falha de processo ou de sistema 
requer a construção de um estado global consistente com 
base nesses estados locais
 Melhor alternativa é recuperar a fotografia mais recente, 
denominada linha de recuperação
 Linha de recuperação corresponde ao mais recente conjunto 
consistente de pontos de verificação 
RECUPERAÇÃO – PONTOS DE VERIFICAÇÃO
PONTOS DE VERIFICAÇÃO INDEPENDENTES
 Descobrir uma linha de recuperação requer que cada 
processo seja revertido a seu estado salvo mais recente
 Se, em conjunto, os estados locais não formam uma 
fotografia distribuída, é preciso reverter ainda mais para trás.
 O processo de reversão em cascata pode resultar no efeito 
dominó
 A utilização de pontos de verificação independentes dificulta 
o cálculo de uma linha de recuperação
PONTOS DE VERIFICAÇÃO INDEPENDENTES
PONTOS DE VERIFICAÇÃO COORDENADOS
 Todos os processos sincronizam para escrever, em 
conjunto, seu estado para armazenamento local
 A principal vantagem do uso de pontos de verificação 
coordenados é que
 O estado salvo é globalmente consistente, evitando as 
reversões em cascata que levam ao efeito dominó
PONTOS DE VERIFICAÇÃO COORDENADOS
 Solução Simples:
1. Coordenador envia uma mensagem multicast 
CHECKPOINT_REQUEST a todos os processos
2. Quando o processo recebe esta mensagem
 estabelece um ponto de verificação local 
 enfileira qualquer mensagem que está sendo entregue a ele pela 
aplicação
 envia uma mensagem de reconhecimento ao coordenador 
indicando que estabeleceu o ponto de verificação
3. Após receber todos os acks, o coordenador envia uma 
mensagem multicast CHECKPOINT_DONE 
RESUMO
 Tolerância a falha é uma questão importante no projeto de 
sistemas distribuídos
 Característica pela qual um sistema pode mascarar a 
ocorrência e a recuperação de falhas
 Vários tipos de falha podem ocorrer em um SD:
 Falha por queda, por omissão, temporização, falha de resposta, 
arbitrárias
 Redundância é a técnica fundamentalmente necessária para 
conseguir tolerância a falhas
RESUMO
 Estratégias para Tolerância a Falhas
 Replicação de processos em grupos 
 Grupos podem ser simples (todos processos tomam decisões da 
mesma maneira ) ou hierárquicos (coordenador gerencia)
 Grupos de processos muitas vezes precisam chegar a um acordo 
Muitas vezes conseguir um acordo é difícil
 Comunicação Confiável Cliente-Servidor
 Comunicação Confiável de Grupo
 Comprometimento Distribuído
 Envolve a realização de uma operação por cada membro de um 
grupo de processos ou por absolutamente nenhum
RESUMO
 Recuperação em sistemas tolerantes a falhas é alcançada 
por pontos de verificação periódicos do estado do sistema
 A verificação é completamente distribuída, sendo esta uma 
operação cara, principalmente no caso de pontos de 
verificação independentes
 Para melhorar o desempenho, muitos sistemas distribuídos 
combinam pontos de verificação com registro de mensagens
 Registrando a comunicação entre processos, torna-se possível 
reproduzir a execução do sistema após a ocorrência de uma 
queda
QUESTÃO 2
O que torna o modelo à prova de parada tão difícil de 
implementar no caso de falhas por queda?
RESPOSTA 2
 Na prática os servidores simplesmente param de produzir 
suas saídas. Detectar que eles realmente pararam é uma 
tarefa difícil.
 Pode ser que o servidor esteja lento ou que a comunicação 
esteja falhando temporariamente.
QUESTÃO 3
Considere um browser Web que retorna uma página 
desatualizada que estava em cache em vez de uma mais 
recente que tinha sido atualizada no servidor. 
Isto é uma falha? 
Se for, qual é o tipo de falha?
RESPOSTA 3
 Se é uma falha ou não depende do tipo de consistência 
prometido ao cliente.
 Por exemplo, se o browser prometeu páginas que sejam no 
máximo T unidades de tempo antigas, então pode ser que 
se experimente alguma falha de resposta
 Entretanto é difícil que browsers façam este tipo de 
promessa na Internet
QUESTÃO 5
Até quantos elementos faltosos (dispositivos + votantes) 
a figura abaixo pode manipular?
RESPOSTA 5
 Em cada coluna de círculos, no máximo a falha de um 
elemento pode ser mascarada.
 Da mesma forma, apenas um elemento votante pode falhar 
em cada coluna.
 Logo, o sistema poderá sobreviver a até 6 falhas, sendo 
uma em cada coluna
QUESTÃO 6
A TMR (Triple Modular Redundancy) pode ser 
generalizada para 5 elementos 
por grupo ao invés de 3?
RESPOSTA 6
 Sim
 Qualquer número ímpar pode ser utilizado
 Com 5 elementos, até duas falhas por grupo poderão ser 
mascaradas
QUESTÃO 7
Na sua opinião, qual a melhor semântica 
para cada uma das aplicações: pelo menos uma vez 
ou no máximo uma vez?
(a) Ler e escrever arquivos de um servidor
(b) Compilar um programa
(c) Serviços bancários remotos
RESPOSTA 7
 Para as aplicações (a) e (b) a melhor semântica a ser usada 
é pelo menos uma vez
 Não existe problema caso as operações sejam reexecutadas
 Já para a aplicação (c) a melhor semântica é no máximo 
uma vez
 Como as operações não são idempotentes, caso ocorra uma 
falha, não é aconselhável que se retransmita a requisição, pois 
pode ser que a operação já tenha sido executada
	Sistemas Distribuídos�Capítulo 8 – Tolerância a Falhas�Slides cedidos pela professora Aline Nascimento
	Resiliência de Processo – Detecção de Falhas
	Resiliência de Processo – Detecção de Falhas
	Comunicação Confiável Cliente-Servidor
	Comunicação Ponto a Ponto
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Ponto a Ponto - RPC
	Comunicação Confiável de Grupo
	Comunicação Confiável de Grupo
	Comunicação Confiável de Grupo
	Comunicação Confiável de Grupo
	Multicast Atômico
	Multicast Atômico
	Multicast AtômicoMulticast Confiável – Ordenação de Mensagens
	Multicast Confiável – Ordenação de Mensagens
	Multicast Confiável – Ordenação de Mensagens
	Multicast Confiável – Ordenação de Mensagens
	Multicast Confiável – Ordenação de Mensagens
	Comprometimento Distribuído
	Comprometimento Distribuído
	Protocolo de Comprometimento de 2 Fases
	Protocolo de Comprometimento de 2 Fases
	Protocolo de Comprometimento de 2 Fases
	Protocolo de Comprometimento de 2 Fases
	Protocolo de Comprometimento de 2 Fases
	Protocolo de Comprometimento de 2 Fases
	Recuperação
	Recuperação
	Recuperação
	Recuperação
	Recuperação
	Recuperação
	Recuperação – Pontos de Verificação
	Recuperação – Pontos de Verificação
	Recuperação – Pontos de Verificação
	Pontos de Verificação Independentes
	Pontos de Verificação Independentes
	Pontos de Verificação Coordenados
	Pontos de Verificação Coordenados
	Resumo
	Resumo
	Resumo
	Questão 2
	Resposta 2
	Questão 3
	Resposta 3
	Questão 5
	Resposta 5
	Questão 6
	Resposta 6
	Questão 7
	Resposta 7

Tolerância a Falhas em Sistemas Distribuídos

Humanas / Sociais

Ferramentas de estudo

Conteúdos escolhidos para você

3

SEGURANÇA CIBERNÉTICA

SISTEMAS DISTRIBUIDOS - SAGAH

Objetivos e Tipos de Sistemas Distribuídos

Unidade VI - Teorico

Perguntas dessa disciplina

Questão Em abril de 2024, o chatbot Grok, desenvolvido pela empresa xAI (de Elon Musk) e integrado à plataforma X (antigo Twitter), gerou polêmica...

TEXTO 1 Em abril de 2024, o chatbot Grok, desenvolvido pela empresa xAI (de Elon Musk) e integrado à plataforma X (antigo Twitter), gerou polêmica ao

Modelagem de sistema é o processo de desenvolvimento de modelos abstratos de um sistema, em que cada modelo apresenta uma visão ou perspectiva, dif...

Digitais Data de início: 31/07/2025 15:03 Prazo máximo entrega: 31/07/2025 16:03 0:08:19 Questão 2/10 Comunicações Digitais Muitas dos protocolos. ...

Questão 6/10 - Redes de Computadores Ler em voz alta Uma das tarefas realizadas pelo protocolo TCP é o controle de fluxo, que irá garantir que os term

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

3

SEGURANÇA CIBERNÉTICA

SISTEMAS DISTRIBUIDOS - SAGAH

Objetivos e Tipos de Sistemas Distribuídos

Unidade VI - Teorico

Perguntas dessa disciplina

Questão Em abril de 2024, o chatbot Grok, desenvolvido pela empresa xAI (de Elon Musk) e integrado à plataforma X (antigo Twitter), gerou polêmica...

TEXTO 1 Em abril de 2024, o chatbot Grok, desenvolvido pela empresa xAI (de Elon Musk) e integrado à plataforma X (antigo Twitter), gerou polêmica ao

Modelagem de sistema é o processo de desenvolvimento de modelos abstratos de um sistema, em que cada modelo apresenta uma visão ou perspectiva, dif...

Digitais Data de início: 31/07/2025 15:03 Prazo máximo entrega: 31/07/2025 16:03 0:08:19 Questão 2/10 Comunicações Digitais Muitas dos protocolos. ...

Questão 6/10 - Redes de Computadores Ler em voz alta Uma das tarefas realizadas pelo protocolo TCP é o controle de fluxo, que irá garantir que os term

Mais conteúdos dessa disciplina