Baixe o app para aproveitar ainda mais
Prévia do material em texto
Sistemas Distribuídos Aula 05 Tolerância a Falhas Tolerância a Falhas ● SD – Falha parcial – A falha em um componente não afeta todos os outros Sistemas não distribuídos → Faltas total – Afeta todo os componentes e o sistema Tolerância a Falhas ● Os SD devem se recuperar de falhas sem perder eficiência. ● Os SD devem continuar funcionando durante o conserto ● ● Ou seja, os SD devem tolerar falhas e continuar funcionando. Sistemas Confiáveis 1)Disponibilidade 2)Confiabilidade 3)Segurança 4)Capacidade de manutenção 5)Integridade Sistemas Confiáveis *Disponibilidade* ● Propriedade do sistema em está pronto para ser usado imediatamente. ● Alta disponibilidade: – Alta probabilidade de está funcionando em um determinado instante no tempo. Sistemas Confiáveis *Confiabilidade* ● Propriedade do sistema em continuar funcionando por um período de tempo. ● ● Alta confiabilidade: – Alta probabilidade de continuar funcionando em um longo período de tempo. Compatibilidade x Disponibilidade ● Um sistema que fica fora do ar por um ms a cada hora: – Alta _________ – Baixa _________ ● Um sistema que nunca cai, mas fica desligado durante a noite. – Alta _________ – Baixa _________ Compatibilidade x disponibilidade ● Um sistema que fica fora do ar por um ms a cada hora: – Alta disponibilidade – Baixa confiabilidade ● Um sistema que nunca cai, mas fica desligado durante a noite. – Alta _________ – Baixa _________ Compatibilidade x disponibilidade ● Um sistema que fica fora do ar por um ms a cada hora: – Alta disponibilidade – Baixa confiabilidade ● Um sistema que nunca cai, mas fica desligado durante a noite. – Alta confiabilidade – Baixa disponibilidade Sistemas Confiáveis *Segurança* ● Capacidade do sistema em não causar efeitos catastróficos, caso algo do sistema deixe de funcionar. ● Garantia de integridade ● Necessária em sistemas de controle de atividades críticas. ● São sistemas de construção muito difícil Sistemas Confiáveis *Capacidade de manutenção* ● Facilidade de conserto de um sistema que falhou. ● ● Alta capacidade de manutenção → alta disponibilidade: – Detecção e reparação de falhas automáticas Conceitos básicos ● Defeito ● Erro ● Falha Conceitos básicos ● Defeito – Um sistema com defeito é aquele que não consegue cumprir com seus objetivos; – Não oferece aos seus cliente os seus serviços ● Erro ● Falha Conceitos básicos ● Defeito – Um sistema com defeito é aquele que não consegue cumprir com seus objetivos; – Não oferece aos seus cliente os seus serviços ● Erro – É o estado de um sistema relacionado a uma falha ● Falha Conceitos básicos ● Defeito – Um sistema com defeito é aquele que não consegue cumprir com seus objetivos; – Não oferece aos seus cliente os seus serviços ● Erro – É o estado de um sistema relacionado a uma falha ● Falha – É a causa de um erro. Conceitos básicos ● Defeito ● Erro ● Falha – Falhas transientes ● Ocorre uma vez e desaparece – Falhas intermitentes ● Ocorre, desaparece, aparece de novo... ● São difíceis de diagnosticar – Falhas permanente ● Continua a existir até substituição ou conserto Modelos de faltas ● Falha por queda – O servidor para de funcionar, mas estava funcionando corretamente até parar. Modelos de faltas ● Falha por omissão – O servidor não consegue responder às requisições que chegam – Omissão de recebimento ● O servidor não consegue receber as mensagens – Omissão de envio ● O servidor não consegue enviar as mensagens Modelos de faltas ● Falhas de temporização – A resposta do servidor se encontra fora do intervalo de tempo aceitável. Modelos de faltas ● Falhas de resposta – O servidor apresenta respostas incorretas. – Falhas de valor ● O valor da resposta está errado – Falhas de transição de estado ● O fluxo de execução está errado Modelos de faltas ● Falhas arbitrárias – São as mais sérias – O servidor pode produzir respostas aleatórias em momentos aleatórios. – Respostas erradas mas que não podem ser detectadas como incorretas. – Servidores maliciosos produzindo respostas intencionalmente erradas ● Também chamadas de falhas bizantinas ● Império Bizantino (330-1453) – Falhas por parada – Sistemas a prova de silêncio – Falhas seguras Modelos de faltas ● Falhas arbitrárias benignas: – Falhas por parada – falha por queda Sistemas à prova de silêncio ● Os demais processos podem concluir que o servidor parou prematuramente ● Um erro normal → o servidor apenas estava lento – Falhas seguras ● Falhas aleatórias que os demais processos podem identificar como lixo. Detecção de falhas ● Capacidade de perceber que algum componente do sistema falhou ● Membros não faltosos devem ser capazes de decidir quem ainda é um membro e quem não é membro. Detecção de falhas Mecanismos: 1)Espera passiva por mensagens de entrada 2)Ping “você está vivo?” • Esgotamento de temporização para verificação de falha em processo – Falso-positivo – Uma única mensagem ● Solução com o emprego de Gossiping ● Falha de rede x falha de nós Mascaramento de falhas ● Transparência de falhas – Ocultar de outros processos a ocorrência de falhas ● Redundância: – de informação – de tempo ● Falhas transientes ou intermitentes – física ● Hardware e software Slide 1 Slide 2 Slide 3 Slide 4 Slide 5 Slide 6 Slide 7 Slide 8 Slide 9 Slide 10 Slide 11 Slide 12 Slide 13 Slide 14 Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20 Slide 21 Slide 22 Slide 23 Slide 24 Slide 25
Compartilhar