A maior rede de estudos do Brasil

Grátis
47 pág.
tratativas de falhas

Pré-visualização | Página 1 de 3

Fundamentos de
Tolerância a Falhas
CIC e ECP
Taisy Silva Weber
2005
Taisy Weber 2
Bibliografia básica
Pradhan, D. K.
Fault-Tolerant System Design.
Prentice Hall, New Jersey, 1996
Jalote, P.
Fault tolerance in distributed systems.
Prentice Hall, Englewood Cliffs, New Jersey, 1994. 
Notas de aula – ver página da disciplina
Artigos selecionados
Taisy Weber 3
Conteúdo da disciplina
Conceitos básicos de tolerância a falhas
atributos e medidas: dependabilidade, confiabilidade, 
disponibilidade e outros
redundância
Arquiteturas tolerantes a falhas
Servidores de alta disponibilidade, computadores de alta 
disponibilidade, sistemas de controle embarcados
Sistemas distribuídos
Comunicação de grupo. Recuperação de processos. 
Replicação de dados e processos.
Clusters e Grids de alta disponibilidade
Validação experimental
Taisy Weber 4
Motivação para tolerância a falhas
componentes de hardware cada vez mais 
confiáveis
ENTRETANTO
software e projeto cada vez menos confiáveis
sistemas cada vez mais complexos
EXEMPLO
erros de projeto em microprocessadores
capacidade de manter o 
serviço desejado mesmo 
na presença de falhas 
evitar que o usuário do serviço 
seja o componente tolerante a 
falhas do sistema 
Taisy Weber 5
Desafios atuais
bugs no projeto de hardware e software
altíssima complexidade dos sistemas
paralelismo em alta escala
uso de novas tecnologias (não provadas)
sistemas distribuídos
para sistemas críticos e sistemas de missão crítica
para operação em tempo real
computadores móveis
baixa potência
difícil usar replicação de componentes
Taisy Weber 6
Dependabilidade vs desempenho
1 10 100 1000 10000 100000
sistemas 
ultra
confiáveis
sistemas 
comerciais 
tolerantes a
falhas
sistemas altamente
paralelos e sistemas
distribuídos
desempenho
de
pe
nd
ab
ili
da
de
PC
objetivo
Taisy Weber 7
Causas de defeitos
Sistemas tradicionais
Não tolerante a falhas Tolerante a falhas
Redes cliente-servidor
(não tolerantes a falhas)
MTBF: 6 a 12 semanas
Indisponibilidade após
defeito: 1 a 4 h
MTBF: 21 anos
(Tandem)
Disponibilidade média:
98%
Defeitos: Defeitos: Defeitos:
hardware 50% software 65% projeto 60%
software 25% operações 10% operações 24%
operações 10% hardware 8% físicos 16%
comunicações
/ ambiente
15% ambiente 7%
Causas usuais de defeitos em sistemas de computação
Dependability of Computer Systems: 
from Concepts to Limits
Jean-Claude Laprie - DCIA 98
http://www.cs.wits.ac.za/research/workshop/ifip98.html
http://www.cs.wits.ac.za/research/workshop/ifip98.html
Taisy Weber 8
Tópicos
nesse item:
Falha, erro, defeito
Falhas
Dependabilidade
Atributos de dependabilidade
Exemplos de áreas de aplicação
Técnicas de TF
Taisy Weber 9
Conceitos básicos
falha, erro e defeito
atributos
dependabilidade, confiabilidade, disponibilidade e 
outros
redundância
aplicações de TF
Barry Johnson,
cap. 1, ed. Pradhan
conceitos básicos encontrados também em livros de 
sistemas operacionais, redes, arquitetura, sites de 
fabricantes de alta disponibilidade e da NASA, além 
de grande número de artigos (Laprie, Avizienis, 
Nelson, Cristian, Schneider, Siewiorek,, Rennels…)
Taisy Weber 10
Falha, erro ou defeito?
estado errôneo (ou erro)
se processamento posterior pode levar a defeito
falha 
causa física ou algorítmica do erro
falhas podem ser toleradas, defeitos não
fault → error → failure
falha (falta) → erro → defeito
falta → erro → falha (tolerância a falta)
alguns grupos no Brasil usam a última terminologia
usado nessa disciplina
Taisy Weber 11
Falha versus erro
falha erro defeito
falha
subsistema
sistema
Taisy Weber 12
falha (falta) → erro → defeito
universo físico
universo da
informação
erro defeito
desvio da
especificação
falha
processamento posterior 
pode levar a defeito
universo do usuário
causa física ou 
algorítmica do erro
modelo de 3 universos: uma 
simplificação do modelo de 4 universos 
de Avizienis
falhas podem ser toleradas, defeitos não
Taisy Weber 13
Latência
latência de falha
período de tempo desde a ocorrência da falha até
a manifestação do erro devido aquela falha
latência de erro
período de tempo desde a ocorrência do erro até
a manifestação do defeito devido aquele erro
erro defeito
falha
latência de falha latência de erro
Taisy Weber 14
Falhas
falhas físicas
permanentes
temporárias
humanas
falhas de projeto
interação
intermitentes
transitórias
intencionais
não intencionais
confiabilidade sempre 
foi um problema de 
engenharia, assim 
falhas físicas, que 
afetam diretamente o 
hardware, vem 
tradicionalmente 
recebendo atenção 
especial 
falhas são inevitáveis
security
Taisy Weber 15
Causas de falhas
problemas de especificação
problemas de implementação
componentes defeituosos
imperfeições de manufatura
fadiga
distúrbios externos
radiação, interferência eletromagnética, variações 
ambientais (temperatura, pressão, umidade), 
problemas de operação
falhas são inevitáveis
Taisy Weber 16
Falhas: classificação
falhas físicas
permanentes
temporárias
humanas
falhas de projeto
interação
intermitentes
transitórias
intencionais
não intencionais
descrição de falhas
natureza: falha de 
hardware, falha de 
software, etc..
duração: permanente ou 
temporária
extensão: local a um 
módulo, global
valor: determinado ou 
indeterminado no tempo
Taisy Weber 17
Objetivo de TF
alcançar dependabilidade
dependabilidade (dependability)
qualidade do serviço fornecido por um dado sistema
confiança no serviço fornecido
atributos (medidas):
confiabilidade, disponibilidade, segurança (safety), 
mantenabilidade, testabilidade, performability, etc…
segurança (security) também é considera por alguns 
autores como atributo de dependabilidade
adiante veremos 
mais detalhes sobre 
medidas
Ricardo Duarte
Note
Dependabilidade = Fidedigindade
Taisy Weber 18
Confiabilidade
Reliability
capacidade de atender à especificação
dentro de condições definidas
durante certo período de funcionamento
condicionado a estar operacional no início do período
probabilidade que um sistema funcione 
corretamente durante um intervalo de tempo [t0,t]
probabilidade condicional
Falha é um fenômeno aleatório
depende do sistema estar operacional em t0
Taisy Weber 19
Confiabilidade
mais usada como medida em:
sistemas em que mesmo curtos períodos de 
operação incorreta são inaceitáveis
sistemas em que reparo é impossível
exemplos:
aviação
intervalo de tempo: 10 a 12 horas
exploração espacial
intervalo de tempo: 10 anos
Taisy Weber 20
Disponibilidade
availability
probabilidade do sistema estar operacional 
no instante de tempo t
alternância de períodos de funcionamento e 
reparo
um sistema pode ser altamente disponível mesmo 
apresentando períodos de inoperabilidade
desde que esses períodos sejam curtos
disponibilidade e confiabilidade são os 
atributos mais conhecidos e usados, muitas 
vezes aparecem como sinônimos de 
dependabilidade
Taisy Weber 21
Segurança
safety
probabilidade do sistema:
ou de estar operacional e executar sua função 
corretamente
ou de descontinuar suas funções de forma a não 
provocar dano a outros sistema ou pessoas que 
dele dependam
medida da capacidade fail-safe do sistema
não está relacionado diretamente a security
atributo usual na área de controle de 
processos industriais e de transporte
Taisy Weber 22
Outros atributos
performability
relacionado a queda de desempenho provocada 
por falhas
mantenabilidade
facilidade de realizar a manutenção do sistema
probabilidade que um sistema com defeitos seja 
restaurado dentro de um período t
testabilidade
capacidade de testar certos atributos internos
facilidade de realizar certos testes
relacionada a mantenabilidade
sistema continua a operar, mas 
com queda de desempenho
Taisy Weber 23
Aplicações de FT
longa vida
manutenção adiada
computação crítica
alta disponibilidade
satélites e sondas espaciais:
probabilidade de 0,95 de estar operacional 
após 10 anos de missão,
freqüentemente permitem ser reconfigurados