Baixe o app para aproveitar ainda mais
Prévia do material em texto
Módulo 10 Gerenciamento de Disponibilidade Todos os direitos de cópia reservados. Não é permitida a distribuição física ou eletrônica deste material sem a permissão expressa do autor. www.tiexames.com.br Módulo 10 Gerenciamento de Disponibilidade Objetivos do módulo Neste módulo, vamos estudar o Gerenciamento de Disponibilidade, um processo que é focado em otimizar a habilidade da infra-estrutura de TI, serviços e equipes de suporte para entregar um nível de Disponibilidade que satisfaça o negócio. Durante este módulo iremos: � Apresentar o propósito do processo �Entender os motivos para implementar este processo � Aprender como estimar a disponibilidade dos serviços � Apresentar as principais ferramentas � Apresentar os principais problemas e benefícios Missão Assegurar a entrega dos serviços de TI, com o maior nível de disponibilidade, através do planejamento e construção de uma infra-estrutura confiável e sustentável de acordo com as necessidades do negócio. Objetivos � Projetar os serviços de TI para entregar níveis de disponibilidade exigidas pelo negócio � Fornecer relatório de disponibilidade para demonstrar a confiança e sustentabilidade � Reduzir excesso de freqüência e duração dos incidentes que impactam a disponibilidade � Realizar ações corretivas para as paradas não programadas � Elaborar o Plano de Disponibilidade � Otimizar a disponibilidade da infra-estrutura e ajudar a entregar um nível de disponibilidade a um custo aceitável ao negócio Escopo O Gerenciamento de Disponibilidade pode ser aplicado a: � Todos os novos serviços de TI � Serviços existentes com ANSs implementados � Fornecedores de TI (internos e externos) � Todos os aspectos da infra-estrutura de TI que possam afetar a disponibilidade � Não é Gerenciamento da Continuidade dos Serviços de TI Porque uma organização precisa gerenciar a disponibilidade? � Dependência dos serviços de TI para o negócio funcionar � Necessidade de funcionar 24 horas � Serviços online � Foco em atender o negócio e o usuário final Quanto custa a não disponibilidade? Tangíveis: � Perda de produtividade do usuário � Perda da produtividade da equipe de TI � Perda de receita em vendas � Atraso nos pagamentos � Perda de produtos e matéria-prima � Implicação em penalidades Intangíveis: � Insatisfação do cliente � Perda de Clientes � Perda de oportunidade (deixar de vendar ou ganhar novos clientes) � Perda de reputação Causas da indisponibilidade Downtime não planejado Downtime planejado Precisamos considerar tudo Disponibilidade é mais do que tecnologia Para alcançar altos níveis de Disponibilidade dos serviços de TI precisamos: � Alinhamento do negócio com as metas e métricas de TI � Planejar a infra-estrutura de TI � Processos de gerenciamento de serviços de TI � Estratégia de manutenção � Planos de testes e procedimentos � Tecnologias com alta disponibilidade Tecnologias com alta disponibilidade não serão bem sucedidas se não tivermos processos de TI, manutenção, práticas de testes. Conceitos � Princípio 1: a disponibilidade é essencial para o negócio e para obter a satisfação do usuário. � Princípio 2: reconhecer quando as coisas estão dando errado é ainda possível alcançar a satisfação do negócio e dos usuários. � Princípio 3: a melhoria da disponibilidade pode apenas ser iniciada quando houver o entendimento de como os serviços de TI suportam o negócio. Definições � Disponibilidade (Availability): medido pela Média de Tempo entre Falhas (MTBF – Mean Time Between Failures). �Habilidade de um serviço de TI ou componente realizar sua função requisitada em determinado instante ou durante um período de tempo. �Apoiado pela confiança, sustentabilidade, capacidade de serviço e tolerância de falhas na Infra-estrutura de TI. � Confiabilidade (Reliability): medido pela Média de Tempo entre Incidentes do Sistema (MTBSI – Mean Time Between System Incidents) �Habilidade de trabalhar sem falha operacional. �Depende da probabilidade de uma falha de cada componente e manutenção aplicada para prevenir a ocorrência de falhas. � Habilidade de Manutenção (Maintainability): medido pela Média de Tempo para Reparar (MTTR – Mean Time To Repair) �Habilidade para segurar e restaurar um estado operacional. �Depende de antecipação, detecção, diagnóstico, resolução, recuperação de falhas, restauração dos dados e serviço de TI. Definições � Habilidade de obter Serviço (Serviceability): não pode ser medido por métrica �Habilidade de manter a disponibilidade, confiança e manutenção fornecida pelos acordos com os provedores de serviços de TI. � Redundância (Resilience): ou Tolerância a Falhas �Habilidade de um serviço de TI permanecer operacional devido a má função de um ou mais sub-componentes. � Segurança: definida em termos de Confiabilidade, Integridade e Disponibilidade dos dados associados ao serviço. � Função de Negócio Vital: são funções de negócio consideradas como sendo críticas para a organização, identificadas através de um processo formal como a Avaliação de Risco. Infra-estrutura e organizações de suporte de TI Usuário Usuário Usuário Usuário Serviços de TI Sistemas de TI Sistemas de TI Desenvolv. de Software Manutenção de Software Outros Tipos de Manutenção Hardware Fornecedores de Software Telefonia Fornecedores Internos e Mantenedores Provedor de Serviço de TI Usuários Disponibilidade (SLA) Confiabilidade + Capacid.de Gerenciamento (OLA) Habilidade de Obter Serviço (contratos) Fornecedores Externos Entradas, Saídas e Atividades - Planejar - Aperfeiçoar - Medir e reportar Requisitos de Negócio relacionados c/ a disponibilidade Requisitos de disponibilidade, confiabilidade e sustent. Níveis de Serviço acordados Critérios para projeto de disponib. E de recuperação Redundância e avaliação da infra- estrutura de TI Objetivos acordados p/ disponib. Confiab., sustentab. Relatórios sobre confiab., disponib., sustentab. obtidas Monitoramento da disponibilidade Plano de melhoria da disponibilidade Avaliação do impacto no negócio Dados de Problemas e incidentes Dados de configuração e monitoramento Atividades Gerenciamento de Disponibilidade Planejamento Aperfeiçoamento Medição & Relatório Determinar os requisitos de disponibilidade Projetar a disponibilidade Projetar a recuperação Questões sobre segurança Gerenciamento da Manutenção Desenvolvimento de um plano de disponibilidade Medição e emissão de relatórios Conteúdo do Plano de Disponibilidade � Disponibilidade atual x acordada � Deficiências na disponibilidade � Mudança de requerimentos de disponibilidade � Para serviços existentes � Para novos serviços � Programação de tarefas planejadas da AIS � Recomendações futura de tecnologia Quando um serviço não está disponível? Um serviço não está disponível para o cliente se as funções requisitadas não podem ser utilizadas, embora as condições acordadas pela provisão do serviço são cumpridas. Calculo simples de disponibilidade %: Ser um serviço foi acordado que ele deve ter 98% de disponibilidade durante os dias úteis das 07:00 às 19:00hs, e o serviço ficou fora por 2 horas durante este período, qual foi o percentual de disponibilidade? Resolução: 12h x 5 dias – 2 h / 60 h = 96,66% Tempo acordado - Downtime 100 X Tempo acordado 1 Cálculos da Disponibilidade Serial Paralelo Disk A Disk B Disk A Disk BDisponibilidade = 90% Disponibilidade = 90% Disponibilidade apenas se ambos estiverem em operação A x B = 0.9 * 0.9 = 0.81 ou 81% Disponibilidade = 90% Cálculo 1– (A não disponível) x (B não disponível) 1 – 0.1 * 0.1 = 0.99 ou 99% Disponibilidade = 90% Calculando a disponibilidade ponta-a-ponta Exemplos de disponibilidade serial e paralela Tecnologia disponível � Redundância de servidores � Servidores com discos RAID � Servidores com alta disponibilidade � Espelhamento de discos � Servidores em Cluster � Balanceamento de Carga � Geradores de energia Métodos e Técnicas Métodos e técnicas recomendadas pela ITIL no apoio do Gerenciamento de Disponibilidade: � Análise de Impacto em Falhas de Componentes (AIFC) � Análise de Tolerância a Falhas (ATF) � Análise de Interrupção de Serviço (AIS) � Posto de Observação Técnico (POT) � Ciclo de Vida Expandido do Incidente � Análise de Riscos (CRAMM) – Ver módulo de Continuidade Análise de Impacto em Falhas de Componentes (AIFC) Component Failure Impact Analysis (CFIA) Está técnica pode ser usada para predizer e avaliar o impacto sobre os Serviços de TI que surgem a partir de falhas de componentes dentro da infra-estrutura de TI. XService Desk XXPCP XXSegurança XImpressão XIntranet XFolha de Pagamento XXE-mail DCBASistema / Componentes Servidores 4 Análise de Tolerância a Falhas (ATF) Fault Tree Analysis (FTA) É uma técnica que pode ser usada para determinar a cadeia de eventos que causa uma interrupção nos Serviços de TI. 1. Isto ocorre 3. Isto ocorre2. Isto ocorre 4. Provocando isto Estas duas coisas (4 e C) Combinam-se para Provocar isto Provocando esta falha E. Isto acontece C. Provocando isto B. Em seguida, Isto ocorre A. Isto ocorre Análise de Interrupção de Serviços (AIS) Systems Outage Analysis (SOA) � Identifica a causa raiz da interrupção � Conduz análise de dados � Faz recomendações para melhoria da Disponibilidade Ciclo de vida expandido do incidente MTTR - Mean Time to Repair � DOWNTIME � Maintainability (Serviceability) MTBF - Mean Time Between Failure � UPTIME � Reliability, Availability MTBSI - Mean Time Between System Incident� Média de Confiabilidade� Reliability Incidente Reparo Diagnóstico Recuperação Restauração Incidente Tempo Detecção MTTR MTBF MTBSI Posto de Observação Técnico (POT) Technical Observation Post (TOP) � Equipe formada por especialistas que focam nos aspectos específicos da disponibilidade � Monitoramento de eventos para identificar problemas e oportunidades de melhoria dentro da infra-estrutura de TI. � Fornece uma visão completa da entrega de serviços proveniente das perspectivas operacionais, de suporte e de desenvolvimento. Funções Gerente de Disponibilidade � O Gerente de Disponibilidade tem uma função orientativa e tem uma visão geral sobre a infra-estrutura de TI. Irá se reunir e analisar dados a partir dos processos como Gerenciamento de Problema, Gerenciamento de Mudança, Service Desk e Gerenciamento de Capacidade para assistir no gerenciamento e planejamento relacionado à disponibilidade. � Usando os resultados destes dados ele pode dirigir os processos de Gerenciamento de Serviços para assegurar a disponibilidade acordada, desta forma, ajudando a prevenir problemas. Por exemplo, ele pode estar presente nas reuniões do Comitê de Controle de Mudanças dentro do Gerenciamento de Mudança. � O Gerente de Disponibilidade comunica suas descobertas para o Gerente de Nível de Serviço e, desta forma, faz uma contribuição importante para o estabelecimento dos SLA’s. Ele implementa políticas do Gerenciamento de Segurança em relação à segurança dos dados. Relacionamentos Gerenciamento de Disponibilidade Gerenciamento de Nível de Serviço Gerenciamento de Mudança Gerenciamento Financeiro de TI Gerenciamento de Capacidade Gerenciamento Continuidade dos Serviços Sugere níveis de disponibilidade SLAS à serem monitoradas Programação de Mudanças Informações de Impacto dos componentes Avisos Orçamento Análise de Impacto Planos de recuperação Problemas Comuns Como todo processo, existe algumas questões que precisam ser levadas em consideração para que o processo tenha sucesso. Para o gerenciamento de Disponibilidade, estas questões são: � Requisitos do negócio em relação à disponibilidade esperada do serviço de TI devem ser claros. � Contratos de apoio devem ser desenhados para especificar a disponibilidade acordada de cada serviço. � Comprometimento com o processo. � O negócio e a organização de TI precisam compartilhar um entendimento comum sobre a disponibilidade e definição do que é downtime. Principais Benefícios � Constante empenho para aperfeiçoar a disponibilidade, teremos um ponto único de responsabilidade por disponibilidade na organização � Serviços são projetados para atender os requisitos de disponibilidade � Os níveis de disponibilidade do serviço serão fornecidos a um custo justificável � Em caso de indisponibilidade no serviço, uma ação corretiva será tomada � Redução de perdas no negócio devido a paradas prolongadas nos sistemas mais críticos da TI IPDs – Indicadores Principais de Desempenho � Índice de variação do tempo de restabelecimento dos serviços � Índice de variação do tempo médio entre falhas � Duração da indisponibilidade � Impacto da falha � Índice de serviços que estão dentro das metas de SLA � Índice de investimentos em disponibilidade Retorno sobre o Investimento - ROI Com a implantação deste processo podemos evitar que um Erro físico em um disco de um Servidor de aplicação afete 100 usuários. Exemplo do Benefício: Suponha que se o Erro acima descrito afete 100 usuários por 3 horas, isso causará uma perda de R$ 15.000,00 (100 usuários x 3 horas x R$ 50,00)
Compartilhar