Baixe o app para aproveitar ainda mais
Prévia do material em texto
Infraestrutura de Tecnologia da Informação Material Teórico Responsável pelo Conteúdo: Prof. Esp. Antonio Eduardo Marques da Silva Revisão Textual: Prof.ª Esp. Kelciane da Rocha Campos Infraestrutura de Data Center • Introdução; • Data Center Moderno; • Arranjo de Armazenamento Monolítico; • A Virtualização da Computação; • A Evolução do Armazenamento; • Computação em Nuvem; • Arquitetura de Rede em Data Center; • Modelos de Desenho em Redes de Data Center; • Tipos de Cluster HPC e Interconexão. • Compreender e abordar os conceitos fundamentais de como é e como funciona uma infraestrutura de Data center, como são esses ambientes em relação às características físicas e modelos de desenho. OBJETIVO DE APRENDIZADO Infraestrutura de Data Center Orientações de estudo Para que o conteúdo desta Disciplina seja bem aproveitado e haja maior aplicabilidade na sua formação acadêmica e atuação profissional, siga algumas recomendações básicas: Assim: Organize seus estudos de maneira que passem a fazer parte da sua rotina. Por exemplo, você poderá determinar um dia e horário fixos como seu “momento do estudo”; Procure se alimentar e se hidratar quando for estudar; lembre-se de que uma alimentação saudável pode proporcionar melhor aproveitamento do estudo; No material de cada Unidade, há leituras indicadas e, entre elas, artigos científicos, livros, vídeos e sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você tam- bém encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão sua interpretação e auxiliarão no pleno entendimento dos temas abordados; Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discus- são, pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e de aprendizagem. Organize seus estudos de maneira que passem a fazer parte Mantenha o foco! Evite se distrair com as redes sociais. Mantenha o foco! Evite se distrair com as redes sociais. Determine um horário fixo para estudar. Aproveite as indicações de Material Complementar. Procure se alimentar e se hidratar quando for estudar; lembre-se de que uma Não se esqueça de se alimentar e de se manter hidratado. Aproveite as Conserve seu material e local de estudos sempre organizados. Procure manter contato com seus colegas e tutores para trocar ideias! Isso amplia a aprendizagem. Seja original! Nunca plagie trabalhos. UNIDADE Infraestrutura de Data Center Contextualização A infraestrutura de centros de dados de hoje é mais complexa, mais interdepen- dente e mais crítica do que nunca. Isso levou à necessidade de uma gestão mais inteligente e automatizada infraestrutura de TIC. Nesta unidade, vamos conhecer um pouco mais sobre algumas arquiteturas e desenhos utilizados na infraestrutura desses ambientes de alta densidade de tráfego, como é o caso dos data center e de redes de alta performance. 8 9 Introdução À medida que a tecnologia se altera, o data center às vezes reincorpora tecnologias ou metodologias que costumavam funcionar no passado, e que às vezes são eliminadas em favor de opções melhores e mais modernas. Então, quando versões mais avançadas ou simplificadas de tecnologias antigas são desenvolvidas, o ciclo tecnológico recomeça. Um bom exemplo disso é o dispositivo do usuário final. Houve um tempo em que o poder de computação e a lógica dos aplicativos do usuário final estavam contidos de uma forma centralizada no data center (na época chamado de Centro de Processamento de Dados). Um dispositivo de terminal forneceu aos usuários uma exibição, controles e uma sessão de volta ao data center através da rede. Em algum ponto do caminho, à medida que o computador pessoal amadurecia, as organizações de TIC descobriram que os funcionários poderiam ser mais produ- tivos e a TIC poderia ser mais eficaz implantando-se computadores pessoais para cada usuário e executando-se aplicativos cliente-servidor, em que a computação acontecia na área de trabalho da máquina cliente e acessava apenas recursos no data center quando necessário, como, por exemplo, armazenamento, etc. Então, nos próximos 10 ou 15 anos, depois que o poder de computação cresceu e novos softwares foram desenvolvidos, a TIC foi capaz de fornecer computação de usuário final mais fácil de gerenciar e mais econômica para as empresas (COMER, 2016). Data Center Moderno As primeiras décadas de vida da sala dedicada à computação, que acabou se tornando conhecida como “data center”, eram caracterizadas por computadores eletromecânicos feitos de chaves elétricas e relés mecânicos, e depois por todos os computadores eletrônicos que usavam válvulas a vácuo como interruptores. A inovação responsável pelo data center como conhecemos atualmente foi com certeza o microprocessador transistorizado baseado em circuito integrado. A maturidade nessa tecnologia acabou levando ao chip 8086 da Intel e a todos os seus sucessores. O conjunto de instruções x86 vive hoje e é a base de muitos componentes do data center moderno. Embora nenhum dos processadores mo- dernos de hoje tenha um “86” em seu nome, o nome “x86” vem do 8086 e seus sucessores, como o 80186, o 80286 e assim por diante. À medida que a tecnologia de computação se desenvolveu, o mesmo aconteceu com a capacidade de armazenar os dados que estavam sendo manipulados nesses ambientes. A tecnologia de armazenamento de dados baseada em fita magnética começou a ser substituída quando a IBM lançou a primeira unidade de armazena- mento baseada em disco em 1956. Ele era capaz de armazenar 3,75 megabytes em tamanho, insignificantes pelos padrões de terabytes de hoje. 9 UNIDADE Infraestrutura de Data Center Acesse Google Data Center em: https://youtu.be/XZmGGAbHqa0 Ex pl or Os discos giratórios magnéticos continuam a aumentar em capacidade até hoje, embora o fator de forma e a velocidade de rotação tenham sido relativamente estáticos nos últimos anos. A última vez que uma nova velocidade de rotação foi introduzida foi em 2000, quando a Seagate apresentou a unidade “Cheetah” de 15.000 RPM. A velocidade e a densidade do clock da CPU aumentaram muitas vezes desde então (MARIN, 2011). Essas duas tecnologias em constante desenvolvimento, a arquitetura do micro- processador e o meio de armazenamento baseado em disco formam a base do data center moderno. Na década de 1990, o design predominante do datacenter tinha cada aplicativo em execução em um servidor, ou um conjunto de servido- res, com mídia de armazenamento conectada localmente. À medida que crescia a quantidade e a importância dos aplicativos de linha de negócios suportados pelo data center, essa arquitetura começou a mostrar uma ineficiência drástica quando implantada em escala. Além disso, o processo de lidar com essa ineficiência carac- terizou o data center moderno nas últimas duas décadas. Arranjo de Armazenamento Monolítico A ineficiência em escala, na verdade, tinha dois componentes. A primeira é que os servidores normalmente usavam apenas uma fração do poder computacional que eles tinham disponível. Teria sido totalmente normal neste momento ver um servidor que funcionasse regularmente com 10% de utilização de CPU, desper- diçando, assim, enormes quantidades de recursos. O segundo problema foi em relação à subutilização também falha no armazenamento de dados. Com as muitas ilhas de armazenamento criadas através da aplicação de armazenamento direto em cada servidor, ocorreu uma grande ineficiência causada pela necessidade de dar espaço físico desses ambientes para eventual crescimento (MARIN, 2011). Com o desenvolvimento de novas tecnologias, este problema foi relativamente resolvido; no entanto, em vez de fornecer armazenamento anexado diretamente para cada servidor, os discos foram reunidos e disponibilizados pela rede.Isso permitiu que muitos dispositivos utilizassem um pool de capacidade e aumentassem a utilização em toda a empresa, além de diminuir a sobrecarga de gerenciamento dos sistemas de armazenamento, pois em vez de gerenciar 800 silos de armazenamento, talvez houvesse apenas 5 ou 10 para se gerenciar. Essas matrizes de discos ("storage arrays") foram conectadas em uma rede se- gregada da rede local. Essa rede é chamada de storage area network ou, em portu- guês, rede de área de armazenamento, ou apenas SAN. A rede fez uso de um pro- tocolo de rede diferente, mais adequado para redes de armazenamento, chamado 10 11 Fibre Channel Protocol (FC). Era mais adequado para fornecer armazenamento por causa de sua natureza "sem perdas" e de alta velocidade. O objetivo da SAN é direcionar e armazenar dados e, portanto, a perda de transmissões é inaceitável. E é por esse motivo que essas redes específicas de armazenamento não utilizavam o protocolo TCP/IP como base para as primeiras SANs (SERVICES, 2010). Figura 1 – Storage Array Direct-Connect Confi guration: https://goo.gl/4aXYM6 Figura 2 – Storage Array Switched Confi guration: https://goo.gl/pCCyTTE xp lo r À medida que a indústria amadureceu e mais organizações adotaram um modelo de armazenamento compartilhado, o valor da arquitetura continuou a aumentar. Os fabricantes adicionaram recursos às plataformas de gerenciamento dos “storage arrays” para permitir operações como snapshots (captura do estado de armazenamento) de armazenamento, replicação e redução de dados. Compute System Single Switch Fabric FC Director Compute System Hypervisor APP OS VM APP OS VM Figura 3 – Storage Area Network – Single Switch Novamente, em vez de 800 locais para gerenciar snapshots do sistema de arquivos, os administradores poderiam fazer uso de snapshots em nível de volume a partir de apenas alguns (ou mesmo um) consoles de gerenciamento. Isso criou novas possibilidades de soluções de backup e recuperação de maneira mais rápida e eficiente. Os sistemas de armazenamento também continham mecanismos para replicar dados de um “storage array” para outro, fazendo com que uma segunda cópia 11 UNIDADE Infraestrutura de Data Center dos dados fosse mantida atualizada em um local seguro, em vez de fazer backup e restaurar dados o tempo todo como da forma mais tradicional. Acesse Storage Devices and Arrays (inglês) em: https://youtu.be/fxqt0NR0dHo Ex pl or Talvez uma das maiores eficiências obtidas com a adoção do modelo de ar- mazenamento compartilhado tenha sido o potencial de desduplicação global de dados em toda a empresa. Mesmo que a desduplicação estivesse disponível no modelo Direct Attached Storage (DAS), a desduplicação de 800 silos de dados individualmente não resultaria em altas taxas de consolidação. No entanto, a desduplicação de dados em todos os 800 sistemas provavelmente semelhantes resultaria em uma consolidação muito maior. Em meados da década de 2000, os data centers médios tinham a eficiência de usar o armazenamento compartilhado entre servidores e aplicativos, combina- do com a eficiência adicional de poder desduplicar globalmente esses dados. O desempenho dos sistemas de armazenamento compartilhado cresceu à medida que os fabricantes continuaram a aprimorar os protocolos de rede, a mídia de disco físico e os sistemas de arquivos que controlavam o “storage array”. Devi- do ao seu tamanho e escopo em muitas organizações, o gerenciamento da rede de armazenamento e dos “storage arrays” tornou-se um trabalho para equipes inteiras de pessoas, cada uma com conjuntos de habilidades altamente especiali- zados (MARIN, 2014). O uso do armazenamento compartilhado permitiu mais agilidade e flexibilidade com servidores do que o conhecido com armazenamento de conexão direta. Durante esse período, muitas organizações optaram por provisionar o disco do sistema operacional para um servidor no “storage array” e usar um modelo “boot from SAN”. O benefício de implementar sistemas operacionais dessa maneira era: se um servidor físico falhasse, um novo servidor poderia substituí-lo quase que instantaneamente, ser mapeado para o mesmo volume de inicialização e a mesma instância, e aplicativos do sistema operacional poderiam ser executados sem falhas. Nesse contexto, os fatores de forma do servidor blade tornaram-se mais populares nessa época. Os servidores blade têm um tamanho menor devido ao pequeno número de unidades (se houver), isso permite maior densidade por unidade de rack e por consequência uma utilização de área física dentro de um data center (SERVICES, 2010). Tão eficaz quanto toda essa consolidação foi reduzir custos no data center, ainda havia o problema dos recursos de computação. Os recursos de CPU e memória ainda eram geralmente configurados muito acima da utilização real do aplicativo para o qual o servidor foi criado. A eliminação desse problema foi a segunda fronteira na solução da ineficiência no data center moderno. 12 13 A Virtualização da Computação A virtualização como conceito não é algo tão novo como parece. A virtualização existe desde a década de 1960, quando a tecnologia foi desenvolvida para permitir que vários trabalhos fossem executados simultaneamente em um mainframe (com- putador de grande porte). Isso contrastava com a capacidade anterior de executar um único processo em lote em um determinado momento. A virtualização permite que várias cargas de trabalho sejam executadas em conjunto no hardware compar- tilhado, mas sejam isoladas umas das outras. Como os mainframes deram lugar a microcomputadores, servidores e computadores pessoais, a virtualização como tecnologia tornou-se menos importante. No final dos anos 80, quando diferentes empresas se esforçavam para controlar o mercado dos computadores pessoais, os usuários finais se viram em apuros, pois cer- tas aplicações seriam projetadas apenas para uma plataforma. Se um usuário possuís- se um computador baseado no Unix e quisesse executar um programa da Microsoft, ele estava em apuros até que uma empresa liberasse uma tecnologia que permitisse a virtualização do aplicativo desenvolvido para que um sistema operacional fosse execu- tado em um sistema operacional para o qual não foi desenvolvido. O verdadeiro poder da virtualização moderna surgiu em 2001, quando a VMware lançou o ESX, um “hipervisor” sem hardware capaz de virtualizar as cargas de trabalho do servidor no data center. O “hipervisor”, um termo usado para descrever o software que abstrai recursos físicos, como CPU e memória das máquinas virtuais, cumpria o mesmo propósito da tecnologia de virtualização desenvolvida para mainframes: executar múltiplas cargas de trabalho simultaneamente e efetivamente isoladas umas das outras (VERAS, 2016). Na época também havia questões ambientais, pois os custos relacionados ao con- sumo de eletricidade e refrigeração estavam crescendo, bem como a utilização de espaço físico, que se tornava mais escasso. Nesse contexto, os CIOs (presidentes) das empresas podiam ver que o problema só piorava e a virtualização de servidores pode- ria em potencial resolver esses problemas. Com a aplicação de tecnologias como o VMware ESX (agora chamado de ESXi or vSphere), o Microsoft Virtual Server 2005 (agora Hyper-V) e outras tecnologias de virtualização, os custos de energia elétrica do data center foram, como o esperado, reduzidos. Se os servidores físicos pudessem ser consolidados a uma taxa de 4 máqui- nas virtuais para 1 máquina física (uma taxa de consolidação de 4: 1), o data center poderia desligar 3 de 4 servidores físicos, uma enorme redução no consumo total de energia, além de menor utilização de espaço físico, menor gasto em manutenção e aquisição de peças de reposição, diminuição de dispositivos de gerência e, por con- sequência, menor quantidade de times de operação para suportar grandes ambientes (VERAS, 2016). O impacto da virtualização mudou a rede de comunicação também, pois em vez de termos centenasde cabos para a conectorização de servidores físicos, agora esses cabos conectam o hipervisor, que por consequência gerencia de- zenas e centenas de máquinas virtuais, ocorrendo uma melhor consolidação de recursos computacionais. 13 UNIDADE Infraestrutura de Data Center O desempenho do hipervisor e da máquina virtual (VM) aumentou e, com isso, as demandas dos componentes de infraestrutura relacionados também. A condu- ção da densidade da máquina virtual exigiu uma rede de largura de banda mais alta para permitir a alta quantidade de tráfego compartilhando em uma única interface. Também exigiu maior desempenho de disco e menor latência devido às máquinas virtuais que compartilham o mesmo caminho de armazenamento, e por esse moti- vo novas tecnologias foram desenvolvidas, como as de estado sólido, como memó- rias flash e discos de armazenamento SSD (que muitos não chamam de disco, pois não possuem componentes aplicados nos antigos HDDs – Discos Rígidos). A Evolução do Armazenamento A mídia de armazenamento magnético tem sido a escolha dominante para ar- mazenamento de dados para a maioria do histórico de data center. Os discos gi- ratórios serviram como armazenamento primário e os sistemas de armazenamento baseados em fita atenderam às necessidades de armazenamento a longo prazo de maior capacidade. No entanto, o desempenho do disco giratório acabou por se estabilizar devido a limitações induzidas pela física. A velocidade pela qual os dados em um disco giratório podem ser acessados é baseada em alguns fatores, mas o que é o maior problema é a velocidade de rotação do disco. Eventualmente, o prato não pode ser girado mais rápido sem danificá-lo. Há também a questão da latência. Devido à natureza mecânica de uma unidade de disco giratória, a latência (o tempo necessário para recuperar ou gravar os dados em questão) não pode ser reduzida abaixo de um determinado limite. Minúsculos bits de latência somados em várias unidades se tornam um problema em grande escala (SERVICES, 2010). A solução para o problema de IOPS (Input/output operations per second) e o problema de latência é encontrada no armazenamento flash. Em suma, a mídia de armazenamento flash faz uso de memória não volátil para armazenar dados, em oposição aos discos magnéticos. Embora o uso do armazenamento em flash tenha sido inicialmente problemático devido a problemas de durabilidade, o desempenho sempre foi bastante atraente e, muitas vezes, vale o risco. Como o armazenamento em flash não é de natureza mecânica, ele não sofre as mesmas limitações dos discos giratórios. O armazenamento em Flash é capaz de latência na ordem de microssegundos, em vez de vários milissegundos do disco giratório. Também é capaz de realizar muito mais operações de E/S por segundo do que um punhado de discos giratórios (SERVICES, 2010). Os storage arrays monolíticos resolveram muitos dos problemas do data center e permitiram que a TIC atingisse maior eficiência e escala. Infelizmente, as coisas que tornaram essa arquitetura tão atraente também acabaram se tornando sua queda. A virtualização de computação levou a densidades e requisitos de desempe- nho que os “storage arrays” têm lutado para acompanhar desde então. Um dos 14 15 principais desafios que os fabricantes de storage monolíticos tentaram resolver há vários anos é o desafio da “carga de trabalho mista”. Pela natureza da virtualização, muitos aplicativos e sistemas operacionais diferentes compartilham a mesma infra- estrutura de disco físico (o back-end). O desafio com essa arquitetura é que os sistemas operacionais, e especialmente os aplicativos, têm requisitos e características de carga de trabalho muito variáveis. Por exemplo, a tentativa de implantar a infraestrutura de desktop virtual (VDI) na mesma plataforma de armazenamento da virtualização de servidores foi a queda de muitos projetos de VDI, devido às características de E/S drasticamente diferentes de um sistema operacional de desktop versus um sistema operacional de servidor e os aplicativos executados neles. Computação em Nuvem O termo nuvem sempre foi um pouco confuso e difícil de ser encontrado. Infe- lizmente, existem muitos equívocos sobre exatamente o que é “a nuvem”, mas no sentido mais geral, a nuvem é bastante fácil de entender. A computação em nuvem (cloud computing) é um modelo de entrega de recursos de infraestrutura ou de aplicativos de forma flexível, rápida e sob demanda. É por isso que a infraestrutu- ra de compras da Amazon Web Services (AWS), por exemplo, seria classificada como nuvem. É uma infraestrutura adquirida sob demanda e pode levar cerca de dois minutos para ser provisionada e conter muitas opções de TIC. Como a nu- vem é um modelo e não uma coisa, há várias formas diferentes de implementar a infraestrutura da nuvem. Tipos de nuvem diferentes e modelos de implantação em nuvem são compatíveis com diferentes organizações (VERAS, 2015). Existem alguns casos em que um aplicativo foi desenvolvido a partir do zero para ser executado em uma nuvem. Nesse caso, pode fazer sentido usar um modelo de nuvem pública, no qual todos os recursos são provisionados em um data center de terceiros fornecido por empresas como AWS, Microsoft, VMware, Google ou seu provedor de serviços em nuvem. Especialmente para algumas pequenas empresas, o fato de ser totalmente baseado em nuvem pública permite uma pegada de TI extremamente leve no escritório ou na vitrine, resultando em menos sobrecarga. A próxima escolha possível é uma combinação de nuvem local e nuvem pública; é conhecida como nuvem híbrida. Usando esse modelo, os recursos de TIC são executados no data center corporativo como de costume, mas existe uma exten- são para um data center de nuvem pública. Isso significa que, com base em deter- minados requisitos, restrições ou outras decisões de design, uma carga de trabalho pode ser provisionada para o data center privado ou para o público. A terceira opção para modelos de implementação em nuvem é uma nuvem pri- vada. Essa frase pode ser bastante confusa se pensarmos em “nuvem” como um terceiro vendendo serviços na Internet ou, pior ainda, se acharmos que a própria Internet é uma nuvem. Essa opção, por sua vez, tende a ser mais custosa, pois for- nece características mais específicas e customizadas para um determinado cliente. 15 UNIDADE Infraestrutura de Data Center Arquitetura de Rede em Data Center Como já observamos, o data center é o lar do poder computacional, armaze- namento e aplicativos necessários para suportar negócios empresariais. A infraes- trutura do data center é a parte central para a arquitetura de TIC, da qual todo o conteúdo é originado ou passa por ela. Por esse motivo, o planejamento adequado do projeto de infraestrutura do data center é essencial e por esse motivo o de- sempenho, resiliência e escalabilidade precisam ser cuidadosamente considerados (COMER, 2011). Outro aspecto importante do design do data center é a flexibilidade na rápida implantação e suporte de novos serviços. Uma arquitetura flexível, que tem a ca- pacidade de suportar novos aplicativos em pouco tempo, pode resultar em uma vantagem competitiva muito significativa. Tal projeto requer planejamento inicial sólido e consideração cuidadosa nas áreas de densidade de portas de conexão, largura de banda de “uplink” de camada de acesso, capacidade real de servidor e outras características importantes. O projeto de rede ou infraestrutura de rede do data center é baseado em uma abordagem em camadas, que foi testada e melhorada ao longo dos últimos anos em algumas das maiores implementações de data center no mundo. A abordagem em camadas é a base do design do centro de dados, que procura melhorar a esca- labilidade, desempenho, flexibilidade, resiliência e manutenção. A abordagem de desenho em camadas possui duas principais: a Three-tier architecture (arquitetura em três camadas) e a Spine-leaf architecture (arquitetura de folha espinhal). Arquitetura de trêscamadas As tecnologias de data center estão impulsionando as mudanças na arquitetura de rede de três camadas, que eram muito utilizadas em ambientes de rede corporativa clássica, que, de uma certa forma, também atendem à infraestrutura em data center. Figura 4 – Arquitetura em Três Camadas 16 17 As camadas do design de rede do data center são as camadas principal, de agre- gação e de acesso. Essas camadas são descritas resumidamente da seguinte forma: • Camada Principal: fornece o papel de comutação de pacotes de alta veloci- dade para todos os fluxos que entram e saem do centro de dados. A camada central, conhecida como “core”, permite conectividade para vários módulos de agregação e fornece uma malha resiliente de camada 3 sem nenhum pon- to de falha. Se operando em camada 3, esta camada utiliza um protocolo de roteamento interior (IGP), tal como o OSPF ou EIGRP, além de balancear a carga de tráfego entre o núcleo do campus e as camadas de agregação usando algoritmos de hash baseados no Cisco Express Forwarding. • Camada de Agregação (Distribuição): fornece funções importantes, como integração de módulo de serviço, definições de domínio de camada 2, pro- cessamento de árvore de abrangência e redundância de gateway padrão. O tráfego de várias camadas de servidor para servidor flui através da camada de agregação e pode utilizar serviços como firewall, detecção de intrusão e ba- lanceamento de carga do servidor e muitos outros recursos, a fim de otimizar e proteger aplicativos. • Camada de Acesso: onde os servidores se conectam fisicamente à rede. Os componentes do servidor consistem de servidores 1RU, servidores blade com switches integrados, servidores blade com cabeamento de passagem, servido- res em cluster e mainframes com adaptadores específicos. A infraestrutura de rede da camada de acesso consiste de switches modulares, comutadores de configuração fixa de 1 ou 2RUs e comutadores de servidores blade integrados. Esses comutadores podem operar tanto em Camada 2 como em Camada 3, preenchendo os vários domínios de difusão (broadcast) do servidor e outros requisitos administrativos necessários. Vantagens da arquitetura de três camadas A arquitetura de três camadas já existe há muitos anos e pode ser utilizada em outras abordagens, como a utilizada em Data Center, por exemplo, que é uma arquitetura bem conhecida e comprovada. Essa arquitetura tem benefícios distintos, incluindo: • Disponibilidade - se um pod (unidade de rede) estiver inoperante devido ao equipamento ou a alguma outra falha, pode ser facilmente isolado para um ramo (vagem) sem afetar outros ramos (vagens); • Segurança - os processos e dados podem ser isolados em pods limitando os riscos de exposição; • Desempenho - o tráfego dentro do pod é reduzido, portanto a superinscrição é minimizada; • Escalabilidade - se um pod for super-inscrito, é uma tarefa simples adicionar outro pod e o tráfego de balanceamento de carga entre eles, melhorando o desempenho do aplicativo; 17 UNIDADE Infraestrutura de Data Center • Simplicidade - problemas de rede causados por dispositivos foliares são sim- plificados porque o número de dispositivos em cada ramo é limitado. Desvantagens da arquitetura de três camadas As infraestruturas definidas por software estão exigindo mudanças nas ar- quiteturas de rede, exigindo fluxos expandidos de tráfego leste-oeste. Os princi- pais softwares definidos e que impulsionam esses eventos são a virtualização e a convergência. • A virtualização exige a movimentação de cargas de trabalho em vários dispo- sitivos que compartilham informações de backend. • A convergência requer tráfego de armazenamento entre dispositivos no mesmo segmento de rede. Esses aplicativos também aumentam a utilização da largura de banda, o que é difícil de expandir nos vários dispositivos de rede em camadas na arquitetura de três camadas. Isso leva os dispositivos de rede principais a utilizar os links de alta velocidade, que, por consequência, são muito caros. Arquitetura de folha espinhal (spine-leaf) Novos data centers agora estão sendo projetados para arquiteturas de nuvem com maior tráfego leste-oeste. Isso leva à necessidade de arquiteturas de rede com um plano expandido leste-oeste como a coluna vertebral. Soluções como o VMware NSX, OpenStack e outras que distribuem cargas de trabalho para máquinas virtuais em execução em muitas sobreposições. As redes funcionam em cima de uma rede subjacente tradicional (física) e requerem mobilidade no domínio leste-oeste de uma forma mais plana. A arquitetura da folha espinhal (spine-leaf) é também conhecida como arquite- tura Clos (em homenagem a Charles Clos, pesquisador da Bell Laboratories na década de 1950), onde cada comutador de folha (leaf) é conectado a cada comuta- dor da coluna (spine) em uma topologia de malha completa. Esta malha pode ser implementada usando-se tecnologias de Camada 2 ou 3, dependendo dos recursos disponíveis na rede de comutação. O spine-leaf de camada 3 requer que cada link seja roteado e normalmente implementada a utilização do Open Shortest Path First (OSPF) ou roteamento dinâmico Border Gateway Protocol (BGP) com igual roteamento de vários caminhos de custo (ECMP). Já a camada 2 utiliza uma tecnologia de malha Ethernet sem loop, como Transparent Interconnection of Lots of Links (TRILL) ou Shortest Path Bridging (SPB), que foram criados para estes ambientes, isso depende muito do fabricante dos equipamentos que serão utilizados nessa topologia de rede (MARIN, 2011). 18 19 Figura 5 – Arquitetura em Spine-Leaf Esta arquitetura fornece uma conexão através da coluna (spine) com um único sal- to entre as folhas (leaf), minimizando, assim, qualquer latência e gargalos. A coluna (spine) pode ser expandida ou diminuída dependendo dos dados necessários e por esse motivo a arquitetura spine-leaf é considerada de grande flexibilidade e escalabi- lidade. Essa infraestrutura, com certeza, é a mais utilizada em Data Centers atuais. Vantagens da arquitetura de folha espinhal A arquitetura de folha espinhal (spine-leaf) é otimizada para o tráfego leste- -oeste, que é exigido pela maioria dos softwares e soluções definidas atualmente. As vantagens desta abordagem são: • todas as interconexões são usadas e não há necessidade de o STP bloquear loops, como acontece na arquitetura de três camadas; • todo o tráfego leste-oeste é equidistante, de modo que o fluxo de tráfego tem latência determinística; • a configuração do comutador (switch) de rede é realizada para que não sejam necessárias alterações de rede para um servidor dinâmico. Desvantagens da arquitetura de folha espinhal A arquitetura de folha espinhal não é isenta de preocupações, conforme lista- do abaixo: • a principal preocupação é a quantidade de cabos e equipamentos de rede necessários para dimensionar a largura de banda, uma vez que cada folha (leaf) deve ser conectada a cada dispositivo da coluna (spine). Isso pode le- var à aquisição de comutadores de rede mais caros e com altas densidades de portas; 19 UNIDADE Infraestrutura de Data Center • o número de hosts que podem ser suportados pode ser limitado devido às con- tagens de portas restringindo o número de conexões de troca de folhas (leaf); • a taxa de excesso de assinaturas entre a folha (leaf) e a coluna (spine) é con- siderada aceitável, mas é altamente dependente da quantidade de tráfego em seu ambiente particular; • a inscrição excessiva dos links fora do domínio da folha espinhal (spine-leaf) para o núcleo também deve ser considerada. Como essa arquitetura é otimiza- da para tráfego leste-oeste em oposição a norte-sul, as subscrições excessivas desses links podem ser consideradas aceitáveis. Modelos de Desenho em Redes de Data Center O modelo multicamada (multi-tier) é o design mais comum aplicado nas em- presas. É baseado na web, aplicativo e design em camadas de bancos de dados, suportando soluções ERP e CRM de negócios comerciais e corporativos.Este tipo de design suporta muitas arquiteturas de serviços da web, como aquelas baseadas em Microsoft, NET ou Java 2 Enterprise Edition. Esses ambientes de aplicativos de serviço da web são usados por soluções de ERP e CRM da Siebel e Oracle, para citar alguns. O modelo de cluster de servidores cresceu na universidade e na comunidade científica, emergindo verticais de negócios corporativos, incluindo financeiro, fa- bricação e entretenimento. O cluster de servidores é o mais comumente associado à computação de alto desempenho (HPC), computação paralela e ambientes de computação de alto rendimento (HTC), mas também pode ser associado à compu- tação em grade/utilitário. Esses projetos normalmente são baseados em arquite- turas de aplicativos personalizados e, às vezes, proprietários, que são construídos para atender a objetivos específicos de negócios. Modelo multicamada (multi-tier) O modelo de centro de dados de várias camadas é dominado por aplicativos baseados em HTTP em uma abordagem multicamada. A abordagem multicamadas inclui camadas da web, de aplicativos e de bancos de dados de servidores. Hoje, na maioria da web, os aplicativos são criados como aplicativos de várias camadas. O modelo multicamada utiliza software que executa e separa processo em uma mesma máquina usando a comunicação interprocesso (IPC) ou em diferentes máquinas com a comunicação através da rede. Normalmente, as três camadas a seguir são usadas: • Servidor web; • Aplicação; • Base de dados. 20 21 Modelo de cluster de servidor No ambiente de data center moderno, os clusters de servidores são usados para muitos propósitos, incluindo disponibilidade, balanceamento de carga e maior poder computacional. Todos os clusters têm o objetivo comum de combinar várias CPUs para aparecer como um sistema unificado de alto desempenho usando um software especial e de alta velocidade de interconexões de rede. Os clusters de servidores têm sido historicamente associados à pesquisa universitária, laboratórios científicos e pesquisa militar para aplicações únicas, como as seguintes: • Meteorologia (simulação do tempo); • Sismologia (análise sísmica); • Pesquisa militar (armas, guerra). Os clusters de servidores estão também sendo utilizados nas empresas, em fun- ção dos benefícios tecnológicos e de uma ampla gama de aplicativos. Podemos citar algumas aplicações sem segmentos de mercado: • Análise de tendências financeiras: Análise de preços de bônus em tempo real e tendências históricas; • Animação de filmes: renderização de arquivos de vários gigabytes artísticos; • Fabricação: modelagem de design automotivo e aerodinâmica; • Mecanismos de pesquisa: pesquisa paralela rápida e inserção de conteúdo. Tipos de Cluster HPC e Interconexão No cenário de computação de alto desempenho, existem vários tipos de cluster HPC e várias tecnologias de interconexões são usadas. A maioria das tecnologias de interconexão usadas hoje em dia seguem os padrões Fast Ethernet, Gigabit Ethernet, 10Giga, 40Giga e mais recentemente 100 Gigabit Ethernet, mas existe um número crescente de interconexões especiais, como, por exemplo, o Infiniband e Myrinet. Interconexões especiais, como o Infiniband, têm muito pouca latência e características de comutação de alta largura de banda quando comparadas com a Ethernet tradicional, e aproveitam o suporte interno para RDMA (Remote Direct Memory Access). Embora os clusters de alto desempenho (HPCs) sejam de vários tipos e tamanhos, podemos classificá-los em três tipos de categorias diferentes no meio corporativo; são eles: • HPC tipo 1 - passagem de mensagem paralela (também conhecida como acoplada) ° Os aplicativos são executados em todos os nós de computação simultanea- mente em paralelo; 21 UNIDADE Infraestrutura de Data Center ° Um nó mestre determina o processamento de entrada para cada nó de cálculo; ° Pode ser um cluster grande ou pequeno, dividido em colmeias (por exemplo, 1000 servidores com mais de 20 colmeias) com comunicação IPC entre nós/ colmeias de computação. • HPC tipo 2 - processamento de E/S distribuída (por exemplo, mecanismos de pesquisa) ° A solicitação do cliente é balanceada entre nós principais e, em seguida, pul- verizada para calcular os nós paralelos de processamento (tipicamente unicast no momento, com um movimento em direção a multicast); ° Este tipo obtém a resposta mais rápida, aplica inserção de conteúdo (publici- dade) e envia para o cliente. • HPC Tipo 3 - Processamento paralelo de arquivos (também conhecido como fracamente acoplado) ° O arquivo de dados de origem é dividido e distribuído no conjunto de com- putação para manipulação em paralelo. Os componentes processados são reunidos após a conclusão e gravados no armazenamento; ° Middleware controla o processo de gerenciamento de tarefas (por exemplo, sistema de arquivos linear de plataforma [LFS]). 22 23 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Livros Virtualização: tecnologia central do data center VERAS, M. Virtualização: tecnologia central do data center. 2ª ed. São Paulo: Editora Brasport, 2016. Computação em nuvem VERAS, M. Computação em nuvem. 1ª ed. São Paulo: Editora Brasport, 2015. Redes de computadores WHITE, C. M. Redes de computadores. 1ª ed. São Paulo: Editora Cengage Learning, 2013. Armazenamento e gerenciamento das informações SERVICES, EMC Education. Armazenamento e gerenciamento das informações. 1ª ed. São Paulo: Editora Bookman, 2010. 23 UNIDADE Infraestrutura de Data Center Referências COMER, D. E. Redes de computadores e internet. 6ª ed. Porto Alegre: Editora Bookman, 2016. CHAGAS, M. W. S. Sistemas de energia e climatização: aplicações práticas em telecomunicações e data center. 1ª ed. São Paulo: Editora Érica, 2014. MARIN, P. S. Data centers: desvendando cada passo - conceitos, projeto, infraes- trutura física e eficiência energética. 1ª ed. São Paulo: Editora Érica, 2011. 24
Compartilhar