Baixe o app para aproveitar ainda mais
Prévia do material em texto
Resumo Decorrente da redução de ganhos de desempenho de processadores de um núcleo, acarretada pela barreira da memória, barreira do ILP e em especial a barreira da potência, a indústria iniciou, em 2005, a “era multinúcleos”. A medida de escalabilidade passou a ser, ao invés de frequência, o número de núcleos. No entanto agora atingimos uma nova barreira, a barreira de utilização. Embora ainda possamos continuar reduzindo o tamanho dos transístores, em decorrência de diversos problemas resultantes desta miniaturização começamos a ter elevada potência dissipada, com comprometimento térmico e impossibilidade de utilizar todos os transístores que podem ser colocados dentro de um chip. Tais transístores não utilizados que recebem o nome de dark silicon. Este trabalho é apresenta os resultados de uma extensa pesquisa, onde buscamos mostrar as origens do dark silicon, definir o que é a barreira da utilização, e apresentar as tendências futuras que estão no estado da arte no sentido do que fazer para não termos recursos desperdiçados com silício não utilizado. 1 Introdução Desde 2005 os projetistas de processadores têm aumentado o número de núcleos nos processadores, na tentativa de explorar a escalabilidade decorrente da lei de Moore [1]. Tal lei diz que o número de transistores em um chip dobram a cada 18 meses, e tem sido uma condutora fundamental para a computação nas últimas três décadas. Tal lei é, na verdade, um ato de vontade da indústria, não sendo exatamente uma lei. A escalabilidade de Dennard [2] diz que (transístores) MOSFETs continuam a funcionar como comutadores controlados por tensão enquanto todas são aperfeiçoadas todas as demais figuras chaves como densidade, velocidade de operação e eficiência em energia – desde que as dimensões geométricas, tensões, concentrações de dopantes, sejam consistentemente escaladas para manter o mesmo campo elétrico. Percebe-se na indústria que o preço dos wafers de silício é relativamente fixo. Deste modo, se reduzirmos o tamanho de MOSFETs, poderemos colocar uma maior quantidade de chips no processador pelo mesmo preço. Outra consequência desejável é que a redução proporcional da largura, comprimento Dark Silicon: Origem e Tendências Daniel Lago lago@ic.unicamp.br Universidade Estadual de Campinas e espessura do óxido de MOSFETs não altera altera a resistência do canal do transístor, enquanto a capacitância do gate e a latência do circuito resistor-capacitor do transistor são reduzidas. Resultante da lei de Moore, juntamente com a escalabilidade de Dennard, utilizadas como metas pela indústria, foi possível mensurar que o aumento de desempenho se dá em incrementos exponenciais. A recente mudança dos projetos de processadores para o modelo multinúcleos objetivou o aumento do número de núcleos, juntamente com o aumento da contagem de transístores, sendo que este este aumento continua a oferecer uma escala proporcional de desempenho. Como resultado, pesquisadores começaram a focar em chips com centenas, e até milhares, de núcleos, além de incentivarem que seja criado no currículo graduação desafios para lidar com programação paralela para projetos multinúcleos nestas escalas. No entanto, a escalabilidade de Dennard falhou, em decorrência da desaceleração na redução escala de tensão por núcleo, tornando perigoso o crescimento do número de núcleos, deixando a comunidade sem um caminho claro sobre o que fazer para explorar o aumento do número de transístores. Sabe-se que os futuros projetos serão fortemente limitados pela potência, e um número maior de núcleos deve prover ganhos de desempenho superior à pioras com energia, obtidos com a escala da velocidade de transístores e com a disponibilidade de paralelismo em aplicações. De certa forma, nos cai a seguinte e intrigante pergunta: em 2024, os processadores terão 32 vezes mais desempenho que os processadores de 2008, explorando cinco gerações de dobra do número de núcleos? Para responder tal pergunta um estudo deve considerar dispositivos, arquiteturas de núcleos, organizações de chip e características de desempenho, aplicando limites de área e potência para cada nó de tecnologia. De fato, um estudo detalhado que apresenta tal grau de detalhamento é apresentado em [24]. Usando a ferramente de benchmark PARSEC [3], foi possível confirmar os seguintes argumentos intuitivos: 1. Ao contrário do conhecimento convencional sobre desempenho usando multinúcleos, após cinco gerações é possível um speedup de apenas 7,9x usando a escala ITRS (The International Technology Roadmap for Semiconductors) [4]; 2. Enquanto as dimensões dos transístores continuam a escalar, as limitações de potência limitam uma fração usável do chip. Em 22 nm, 21% do chip estará inativo e, em 8 nm, mais de 50% do chip não será utilizado usando a escala ITRS; 3. Nem projetos multinúcleos estilo CPU ou GPU são suficientes para atingir os níveis esperados de speedup. Inovações arquiteturais radicais são necessárias para alterar a fronteira potência/performance para entregar speedups mensuráveis com a lei de Moore. Este trabalho está organizado da seguinte maneira: na Seção 2 apresentamos a importância de miniaturizar MOSFETs, na Seção 3 abordamos dificuldades que surgem em decorrência desta miniaturização. Na Seção 4 mostramos quais são as origens do dark silicon, enquanto na Seção 5 indicamos quais são as tendências de como aproveitar o dark silicon. As conclusões tiradas do desenvolvimento deste trabalho são apresentadas na Seção 6. 2 Razões para Escalar MOSFETs A redução de MOSFETs é desejável por uma série de razões. A principal razão para fazer transístores menores é a capacidade de dispôr uma maior quantidade de dispositivos em uma mesma área de chip. Isto resulta em um chip com a mesma funcionalidade em uma área menor, ou chips com maior funcionalidade na mesma área. Também é esperado que transístores menores comutem mais rapidamente. Por exemplo, uma abordagem para redução do tamanho da escala é a redução para uma escala que requeira que todas as dimensões dos dispositivos reduzam proporcionalmente. As principais dimensões do dispositivo são o comprimento, a largura e a espessura do óxido do transístor, cada um tipicamente escalando em um fator de 0,7 por geração do processo. Desta maneira, a resistência do canal do transistor não altera com a escala, enquanto a capacitância do gate é cortado para um fator de 0,7. Além disso, a latência do circuito resistor-capacitor escala também em um fator de 0,7. Enquanto isso tem sido tradicionalmente o caso para tecnologias antigas, o estado da arte da redução das dimensões dos transístores não necessariamente se traduzem em maior velocidade do chip, pelo fato que a latência decorrente das interconexões se tornaram mais significantes. 3 Dificuldades que Surgem da Redução do Tamanho de MOSFETs A produção de MOSFETs nanométricos é um desafio, e as dificuldades de fabricação de dispositivos semicondutores sempre é um fator limitante no avanço da tecnologia de circuitos integrados. Deste modo, algumas das principais dificuldades que surgem são: • Altos níveis de condução sublimiares: com a redução da geometria de MOSFETs, é necessário também reduzir a tensão aplicada no gate para manter a confiabilidade. Para que o desempenho seja mantido, a tensão limiar do MOSFET também necessitaser reduzida. Em decorrência disto, pode ocorrer que o transístor não seja comutado de um completo “desligado” para um completo “ligado” com o pequeno alcance de diferença de potencial disponível. O problema é que neste nível, a fuga sublimiar de tensão, que era ignorada no passado, agora chega a consumir metade da potência total de chips de alta performance VLSI. • Aumento da fuga no óxido do gate: o óxido do gate, que serve como isolante entre o gate e o canal, deve ser feito o mais fino possível para aumentar a condutividade do canal e o desempenho quando o transistor está ligado, e para reduzir a fuga sublimiar quando o transistor estiver desligado. No entanto, quando a corrente atinge o óxido do gate com um espessura de 5 átomos (1,2 nm), o fenômeno da mecânica quântica da corrente de tunelamento elétrico ocorre no dielétrico entre o gate e o canal. • Aumento da fuga na junção: Para fazer dispositivos menores, o projeto da junção se torna mais complexo, levando a grandes níveis de perdas. • Menor resistência de saída: à medida em que os dispositivos são reduzidos, a influência do dreno compete mais com o gate devido à proximidade dos dois eletrodos, aumento a sensibilidade da do MOSFET à tensão do dreno. • Menor transcondutância: A transcondutância do MOSFET decide se seu ganho é proporcional à abertura ou à mobilidade do elétron. Com a redução do tamanho do MOSFET, os campos do canal e os níveis de impurezas dopantes aumentam. Ambos reduzem a transcondutância. O resultado é a velocidade da saturação dos transmissores. • Capacitância de interconexão: O tempo de comutação foi tradicionalmente proporcional à capacitância dos gates. Entretanto, com a diminuição do tamanho dos transistores, e mais transístores sendo postos em um chip, a capacitância de interconexão está se transformando em um grande percentual da capacitância. Como os sinais necessitam de passar pela interconexão, é acarretado aumento na latência e degradação no desempenho. • Produção de calor: O aumento da densidade de MOSFETs em circuitos integrados cria o problema de geração de calor localizado, que prejudica a operação do circuito. Circuitos que operam em maior temperatura trabalham mais lento, além de possuírem confiabilidade e tempo de vida reduzidos. • Variações de processos: com os MOSFETs ficando menores, o número de átomos de silício que produzem muitas das propriedades dos transístores ficam menores também. O resultado é o que o controle das perdas e a disposição destas se tornam mais erráticos, tornando as características dos transístores menos previsíveis e mais estatísticas. • Desafios de modelagem: Com a miniaturização os dispositivos, o processo de criação torna difícil de prever como os dispositivos finais efetivamente se comportarão, e a modelagem dos processos físicos fica mais difícil também. 4 Origem do Dark Silicon Quando chips de silício são manufaturados, o tamanho dos menores componentes, usualmente transístores, são determinados por métricas conhecidas como tamanho do aspecto e espessura de linha. O form factor foi reduzido com sucesso a cada nova geração de silício, desde que os primeiros circuitos integrados Intel iniciaram seu processo de fabricação. O form factor da maior parte dos chips de hoje em dia varia entre 45 nm e 65 nm, e alguns chips já estão começando a utilizar a tecnologia de 22 nm. Isso permitiu um maior número de transístores serem dispostos em uma mesma área de chip, dirigidos pela lei de Moore, sustentando e continuando incrementos no desempenho do processador. A miniaturização está em condições de continuar, e é possível esperar processadores com 30 vezes mais núcleos do que vemos hoje em 2020 [8]. Mas existe um sério problema – a densidade de potência, que não está sendo possível escalar na mesma proporção, o que significa que um núcleo com 1/30 avos do tamanho consumirá 1/8 da potência. Isso quer dizer, por exemplo, que um processador doméstico atual de alto desempenho, hoje projetado para uma potência de 125 watts [9], consome cerca de 15,625 watts por núcleo. Seguindo essa previsão, em 2020 teríamos um processador doméstico comparável proporcionalmente ao apresentado, no sentido de desempenho frente aos demais, com 240 núcleos, e cada núcleo consumindo 1,95 watts, consumindo no total 470 watts. Na verdade a densidade de potência sobe em uma potência de quatro. Isso é uma notícia ruim para os fabricantes de chips de silício, pois tal potência se converte em temperatura, e temperatura em excesso destrói um chip em questão de segundos. A potência exemplificada, de 470 watts é, portanto, insustentável. Se analisarmos os últimos anos da computação, podemos constatar que o problema já começou há algum tempo. No lançamento do Pentium IV em 2004 percebemos uma enorme dissipação de potência, decorrente de vários fatores, em especial o elevado número de estágios de pipeline (31), tornando o processador menos eficiente. Simplesmente não dá para se remover mais de 100 watts sem um elevado gasto de refrigeração do sistema. Na verdade, a partir desta data, toda a computação passou a ser computação de baixa potência. A alta densidade de potência trás algumas consequências importantes. Primeiro, se um chip excede seu máximo de temperatura operacional, ele será rapidamente danificado pelo uso. No entanto, mesmo que em operação ele chegue em uma temperatura limite, ocorre a degradação dos transístores e linhas no chip. Este problema é potencializado à medida em que os chips são miniaturizados. Em consequência, o efeito geral para forçar um chip com muitos núcleos operando nesta situação, é desligar a maior parte destes núcleos para evitar o superaquecimento, e movendo as cargas de trabalho entre núcleos para espalhar o calor pelo chip. Um problema que surge disso é que temos que gerenciar as temperaturas dos “pontos quentes” de um chip, e não somente as temperaturas médias. De fato, se nós incrementamos a densidade de potência, estes “pontos quentes” podem chegar ao ponto de queima antes mesmo que a temperatura média do die exceder o limite gerenciável. Há algumas estratégias que podem ser utilizadas para tentar gerenciar este problema. O throttling (estrangulamento), ou escala dinâmica de tensão e frequência, pode reduzir a frequência, potência e consequentemente temperatura geradas por um núcleo quando um CPU possui menos trabalho para realizar. O problema com esta abordagem é que o trabalho realizado pelo núcleo é reduzido proporcionalmente à sua frequência. Outra abordagem é a migração de tarefas entre núcleos. Quando um núcleo está em risco de superaquecimento, nós podemos mover o trabalho para outro núcleo e deixar o primeiro desligar. Uma terceira abordagem, e a mais radical, é a abordagem usada pelo projeto Greendroid da Universidade de San Diego [10] [11]. Nesta abordagem, seções de programa frequentemente usadas são substituídas por circuitos que as realizam integralmente, preenchendo o CPU não com núcleos que ficariam desligados, mas núcleos dedicados que aquecem menos, e são muito mais eficientes, ao invés de usar CPUs duplicadas que nunca serão completamente utilizadas. Para entender a origem do dark silicon, primeiro necessitamos entendero que a barreira de utilização (utilization wall), assim definida: a cada processo de geração sucessivo, o percentual do chip que pode comutar à frequência máxima cai exponencialmente devido às restrições de potência [5]. O dark silicon surge desta barreira [6] [7]. A seguir mostramos três fontes que evidenciam que atingimos tal barreira [5]: 1) teoria de escalabilidade CMOS, 2) experimentos realizados pela UCSD [13], e 3) observações gerais. 4.1 Teoria da Escalabilidade 4.1.1 Escalabilidade de Moore A teoria mais elementar da escalabilidade de CMOS é derivada diretamente da lei de Moore. Se nós examinarmos duas gerações de processos, com processos de fabricação de por exemplo, 65nm e 32 nm, é útil empregar uma variável S, que chamamos de fator de escalabilidade, que é a razão entre os processos de fabricação de duas gerações; neste caso S=65/32=2. Para miniaturizações típicas, S=1,4x. Da teoria da escalabilidade elementar, nós sabemos que os transístores escalam como S², ou 2x por geração de processo. Até 2005, o número de núcleos em processadores multinúcleos combinavam com a disponibilidade de transístores, aumentando em 2x por geração de processo. Por exemplo, o processador MIT Raw possui 16 núcleos de 180 nm, enquanto o Tilera TILE64 possui 64 núcleos de 90 nm, resultando em 4x mais núcleos para um fator de escala de 2x. Mais recentemente, no entanto, esta taxa reduziu para somente S, ou 1,4x, por razões que são apresentadas nas duas subseções a seguir. 4.1.2 Escalabilidade de Dennard As capacidades computacionais do silício não são resumidas simplesmente pelo número de transístores que podemos colocar em um chip. Para entender um pouco mais a respeito, nós necessitamos também entender como as propriedades dos transístores mudam à medida em que são reduzidos. Robert Dennard [2] afirma que o número de transístores escala por S², e que a frequência nativa destes transístores melhoram em escala S, resultando em uma melhoria computacional de S³ em um die de silício de área fixa. Além disso, para fatores de escalabilidade de 1,4x, nós podemos esperar ter um fator de melhoria de 2,8x em capacidades de computação por geração do processo. No entanto, este cenário apresenta um problema potencial – se a eficiência em energia do transístor também não escalar em S³, no final nós teremos chips com consumo de energia aumentando de forma exponencial, porque nós estamos comutando S³ mais transístores por unidade de tempo. Felizmente, Dennard delineou uma solução para este problema exponencial. Primeiro, a capacitância de computação dos transístores reduzem em um fator de S com a escalabilidade, e nós podemos reduzir o consumo de energia em um S² adicional. Como resultado, o consumo de energia de um transístor poderia ser reduzido em S³, combinando exatamente com as melhorias nas transições dos transístores por unidade de tempo. Em outras palavras, com uma escalabilidade da tensão seria possível ter todos os nossos transístores E comutá-los à capacidade máxima. 4.1.3 Escalabilidade Pós-Dennard A partir de 2005, a escalabilidade Dennardiana ruiu. A raiz dos problemas foi que a escalabilidade de tensão Vdd requer uma redução comensurada em Vt, o limiar de tensão do transístor, com o objetivo de manter a performance do transístor 1. Infelizmente, a redução no Vt causa uma perda que cresce exponencialmente à uma taxa determinada pelos declives sublimiares do processo. Atualmente, esta energia perdida se tornou muito grande, impossibilitando o aumento do limiar de tensão. Como resultado, os valores de Vt não podem ser escalados, impossibilitando, portanto, a escalabilidade do Vdd. O resultado final é que perdemos a escalabilidade do Vdd como um caminho efetivo para compensar o aumento do potencial computacional do silício. Como resultado, a cada geração do processo nós conseguimos melhorias de apenas 1,4x na eficiência em energia, o que quer dizer que, em orçamentos limitados de potência, nossa utilização do silício cairá por S³/S=S²=2x por geração do processo. Este fato é ao qual dado o nome de barreira de utilização (utilization wall), já definida anteriormente. A consequência direta deste crescimento exponencial no número de transístores, é que alguns deles deverão ser deixados operando abaixo da frequência permissível, resultando em dim silicon (silício subutilizado), ou completamente desligados, resultando em dark silicon (silício não utilizado). Para dar uma noção do tamanho do problema, Mike Muller, CTO da ARM, argumentou [12] com os seguintes números: o 1 Devido ao fato da extenuação do Vdd (=Vdd/Vt), onde valores inferiores a 2,5x causam massivas perdas no desempenho do transístor um núcleo desenvolvido com tecnologia de 22 nm, comparado ao mesmo núcleo desenvolvido com tecnologia de 22 nm, permite uma redução de 4x no tamanho do die, e de 16x se for usada a tecnologia de 11 nm. Tomando, ainda, 45 nm como ponto de referência, a frequência de pico em 22 nm teoricamente pode aumentar 1,6x, e em 11 nm, 2,4x. No entanto, o consumo de potência permanecerá praticamente constante em 22 nm comparado ao de 45 nm, e em 11 nm ele é reduzido para 0,6. Esses números querem dizer que com a tecnologia de 22 nm somente 25% do silício será explorável, e em 11 nm este valor cai para somente 10%. Isto claramente não é uma linha aceitável de tendência. 4.2 Experimentos da UCSD Para confirmar a que atingimos a barreira de utilização, pesquisadores da Universidade da Califórnia em San Diego realizaram séries de experimentos [13]. Foram sintetizados dois chips de 40 mm² com ALUs. Usando o chip de 90 nm na frequência de operação nativa foi identificado que somente 5% do chip podia rodar a uma potência de 3 watts em dispositivos móveis. Em 45 nm, essa fração reduziu para 1,8%. Usando as projeções do ITRS, num chip de 32 nm este valor cairia para 0,9%. Resultados semelhantes foram obtidos de plataformas desktop com 200 mm² de área e 80 watts de potência. Estes valores frequentemente aparentam ser estranhamente baixos. A explicação para isso é que as RAMs tipicamente operam a 1/10 da utilização por unidade de área comparado à lógica do datapath. No entanto, este ponto não é muito importante, visto que o percentual, para qualquer nó processado, uma vez atingindo a barreira de utilização, passa a ser o problema. Esta piora exponencial atingiu a indústria de surpresa, em 2005. 4.3 Projetos Industriais como Evidência da Barreira de Utilização Um exemplo saliente da tendência que reflete a barreira de utilização é a curva achatada da evolução da frequência dos processadores de 2005 em diante. O número de transístores de fato cresceram rápido, mas a frequência permaneceu praticamente estagnada. Outro exemplo da emergência da AMD e Intel é o recurso turbo boost, que permite um núcleo executar mais rápido se outros núcleos não estão em uso. Também foi observado um aumento considerável na fração dos chips dedicada à frequência mais baixa e fator de atividade mais baixo, como memórias L3 e lógica uncore, como controladores de memória. A mudança para multinúcleos também é uma consequência da barreira de utilização. Ironicamente, o uso de multinúcleos também não é uma solução direta para o problema da barreira de utilização. Originalmente,quando o modelo multinúcleos foi proposto como uma nova direção, foi postulado que o número de núcleos dobra com cada geração do processo, aumentado com o número de transístores. No entanto, esta é uma violação na barreira de utilização, que diz que as capacidades computacionais só podem aumentar na mesma taxa em que a eficiência em energia melhora. Olhando para os processadores desktop da Intel de 65 watts, com dois núcleos de 65 nm, e quatro núcleos em 32 nm, é possível verificar que a frequência, praticamente constante em 3 GHz, e os demais fatores, são consistentes com a barreira de utilização, e não outras predições anteriores. Uma observação interessante é que a barreira de utilização diz que existe um espectro de outros pontos de projeto que podem ser feitos para trocar a frequência do processador com o número de núcleos, com o extremo sendo o aumento da frequência ao invés do número de núcleos no fim de uma geração do processo. Se isso fosse feito, resultaria em, por exemplo, processadores de dois núcleos de 32 nm rodando a 6 GHz. A sabedoria convencional diz que um projeto de uniprocessador de maior frequência possui melhor desempenho, e é preferível, pois ele se aplica à todas as computações, e não apenas paralelas. No entanto, para computações orientadas à vazão, o projeto com maior frequência pode ser pior. A razão para isso é que o custo de cache miss é proporcionalmente menor em chips multinúcleos de menor clock, ou seja, em face de cache misses e dada vazão suficiente, um maior número de núcleos é mais importante do que uma frequência mais alta. 5 Como aproveitar o Dark Silicon Taylor [14] propõe quatro abordagens para lidar com o problema do dark silicon, na tentativa de torná-lo útil. Nesta seção iremos descrever algumas de suas ideias. 5.1 Encolhimento Quando confrontados com a possibilidade de dark silicon, a resposta imediata de projetistas de chip é “área é caro”. Se seguirem por esta abordagem, os projetistas de chips construirão chips menores ao invés de ter dark silicon nos seus projetos. Mas, de todas as abordagens pensadas por Taylor, esta é a potencialmente a pior, pois a redução inviabiliza o aproveitamento das áreas em dark silicon, que poderiam ser usadas para se fazer produtos melhores e, consequentemente, criando um padrão de pequena margem de melhoria para as próximas gerações onde a aplicação da lei de Moore trará pouco benefício. Além disso, é importante dizer que dark silicon não significa um espaço em branco, com silício inútil ou não usado – é apenas um silício que não pode ser usado o tempo todo, ou em sua frequência máxima. Mesmo na época de ouro da escala CMOS, processadores e outros circuitos foram desenvolvidos com uma série de “dark logics”, usadas somente por aplicações específicas – como SSE. Outro problema desta abordagem é o efeito colateral do encolhimento de silício. Entender como as chamadas de chips encolhidos é feita nos permite entender a economia de semicondutores. Todos os projetistas gastam muito tempo tentando encontrar orçamentos de área para projetos de chips existentes. Chips menores normalmente são mais baratos, e suas perdas devem ser menor dependendo da eficiência da potência no gate, e do regime de redução de sinal na otimização do projeto. Mas fazer chips exponencialmente menores não implica em chips exponencialmente mais baratos. Mesmo que eles custassem 50% do preço do sistema, após poucas gerações do processo o custo do silício seria uma fração pequena do pacote. 5.2 Ofuscamento Se considerarmos popular a área do dark silicon com um circuito lógico que usamos somente uma parte do tempo, nós termos duas opções: tentar fazer a lógica para propósito geral, ou para um propósito específico. Na próxima seção abordaremos a segunda opção e, nesta, a primeira, analisando alternativas de baixo uso que tentam reobter aplicabilidade geral em um grande leque de aplicações. Empregaremos o termo dim silicon [15] [16] para referenciar lógica de uso geral que tipicamente é executada abaixo da frequência, ou é usada infrequentemente, de modo a não ultrapassar o orçamento em potência. A primeira alternativa é o uso de processadores NTV (near-threshold voltage) [17], que operam em regime próximo do limiar, provendo extrema compensação entre energia e latência do que circuitos sublimiares convencionais. Outra alternativa, frequentemente proposta baseada nesta abordagem, é a simples substituição da área de dark silicon por caches. Com efeito reduziríamos consideravelmente o miss rate das cargas de trabalho, aumentando os benefícios tanto em desempenho quanto energia. Isso seria feito a uma taxa de entre 1,4x e 2x por geração do processo. Outras técnicas que têm sido exploradas também são as de Sprinting e Turbo Boost. Estas técnicas buscam usar a redução “temporal” e não a “espacial”. A técnica de turbo boost [18] analisa para a carga o número de núcleos ativos, o consumo estimado de corrente e potência, e a temperatura do processador. Quando estes parâmetros são satisfatórios, a potência e frequência do processador é aumentada, ainda que ultrapasse o TDP, por pequenos períodos de tempo, para que se maximize o desempenho. Semelhantemente, a proposta da técnica de Sprinting computacional [19] é usar materiais que mudam de fase para permitir que chips ultrapassem seu orçamento térmico, por uma ordem de magnitude ou mais, por curtas durações. 5.3 Especialização Com frações exponencialmente maiores de transistores em um chip se transformando em transistores dark, a área do silício está se tornando um recurso exponencialmente mais barata comparada ao consumo de potência e energia. Essa mudança chama por novas técnicas arquiteturais que possam “gastar” a área para “comprar” eficiência em energia. Uma abordagem é usar o dark silicon para implementar um servidor com múltiplos coprocessadores especializados, sendo cada um destes mais rápidos ou mais eficientes em energia do que um processador de uso geral. A execução de tarefas nestes processadores pode liberar os núcleos comuns para outras tarefas, além de retornar resultados mais rápidos e reduzindo o consumo da preciosa potência. Um espalhamento da especialização de núcleos já está sendo feita: temos visto com frequência aceleradores especializados em diversas áreas, como processamento de banda- base, gráficos, visão computacional, criptografia e codificação de mídia. Estes aceleradores permitem melhorias em ordens de magnitude em eficiência em energia e desempenho, especialmente em computações que são altamente paralelizáveis. Algumas propostas [20] vão além e afirmam que num futuro próximo será mais comum vermos sistemas comprometidos com coprocessadores do que usando de fato processadores de uso geral. Mas nem tudo são flores. Há um grande potencial para esta abordagem transformar a realidade de especialização dos dias de hoje em uma grande crise ao estilo “torre de babel”, pois tal especialização fragmenta muito as tradicionais linhas de computação bem definidas. O que é desenvolvido por uma empresa de processadores provavelmente não será desenvolvido por outra, a portabilidade fica difícil, há necessidade do software conhecer o hardware no qual ele vai rodar, etc. Mais do que isso, muitas vezes é necessário o desenvolvimento em linguagens completamentenovas – como CUDA. Outro grande problema dessa abordagem é como isolar os humanos da complexidade de lidar com este tipo de hardware, uma vez que ele é específico por natureza. É necessário esquemas arquiteturais escaláveis para empregar ubiquamente hardware especializado para minimizar a energia e maximizar o desempenho. Se formos seguir por esta abordagem, precisamos encontrar uma maneira de fazer a especialização de larga escala que permita economizar energia na maior parte das computações em questão, incluindo não somente computação regular, códigos paralelos, mas também códigos irregulares. Um exemplo experimental que podemos citar com esta abordagem, é o projeto GreenDroid [13], que ataca diretamente o problema do dark silicon usando um conjunto de aceleradores econômicos em energia, denominados núcleos de conservação, ou simplesmente c-cores. Resultados preliminares sugerem uma melhoria na eficiência em energia de até 11x, usando uma modesta quantia de silício. 5.4 “Deus Ex Machina” Deus Ex Machina se refere à um dispositivo na literatura no qual os protagonistas parecem totalmente condenados e, então, algo completamente inesperado ocorre e salva o dia. No caso do dark silicon, um Deus Ex Machina seria uma ruptura tecnológica nos dispositivos semicondutores. No entanto, da forma como podemos ver, tal ruptura requer que tenhamos algo bem fundamentado – e que de fato torne possível construirmos outros transístores ou dispositivos que não sejam baseados em MOSFETs. A razão para a perda é um conjunto de princípios fundamentais de dispositivos físicos. Portanto, inovações como FinFETs (“TriGates”), dielétricos K, etc, representam significantes marcos para tentar manter os limiares proporcionais aos valores tradicionais. Dois fortes candidatos à evadir tais limites, pelo fato de não serem baseados em injeção térmica, são os TFETS (Tunnel Field Effect Transistors) [21], que são baseados em efeitos de tunelamento; e Comutadores Nano- Eletro-Mecânicos [22][23], que são baseados em comutadores físicos. Ambos aparentam ter potencial para lidar com as perdas em ordens de magnitude, mas necessitam ser estudados e adestrados. 6 Conclusões Por décadas, a escalabilidade de Dennard permitiu mais transístores, transístores mais rápidos e transístores mais eficientes em energia a cada nova geração do processo, justificando os enormes custos de desenvolvimento para cada nova geração. No entanto, a escalabilidade de Dennard falhou, levando a indústria ao caminho do desenvolvimento multinúcleos, que por algum tempo permitiu a escalabilidade de desempenho para cargas de trabalho paralelas e multitarefas, permitindo manter, embora pior, a economia do processo de escalabilidade. Mas os benefícios da escalabilidade multinúcleo está começando a falhar devido à barreira da utilização. Tal barreira leva a uma piora exponencial do problema do dark silicon, e transformará como nós implementamos a computação. A severidade do problema urge pelo desenvolvimento de novas tendências arquiteturais, que substituam o dark silicon, um recurso exponencialmente barato, por energia, que é o verdadeiro limitador do desempenho hoje. Um novo condutor para escalabilidade deve ser encontrado, ou a economia do processo de escalabilidade quebrará e a lei de Moore, acarretando na sua finalização antes de atingirmos os limites finais da manufatura de processadores. Uma questão essencial é: quanto mais de desempenho pode ser extraído do caminho multinúcleos no futuro próximo? Em [24] é possível verificar uma previsão para isto. Combinando modelos de escalabilidade tecnológica, modelos de desempenho e resultados empíricos foi possível estimar o desempenho restante disponível para a escalabilidade multinúcleos. Usando benchmarks PARSEC e as projeções de escalabilidade ITRS, esse estudo prediz um speedup de 7,9x até 2024, supondo que seja possível atingir o processo de fabricação de 8 nm. O resultado se traduz em um ganho de desempenho de 16% ao ano, para cargas altamente paralelizadas e assumindo que cada benchmark consegue usar todos os núcleos com uma granulação ideal de carga. No entanto, esse trabalho acredita que as projeções do ITRS estão demasiadamente otimistas, especialmente quesito sub-22 nm. O modelo conservativo utilizado no artigo segue mais próximo da trilha do histórico recente, e aplicando uma escalabilidade conservativa, as projeções indicam que este ganho ideal se acaba: o caminho para 8 nm em 2018 indicam que, no melhor caso, ocorrerá um speedup de 3,7x, aproximadamente 14% por ano para códigos altamente paralelizável e e benchmarking de configurações ótimas. No entanto, na prática, esse retorno certamente será mais baixo. Atualmente, a maior parte da comunidade computacional acredita no consenso de que estamos na “era multinúcleos”. No entanto, dado os retornos estimados assumindo a escalabilidade conservativa, a adição de novos núcleos não proverá benefícios suficientes para continuar o processo de escalabilidade. Se a escalabilidade multinúcleo parar de ser o condutor principal para ganhos de performance em 16 nm (em 2014), a “era multinúcleos” terá durado meros nove anos, uma vida muito curta, numa tentativa de vencer as inexoráveis consequências do fracasso da escalabilidade de Dennard. Claramente, no momento é necessário ideias e mudanças radicais nos projetos, pois incrementos simplistas não será suficientes para os próximos ciclos industriais de produção. No entanto, saindo do caminho multinúcleo, nós poderemos acertar uma “barreira econômica de utilidade de transístores”, podendo também condenar a lei de Moore ao fracasso, criando um massivo rompimento na indústria. Neste trabalho apresentamos 4 abordagens possíveis para lidar com o dark silicon, e embora a “Deus Ex Machina” seja aparentemente a melhor, não parece fácil de ser concretizada. A abordagem de encolhimento pode trazer como benefícios a redução singela no preço de processadores, mas ao custo de ter um alto risco de impactar em estagnação tecnológica. A abordagem de ofuscamento de fato já vem sido utilizada na prática, e provê um ganho geral para os processadores, mas este ganho é pequeno. A abordagem de especialização, que de certa forma também tem sido utilizada, provê um grande ganho, mas para cargas muito específicas, além de ser extremamente custosa do ponto de vista computacional, pois novas tecnologias de processadores terão que ser muito bem especificadas, compiladores têm que ser readaptados, e teremos um enorme esforço do ponto de vista de programação para que seja possível aproveitar as unidades especializadas do processador. A barreira da utilização é potencialmente a maior de todas desde o início do processo de manufatura de processadores, e torna a pesquisa sobre o que fazer para mitigar os efeitos do dark silicon uma área excitante e inovadora, com um amplo leque para pesquisas, e certamente mudará todo o futuro da computação. 7 Referências [1] G. E. Moore. Cramming more components onto integrated circuits. Electronics, 38(8), April 1965. [2] R. H. Dennard, F. H. Gaensslen, V. L. Rideout, E. Bassous, and A. R. LeBlanc. Design of ion-implanted mosfet’s with very small physical dimensions. IEEE Journal of Solid-State Circuits, 9, October 1974. [3] C.Bienia, S. Kumar, J. P. Singh, and K. Li. The PARSEC benchmark suite: Characterization and architectural implica-tions. In PACT ’08. [4] The International Technology Roadmap for Semiconductors - http://www.itrs.net/ [5] Venkatesh, Sampson, Goulding, Garcia, Bryksin, Lugo-Martinez, S. Swanson, and M. B. Taylor. Conservation cores: Reducing the energy of mature computations." In ASPLOS, 2010. [6] N. Goulding, J. Sampson, G. Venkatesh, S. Garcia, J. Auricchio, J. Babb, M. Taylor, and S. Swanson. GreenDroid: A mobile application processor for a future of dark silicon." In HOTCHIPS, 2010. [7] R. Merrit. ARM CTO: power surge could create 'dark silicon'." EE Times, October 2009. [8] Crispin-Bailey, C. "Dark Silicon - When Moore's Law gets too hot to handle". Advanced Computer Architecture Group, University of York. 2012. [9] AMD FX 8-Core Black Edition FX-8350 Spec, http://products.amd.com/pt- br/DesktopCPUDetail.aspx? id=809&f1=&f2=&f3=&f4=&f5=&f6=& f7=&f8=&f9=&f10=&f11=&f12= , acessado em 1/11/2012. [10] Goulding-Hotta, N., Sampson, J., Venkatesh, G., Garcia, S., Auricchio, J., Babb, J., Taylor M. B., Swanson, S. GreenDroid: A Mobile Application Processor for a Future of Dark Silicon. Proceedings of HOTCHIPS, August 2010. [11] Goulding-Hotta, N., Sampson, J., Venkatesh, G., Garcia, S., Auricchio, J., Huang, P., Arora, M., Nath, S., Babb, J., Swanson, S., Taylor, M. B. "The GreenDroid Mobile Application Processor: An Architecture for Silicon's Dark Future". IEEE Micro, March 2011. [12] Donovan, J. “ARM CTO warns of dark silicon”. News & Analysis. EE Times, March 22, 2010. [13] Goulding-Hotta, N., Sampson, J., Zheng, Q., Bhatt, V., Auricchio, J., Swanson, S., Taylor, M. B., "GreenDroid: An Architecture for the Dark Silicon Age," 17th Asia and South Pacific Design Automation Conference (ASP-DAC), Sydney, Australia, Feb. 2012. [14] Taylor, M. B. “Is Dark Silicon Useful? Harnessing the Four Horsemen of the Coming Dark Silicon Apocalypse”. Design Automation Conference (DAC), June 2012. [15] W. Huang, K. Rajamani, M. Stan, and K. Skadron. Scaling with design constraints: Predicting the future of big chips." IEEE Micro , july-aug. 2011. [16] J. Sampson, G. Venkatesh, N. Goulding- Hotta, S. Garcia, S. Swanson, and M. B. Taylor. Eficient complex operators for irregular codes." In HPCA, 2011. [17] R. Dreslinski, M. Wieckowski, D. Blaauw, D. Sylvester, and T. Mudge. Near-threshold computing: Reclaiming moore's law through energy efficient integrated circuits." Proceedings of the IEEE. Feb. 2010. [18] E. Rotem. Power management architecture of the 2nd generation intel core microarchitecture, formerly codenamed sandy bridge." In Proceedings of Hotchips, 2011. [19] Raghavan et al. Computational sprinting." In HPCA, Feb. 2012. [20] N. Hardavellas, M. Ferdman, B. Falsa, and A. Ailamaki. "Toward dark silicon in servers." IEEE Micro, 2011. [21] A. Ionescu, and H. Riel. "Tunnel field- effect transistors as energy-efficient electronic switches." In Nature, November 2011. [22] Chen et al. "Demonstration of integrated micro-electro-mechanical switch circuits for vlsi applications." In ISSCC , Feb. 2010. [23] H. Dadgour, and K. Banerjee. “Design and analysis of hybrid nems-cmos circuits for ultra low-power applications." In DAC , june 2007. [24] Esmaeilzadeh, H., Blem E., St. Amant, R., Sankaralingam K., Burger, D.. 2011. “Dark silicon and the end of multicore scaling”. SIGARCH Comput. Archit. News 39, 3 (June 2011), 365-376. Resumo Decorrente da redução de ganhos de desempenho de processadores de um núcleo, acarretada pela barreira da memória, barreira do ILP e em especial a barreira da potência, a indústria iniciou, em 2005, a “era multinúcleos”. A medida de escalabilidade passou a ser, ao invés de frequência, o número de núcleos. No entanto agora atingimos uma nova barreira, a barreira de utilização. Embora ainda possamos continuar reduzindo o tamanho dos transístores, em decorrência de diversos problemas resultantes desta miniaturização começamos a ter elevada potência dissipada, com comprometimento térmico e impossibilidade de utilizar todos os transístores que podem ser colocados dentro de um chip. Tais transístores não utilizados que recebem o nome de dark silicon. Este trabalho é apresenta os resultados de uma extensa pesquisa, onde buscamos mostrar as origens do dark silicon, definir o que é a barreira da utilização, e apresentar as tendências futuras que estão no estado da arte no sentido do que fazer para não termos recursos desperdiçados com silício não utilizado. 1 Introdução 2 Razões para Escalar MOSFETs 3 Dificuldades que Surgem da Redução do Tamanho de MOSFETs 4 Origem do Dark Silicon 4.1 Teoria da Escalabilidade 4.1.1 Escalabilidade de Moore 4.1.2 Escalabilidade de Dennard 4.1.3 Escalabilidade Pós-Dennard 4.2 Experimentos da UCSD 4.3 Projetos Industriais como Evidência da Barreira de Utilização 5 Como aproveitar o Dark Silicon 5.1 Encolhimento 5.2 Ofuscamento 5.3 Especialização 5.4 “Deus Ex Machina” 6 Conclusões 7 Referências
Compartilhar