RA100---Dark-Silicon---Origem-e-Tendencias

•

Humanas / Sociais

Estudando na Faculdade

29/01/2023

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Administração

598.535 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Resumo
Decorrente da redução de ganhos de
desempenho de processadores de um núcleo,
acarretada pela barreira da memória, barreira
do ILP e em especial a barreira da potência, a
indústria iniciou, em 2005, a “era
multinúcleos”. A medida de escalabilidade
passou a ser, ao invés de frequência, o número
de núcleos. No entanto agora atingimos uma
nova barreira, a barreira de utilização. Embora
ainda possamos continuar reduzindo o
tamanho dos transístores, em decorrência de
diversos problemas resultantes desta
miniaturização começamos a ter elevada
potência dissipada, com comprometimento
térmico e impossibilidade de utilizar todos os
transístores que podem ser colocados dentro de
um chip. Tais transístores não utilizados que
recebem o nome de dark silicon. Este trabalho
é apresenta os resultados de uma extensa
pesquisa, onde buscamos mostrar as origens
do dark silicon, definir o que é a barreira da
utilização, e apresentar as tendências futuras
que estão no estado da arte no sentido do que
fazer para não termos recursos desperdiçados
com silício não utilizado.
1 Introdução
Desde 2005 os projetistas de processadores
têm aumentado o número de núcleos nos
processadores, na tentativa de explorar a
escalabilidade decorrente da lei de Moore [1].
Tal lei diz que o número de transistores em um
chip dobram a cada 18 meses, e tem sido uma
condutora fundamental para a computação nas
últimas três décadas. Tal lei é, na verdade, um
ato de vontade da indústria, não sendo
exatamente uma lei.
A escalabilidade de Dennard [2] diz que
(transístores) MOSFETs continuam a
funcionar como comutadores controlados por
tensão enquanto todas são aperfeiçoadas todas
as demais figuras chaves como densidade,
velocidade de operação e eficiência em
energia – desde que as dimensões geométricas,
tensões, concentrações de dopantes, sejam
consistentemente escaladas para manter o
mesmo campo elétrico.
Percebe-se na indústria que o preço dos
wafers de silício é relativamente fixo. Deste
modo, se reduzirmos o tamanho de MOSFETs,
poderemos colocar uma maior quantidade de
chips no processador pelo mesmo preço.
Outra consequência desejável é que a
redução proporcional da largura, comprimento
Dark Silicon: Origem e Tendências
Daniel Lago
lago@ic.unicamp.br
Universidade Estadual de Campinas
e espessura do óxido de MOSFETs não altera
altera a resistência do canal do transístor,
enquanto a capacitância do gate e a latência do
circuito resistor-capacitor do transistor são
reduzidas.
Resultante da lei de Moore, juntamente
com a escalabilidade de Dennard, utilizadas
como metas pela indústria, foi possível
mensurar que o aumento de desempenho se dá
em incrementos exponenciais.
A recente mudança dos projetos de
processadores para o modelo multinúcleos
objetivou o aumento do número de núcleos,
juntamente com o aumento da contagem de
transístores, sendo que este este aumento
continua a oferecer uma escala proporcional de
desempenho. Como resultado, pesquisadores
começaram a focar em chips com centenas, e
até milhares, de núcleos, além de incentivarem
que seja criado no currículo graduação
desafios para lidar com programação paralela
para projetos multinúcleos nestas escalas.
No entanto, a escalabilidade de Dennard
falhou, em decorrência da desaceleração na
redução escala de tensão por núcleo, tornando
perigoso o crescimento do número de núcleos,
deixando a comunidade sem um caminho claro
sobre o que fazer para explorar o aumento do
número de transístores.
Sabe-se que os futuros projetos serão
fortemente limitados pela potência, e um
número maior de núcleos deve prover ganhos
de desempenho superior à pioras com energia,
obtidos com a escala da velocidade de
transístores e com a disponibilidade de
paralelismo em aplicações.
De certa forma, nos cai a seguinte e
intrigante pergunta: em 2024, os processadores
terão 32 vezes mais desempenho que os
processadores de 2008, explorando cinco
gerações de dobra do número de núcleos?
Para responder tal pergunta um estudo
deve considerar dispositivos, arquiteturas de
núcleos, organizações de chip e características
de desempenho, aplicando limites de área e
potência para cada nó de tecnologia. De fato,
um estudo detalhado que apresenta tal grau de
detalhamento é apresentado em [24].
Usando a ferramente de benchmark
PARSEC [3], foi possível confirmar os
seguintes argumentos intuitivos:
1. Ao contrário do conhecimento
convencional sobre desempenho
usando multinúcleos, após cinco
gerações é possível um speedup de
apenas 7,9x usando a escala ITRS (The
International Technology Roadmap for
Semiconductors) [4];
2. Enquanto as dimensões dos transístores
continuam a escalar, as limitações de
potência limitam uma fração usável do
chip. Em 22 nm, 21% do chip estará
inativo e, em 8 nm, mais de 50% do
chip não será utilizado usando a escala
ITRS;
3. Nem projetos multinúcleos estilo CPU
ou GPU são suficientes para atingir os
níveis esperados de speedup. Inovações
arquiteturais radicais são necessárias
para alterar a fronteira
potência/performance para entregar
speedups mensuráveis com a lei de
Moore.
Este trabalho está organizado da seguinte
maneira: na Seção 2 apresentamos a
importância de miniaturizar MOSFETs, na
Seção 3 abordamos dificuldades que surgem
em decorrência desta miniaturização. Na
Seção 4 mostramos quais são as origens do
dark silicon, enquanto na Seção 5 indicamos
quais são as tendências de como aproveitar o
dark silicon. As conclusões tiradas do
desenvolvimento deste trabalho são
apresentadas na Seção 6.
2 Razões para Escalar MOSFETs
A redução de MOSFETs é desejável por uma
série de razões. A principal razão para fazer
transístores menores é a capacidade de dispôr
uma maior quantidade de dispositivos em uma
mesma área de chip. Isto resulta em um chip
com a mesma funcionalidade em uma área
menor, ou chips com maior funcionalidade na
mesma área.
Também é esperado que transístores
menores comutem mais rapidamente. Por
exemplo, uma abordagem para redução do
tamanho da escala é a redução para uma escala
que requeira que todas as dimensões dos
dispositivos reduzam proporcionalmente.
As principais dimensões do dispositivo
são o comprimento, a largura e a espessura do
óxido do transístor, cada um tipicamente
escalando em um fator de 0,7 por geração do
processo. Desta maneira, a resistência do canal
do transistor não altera com a escala, enquanto
a capacitância do gate é cortado para um fator
de 0,7. Além disso, a latência do circuito
resistor-capacitor escala também em um fator
de 0,7.
Enquanto isso tem sido tradicionalmente
o caso para tecnologias antigas, o estado da
arte da redução das dimensões dos transístores
não necessariamente se traduzem em maior
velocidade do chip, pelo fato que a latência
decorrente das interconexões se tornaram mais
significantes.
3 Dificuldades que Surgem da
Redução do Tamanho de
MOSFETs
A produção de MOSFETs nanométricos é um
desafio, e as dificuldades de fabricação de
dispositivos semicondutores sempre é um fator
limitante no avanço da tecnologia de circuitos
integrados. Deste modo, algumas das
principais dificuldades que surgem são:
• Altos níveis de condução sublimiares:
com a redução da geometria de
MOSFETs, é necessário também
reduzir a tensão aplicada no gate para
manter a confiabilidade. Para que o
desempenho seja mantido, a tensão
limiar do MOSFET também necessitaser reduzida. Em decorrência disto,
pode ocorrer que o transístor não seja
comutado de um completo “desligado”
para um completo “ligado” com o
pequeno alcance de diferença de
potencial disponível. O problema é que
neste nível, a fuga sublimiar de tensão,
que era ignorada no passado, agora
chega a consumir metade da potência
total de chips de alta performance
VLSI.
• Aumento da fuga no óxido do gate: o
óxido do gate, que serve como isolante
entre o gate e o canal, deve ser feito o
mais fino possível para aumentar a
condutividade do canal e o
desempenho quando o transistor está
ligado, e para reduzir a fuga sublimiar
quando o transistor estiver desligado.
No entanto, quando a corrente atinge o
óxido do gate com um espessura de 5
átomos (1,2 nm), o fenômeno da
mecânica quântica da corrente de
tunelamento elétrico ocorre no
dielétrico entre o gate e o canal.
• Aumento da fuga na junção: Para fazer
dispositivos menores, o projeto da
junção se torna mais complexo,
levando a grandes níveis de perdas.
• Menor resistência de saída: à medida
em que os dispositivos são reduzidos, a
influência do dreno compete mais com
o gate devido à proximidade dos dois
eletrodos, aumento a sensibilidade da
do MOSFET à tensão do dreno.
• Menor transcondutância: A
transcondutância do MOSFET decide
se seu ganho é proporcional à abertura
ou à mobilidade do elétron. Com a
redução do tamanho do MOSFET, os
campos do canal e os níveis de
impurezas dopantes aumentam. Ambos
reduzem a transcondutância. O
resultado é a velocidade da saturação
dos transmissores.
• Capacitância de interconexão: O
tempo de comutação foi
tradicionalmente proporcional à
capacitância dos gates. Entretanto, com
a diminuição do tamanho dos
transistores, e mais transístores sendo
postos em um chip, a capacitância de
interconexão está se transformando em
um grande percentual da capacitância.
Como os sinais necessitam de passar
pela interconexão, é acarretado
aumento na latência e degradação no
desempenho.
• Produção de calor: O aumento da
densidade de MOSFETs em circuitos
integrados cria o problema de geração
de calor localizado, que prejudica a
operação do circuito. Circuitos que
operam em maior temperatura
trabalham mais lento, além de
possuírem confiabilidade e tempo de
vida reduzidos.
• Variações de processos: com os
MOSFETs ficando menores, o número
de átomos de silício que produzem
muitas das propriedades dos
transístores ficam menores também. O
resultado é o que o controle das perdas
e a disposição destas se tornam mais
erráticos, tornando as características
dos transístores menos previsíveis e
mais estatísticas.
• Desafios de modelagem: Com a
miniaturização os dispositivos, o
processo de criação torna difícil de
prever como os dispositivos finais
efetivamente se comportarão, e a
modelagem dos processos físicos fica
mais difícil também.
4 Origem do Dark Silicon
Quando chips de silício são manufaturados, o
tamanho dos menores componentes,
usualmente transístores, são determinados por
métricas conhecidas como tamanho do aspecto
e espessura de linha. O form factor foi
reduzido com sucesso a cada nova geração de
silício, desde que os primeiros circuitos
integrados Intel iniciaram seu processo de
fabricação. O form factor da maior parte dos
chips de hoje em dia varia entre 45 nm e 65
nm, e alguns chips já estão começando a
utilizar a tecnologia de 22 nm. Isso permitiu
um maior número de transístores serem
dispostos em uma mesma área de chip,
dirigidos pela lei de Moore, sustentando e
continuando incrementos no desempenho do
processador.
A miniaturização está em condições de
continuar, e é possível esperar processadores
com 30 vezes mais núcleos do que vemos hoje
em 2020 [8]. Mas existe um sério problema – a
densidade de potência, que não está sendo
possível escalar na mesma proporção, o que
significa que um núcleo com 1/30 avos do
tamanho consumirá 1/8 da potência. Isso quer
dizer, por exemplo, que um processador
doméstico atual de alto desempenho, hoje
projetado para uma potência de 125 watts [9],
consome cerca de 15,625 watts por núcleo.
Seguindo essa previsão, em 2020 teríamos um
processador doméstico comparável
proporcionalmente ao apresentado, no sentido
de desempenho frente aos demais, com 240
núcleos, e cada núcleo consumindo 1,95 watts,
consumindo no total 470 watts. Na verdade a
densidade de potência sobe em uma potência
de quatro. Isso é uma notícia ruim para os
fabricantes de chips de silício, pois tal potência
se converte em temperatura, e temperatura em
excesso destrói um chip em questão de
segundos. A potência exemplificada, de 470
watts é, portanto, insustentável.
Se analisarmos os últimos anos da
computação, podemos constatar que o
problema já começou há algum tempo. No
lançamento do Pentium IV em 2004
percebemos uma enorme dissipação de
potência, decorrente de vários fatores, em
especial o elevado número de estágios de
pipeline (31), tornando o processador menos
eficiente. Simplesmente não dá para se
remover mais de 100 watts sem um elevado
gasto de refrigeração do sistema. Na verdade,
a partir desta data, toda a computação passou a
ser computação de baixa potência.
A alta densidade de potência trás
algumas consequências importantes. Primeiro,
se um chip excede seu máximo de temperatura
operacional, ele será rapidamente danificado
pelo uso. No entanto, mesmo que em operação
ele chegue em uma temperatura limite, ocorre
a degradação dos transístores e linhas no chip.
Este problema é potencializado à medida em
que os chips são miniaturizados. Em
consequência, o efeito geral para forçar um
chip com muitos núcleos operando nesta
situação, é desligar a maior parte destes
núcleos para evitar o superaquecimento, e
movendo as cargas de trabalho entre núcleos
para espalhar o calor pelo chip.
Um problema que surge disso é que
temos que gerenciar as temperaturas dos
“pontos quentes” de um chip, e não somente as
temperaturas médias. De fato, se nós
incrementamos a densidade de potência, estes
“pontos quentes” podem chegar ao ponto de
queima antes mesmo que a temperatura média
do die exceder o limite gerenciável.
Há algumas estratégias que podem ser
utilizadas para tentar gerenciar este problema.
O throttling (estrangulamento), ou escala
dinâmica de tensão e frequência, pode reduzir
a frequência, potência e consequentemente
temperatura geradas por um núcleo quando um
CPU possui menos trabalho para realizar. O
problema com esta abordagem é que o
trabalho realizado pelo núcleo é reduzido
proporcionalmente à sua frequência. Outra
abordagem é a migração de tarefas entre
núcleos. Quando um núcleo está em risco de
superaquecimento, nós podemos mover o
trabalho para outro núcleo e deixar o primeiro
desligar. Uma terceira abordagem, e a mais
radical, é a abordagem usada pelo projeto
Greendroid da Universidade de San Diego
[10] [11]. Nesta abordagem, seções de
programa frequentemente usadas são
substituídas por circuitos que as realizam
integralmente, preenchendo o CPU não com
núcleos que ficariam desligados, mas núcleos
dedicados que aquecem menos, e são muito
mais eficientes, ao invés de usar CPUs
duplicadas que nunca serão completamente
utilizadas.
Para entender a origem do dark silicon,
primeiro necessitamos entendero que a
barreira de utilização (utilization wall), assim
definida: a cada processo de geração
sucessivo, o percentual do chip que pode
comutar à frequência máxima cai
exponencialmente devido às restrições de
potência [5].
O dark silicon surge desta barreira [6]
[7]. A seguir mostramos três fontes que
evidenciam que atingimos tal barreira [5]: 1)
teoria de escalabilidade CMOS, 2)
experimentos realizados pela UCSD [13], e 3)
observações gerais.
4.1 Teoria da Escalabilidade
4.1.1 Escalabilidade de Moore
A teoria mais elementar da escalabilidade de
CMOS é derivada diretamente da lei de
Moore. Se nós examinarmos duas gerações de
processos, com processos de fabricação de por
exemplo, 65nm e 32 nm, é útil empregar uma
variável S, que chamamos de fator de
escalabilidade, que é a razão entre os
processos de fabricação de duas gerações;
neste caso S=65/32=2. Para miniaturizações
típicas, S=1,4x. Da teoria da escalabilidade
elementar, nós sabemos que os transístores
escalam como S², ou 2x por geração de
processo. Até 2005, o número de núcleos em
processadores multinúcleos combinavam com
a disponibilidade de transístores, aumentando
em 2x por geração de processo. Por exemplo,
o processador MIT Raw possui 16 núcleos de
180 nm, enquanto o Tilera TILE64 possui 64
núcleos de 90 nm, resultando em 4x mais
núcleos para um fator de escala de 2x. Mais
recentemente, no entanto, esta taxa reduziu
para somente S, ou 1,4x, por razões que são
apresentadas nas duas subseções a seguir.
4.1.2 Escalabilidade de Dennard
As capacidades computacionais do silício não
são resumidas simplesmente pelo número de
transístores que podemos colocar em um chip.
Para entender um pouco mais a respeito, nós
necessitamos também entender como as
propriedades dos transístores mudam à medida
em que são reduzidos. Robert Dennard [2]
afirma que o número de transístores escala por
S², e que a frequência nativa destes transístores
melhoram em escala S, resultando em uma
melhoria computacional de S³ em um die de
silício de área fixa. Além disso, para fatores de
escalabilidade de 1,4x, nós podemos esperar
ter um fator de melhoria de 2,8x em
capacidades de computação por geração do
processo.
No entanto, este cenário apresenta um
problema potencial – se a eficiência em
energia do transístor também não escalar em
S³, no final nós teremos chips com consumo de
energia aumentando de forma exponencial,
porque nós estamos comutando S³ mais
transístores por unidade de tempo.
Felizmente, Dennard delineou uma
solução para este problema exponencial.
Primeiro, a capacitância de computação dos
transístores reduzem em um fator de S com a
escalabilidade, e nós podemos reduzir o
consumo de energia em um S² adicional.
Como resultado, o consumo de energia de um
transístor poderia ser reduzido em S³,
combinando exatamente com as melhorias nas
transições dos transístores por unidade de
tempo. Em outras palavras, com uma
escalabilidade da tensão seria possível ter
todos os nossos transístores E comutá-los à
capacidade máxima.
4.1.3 Escalabilidade Pós-Dennard
A partir de 2005, a escalabilidade Dennardiana
ruiu. A raiz dos problemas foi que a
escalabilidade de tensão Vdd requer uma
redução comensurada em Vt, o limiar de
tensão do transístor, com o objetivo de manter
a performance do transístor 1. Infelizmente, a
redução no Vt causa uma perda que cresce
exponencialmente à uma taxa determinada
pelos declives sublimiares do processo.
Atualmente, esta energia perdida se tornou
muito grande, impossibilitando o aumento do
limiar de tensão. Como resultado, os valores
de Vt não podem ser escalados,
impossibilitando, portanto, a escalabilidade do
Vdd.
O resultado final é que perdemos a
escalabilidade do Vdd como um caminho
efetivo para compensar o aumento do
potencial computacional do silício. Como
resultado, a cada geração do processo nós
conseguimos melhorias de apenas 1,4x na
eficiência em energia, o que quer dizer que,
em orçamentos limitados de potência, nossa
utilização do silício cairá por S³/S=S²=2x por
geração do processo. Este fato é ao qual dado
o nome de barreira de utilização (utilization
wall), já definida anteriormente. A
consequência direta deste crescimento
exponencial no número de transístores, é que
alguns deles deverão ser deixados operando
abaixo da frequência permissível, resultando
em dim silicon (silício subutilizado), ou
completamente desligados, resultando em dark
silicon (silício não utilizado).
Para dar uma noção do tamanho do
problema, Mike Muller, CTO da ARM,
argumentou [12] com os seguintes números: o
1 Devido ao fato da extenuação do Vdd (=Vdd/Vt),
onde valores inferiores a 2,5x causam massivas
perdas no desempenho do transístor
um núcleo desenvolvido com tecnologia de 22
nm, comparado ao mesmo núcleo
desenvolvido com tecnologia de 22 nm,
permite uma redução de 4x no tamanho do die,
e de 16x se for usada a tecnologia de 11 nm.
Tomando, ainda, 45 nm como ponto de
referência, a frequência de pico em 22 nm
teoricamente pode aumentar 1,6x, e em 11 nm,
2,4x. No entanto, o consumo de potência
permanecerá praticamente constante em 22 nm
comparado ao de 45 nm, e em 11 nm ele é
reduzido para 0,6. Esses números querem dizer
que com a tecnologia de 22 nm somente 25%
do silício será explorável, e em 11 nm este
valor cai para somente 10%. Isto claramente
não é uma linha aceitável de tendência.
4.2 Experimentos da UCSD
Para confirmar a que atingimos a barreira de
utilização, pesquisadores da Universidade da
Califórnia em San Diego realizaram séries de
experimentos [13]. Foram sintetizados dois
chips de 40 mm² com ALUs. Usando o chip de
90 nm na frequência de operação nativa foi
identificado que somente 5% do chip podia
rodar a uma potência de 3 watts em
dispositivos móveis. Em 45 nm, essa fração
reduziu para 1,8%. Usando as projeções do
ITRS, num chip de 32 nm este valor cairia
para 0,9%. Resultados semelhantes foram
obtidos de plataformas desktop com 200 mm²
de área e 80 watts de potência.
Estes valores frequentemente aparentam
ser estranhamente baixos. A explicação para
isso é que as RAMs tipicamente operam a 1/10
da utilização por unidade de área comparado à
lógica do datapath. No entanto, este ponto não
é muito importante, visto que o percentual,
para qualquer nó processado, uma vez
atingindo a barreira de utilização, passa a ser o
problema. Esta piora exponencial atingiu a
indústria de surpresa, em 2005.
4.3 Projetos Industriais como
Evidência da Barreira de
Utilização
Um exemplo saliente da tendência que reflete
a barreira de utilização é a curva achatada da
evolução da frequência dos processadores de
2005 em diante. O número de transístores de
fato cresceram rápido, mas a frequência
permaneceu praticamente estagnada. Outro
exemplo da emergência da AMD e Intel é o
recurso turbo boost, que permite um núcleo
executar mais rápido se outros núcleos não
estão em uso. Também foi observado um
aumento considerável na fração dos chips
dedicada à frequência mais baixa e fator de
atividade mais baixo, como memórias L3 e
lógica uncore, como controladores de
memória.
A mudança para multinúcleos também é
uma consequência da barreira de utilização.
Ironicamente, o uso de multinúcleos também
não é uma solução direta para o problema da
barreira de utilização. Originalmente,quando
o modelo multinúcleos foi proposto como uma
nova direção, foi postulado que o número de
núcleos dobra com cada geração do processo,
aumentado com o número de transístores. No
entanto, esta é uma violação na barreira de
utilização, que diz que as capacidades
computacionais só podem aumentar na mesma
taxa em que a eficiência em energia melhora.
Olhando para os processadores desktop da
Intel de 65 watts, com dois núcleos de 65 nm,
e quatro núcleos em 32 nm, é possível
verificar que a frequência, praticamente
constante em 3 GHz, e os demais fatores, são
consistentes com a barreira de utilização, e não
outras predições anteriores.
Uma observação interessante é que a
barreira de utilização diz que existe um
espectro de outros pontos de projeto que
podem ser feitos para trocar a frequência do
processador com o número de núcleos, com o
extremo sendo o aumento da frequência ao
invés do número de núcleos no fim de uma
geração do processo. Se isso fosse feito,
resultaria em, por exemplo, processadores de
dois núcleos de 32 nm rodando a 6 GHz. A
sabedoria convencional diz que um projeto de
uniprocessador de maior frequência possui
melhor desempenho, e é preferível, pois ele se
aplica à todas as computações, e não apenas
paralelas. No entanto, para computações
orientadas à vazão, o projeto com maior
frequência pode ser pior. A razão para isso é
que o custo de cache miss é proporcionalmente
menor em chips multinúcleos de menor clock,
ou seja, em face de cache misses e dada vazão
suficiente, um maior número de núcleos é mais
importante do que uma frequência mais alta.
5 Como aproveitar o Dark Silicon
Taylor [14] propõe quatro abordagens para
lidar com o problema do dark silicon, na
tentativa de torná-lo útil. Nesta seção iremos
descrever algumas de suas ideias.
5.1 Encolhimento
Quando confrontados com a possibilidade de
dark silicon, a resposta imediata de projetistas
de chip é “área é caro”. Se seguirem por esta
abordagem, os projetistas de chips construirão
chips menores ao invés de ter dark silicon nos
seus projetos. Mas, de todas as abordagens
pensadas por Taylor, esta é a potencialmente a
pior, pois a redução inviabiliza o
aproveitamento das áreas em dark silicon, que
poderiam ser usadas para se fazer produtos
melhores e, consequentemente, criando um
padrão de pequena margem de melhoria para
as próximas gerações onde a aplicação da lei
de Moore trará pouco benefício.
Além disso, é importante dizer que dark
silicon não significa um espaço em branco,
com silício inútil ou não usado – é apenas um
silício que não pode ser usado o tempo todo,
ou em sua frequência máxima. Mesmo na
época de ouro da escala CMOS, processadores
e outros circuitos foram desenvolvidos com
uma série de “dark logics”, usadas somente
por aplicações específicas – como SSE.
Outro problema desta abordagem é o
efeito colateral do encolhimento de silício.
Entender como as chamadas de chips
encolhidos é feita nos permite entender a
economia de semicondutores. Todos os
projetistas gastam muito tempo tentando
encontrar orçamentos de área para projetos de
chips existentes. Chips menores normalmente
são mais baratos, e suas perdas devem ser
menor dependendo da eficiência da potência
no gate, e do regime de redução de sinal na
otimização do projeto. Mas fazer chips
exponencialmente menores não implica em
chips exponencialmente mais baratos. Mesmo
que eles custassem 50% do preço do sistema,
após poucas gerações do processo o custo do
silício seria uma fração pequena do pacote.
5.2 Ofuscamento
Se considerarmos popular a área do dark
silicon com um circuito lógico que usamos
somente uma parte do tempo, nós termos duas
opções: tentar fazer a lógica para propósito
geral, ou para um propósito específico. Na
próxima seção abordaremos a segunda opção
e, nesta, a primeira, analisando alternativas de
baixo uso que tentam reobter aplicabilidade
geral em um grande leque de aplicações.
Empregaremos o termo dim silicon [15] [16]
para referenciar lógica de uso geral que
tipicamente é executada abaixo da frequência,
ou é usada infrequentemente, de modo a não
ultrapassar o orçamento em potência.
A primeira alternativa é o uso de
processadores NTV (near-threshold voltage)
[17], que operam em regime próximo do
limiar, provendo extrema compensação entre
energia e latência do que circuitos sublimiares
convencionais.
Outra alternativa, frequentemente
proposta baseada nesta abordagem, é a simples
substituição da área de dark silicon por caches.
Com efeito reduziríamos consideravelmente o
miss rate das cargas de trabalho, aumentando
os benefícios tanto em desempenho quanto
energia. Isso seria feito a uma taxa de entre
1,4x e 2x por geração do processo.
Outras técnicas que têm sido exploradas
também são as de Sprinting e Turbo Boost.
Estas técnicas buscam usar a redução
“temporal” e não a “espacial”. A técnica de
turbo boost [18] analisa para a carga o número
de núcleos ativos, o consumo estimado de
corrente e potência, e a temperatura do
processador. Quando estes parâmetros são
satisfatórios, a potência e frequência do
processador é aumentada, ainda que ultrapasse
o TDP, por pequenos períodos de tempo, para
que se maximize o desempenho.
Semelhantemente, a proposta da técnica de
Sprinting computacional [19] é usar materiais
que mudam de fase para permitir que chips
ultrapassem seu orçamento térmico, por uma
ordem de magnitude ou mais, por curtas
durações.
5.3 Especialização
Com frações exponencialmente maiores de
transistores em um chip se transformando em
transistores dark, a área do silício está se
tornando um recurso exponencialmente mais
barata comparada ao consumo de potência e
energia. Essa mudança chama por novas
técnicas arquiteturais que possam “gastar” a
área para “comprar” eficiência em energia.
Uma abordagem é usar o dark silicon
para implementar um servidor com múltiplos
coprocessadores especializados, sendo cada
um destes mais rápidos ou mais eficientes em
energia do que um processador de uso geral. A
execução de tarefas nestes processadores pode
liberar os núcleos comuns para outras tarefas,
além de retornar resultados mais rápidos e
reduzindo o consumo da preciosa potência.
Um espalhamento da especialização de
núcleos já está sendo feita: temos visto com
frequência aceleradores especializados em
diversas áreas, como processamento de banda-
base, gráficos, visão computacional,
criptografia e codificação de mídia. Estes
aceleradores permitem melhorias em ordens de
magnitude em eficiência em energia e
desempenho, especialmente em computações
que são altamente paralelizáveis. Algumas
propostas [20] vão além e afirmam que num
futuro próximo será mais comum vermos
sistemas comprometidos com coprocessadores
do que usando de fato processadores de uso
geral.
Mas nem tudo são flores. Há um grande
potencial para esta abordagem transformar a
realidade de especialização dos dias de hoje
em uma grande crise ao estilo “torre de babel”,
pois tal especialização fragmenta muito as
tradicionais linhas de computação bem
definidas. O que é desenvolvido por uma
empresa de processadores provavelmente não
será desenvolvido por outra, a portabilidade
fica difícil, há necessidade do software
conhecer o hardware no qual ele vai rodar, etc.
Mais do que isso, muitas vezes é necessário o
desenvolvimento em linguagens
completamentenovas – como CUDA.
Outro grande problema dessa abordagem
é como isolar os humanos da complexidade de
lidar com este tipo de hardware, uma vez que
ele é específico por natureza. É necessário
esquemas arquiteturais escaláveis para
empregar ubiquamente hardware especializado
para minimizar a energia e maximizar o
desempenho.
Se formos seguir por esta abordagem,
precisamos encontrar uma maneira de fazer a
especialização de larga escala que permita
economizar energia na maior parte das
computações em questão, incluindo não
somente computação regular, códigos
paralelos, mas também códigos irregulares.
Um exemplo experimental que podemos
citar com esta abordagem, é o projeto
GreenDroid [13], que ataca diretamente o
problema do dark silicon usando um conjunto
de aceleradores econômicos em energia,
denominados núcleos de conservação, ou
simplesmente c-cores. Resultados preliminares
sugerem uma melhoria na eficiência em
energia de até 11x, usando uma modesta
quantia de silício.
5.4 “Deus Ex Machina”
Deus Ex Machina se refere à um dispositivo na
literatura no qual os protagonistas parecem
totalmente condenados e, então, algo
completamente inesperado ocorre e salva o
dia. No caso do dark silicon, um Deus Ex
Machina seria uma ruptura tecnológica nos
dispositivos semicondutores.
No entanto, da forma como podemos
ver, tal ruptura requer que tenhamos algo bem
fundamentado – e que de fato torne possível
construirmos outros transístores ou
dispositivos que não sejam baseados em
MOSFETs. A razão para a perda é um conjunto
de princípios fundamentais de dispositivos
físicos. Portanto, inovações como FinFETs
(“TriGates”), dielétricos K, etc, representam
significantes marcos para tentar manter os
limiares proporcionais aos valores tradicionais.
Dois fortes candidatos à evadir tais
limites, pelo fato de não serem baseados em
injeção térmica, são os TFETS (Tunnel Field
Effect Transistors) [21], que são baseados em
efeitos de tunelamento; e Comutadores Nano-
Eletro-Mecânicos [22][23], que são baseados
em comutadores físicos. Ambos aparentam ter
potencial para lidar com as perdas em ordens
de magnitude, mas necessitam ser estudados e
adestrados.
6 Conclusões
Por décadas, a escalabilidade de Dennard
permitiu mais transístores, transístores mais
rápidos e transístores mais eficientes em
energia a cada nova geração do processo,
justificando os enormes custos de
desenvolvimento para cada nova geração. No
entanto, a escalabilidade de Dennard falhou,
levando a indústria ao caminho do
desenvolvimento multinúcleos, que por algum
tempo permitiu a escalabilidade de
desempenho para cargas de trabalho paralelas
e multitarefas, permitindo manter, embora
pior, a economia do processo de
escalabilidade.
Mas os benefícios da escalabilidade
multinúcleo está começando a falhar devido à
barreira da utilização. Tal barreira leva a uma
piora exponencial do problema do dark
silicon, e transformará como nós
implementamos a computação. A severidade
do problema urge pelo desenvolvimento de
novas tendências arquiteturais, que substituam
o dark silicon, um recurso exponencialmente
barato, por energia, que é o verdadeiro
limitador do desempenho hoje.
Um novo condutor para escalabilidade
deve ser encontrado, ou a economia do
processo de escalabilidade quebrará e a lei de
Moore, acarretando na sua finalização antes de
atingirmos os limites finais da manufatura de
processadores.
Uma questão essencial é: quanto mais de
desempenho pode ser extraído do caminho
multinúcleos no futuro próximo? Em [24] é
possível verificar uma previsão para isto.
Combinando modelos de escalabilidade
tecnológica, modelos de desempenho e
resultados empíricos foi possível estimar o
desempenho restante disponível para a
escalabilidade multinúcleos.
Usando benchmarks PARSEC e as
projeções de escalabilidade ITRS, esse estudo
prediz um speedup de 7,9x até 2024, supondo
que seja possível atingir o processo de
fabricação de 8 nm. O resultado se traduz em
um ganho de desempenho de 16% ao ano, para
cargas altamente paralelizadas e assumindo
que cada benchmark consegue usar todos os
núcleos com uma granulação ideal de carga.
No entanto, esse trabalho acredita que as
projeções do ITRS estão demasiadamente
otimistas, especialmente quesito sub-22 nm. O
modelo conservativo utilizado no artigo segue
mais próximo da trilha do histórico recente, e
aplicando uma escalabilidade conservativa, as
projeções indicam que este ganho ideal se
acaba: o caminho para 8 nm em 2018 indicam
que, no melhor caso, ocorrerá um speedup de
3,7x, aproximadamente 14% por ano para
códigos altamente paralelizável e e
benchmarking de configurações ótimas. No
entanto, na prática, esse retorno certamente
será mais baixo.
Atualmente, a maior parte da
comunidade computacional acredita no
consenso de que estamos na “era
multinúcleos”. No entanto, dado os retornos
estimados assumindo a escalabilidade
conservativa, a adição de novos núcleos não
proverá benefícios suficientes para continuar o
processo de escalabilidade. Se a escalabilidade
multinúcleo parar de ser o condutor principal
para ganhos de performance em 16 nm (em
2014), a “era multinúcleos” terá durado meros
nove anos, uma vida muito curta, numa
tentativa de vencer as inexoráveis
consequências do fracasso da escalabilidade de
Dennard.
Claramente, no momento é necessário
ideias e mudanças radicais nos projetos, pois
incrementos simplistas não será suficientes
para os próximos ciclos industriais de
produção. No entanto, saindo do caminho
multinúcleo, nós poderemos acertar uma
“barreira econômica de utilidade de
transístores”, podendo também condenar a lei
de Moore ao fracasso, criando um massivo
rompimento na indústria.
Neste trabalho apresentamos 4
abordagens possíveis para lidar com o dark
silicon, e embora a “Deus Ex Machina” seja
aparentemente a melhor, não parece fácil de
ser concretizada. A abordagem de
encolhimento pode trazer como benefícios a
redução singela no preço de processadores,
mas ao custo de ter um alto risco de impactar
em estagnação tecnológica. A abordagem de
ofuscamento de fato já vem sido utilizada na
prática, e provê um ganho geral para os
processadores, mas este ganho é pequeno. A
abordagem de especialização, que de certa
forma também tem sido utilizada, provê um
grande ganho, mas para cargas muito
específicas, além de ser extremamente custosa
do ponto de vista computacional, pois novas
tecnologias de processadores terão que ser
muito bem especificadas, compiladores têm
que ser readaptados, e teremos um enorme
esforço do ponto de vista de programação para
que seja possível aproveitar as unidades
especializadas do processador.
A barreira da utilização é potencialmente
a maior de todas desde o início do processo de
manufatura de processadores, e torna a
pesquisa sobre o que fazer para mitigar os
efeitos do dark silicon uma área excitante e
inovadora, com um amplo leque para
pesquisas, e certamente mudará todo o futuro
da computação.
7 Referências
[1] G. E. Moore. Cramming more
components onto integrated circuits.
Electronics, 38(8), April 1965.
[2] R. H. Dennard, F. H. Gaensslen, V. L.
Rideout, E. Bassous, and A. R. LeBlanc.
Design of ion-implanted mosfet’s with
very small physical dimensions. IEEE
Journal of Solid-State Circuits, 9,
October 1974.
[3] C.Bienia, S. Kumar, J. P. Singh, and K.
Li. The PARSEC benchmark suite:
Characterization and architectural
implica-tions. In PACT ’08.
[4] The International Technology Roadmap
for Semiconductors - http://www.itrs.net/
[5] Venkatesh, Sampson, Goulding, Garcia,
Bryksin, Lugo-Martinez, S. Swanson,
and M. B. Taylor. Conservation cores:
Reducing the energy of mature
computations." In ASPLOS, 2010.
[6] N. Goulding, J. Sampson, G. Venkatesh,
S. Garcia, J. Auricchio, J. Babb, M.
Taylor, and S. Swanson. GreenDroid: A
mobile application processor for a future
of dark silicon." In HOTCHIPS, 2010.
[7] R. Merrit. ARM CTO: power surge could
create 'dark silicon'." EE Times, October
2009.
[8] Crispin-Bailey, C. "Dark Silicon - When
Moore's Law gets too hot to handle".
Advanced Computer Architecture Group,
University of York. 2012.
[9] AMD FX 8-Core Black Edition FX-8350
Spec, http://products.amd.com/pt-
br/DesktopCPUDetail.aspx?
id=809&f1=&f2=&f3=&f4=&f5=&f6=&
f7=&f8=&f9=&f10=&f11=&f12= ,
acessado em 1/11/2012.
[10] Goulding-Hotta, N., Sampson, J.,
Venkatesh, G., Garcia, S., Auricchio, J.,
Babb, J., Taylor M. B., Swanson, S.
GreenDroid: A Mobile Application
Processor for a Future of Dark Silicon.
Proceedings of HOTCHIPS, August
2010.
[11] Goulding-Hotta, N., Sampson, J.,
Venkatesh, G., Garcia, S., Auricchio, J.,
Huang, P., Arora, M., Nath, S., Babb, J.,
Swanson, S., Taylor, M. B. "The
GreenDroid Mobile Application
Processor: An Architecture for Silicon's
Dark Future". IEEE Micro, March 2011.
[12] Donovan, J. “ARM CTO warns of dark
silicon”. News & Analysis. EE Times,
March 22, 2010.
[13] Goulding-Hotta, N., Sampson, J., Zheng,
Q., Bhatt, V., Auricchio, J., Swanson, S.,
Taylor, M. B., "GreenDroid: An
Architecture for the Dark Silicon Age,"
17th Asia and South Pacific Design
Automation Conference (ASP-DAC),
Sydney, Australia, Feb. 2012.
[14] Taylor, M. B. “Is Dark Silicon Useful?
Harnessing the Four Horsemen of the
Coming Dark Silicon Apocalypse”.
Design Automation Conference (DAC),
June 2012.
[15] W. Huang, K. Rajamani, M. Stan, and K.
Skadron. Scaling with design constraints:
Predicting the future of big chips." IEEE
Micro , july-aug. 2011.
[16] J. Sampson, G. Venkatesh, N. Goulding-
Hotta, S. Garcia, S. Swanson, and M. B.
Taylor. Eficient complex operators for
irregular codes." In HPCA, 2011.
[17] R. Dreslinski, M. Wieckowski, D.
Blaauw, D. Sylvester, and T. Mudge.
Near-threshold computing: Reclaiming
moore's law through energy efficient
integrated circuits." Proceedings of the
IEEE. Feb. 2010.
[18] E. Rotem. Power management
architecture of the 2nd generation intel
core microarchitecture, formerly
codenamed sandy bridge." In
Proceedings of Hotchips, 2011.
[19] Raghavan et al. Computational
sprinting." In HPCA, Feb. 2012.
[20] N. Hardavellas, M. Ferdman, B. Falsa,
and A. Ailamaki. "Toward dark silicon in
servers." IEEE Micro, 2011.
[21] A. Ionescu, and H. Riel. "Tunnel field-
effect transistors as energy-efficient
electronic switches." In Nature,
November 2011.
[22] Chen et al. "Demonstration of integrated
micro-electro-mechanical switch circuits
for vlsi applications." In ISSCC , Feb.
2010.
[23] H. Dadgour, and K. Banerjee. “Design
and analysis of hybrid nems-cmos
circuits for ultra low-power
applications." In DAC , june 2007.
[24] Esmaeilzadeh, H., Blem E., St. Amant,
R., Sankaralingam K., Burger, D.. 2011.
“Dark silicon and the end of multicore
scaling”. SIGARCH Comput. Archit.
News 39, 3 (June 2011), 365-376.
Resumo
Decorrente da redução de ganhos de desempenho de processadores de um núcleo, acarretada pela barreira da memória, barreira do ILP e em especial a barreira da potência, a indústria iniciou, em 2005, a “era multinúcleos”. A medida de escalabilidade passou a ser, ao invés de frequência, o número de núcleos. No entanto agora atingimos uma nova barreira, a barreira de utilização. Embora ainda possamos continuar reduzindo o tamanho dos transístores, em decorrência de diversos problemas resultantes desta miniaturização começamos a ter elevada potência dissipada, com comprometimento térmico e impossibilidade de utilizar todos os transístores que podem ser colocados dentro de um chip. Tais transístores não utilizados que recebem o nome de dark silicon. Este trabalho é apresenta os resultados de uma extensa pesquisa, onde buscamos mostrar as origens do dark silicon, definir o que é a barreira da utilização, e apresentar as tendências futuras que estão no estado da arte no sentido do que fazer para não termos recursos desperdiçados com silício não utilizado.
1 Introdução
2 Razões para Escalar MOSFETs
3 Dificuldades que Surgem da Redução do Tamanho de MOSFETs
4 Origem do Dark Silicon
4.1 Teoria da Escalabilidade
4.1.1 Escalabilidade de Moore
4.1.2 Escalabilidade de Dennard
4.1.3 Escalabilidade Pós-Dennard
4.2 Experimentos da UCSD
4.3 Projetos Industriais como Evidência da Barreira de Utilização
5 Como aproveitar o Dark Silicon
5.1 Encolhimento
5.2 Ofuscamento
5.3 Especialização
5.4 “Deus Ex Machina”
6 Conclusões
7 Referências