Buscar

RA100---Dark-Silicon---Origem-e-Tendencias

Prévia do material em texto

Resumo
Decorrente da redução de ganhos de 
desempenho de processadores de um núcleo, 
acarretada pela barreira da memória, barreira 
do ILP e em especial a barreira da potência, a 
indústria iniciou, em 2005, a “era 
multinúcleos”. A medida de escalabilidade 
passou a ser, ao invés de frequência, o número 
de núcleos. No entanto agora atingimos uma 
nova barreira, a barreira de utilização. Embora 
ainda possamos continuar reduzindo o 
tamanho dos transístores, em decorrência de 
diversos problemas resultantes desta 
miniaturização começamos a ter elevada 
potência dissipada, com comprometimento 
térmico e impossibilidade de utilizar todos os 
transístores que podem ser colocados dentro de 
um chip. Tais transístores não utilizados que 
recebem o nome de dark silicon. Este trabalho 
é apresenta os resultados de uma extensa 
pesquisa, onde buscamos mostrar as origens 
do dark silicon, definir o que é a barreira da 
utilização, e apresentar as tendências futuras 
que estão no estado da arte no sentido do que 
fazer para não termos recursos desperdiçados 
com silício não utilizado.
1 Introdução
Desde 2005 os projetistas de processadores 
têm aumentado o número de núcleos nos 
processadores, na tentativa de explorar a 
escalabilidade decorrente da lei de Moore [1]. 
Tal lei diz que o número de transistores em um 
chip dobram a cada 18 meses, e tem sido uma 
condutora fundamental para a computação nas 
últimas três décadas. Tal lei é, na verdade, um 
ato de vontade da indústria, não sendo 
exatamente uma lei.
A escalabilidade de Dennard [2] diz que 
(transístores) MOSFETs continuam a 
funcionar como comutadores controlados por 
tensão enquanto todas são aperfeiçoadas todas 
as demais figuras chaves como densidade, 
velocidade de operação e eficiência em 
energia – desde que as dimensões geométricas, 
tensões, concentrações de dopantes, sejam 
consistentemente escaladas para manter o 
mesmo campo elétrico.
Percebe-se na indústria que o preço dos 
wafers de silício é relativamente fixo. Deste 
modo, se reduzirmos o tamanho de MOSFETs, 
poderemos colocar uma maior quantidade de 
chips no processador pelo mesmo preço.
Outra consequência desejável é que a 
redução proporcional da largura, comprimento 
Dark Silicon: Origem e Tendências
Daniel Lago
lago@ic.unicamp.br
Universidade Estadual de Campinas
e espessura do óxido de MOSFETs não altera 
altera a resistência do canal do transístor, 
enquanto a capacitância do gate e a latência do 
circuito resistor-capacitor do transistor são 
reduzidas.
Resultante da lei de Moore, juntamente 
com a escalabilidade de Dennard, utilizadas 
como metas pela indústria, foi possível 
mensurar que o aumento de desempenho se dá 
em incrementos exponenciais.
A recente mudança dos projetos de 
processadores para o modelo multinúcleos 
objetivou o aumento do número de núcleos, 
juntamente com o aumento da contagem de 
transístores, sendo que este este aumento 
continua a oferecer uma escala proporcional de 
desempenho. Como resultado, pesquisadores 
começaram a focar em chips com centenas, e 
até milhares, de núcleos, além de incentivarem 
que seja criado no currículo graduação 
desafios para lidar com programação paralela 
para projetos multinúcleos nestas escalas.
No entanto, a escalabilidade de Dennard 
falhou, em decorrência da desaceleração na 
redução escala de tensão por núcleo, tornando 
perigoso o crescimento do número de núcleos, 
deixando a comunidade sem um caminho claro 
sobre o que fazer para explorar o aumento do 
número de transístores.
Sabe-se que os futuros projetos serão 
fortemente limitados pela potência, e um 
número maior de núcleos deve prover ganhos 
de desempenho superior à pioras com energia, 
obtidos com a escala da velocidade de 
transístores e com a disponibilidade de 
paralelismo em aplicações.
De certa forma, nos cai a seguinte e 
intrigante pergunta: em 2024, os processadores 
terão 32 vezes mais desempenho que os 
processadores de 2008, explorando cinco 
gerações de dobra do número de núcleos?
Para responder tal pergunta um estudo 
deve considerar dispositivos, arquiteturas de 
núcleos, organizações de chip e características 
de desempenho, aplicando limites de área e 
potência para cada nó de tecnologia. De fato, 
um estudo detalhado que apresenta tal grau de 
detalhamento é apresentado em [24].
Usando a ferramente de benchmark 
PARSEC [3], foi possível confirmar os 
seguintes argumentos intuitivos:
1. Ao contrário do conhecimento 
convencional sobre desempenho 
usando multinúcleos, após cinco 
gerações é possível um speedup de 
apenas 7,9x usando a escala ITRS (The 
International Technology Roadmap for 
Semiconductors) [4];
2. Enquanto as dimensões dos transístores 
continuam a escalar, as limitações de 
potência limitam uma fração usável do 
chip. Em 22 nm, 21% do chip estará 
inativo e, em 8 nm, mais de 50% do 
chip não será utilizado usando a escala 
ITRS;
3. Nem projetos multinúcleos estilo CPU 
ou GPU são suficientes para atingir os 
níveis esperados de speedup. Inovações 
arquiteturais radicais são necessárias 
para alterar a fronteira 
potência/performance para entregar 
speedups mensuráveis com a lei de 
Moore.
Este trabalho está organizado da seguinte 
maneira: na Seção 2 apresentamos a 
importância de miniaturizar MOSFETs, na 
Seção 3 abordamos dificuldades que surgem 
em decorrência desta miniaturização. Na 
Seção 4 mostramos quais são as origens do 
dark silicon, enquanto na Seção 5 indicamos 
quais são as tendências de como aproveitar o 
dark silicon. As conclusões tiradas do 
desenvolvimento deste trabalho são 
apresentadas na Seção 6.
2 Razões para Escalar MOSFETs
A redução de MOSFETs é desejável por uma 
série de razões. A principal razão para fazer 
transístores menores é a capacidade de dispôr 
uma maior quantidade de dispositivos em uma 
mesma área de chip. Isto resulta em um chip 
com a mesma funcionalidade em uma área 
menor, ou chips com maior funcionalidade na 
mesma área.
Também é esperado que transístores 
menores comutem mais rapidamente. Por 
exemplo, uma abordagem para redução do 
tamanho da escala é a redução para uma escala 
que requeira que todas as dimensões dos 
dispositivos reduzam proporcionalmente.
As principais dimensões do dispositivo 
são o comprimento, a largura e a espessura do 
óxido do transístor, cada um tipicamente 
escalando em um fator de 0,7 por geração do 
processo. Desta maneira, a resistência do canal 
do transistor não altera com a escala, enquanto 
a capacitância do gate é cortado para um fator 
de 0,7. Além disso, a latência do circuito 
resistor-capacitor escala também em um fator 
de 0,7.
Enquanto isso tem sido tradicionalmente 
o caso para tecnologias antigas, o estado da 
arte da redução das dimensões dos transístores 
não necessariamente se traduzem em maior 
velocidade do chip, pelo fato que a latência 
decorrente das interconexões se tornaram mais 
significantes.
3 Dificuldades que Surgem da 
Redução do Tamanho de 
MOSFETs
A produção de MOSFETs nanométricos é um 
desafio, e as dificuldades de fabricação de 
dispositivos semicondutores sempre é um fator 
limitante no avanço da tecnologia de circuitos 
integrados. Deste modo, algumas das 
principais dificuldades que surgem são:
• Altos níveis de condução sublimiares: 
com a redução da geometria de 
MOSFETs, é necessário também 
reduzir a tensão aplicada no gate para 
manter a confiabilidade. Para que o 
desempenho seja mantido, a tensão 
limiar do MOSFET também necessitaser reduzida. Em decorrência disto, 
pode ocorrer que o transístor não seja 
comutado de um completo “desligado” 
para um completo “ligado” com o 
pequeno alcance de diferença de 
potencial disponível. O problema é que 
neste nível, a fuga sublimiar de tensão, 
que era ignorada no passado, agora 
chega a consumir metade da potência 
total de chips de alta performance 
VLSI.
• Aumento da fuga no óxido do gate: o 
óxido do gate, que serve como isolante 
entre o gate e o canal, deve ser feito o 
mais fino possível para aumentar a 
condutividade do canal e o 
desempenho quando o transistor está 
ligado, e para reduzir a fuga sublimiar 
quando o transistor estiver desligado. 
No entanto, quando a corrente atinge o 
óxido do gate com um espessura de 5 
átomos (1,2 nm), o fenômeno da 
mecânica quântica da corrente de 
tunelamento elétrico ocorre no 
dielétrico entre o gate e o canal.
• Aumento da fuga na junção: Para fazer 
dispositivos menores, o projeto da 
junção se torna mais complexo, 
levando a grandes níveis de perdas.
• Menor resistência de saída: à medida 
em que os dispositivos são reduzidos, a 
influência do dreno compete mais com 
o gate devido à proximidade dos dois 
eletrodos, aumento a sensibilidade da 
do MOSFET à tensão do dreno.
• Menor transcondutância: A 
transcondutância do MOSFET decide 
se seu ganho é proporcional à abertura 
ou à mobilidade do elétron. Com a 
redução do tamanho do MOSFET, os 
campos do canal e os níveis de 
impurezas dopantes aumentam. Ambos 
reduzem a transcondutância. O 
resultado é a velocidade da saturação 
dos transmissores.
• Capacitância de interconexão: O 
tempo de comutação foi 
tradicionalmente proporcional à 
capacitância dos gates. Entretanto, com 
a diminuição do tamanho dos 
transistores, e mais transístores sendo 
postos em um chip, a capacitância de 
interconexão está se transformando em 
um grande percentual da capacitância. 
Como os sinais necessitam de passar 
pela interconexão, é acarretado 
aumento na latência e degradação no 
desempenho.
• Produção de calor: O aumento da 
densidade de MOSFETs em circuitos 
integrados cria o problema de geração 
de calor localizado, que prejudica a 
operação do circuito. Circuitos que 
operam em maior temperatura 
trabalham mais lento, além de 
possuírem confiabilidade e tempo de 
vida reduzidos.
• Variações de processos: com os 
MOSFETs ficando menores, o número 
de átomos de silício que produzem 
muitas das propriedades dos 
transístores ficam menores também. O 
resultado é o que o controle das perdas 
e a disposição destas se tornam mais 
erráticos, tornando as características 
dos transístores menos previsíveis e 
mais estatísticas.
• Desafios de modelagem: Com a 
miniaturização os dispositivos, o 
processo de criação torna difícil de 
prever como os dispositivos finais 
efetivamente se comportarão, e a 
modelagem dos processos físicos fica 
mais difícil também.
4 Origem do Dark Silicon
Quando chips de silício são manufaturados, o 
tamanho dos menores componentes, 
usualmente transístores, são determinados por 
métricas conhecidas como tamanho do aspecto 
e espessura de linha. O form factor foi 
reduzido com sucesso a cada nova geração de 
silício, desde que os primeiros circuitos 
integrados Intel iniciaram seu processo de 
fabricação. O form factor da maior parte dos 
chips de hoje em dia varia entre 45 nm e 65 
nm, e alguns chips já estão começando a 
utilizar a tecnologia de 22 nm. Isso permitiu 
um maior número de transístores serem 
dispostos em uma mesma área de chip, 
dirigidos pela lei de Moore, sustentando e 
continuando incrementos no desempenho do 
processador.
A miniaturização está em condições de 
continuar, e é possível esperar processadores 
com 30 vezes mais núcleos do que vemos hoje 
em 2020 [8]. Mas existe um sério problema – a 
densidade de potência, que não está sendo 
possível escalar na mesma proporção, o que 
significa que um núcleo com 1/30 avos do 
tamanho consumirá 1/8 da potência. Isso quer 
dizer, por exemplo, que um processador 
doméstico atual de alto desempenho, hoje 
projetado para uma potência de 125 watts [9], 
consome cerca de 15,625 watts por núcleo. 
Seguindo essa previsão, em 2020 teríamos um 
processador doméstico comparável 
proporcionalmente ao apresentado, no sentido 
de desempenho frente aos demais, com 240 
núcleos, e cada núcleo consumindo 1,95 watts, 
consumindo no total 470 watts. Na verdade a 
densidade de potência sobe em uma potência 
de quatro. Isso é uma notícia ruim para os 
fabricantes de chips de silício, pois tal potência 
se converte em temperatura, e temperatura em 
excesso destrói um chip em questão de 
segundos. A potência exemplificada, de 470 
watts é, portanto, insustentável.
Se analisarmos os últimos anos da 
computação, podemos constatar que o 
problema já começou há algum tempo. No 
lançamento do Pentium IV em 2004 
percebemos uma enorme dissipação de 
potência, decorrente de vários fatores, em 
especial o elevado número de estágios de 
pipeline (31), tornando o processador menos 
eficiente. Simplesmente não dá para se 
remover mais de 100 watts sem um elevado 
gasto de refrigeração do sistema. Na verdade, 
a partir desta data, toda a computação passou a 
ser computação de baixa potência.
A alta densidade de potência trás 
algumas consequências importantes. Primeiro, 
se um chip excede seu máximo de temperatura 
operacional, ele será rapidamente danificado 
pelo uso. No entanto, mesmo que em operação 
ele chegue em uma temperatura limite, ocorre 
a degradação dos transístores e linhas no chip. 
Este problema é potencializado à medida em 
que os chips são miniaturizados. Em 
consequência, o efeito geral para forçar um 
chip com muitos núcleos operando nesta 
situação, é desligar a maior parte destes 
núcleos para evitar o superaquecimento, e 
movendo as cargas de trabalho entre núcleos 
para espalhar o calor pelo chip.
Um problema que surge disso é que 
temos que gerenciar as temperaturas dos 
“pontos quentes” de um chip, e não somente as 
temperaturas médias. De fato, se nós 
incrementamos a densidade de potência, estes 
“pontos quentes” podem chegar ao ponto de 
queima antes mesmo que a temperatura média 
do die exceder o limite gerenciável.
Há algumas estratégias que podem ser 
utilizadas para tentar gerenciar este problema. 
O throttling (estrangulamento), ou escala 
dinâmica de tensão e frequência, pode reduzir 
a frequência, potência e consequentemente 
temperatura geradas por um núcleo quando um 
CPU possui menos trabalho para realizar. O 
problema com esta abordagem é que o 
trabalho realizado pelo núcleo é reduzido 
proporcionalmente à sua frequência. Outra 
abordagem é a migração de tarefas entre 
núcleos. Quando um núcleo está em risco de 
superaquecimento, nós podemos mover o 
trabalho para outro núcleo e deixar o primeiro 
desligar. Uma terceira abordagem, e a mais 
radical, é a abordagem usada pelo projeto 
Greendroid da Universidade de San Diego 
[10] [11]. Nesta abordagem, seções de 
programa frequentemente usadas são 
substituídas por circuitos que as realizam 
integralmente, preenchendo o CPU não com 
núcleos que ficariam desligados, mas núcleos 
dedicados que aquecem menos, e são muito 
mais eficientes, ao invés de usar CPUs 
duplicadas que nunca serão completamente 
utilizadas.
Para entender a origem do dark silicon, 
primeiro necessitamos entendero que a 
barreira de utilização (utilization wall), assim 
definida: a cada processo de geração 
sucessivo, o percentual do chip que pode 
comutar à frequência máxima cai 
exponencialmente devido às restrições de 
potência [5].
O dark silicon surge desta barreira [6]
[7]. A seguir mostramos três fontes que 
evidenciam que atingimos tal barreira [5]: 1) 
teoria de escalabilidade CMOS, 2) 
experimentos realizados pela UCSD [13], e 3) 
observações gerais.
4.1 Teoria da Escalabilidade
4.1.1 Escalabilidade de Moore
A teoria mais elementar da escalabilidade de 
CMOS é derivada diretamente da lei de 
Moore. Se nós examinarmos duas gerações de 
processos, com processos de fabricação de por 
exemplo, 65nm e 32 nm, é útil empregar uma 
variável S, que chamamos de fator de 
escalabilidade, que é a razão entre os 
processos de fabricação de duas gerações; 
neste caso S=65/32=2. Para miniaturizações 
típicas, S=1,4x. Da teoria da escalabilidade 
elementar, nós sabemos que os transístores 
escalam como S², ou 2x por geração de 
processo. Até 2005, o número de núcleos em 
processadores multinúcleos combinavam com 
a disponibilidade de transístores, aumentando 
em 2x por geração de processo. Por exemplo, 
o processador MIT Raw possui 16 núcleos de 
180 nm, enquanto o Tilera TILE64 possui 64 
núcleos de 90 nm, resultando em 4x mais 
núcleos para um fator de escala de 2x. Mais 
recentemente, no entanto, esta taxa reduziu 
para somente S, ou 1,4x, por razões que são 
apresentadas nas duas subseções a seguir.
4.1.2 Escalabilidade de Dennard
As capacidades computacionais do silício não 
são resumidas simplesmente pelo número de 
transístores que podemos colocar em um chip. 
Para entender um pouco mais a respeito, nós 
necessitamos também entender como as 
propriedades dos transístores mudam à medida 
em que são reduzidos. Robert Dennard [2] 
afirma que o número de transístores escala por 
S², e que a frequência nativa destes transístores 
melhoram em escala S, resultando em uma 
melhoria computacional de S³ em um die de 
silício de área fixa. Além disso, para fatores de 
escalabilidade de 1,4x, nós podemos esperar 
ter um fator de melhoria de 2,8x em 
capacidades de computação por geração do 
processo.
No entanto, este cenário apresenta um 
problema potencial – se a eficiência em 
energia do transístor também não escalar em 
S³, no final nós teremos chips com consumo de 
energia aumentando de forma exponencial, 
porque nós estamos comutando S³ mais 
transístores por unidade de tempo.
Felizmente, Dennard delineou uma 
solução para este problema exponencial. 
Primeiro, a capacitância de computação dos 
transístores reduzem em um fator de S com a 
escalabilidade, e nós podemos reduzir o 
consumo de energia em um S² adicional. 
Como resultado, o consumo de energia de um 
transístor poderia ser reduzido em S³, 
combinando exatamente com as melhorias nas 
transições dos transístores por unidade de 
tempo. Em outras palavras, com uma 
escalabilidade da tensão seria possível ter 
todos os nossos transístores E comutá-los à 
capacidade máxima.
4.1.3 Escalabilidade Pós-Dennard
A partir de 2005, a escalabilidade Dennardiana 
ruiu. A raiz dos problemas foi que a 
escalabilidade de tensão Vdd requer uma 
redução comensurada em Vt, o limiar de 
tensão do transístor, com o objetivo de manter 
a performance do transístor 1. Infelizmente, a 
redução no Vt causa uma perda que cresce 
exponencialmente à uma taxa determinada 
pelos declives sublimiares do processo. 
Atualmente, esta energia perdida se tornou 
muito grande, impossibilitando o aumento do 
limiar de tensão. Como resultado, os valores 
de Vt não podem ser escalados, 
impossibilitando, portanto, a escalabilidade do 
Vdd.
O resultado final é que perdemos a 
escalabilidade do Vdd como um caminho 
efetivo para compensar o aumento do 
potencial computacional do silício. Como 
resultado, a cada geração do processo nós 
conseguimos melhorias de apenas 1,4x na 
eficiência em energia, o que quer dizer que, 
em orçamentos limitados de potência, nossa 
utilização do silício cairá por S³/S=S²=2x por 
geração do processo. Este fato é ao qual dado 
o nome de barreira de utilização (utilization 
wall), já definida anteriormente. A 
consequência direta deste crescimento 
exponencial no número de transístores, é que 
alguns deles deverão ser deixados operando 
abaixo da frequência permissível, resultando 
em dim silicon (silício subutilizado), ou 
completamente desligados, resultando em dark 
silicon (silício não utilizado).
Para dar uma noção do tamanho do 
problema, Mike Muller, CTO da ARM, 
argumentou [12] com os seguintes números: o 
1 Devido ao fato da extenuação do Vdd (=Vdd/Vt), 
onde valores inferiores a 2,5x causam massivas 
perdas no desempenho do transístor
um núcleo desenvolvido com tecnologia de 22 
nm, comparado ao mesmo núcleo 
desenvolvido com tecnologia de 22 nm, 
permite uma redução de 4x no tamanho do die, 
e de 16x se for usada a tecnologia de 11 nm. 
Tomando, ainda, 45 nm como ponto de 
referência, a frequência de pico em 22 nm 
teoricamente pode aumentar 1,6x, e em 11 nm, 
2,4x. No entanto, o consumo de potência 
permanecerá praticamente constante em 22 nm 
comparado ao de 45 nm, e em 11 nm ele é 
reduzido para 0,6. Esses números querem dizer 
que com a tecnologia de 22 nm somente 25% 
do silício será explorável, e em 11 nm este 
valor cai para somente 10%. Isto claramente 
não é uma linha aceitável de tendência.
4.2 Experimentos da UCSD
Para confirmar a que atingimos a barreira de 
utilização, pesquisadores da Universidade da 
Califórnia em San Diego realizaram séries de 
experimentos [13]. Foram sintetizados dois 
chips de 40 mm² com ALUs. Usando o chip de 
90 nm na frequência de operação nativa foi 
identificado que somente 5% do chip podia 
rodar a uma potência de 3 watts em 
dispositivos móveis. Em 45 nm, essa fração 
reduziu para 1,8%. Usando as projeções do 
ITRS, num chip de 32 nm este valor cairia 
para 0,9%. Resultados semelhantes foram 
obtidos de plataformas desktop com 200 mm² 
de área e 80 watts de potência.
Estes valores frequentemente aparentam 
ser estranhamente baixos. A explicação para 
isso é que as RAMs tipicamente operam a 1/10 
da utilização por unidade de área comparado à 
lógica do datapath. No entanto, este ponto não 
é muito importante, visto que o percentual, 
para qualquer nó processado, uma vez 
atingindo a barreira de utilização, passa a ser o 
problema. Esta piora exponencial atingiu a 
indústria de surpresa, em 2005.
4.3 Projetos Industriais como 
Evidência da Barreira de 
Utilização
Um exemplo saliente da tendência que reflete 
a barreira de utilização é a curva achatada da 
evolução da frequência dos processadores de 
2005 em diante. O número de transístores de 
fato cresceram rápido, mas a frequência 
permaneceu praticamente estagnada. Outro 
exemplo da emergência da AMD e Intel é o 
recurso turbo boost, que permite um núcleo 
executar mais rápido se outros núcleos não 
estão em uso. Também foi observado um 
aumento considerável na fração dos chips 
dedicada à frequência mais baixa e fator de 
atividade mais baixo, como memórias L3 e 
lógica uncore, como controladores de 
memória.
A mudança para multinúcleos também é 
uma consequência da barreira de utilização. 
Ironicamente, o uso de multinúcleos também 
não é uma solução direta para o problema da 
barreira de utilização. Originalmente,quando 
o modelo multinúcleos foi proposto como uma 
nova direção, foi postulado que o número de 
núcleos dobra com cada geração do processo, 
aumentado com o número de transístores. No 
entanto, esta é uma violação na barreira de 
utilização, que diz que as capacidades 
computacionais só podem aumentar na mesma 
taxa em que a eficiência em energia melhora. 
Olhando para os processadores desktop da 
Intel de 65 watts, com dois núcleos de 65 nm, 
e quatro núcleos em 32 nm, é possível 
verificar que a frequência, praticamente 
constante em 3 GHz, e os demais fatores, são 
consistentes com a barreira de utilização, e não 
outras predições anteriores.
Uma observação interessante é que a 
barreira de utilização diz que existe um 
espectro de outros pontos de projeto que 
podem ser feitos para trocar a frequência do 
processador com o número de núcleos, com o 
extremo sendo o aumento da frequência ao 
invés do número de núcleos no fim de uma 
geração do processo. Se isso fosse feito, 
resultaria em, por exemplo, processadores de 
dois núcleos de 32 nm rodando a 6 GHz. A 
sabedoria convencional diz que um projeto de 
uniprocessador de maior frequência possui 
melhor desempenho, e é preferível, pois ele se 
aplica à todas as computações, e não apenas 
paralelas. No entanto, para computações 
orientadas à vazão, o projeto com maior 
frequência pode ser pior. A razão para isso é 
que o custo de cache miss é proporcionalmente 
menor em chips multinúcleos de menor clock, 
ou seja, em face de cache misses e dada vazão 
suficiente, um maior número de núcleos é mais 
importante do que uma frequência mais alta.
5 Como aproveitar o Dark Silicon
Taylor [14] propõe quatro abordagens para 
lidar com o problema do dark silicon, na 
tentativa de torná-lo útil. Nesta seção iremos 
descrever algumas de suas ideias.
5.1 Encolhimento
Quando confrontados com a possibilidade de 
dark silicon, a resposta imediata de projetistas 
de chip é “área é caro”. Se seguirem por esta 
abordagem, os projetistas de chips construirão 
chips menores ao invés de ter dark silicon nos 
seus projetos. Mas, de todas as abordagens 
pensadas por Taylor, esta é a potencialmente a 
pior, pois a redução inviabiliza o 
aproveitamento das áreas em dark silicon, que 
poderiam ser usadas para se fazer produtos 
melhores e, consequentemente, criando um 
padrão de pequena margem de melhoria para 
as próximas gerações onde a aplicação da lei 
de Moore trará pouco benefício.
Além disso, é importante dizer que dark 
silicon não significa um espaço em branco, 
com silício inútil ou não usado – é apenas um 
silício que não pode ser usado o tempo todo, 
ou em sua frequência máxima. Mesmo na 
época de ouro da escala CMOS, processadores 
e outros circuitos foram desenvolvidos com 
uma série de “dark logics”, usadas somente 
por aplicações específicas – como SSE.
Outro problema desta abordagem é o 
efeito colateral do encolhimento de silício. 
Entender como as chamadas de chips 
encolhidos é feita nos permite entender a 
economia de semicondutores. Todos os 
projetistas gastam muito tempo tentando 
encontrar orçamentos de área para projetos de 
chips existentes. Chips menores normalmente 
são mais baratos, e suas perdas devem ser 
menor dependendo da eficiência da potência 
no gate, e do regime de redução de sinal na 
otimização do projeto. Mas fazer chips 
exponencialmente menores não implica em 
chips exponencialmente mais baratos. Mesmo 
que eles custassem 50% do preço do sistema, 
após poucas gerações do processo o custo do 
silício seria uma fração pequena do pacote.
5.2 Ofuscamento
Se considerarmos popular a área do dark 
silicon com um circuito lógico que usamos 
somente uma parte do tempo, nós termos duas 
opções: tentar fazer a lógica para propósito 
geral, ou para um propósito específico. Na 
próxima seção abordaremos a segunda opção 
e, nesta, a primeira, analisando alternativas de 
baixo uso que tentam reobter aplicabilidade 
geral em um grande leque de aplicações. 
Empregaremos o termo dim silicon [15] [16] 
para referenciar lógica de uso geral que 
tipicamente é executada abaixo da frequência, 
ou é usada infrequentemente, de modo a não 
ultrapassar o orçamento em potência. 
A primeira alternativa é o uso de 
processadores NTV (near-threshold voltage) 
[17], que operam em regime próximo do 
limiar, provendo extrema compensação entre 
energia e latência do que circuitos sublimiares 
convencionais.
Outra alternativa, frequentemente 
proposta baseada nesta abordagem, é a simples 
substituição da área de dark silicon por caches. 
Com efeito reduziríamos consideravelmente o 
miss rate das cargas de trabalho, aumentando 
os benefícios tanto em desempenho quanto 
energia. Isso seria feito a uma taxa de entre 
1,4x e 2x por geração do processo.
Outras técnicas que têm sido exploradas 
também são as de Sprinting e Turbo Boost. 
Estas técnicas buscam usar a redução 
“temporal” e não a “espacial”. A técnica de 
turbo boost [18] analisa para a carga o número 
de núcleos ativos, o consumo estimado de 
corrente e potência, e a temperatura do 
processador. Quando estes parâmetros são 
satisfatórios, a potência e frequência do 
processador é aumentada, ainda que ultrapasse 
o TDP, por pequenos períodos de tempo, para 
que se maximize o desempenho. 
Semelhantemente, a proposta da técnica de 
Sprinting computacional [19] é usar materiais 
que mudam de fase para permitir que chips 
ultrapassem seu orçamento térmico, por uma 
ordem de magnitude ou mais, por curtas 
durações.
5.3 Especialização
Com frações exponencialmente maiores de 
transistores em um chip se transformando em 
transistores dark, a área do silício está se 
tornando um recurso exponencialmente mais 
barata comparada ao consumo de potência e 
energia. Essa mudança chama por novas 
técnicas arquiteturais que possam “gastar” a 
área para “comprar” eficiência em energia.
Uma abordagem é usar o dark silicon 
para implementar um servidor com múltiplos 
coprocessadores especializados, sendo cada 
um destes mais rápidos ou mais eficientes em 
energia do que um processador de uso geral. A 
execução de tarefas nestes processadores pode 
liberar os núcleos comuns para outras tarefas, 
além de retornar resultados mais rápidos e 
reduzindo o consumo da preciosa potência.
Um espalhamento da especialização de 
núcleos já está sendo feita: temos visto com 
frequência aceleradores especializados em 
diversas áreas, como processamento de banda-
base, gráficos, visão computacional, 
criptografia e codificação de mídia. Estes 
aceleradores permitem melhorias em ordens de 
magnitude em eficiência em energia e 
desempenho, especialmente em computações 
que são altamente paralelizáveis. Algumas 
propostas [20] vão além e afirmam que num 
futuro próximo será mais comum vermos 
sistemas comprometidos com coprocessadores 
do que usando de fato processadores de uso 
geral.
Mas nem tudo são flores. Há um grande 
potencial para esta abordagem transformar a 
realidade de especialização dos dias de hoje 
em uma grande crise ao estilo “torre de babel”, 
pois tal especialização fragmenta muito as 
tradicionais linhas de computação bem 
definidas. O que é desenvolvido por uma 
empresa de processadores provavelmente não 
será desenvolvido por outra, a portabilidade 
fica difícil, há necessidade do software 
conhecer o hardware no qual ele vai rodar, etc. 
Mais do que isso, muitas vezes é necessário o 
desenvolvimento em linguagens 
completamentenovas – como CUDA.
Outro grande problema dessa abordagem 
é como isolar os humanos da complexidade de 
lidar com este tipo de hardware, uma vez que 
ele é específico por natureza. É necessário 
esquemas arquiteturais escaláveis para 
empregar ubiquamente hardware especializado 
para minimizar a energia e maximizar o 
desempenho.
Se formos seguir por esta abordagem, 
precisamos encontrar uma maneira de fazer a 
especialização de larga escala que permita 
economizar energia na maior parte das 
computações em questão, incluindo não 
somente computação regular, códigos 
paralelos, mas também códigos irregulares.
Um exemplo experimental que podemos 
citar com esta abordagem, é o projeto 
GreenDroid [13], que ataca diretamente o 
problema do dark silicon usando um conjunto 
de aceleradores econômicos em energia, 
denominados núcleos de conservação, ou 
simplesmente c-cores. Resultados preliminares 
sugerem uma melhoria na eficiência em 
energia de até 11x, usando uma modesta 
quantia de silício.
5.4 “Deus Ex Machina”
Deus Ex Machina se refere à um dispositivo na 
literatura no qual os protagonistas parecem 
totalmente condenados e, então, algo 
completamente inesperado ocorre e salva o 
dia. No caso do dark silicon, um Deus Ex 
Machina seria uma ruptura tecnológica nos 
dispositivos semicondutores.
No entanto, da forma como podemos 
ver, tal ruptura requer que tenhamos algo bem 
fundamentado – e que de fato torne possível 
construirmos outros transístores ou 
dispositivos que não sejam baseados em 
MOSFETs. A razão para a perda é um conjunto 
de princípios fundamentais de dispositivos 
físicos. Portanto, inovações como FinFETs 
(“TriGates”), dielétricos K, etc, representam 
significantes marcos para tentar manter os 
limiares proporcionais aos valores tradicionais.
Dois fortes candidatos à evadir tais 
limites, pelo fato de não serem baseados em 
injeção térmica, são os TFETS (Tunnel Field 
Effect Transistors) [21], que são baseados em 
efeitos de tunelamento; e Comutadores Nano-
Eletro-Mecânicos [22][23], que são baseados 
em comutadores físicos. Ambos aparentam ter 
potencial para lidar com as perdas em ordens 
de magnitude, mas necessitam ser estudados e 
adestrados.
6 Conclusões
Por décadas, a escalabilidade de Dennard 
permitiu mais transístores, transístores mais 
rápidos e transístores mais eficientes em 
energia a cada nova geração do processo, 
justificando os enormes custos de 
desenvolvimento para cada nova geração. No 
entanto, a escalabilidade de Dennard falhou, 
levando a indústria ao caminho do 
desenvolvimento multinúcleos, que por algum 
tempo permitiu a escalabilidade de 
desempenho para cargas de trabalho paralelas 
e multitarefas, permitindo manter, embora 
pior, a economia do processo de 
escalabilidade.
Mas os benefícios da escalabilidade 
multinúcleo está começando a falhar devido à 
barreira da utilização. Tal barreira leva a uma 
piora exponencial do problema do dark 
silicon, e transformará como nós 
implementamos a computação. A severidade 
do problema urge pelo desenvolvimento de 
novas tendências arquiteturais, que substituam 
o dark silicon, um recurso exponencialmente 
barato, por energia, que é o verdadeiro 
limitador do desempenho hoje.
Um novo condutor para escalabilidade 
deve ser encontrado, ou a economia do 
processo de escalabilidade quebrará e a lei de 
Moore, acarretando na sua finalização antes de 
atingirmos os limites finais da manufatura de 
processadores.
Uma questão essencial é: quanto mais de 
desempenho pode ser extraído do caminho 
multinúcleos no futuro próximo? Em [24] é 
possível verificar uma previsão para isto. 
Combinando modelos de escalabilidade 
tecnológica, modelos de desempenho e 
resultados empíricos foi possível estimar o 
desempenho restante disponível para a 
escalabilidade multinúcleos.
Usando benchmarks PARSEC e as 
projeções de escalabilidade ITRS, esse estudo 
prediz um speedup de 7,9x até 2024, supondo 
que seja possível atingir o processo de 
fabricação de 8 nm. O resultado se traduz em 
um ganho de desempenho de 16% ao ano, para 
cargas altamente paralelizadas e assumindo 
que cada benchmark consegue usar todos os 
núcleos com uma granulação ideal de carga.
No entanto, esse trabalho acredita que as 
projeções do ITRS estão demasiadamente 
otimistas, especialmente quesito sub-22 nm. O 
modelo conservativo utilizado no artigo segue 
mais próximo da trilha do histórico recente, e 
aplicando uma escalabilidade conservativa, as 
projeções indicam que este ganho ideal se 
acaba: o caminho para 8 nm em 2018 indicam 
que, no melhor caso, ocorrerá um speedup de 
3,7x, aproximadamente 14% por ano para 
códigos altamente paralelizável e e 
benchmarking de configurações ótimas. No 
entanto, na prática, esse retorno certamente 
será mais baixo.
Atualmente, a maior parte da 
comunidade computacional acredita no 
consenso de que estamos na “era 
multinúcleos”. No entanto, dado os retornos 
estimados assumindo a escalabilidade 
conservativa, a adição de novos núcleos não 
proverá benefícios suficientes para continuar o 
processo de escalabilidade. Se a escalabilidade 
multinúcleo parar de ser o condutor principal 
para ganhos de performance em 16 nm (em 
2014), a “era multinúcleos” terá durado meros 
nove anos, uma vida muito curta, numa 
tentativa de vencer as inexoráveis 
consequências do fracasso da escalabilidade de 
Dennard.
Claramente, no momento é necessário 
ideias e mudanças radicais nos projetos, pois 
incrementos simplistas não será suficientes 
para os próximos ciclos industriais de 
produção. No entanto, saindo do caminho 
multinúcleo, nós poderemos acertar uma 
“barreira econômica de utilidade de 
transístores”, podendo também condenar a lei 
de Moore ao fracasso, criando um massivo 
rompimento na indústria.
Neste trabalho apresentamos 4 
abordagens possíveis para lidar com o dark 
silicon, e embora a “Deus Ex Machina” seja 
aparentemente a melhor, não parece fácil de 
ser concretizada. A abordagem de 
encolhimento pode trazer como benefícios a 
redução singela no preço de processadores, 
mas ao custo de ter um alto risco de impactar 
em estagnação tecnológica. A abordagem de 
ofuscamento de fato já vem sido utilizada na 
prática, e provê um ganho geral para os 
processadores, mas este ganho é pequeno. A 
abordagem de especialização, que de certa 
forma também tem sido utilizada, provê um 
grande ganho, mas para cargas muito 
específicas, além de ser extremamente custosa 
do ponto de vista computacional, pois novas 
tecnologias de processadores terão que ser 
muito bem especificadas, compiladores têm 
que ser readaptados, e teremos um enorme 
esforço do ponto de vista de programação para 
que seja possível aproveitar as unidades 
especializadas do processador.
A barreira da utilização é potencialmente 
a maior de todas desde o início do processo de 
manufatura de processadores, e torna a 
pesquisa sobre o que fazer para mitigar os 
efeitos do dark silicon uma área excitante e 
inovadora, com um amplo leque para 
pesquisas, e certamente mudará todo o futuro 
da computação.
7 Referências
[1] G. E. Moore. Cramming more 
components onto integrated circuits. 
Electronics, 38(8), April 1965.
[2] R. H. Dennard, F. H. Gaensslen, V. L. 
Rideout, E. Bassous, and A. R. LeBlanc. 
Design of ion-implanted mosfet’s with 
very small physical dimensions. IEEE 
Journal of Solid-State Circuits, 9, 
October 1974.
[3] C.Bienia, S. Kumar, J. P. Singh, and K. 
Li. The PARSEC benchmark suite: 
Characterization and architectural 
implica-tions. In PACT ’08.
[4] The International Technology Roadmap 
for Semiconductors - http://www.itrs.net/
[5] Venkatesh, Sampson, Goulding, Garcia, 
Bryksin, Lugo-Martinez, S. Swanson, 
and M. B. Taylor. Conservation cores: 
Reducing the energy of mature 
computations." In ASPLOS, 2010.
[6] N. Goulding, J. Sampson, G. Venkatesh, 
S. Garcia, J. Auricchio, J. Babb, M. 
Taylor, and S. Swanson. GreenDroid: A 
mobile application processor for a future 
of dark silicon." In HOTCHIPS, 2010.
[7] R. Merrit. ARM CTO: power surge could 
create 'dark silicon'." EE Times, October 
2009.
[8] Crispin-Bailey, C. "Dark Silicon - When 
Moore's Law gets too hot to handle". 
Advanced Computer Architecture Group, 
University of York. 2012.
[9] AMD FX 8-Core Black Edition FX-8350 
Spec, http://products.amd.com/pt-
br/DesktopCPUDetail.aspx?
id=809&f1=&f2=&f3=&f4=&f5=&f6=&
f7=&f8=&f9=&f10=&f11=&f12= , 
acessado em 1/11/2012.
[10] Goulding-Hotta, N., Sampson, J., 
Venkatesh, G., Garcia, S., Auricchio, J., 
Babb, J., Taylor M. B., Swanson, S. 
GreenDroid: A Mobile Application 
Processor for a Future of Dark Silicon. 
Proceedings of HOTCHIPS, August 
2010.
[11] Goulding-Hotta, N., Sampson, J., 
Venkatesh, G., Garcia, S., Auricchio, J., 
Huang, P., Arora, M., Nath, S., Babb, J., 
Swanson, S., Taylor, M. B. "The 
GreenDroid Mobile Application 
Processor: An Architecture for Silicon's 
Dark Future". IEEE Micro, March 2011.
[12] Donovan, J. “ARM CTO warns of dark 
silicon”. News & Analysis. EE Times, 
March 22, 2010.
[13] Goulding-Hotta, N., Sampson, J., Zheng, 
Q., Bhatt, V., Auricchio, J., Swanson, S., 
Taylor, M. B., "GreenDroid: An 
Architecture for the Dark Silicon Age," 
17th Asia and South Pacific Design 
Automation Conference (ASP-DAC), 
Sydney, Australia, Feb. 2012.
[14] Taylor, M. B. “Is Dark Silicon Useful? 
Harnessing the Four Horsemen of the 
Coming Dark Silicon Apocalypse”. 
Design Automation Conference (DAC), 
June 2012.
[15] W. Huang, K. Rajamani, M. Stan, and K. 
Skadron. Scaling with design constraints: 
Predicting the future of big chips." IEEE 
Micro , july-aug. 2011.
[16] J. Sampson, G. Venkatesh, N. Goulding-
Hotta, S. Garcia, S. Swanson, and M. B. 
Taylor. Eficient complex operators for 
irregular codes." In HPCA, 2011.
[17] R. Dreslinski, M. Wieckowski, D. 
Blaauw, D. Sylvester, and T. Mudge. 
Near-threshold computing: Reclaiming 
moore's law through energy efficient 
integrated circuits." Proceedings of the 
IEEE. Feb. 2010.
[18] E. Rotem. Power management 
architecture of the 2nd generation intel 
core microarchitecture, formerly 
codenamed sandy bridge." In 
Proceedings of Hotchips, 2011.
[19] Raghavan et al. Computational 
sprinting." In HPCA, Feb. 2012.
[20] N. Hardavellas, M. Ferdman, B. Falsa, 
and A. Ailamaki. "Toward dark silicon in 
servers." IEEE Micro, 2011.
[21] A. Ionescu, and H. Riel. "Tunnel field-
effect transistors as energy-efficient 
electronic switches." In Nature, 
November 2011.
[22] Chen et al. "Demonstration of integrated 
micro-electro-mechanical switch circuits 
for vlsi applications." In ISSCC , Feb. 
2010.
[23] H. Dadgour, and K. Banerjee. “Design 
and analysis of hybrid nems-cmos 
circuits for ultra low-power 
applications." In DAC , june 2007.
[24] Esmaeilzadeh, H., Blem E., St. Amant, 
R., Sankaralingam K., Burger, D.. 2011. 
“Dark silicon and the end of multicore 
scaling”. SIGARCH Comput. Archit. 
News 39, 3 (June 2011), 365-376.
	Resumo
	Decorrente da redução de ganhos de desempenho de processadores de um núcleo, acarretada pela barreira da memória, barreira do ILP e em especial a barreira da potência, a indústria iniciou, em 2005, a “era multinúcleos”. A medida de escalabilidade passou a ser, ao invés de frequência, o número de núcleos. No entanto agora atingimos uma nova barreira, a barreira de utilização. Embora ainda possamos continuar reduzindo o tamanho dos transístores, em decorrência de diversos problemas resultantes desta miniaturização começamos a ter elevada potência dissipada, com comprometimento térmico e impossibilidade de utilizar todos os transístores que podem ser colocados dentro de um chip. Tais transístores não utilizados que recebem o nome de dark silicon. Este trabalho é apresenta os resultados de uma extensa pesquisa, onde buscamos mostrar as origens do dark silicon, definir o que é a barreira da utilização, e apresentar as tendências futuras que estão no estado da arte no sentido do que fazer para não termos recursos desperdiçados com silício não utilizado.
	1 Introdução
	2 Razões para Escalar MOSFETs
	3 Dificuldades que Surgem da Redução do Tamanho de MOSFETs
	4 Origem do Dark Silicon
	4.1 Teoria da Escalabilidade
	4.1.1 Escalabilidade de Moore
	4.1.2 Escalabilidade de Dennard
	4.1.3 Escalabilidade Pós-Dennard
	4.2 Experimentos da UCSD
	4.3 Projetos Industriais como Evidência da Barreira de Utilização
	5 Como aproveitar o Dark Silicon
	5.1 Encolhimento
	5.2 Ofuscamento
	5.3 Especialização
	5.4 “Deus Ex Machina”
	6 Conclusões
	7 Referências

Continue navegando