Buscar

Reduzindo redes neurais massivas usadas para modelar a linguagem

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 3 páginas

Prévia do material em texto

Nome: Gabriel Miller Silone 
 
 
Reduzindo redes neurais massivas usadas para modelar a linguagem 
Uma nova abordagem pode reduzir os custos de computação e aumentar a 
acessibilidade ao processamento de linguagem natural de última geração. 
Você não precisa de uma marreta para quebrar uma noz. 
Jonathan Frankle está pesquisando inteligência artificial - não comendo pistache - mas 
a mesma filosofia se aplica à sua " hipótese do bilhete de loteria ". Ele postula que, 
escondidas em redes neurais massivas, sub-redes mais enxutas podem completar a 
mesma tarefa com mais eficiência. O truque é encontrar essas sub-redes “sortudas”, 
chamadas de bilhetes de loteria vencedores. 
Em um novo artigo, Frankle e seus colegas descobriram essas sub-redes ocultas no 
BERT, uma abordagem de rede neural de última geração para o processamento de 
linguagem natural (PNL). Como um ramo da inteligência artificial, a PNL visa decifrar 
e analisar a linguagem humana, com aplicativos como geração de texto preditivo ou 
chatbots online. Em termos computacionais, o BERT é volumoso, normalmente 
demandando potência de supercomputação indisponível para a maioria dos 
usuários. O acesso ao bilhete de loteria premiado do BERT pode nivelar o campo de 
jogo, potencialmente permitindo que mais usuários desenvolvam ferramentas de PNL 
eficazes em um smartphone - sem a necessidade de uma marreta. 
“Estamos chegando ao ponto em que teremos que tornar esses modelos mais enxutos 
e eficientes”, diz Frankle, acrescentando que esse avanço pode um dia “reduzir as 
barreiras de entrada” para a PNL. 
Frankle, um estudante de doutorado no grupo de Michael Carbin no Laboratório de 
Ciência da Computação e Inteligência Artificial do MIT, é co-autor do estudo, que será 
apresentado no próximo mês na Conferência sobre Sistemas de Processamento de 
Informação Neural. Tianlong Chen, da Universidade do Texas em Austin, é o autor 
https://news.mit.edu/2019/smarter-training-neural-networks-0506
principal do artigo, que incluiu os colaboradores Zhangyang Wang, também da UT 
Austin, bem como Shiyu Chang, Sijia Liu e Yang Zhang, todos do MIT-IBM Watson AI 
Lab . 
Você provavelmente já interagiu com uma rede BERT hoje. É uma das tecnologias 
que sustentam o mecanismo de pesquisa do Google e gerou entusiasmo entre os 
pesquisadores desde que o Google lançou o BERT em 2018. O BERT é um método 
de criação de redes neurais - algoritmos que usam nós em camadas, ou "neurônios", 
para aprender a realizar um tarefa através do treinamento em vários exemplos. O 
BERT é treinado por tentativas repetidas de preencher palavras deixadas de fora de 
uma passagem da escrita, e seu poder reside no tamanho gigantesco desse conjunto 
de dados de treinamento inicial. Os usuários podem então ajustar a rede neural do 
BERT para uma tarefa específica, como construir um chatbot de atendimento ao 
cliente. Mas disputar o BERT exige muito poder de processamento. 
“Um modelo padrão de BERT hoje em dia - a variedade de jardim - tem 340 milhões 
de parâmetros”, diz Frankle, acrescentando que o número pode chegar a 1 bilhão. O 
ajuste fino de uma rede tão grande pode exigir um supercomputador. “Isso é 
obscenamente caro. Isso está muito além da capacidade de computação de você ou 
eu. ” 
Chen concorda. Apesar da explosão de popularidade do BERT, esses modelos 
“sofrem com o tamanho da rede enorme”, diz ele. Felizmente, “a hipótese do bilhete 
de loteria parece ser uma solução”. 
Para cortar custos de computação, Chen e colegas procuraram localizar um modelo 
menor oculto no BERT. Eles experimentaram podar iterativamente os parâmetros da 
rede BERT completa e, em seguida, comparar o desempenho da nova sub-rede com 
o do modelo BERT original. Eles executaram essa comparação para uma série de 
tarefas da PNL, desde responder a perguntas até preencher a palavra em branco em 
uma frase. 
Os pesquisadores descobriram sub-redes bem-sucedidas que eram 40 a 90 por cento 
mais finas do que o modelo BERT inicial, dependendo da tarefa. Além disso, eles 
foram capazes de identificar os bilhetes de loteria vencedores antes de executar 
qualquer ajuste fino específico de tarefa - uma descoberta que poderia minimizar 
ainda mais os custos de computação para PNL. Em alguns casos, uma sub-rede 
escolhida para uma tarefa poderia ser reaproveitada para outra, embora Frankle 
observe que essa transferibilidade não era universal. Mesmo assim, Frankle está mais 
do que feliz com os resultados do grupo. 
“Fiquei meio chocado que até funcionou”, diz ele. “Não é algo que eu tenha dado como 
certo. Eu esperava um resultado muito mais confuso do que o nosso. ” 
A descoberta de um bilhete vencedor em um modelo BERT é “convincente”, de acordo 
com Ari Morcos, cientista do Facebook AI Research. “Esses modelos estão se 
tornando cada vez mais difundidos”, diz Morcos. “Portanto, é importante entender se 
a hipótese do bilhete de loteria é válida.” Ele acrescenta que a descoberta pode 
permitir que modelos semelhantes ao BERT sejam executados usando muito menos 
poder de computação, “o que poderia ser muito impactante, dado que esses modelos 
extremamente grandes são atualmente muito caros para operar”. 
Frankle concorda. Ele espera que este trabalho possa tornar o BERT mais acessível, 
porque contraria a tendência de modelos de PNL cada vez maiores. “Não sei o quanto 
podemos aumentar usando esses cálculos do tipo supercomputador”, diz 
ele. “Teremos que reduzir a barreira de entrada.” Identificar uma sub-rede enxuta e 
ganhadora da loteria faz exatamente isso - permitindo que os desenvolvedores que 
não têm a força de computação do Google ou do Facebook ainda executem PNL de 
ponta. “A esperança é que isso reduza o custo, que o torne mais acessível a todos ... 
para os pequeninos que têm apenas um laptop”, diz Frankle. “Para mim, isso é 
realmente emocionante.” 
Esta pesquisa foi financiada, em parte, pelo MIT-IBM Watson AI Lab.

Continue navegando