Reduzindo redes neurais massivas usadas para modelar a linguagem

•

UNICAMP

60

0

60

0

52

Silone

02/05/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 3 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Inteligência Artificial

15.794 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Nome: Gabriel Miller Silone

Reduzindo redes neurais massivas usadas para modelar a linguagem
Uma nova abordagem pode reduzir os custos de computação e aumentar a
acessibilidade ao processamento de linguagem natural de última geração.
Você não precisa de uma marreta para quebrar uma noz.
Jonathan Frankle está pesquisando inteligência artificial - não comendo pistache - mas
a mesma filosofia se aplica à sua " hipótese do bilhete de loteria ". Ele postula que,
escondidas em redes neurais massivas, sub-redes mais enxutas podem completar a
mesma tarefa com mais eficiência. O truque é encontrar essas sub-redes “sortudas”,
chamadas de bilhetes de loteria vencedores.
Em um novo artigo, Frankle e seus colegas descobriram essas sub-redes ocultas no
BERT, uma abordagem de rede neural de última geração para o processamento de
linguagem natural (PNL). Como um ramo da inteligência artificial, a PNL visa decifrar
e analisar a linguagem humana, com aplicativos como geração de texto preditivo ou
chatbots online. Em termos computacionais, o BERT é volumoso, normalmente
demandando potência de supercomputação indisponível para a maioria dos
usuários. O acesso ao bilhete de loteria premiado do BERT pode nivelar o campo de
jogo, potencialmente permitindo que mais usuários desenvolvam ferramentas de PNL
eficazes em um smartphone - sem a necessidade de uma marreta.
“Estamos chegando ao ponto em que teremos que tornar esses modelos mais enxutos
e eficientes”, diz Frankle, acrescentando que esse avanço pode um dia “reduzir as
barreiras de entrada” para a PNL.
Frankle, um estudante de doutorado no grupo de Michael Carbin no Laboratório de
Ciência da Computação e Inteligência Artificial do MIT, é co-autor do estudo, que será
apresentado no próximo mês na Conferência sobre Sistemas de Processamento de
Informação Neural. Tianlong Chen, da Universidade do Texas em Austin, é o autor
https://news.mit.edu/2019/smarter-training-neural-networks-0506
principal do artigo, que incluiu os colaboradores Zhangyang Wang, também da UT
Austin, bem como Shiyu Chang, Sijia Liu e Yang Zhang, todos do MIT-IBM Watson AI
Lab .
Você provavelmente já interagiu com uma rede BERT hoje. É uma das tecnologias
que sustentam o mecanismo de pesquisa do Google e gerou entusiasmo entre os
pesquisadores desde que o Google lançou o BERT em 2018. O BERT é um método
de criação de redes neurais - algoritmos que usam nós em camadas, ou "neurônios",
para aprender a realizar um tarefa através do treinamento em vários exemplos. O
BERT é treinado por tentativas repetidas de preencher palavras deixadas de fora de
uma passagem da escrita, e seu poder reside no tamanho gigantesco desse conjunto
de dados de treinamento inicial. Os usuários podem então ajustar a rede neural do
BERT para uma tarefa específica, como construir um chatbot de atendimento ao
cliente. Mas disputar o BERT exige muito poder de processamento.
“Um modelo padrão de BERT hoje em dia - a variedade de jardim - tem 340 milhões
de parâmetros”, diz Frankle, acrescentando que o número pode chegar a 1 bilhão. O
ajuste fino de uma rede tão grande pode exigir um supercomputador. “Isso é
obscenamente caro. Isso está muito além da capacidade de computação de você ou
eu. ”
Chen concorda. Apesar da explosão de popularidade do BERT, esses modelos
“sofrem com o tamanho da rede enorme”, diz ele. Felizmente, “a hipótese do bilhete
de loteria parece ser uma solução”.
Para cortar custos de computação, Chen e colegas procuraram localizar um modelo
menor oculto no BERT. Eles experimentaram podar iterativamente os parâmetros da
rede BERT completa e, em seguida, comparar o desempenho da nova sub-rede com
o do modelo BERT original. Eles executaram essa comparação para uma série de
tarefas da PNL, desde responder a perguntas até preencher a palavra em branco em
uma frase.
Os pesquisadores descobriram sub-redes bem-sucedidas que eram 40 a 90 por cento
mais finas do que o modelo BERT inicial, dependendo da tarefa. Além disso, eles
foram capazes de identificar os bilhetes de loteria vencedores antes de executar
qualquer ajuste fino específico de tarefa - uma descoberta que poderia minimizar
ainda mais os custos de computação para PNL. Em alguns casos, uma sub-rede
escolhida para uma tarefa poderia ser reaproveitada para outra, embora Frankle
observe que essa transferibilidade não era universal. Mesmo assim, Frankle está mais
do que feliz com os resultados do grupo.
“Fiquei meio chocado que até funcionou”, diz ele. “Não é algo que eu tenha dado como
certo. Eu esperava um resultado muito mais confuso do que o nosso. ”
A descoberta de um bilhete vencedor em um modelo BERT é “convincente”, de acordo
com Ari Morcos, cientista do Facebook AI Research. “Esses modelos estão se
tornando cada vez mais difundidos”, diz Morcos. “Portanto, é importante entender se
a hipótese do bilhete de loteria é válida.” Ele acrescenta que a descoberta pode
permitir que modelos semelhantes ao BERT sejam executados usando muito menos
poder de computação, “o que poderia ser muito impactante, dado que esses modelos
extremamente grandes são atualmente muito caros para operar”.
Frankle concorda. Ele espera que este trabalho possa tornar o BERT mais acessível,
porque contraria a tendência de modelos de PNL cada vez maiores. “Não sei o quanto
podemos aumentar usando esses cálculos do tipo supercomputador”, diz
ele. “Teremos que reduzir a barreira de entrada.” Identificar uma sub-rede enxuta e
ganhadora da loteria faz exatamente isso - permitindo que os desenvolvedores que
não têm a força de computação do Google ou do Facebook ainda executem PNL de
ponta. “A esperança é que isso reduza o custo, que o torne mais acessível a todos ...
para os pequeninos que têm apenas um laptop”, diz Frankle. “Para mim, isso é
realmente emocionante.”
Esta pesquisa foi financiada, em parte, pelo MIT-IBM Watson AI Lab.