Baixe o app para aproveitar ainda mais
Prévia do material em texto
Nome: Gabriel Miller Silone Reduzindo redes neurais massivas usadas para modelar a linguagem Uma nova abordagem pode reduzir os custos de computação e aumentar a acessibilidade ao processamento de linguagem natural de última geração. Você não precisa de uma marreta para quebrar uma noz. Jonathan Frankle está pesquisando inteligência artificial - não comendo pistache - mas a mesma filosofia se aplica à sua " hipótese do bilhete de loteria ". Ele postula que, escondidas em redes neurais massivas, sub-redes mais enxutas podem completar a mesma tarefa com mais eficiência. O truque é encontrar essas sub-redes “sortudas”, chamadas de bilhetes de loteria vencedores. Em um novo artigo, Frankle e seus colegas descobriram essas sub-redes ocultas no BERT, uma abordagem de rede neural de última geração para o processamento de linguagem natural (PNL). Como um ramo da inteligência artificial, a PNL visa decifrar e analisar a linguagem humana, com aplicativos como geração de texto preditivo ou chatbots online. Em termos computacionais, o BERT é volumoso, normalmente demandando potência de supercomputação indisponível para a maioria dos usuários. O acesso ao bilhete de loteria premiado do BERT pode nivelar o campo de jogo, potencialmente permitindo que mais usuários desenvolvam ferramentas de PNL eficazes em um smartphone - sem a necessidade de uma marreta. “Estamos chegando ao ponto em que teremos que tornar esses modelos mais enxutos e eficientes”, diz Frankle, acrescentando que esse avanço pode um dia “reduzir as barreiras de entrada” para a PNL. Frankle, um estudante de doutorado no grupo de Michael Carbin no Laboratório de Ciência da Computação e Inteligência Artificial do MIT, é co-autor do estudo, que será apresentado no próximo mês na Conferência sobre Sistemas de Processamento de Informação Neural. Tianlong Chen, da Universidade do Texas em Austin, é o autor https://news.mit.edu/2019/smarter-training-neural-networks-0506 principal do artigo, que incluiu os colaboradores Zhangyang Wang, também da UT Austin, bem como Shiyu Chang, Sijia Liu e Yang Zhang, todos do MIT-IBM Watson AI Lab . Você provavelmente já interagiu com uma rede BERT hoje. É uma das tecnologias que sustentam o mecanismo de pesquisa do Google e gerou entusiasmo entre os pesquisadores desde que o Google lançou o BERT em 2018. O BERT é um método de criação de redes neurais - algoritmos que usam nós em camadas, ou "neurônios", para aprender a realizar um tarefa através do treinamento em vários exemplos. O BERT é treinado por tentativas repetidas de preencher palavras deixadas de fora de uma passagem da escrita, e seu poder reside no tamanho gigantesco desse conjunto de dados de treinamento inicial. Os usuários podem então ajustar a rede neural do BERT para uma tarefa específica, como construir um chatbot de atendimento ao cliente. Mas disputar o BERT exige muito poder de processamento. “Um modelo padrão de BERT hoje em dia - a variedade de jardim - tem 340 milhões de parâmetros”, diz Frankle, acrescentando que o número pode chegar a 1 bilhão. O ajuste fino de uma rede tão grande pode exigir um supercomputador. “Isso é obscenamente caro. Isso está muito além da capacidade de computação de você ou eu. ” Chen concorda. Apesar da explosão de popularidade do BERT, esses modelos “sofrem com o tamanho da rede enorme”, diz ele. Felizmente, “a hipótese do bilhete de loteria parece ser uma solução”. Para cortar custos de computação, Chen e colegas procuraram localizar um modelo menor oculto no BERT. Eles experimentaram podar iterativamente os parâmetros da rede BERT completa e, em seguida, comparar o desempenho da nova sub-rede com o do modelo BERT original. Eles executaram essa comparação para uma série de tarefas da PNL, desde responder a perguntas até preencher a palavra em branco em uma frase. Os pesquisadores descobriram sub-redes bem-sucedidas que eram 40 a 90 por cento mais finas do que o modelo BERT inicial, dependendo da tarefa. Além disso, eles foram capazes de identificar os bilhetes de loteria vencedores antes de executar qualquer ajuste fino específico de tarefa - uma descoberta que poderia minimizar ainda mais os custos de computação para PNL. Em alguns casos, uma sub-rede escolhida para uma tarefa poderia ser reaproveitada para outra, embora Frankle observe que essa transferibilidade não era universal. Mesmo assim, Frankle está mais do que feliz com os resultados do grupo. “Fiquei meio chocado que até funcionou”, diz ele. “Não é algo que eu tenha dado como certo. Eu esperava um resultado muito mais confuso do que o nosso. ” A descoberta de um bilhete vencedor em um modelo BERT é “convincente”, de acordo com Ari Morcos, cientista do Facebook AI Research. “Esses modelos estão se tornando cada vez mais difundidos”, diz Morcos. “Portanto, é importante entender se a hipótese do bilhete de loteria é válida.” Ele acrescenta que a descoberta pode permitir que modelos semelhantes ao BERT sejam executados usando muito menos poder de computação, “o que poderia ser muito impactante, dado que esses modelos extremamente grandes são atualmente muito caros para operar”. Frankle concorda. Ele espera que este trabalho possa tornar o BERT mais acessível, porque contraria a tendência de modelos de PNL cada vez maiores. “Não sei o quanto podemos aumentar usando esses cálculos do tipo supercomputador”, diz ele. “Teremos que reduzir a barreira de entrada.” Identificar uma sub-rede enxuta e ganhadora da loteria faz exatamente isso - permitindo que os desenvolvedores que não têm a força de computação do Google ou do Facebook ainda executem PNL de ponta. “A esperança é que isso reduza o custo, que o torne mais acessível a todos ... para os pequeninos que têm apenas um laptop”, diz Frankle. “Para mim, isso é realmente emocionante.” Esta pesquisa foi financiada, em parte, pelo MIT-IBM Watson AI Lab.
Compartilhar