Aprendizagem profunda envolve biologia sintética

•

UNICAMP

Silone

02/05/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Redes Neurais I

282 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Nome: Gabriel Miller Silone 
 
Aprendizagem profunda envolve biologia sintética 
 
O DNA e o RNA foram comparados a "manuais de instrução" contendo as 
informações necessárias para o funcionamento de "máquinas" vivas. Mas enquanto as 
máquinas eletrônicas como computadores e robôs são projetadas desde o início para servir 
a um propósito específico, os organismos biológicos são governados por um conjunto de 
funções muito mais confuso e complexo que carece da previsibilidade do código binário. 
Inventar novas soluções para problemas biológicos requer separar variáveis aparentemente 
intratáveis - uma tarefa que é assustadora até mesmo para os cérebros humanos mais 
intrépidos. 
Duas equipes de cientistas do Wyss Institute da Harvard University e do 
Massachusetts Institute of Technology criaram caminhos para contornar esse obstáculo indo 
além do cérebro humano; eles desenvolveram um conjunto de algoritmos de aprendizado 
de máquina que podem analisar resmas de sequências de "apoio" baseadas em RNA e 
prever quais serão mais eficazes em detectar e responder a uma sequência alvo desejada. 
Conforme relatado em dois artigos publicados simultaneamente hoje na Nature 
Communications , os algoritmos podem ser generalizáveis para outros problemas na biologia 
sintética e podem acelerar o desenvolvimento de ferramentas de biotecnologia para 
melhorar a ciência e a medicina e ajudar a salvar vidas. 
"Essas conquistas são empolgantes porque marcam o ponto de partida de nossa 
capacidade de fazer perguntas melhores sobre os princípios fundamentais do dobramento 
de RNA, que precisamos saber para alcançar descobertas significativas e construir 
tecnologias biológicas úteis", disse Luis Soenksen, Ph. D., um pós-doutorado no Wyss 
Institute e Venture Builder na Jameel Clinic do MIT que é co-autor do primeiro dos dois 
artigos. 
Obtendo interruptores de apoio 
A colaboração entre cientistas de dados da Predictive BioAnalytics Initiative do Wyss Institute 
e biólogos sintéticos no laboratório de Jim Collins, membro do corpo docente do Wyss, no 
MIT foi criada para aplicar o poder computacional do aprendizado de máquina, redes neurais 
e outras arquiteturas algorítmicas a problemas complexos em biologia até agora desafiaram 
a resolução. Como campo de prova para sua abordagem, as duas equipes se concentraram 
em uma classe específica de moléculas de RNA projetadas: chaves de apoio, que são 
dobradas em forma de grampo em seu estado "desligado". Quando uma fita de RNA 
complementar se liga a uma sequência "desencadeadora" que segue de uma extremidade 
do grampo de cabelo, a chave de apoio se desdobra em seu estado "ligado" e expõe 
sequências que estavam anteriormente ocultas dentro do grampo de cabelo, permitindo que 
os ribossomos se liguem e traduzam um gene downstream em moléculas de proteína. Esse 
controle preciso sobre a expressão de genes em resposta à presença de uma determinada 
molécula torna os interruptores do pé muito poderosos para detectar substâncias no 
ambiente, detectar doenças e outros propósitos. 
No entanto, muitos toehold switches não funcionam muito bem quando testados 
experimentalmente, embora tenham sido projetados para produzir uma saída desejada em 
resposta a uma determinada entrada com base em regras de dobramento de RNA 
conhecidas. Reconhecendo esse problema, as equipes decidiram usar o aprendizado de 
máquina para analisar um grande volume de sequências de chave de apoio e usar os 
insights dessa análise para prever com mais precisão quais apoios de pé executam de forma 
confiável suas tarefas pretendidas, o que permitiria aos pesquisadores identificar 
rapidamente apoios de alta qualidade para vários experimentos. 
O primeiro obstáculo que eles enfrentaram foi que não havia um conjunto de dados de 
sequências de interruptores grandes o suficiente para que as técnicas de aprendizado 
profundo analisassem com eficácia. Os autores se encarregaram de gerar um conjunto de 
dados que seria útil para treinar tais modelos. "Projetamos e sintetizamos uma enorme 
biblioteca de chaves de apoio, quase 100.000 no total, por amostragem sistemática de 
regiões de gatilho curtas ao longo de todo o genoma de 23 vírus e 906 fatores de transcrição 
humana", disse Alex Garruss, estudante de graduação em Harvard que trabalha no Wyss 
Institute quem é co-primeiro autor do primeiro artigo. "A escala sem precedentes deste 
conjunto de dados permite o uso de técnicas avançadas de aprendizado de máquina para 
identificar e compreender switches úteis para aplicativos downstream imediatos e projetos 
futuros." 
Armadas com dados suficientes, as equipes primeiro empregaram ferramentas 
tradicionalmente usadas para analisar moléculas de RNA sintético para ver se podiam prever 
com precisão o comportamento de chaves de apoio, agora que havia muitos outros 
exemplos disponíveis. No entanto, nenhum dos métodos que eles tentaram - incluindo 
modelagem mecanística baseada em termodinâmica e características físicas - foram 
capazes de prever com precisão suficiente quais apoios de pé funcionavam melhor. 
Uma imagem vale mil pares de bases 
Os pesquisadores então exploraram várias técnicas de aprendizado de máquina para ver se eles 
poderiam criar modelos com melhores habilidades de previsão. Os autores do primeiro artigo 
decidiram analisar toehold switches não como sequências de bases, mas sim como 
"imagens" bidimensionais de possibilidades de pares de bases. "Conhecemos as regras 
básicas de como os pares de bases de uma molécula de RNA se ligam, mas as moléculas 
são tortuosas - nunca têm uma única forma perfeita, mas sim uma probabilidade de 
diferentes formas em que poderiam ter", disse Nicolaas Angenent-Mari , um estudante de 
pós-graduação do MIT que trabalha no Wyss Institute e co-autor do primeiro artigo. "Os 
algoritmos de visão computacional se tornaram muito bons na análise de imagens, então 
criamos uma representação semelhante a uma imagem de todos os possíveis estados de 
dobramento de cada chave de apoio, 
Outro benefício de sua abordagem com base visual é que a equipe foi capaz de "ver" em 
quais partes de uma sequência de chave de apoio o algoritmo "prestou atenção" mais ao 
determinar se uma determinada sequência era "boa" ou "ruim". Eles chamaram essa 
abordagem de interpretação de Mapas de Saliência de Estrutura Secundária, ou VIS4Map, 
e a aplicaram a todo o conjunto de dados de chave de apoio. VIS4Map identificou com 
sucesso os elementos físicos das chaves dos pés que influenciaram seu desempenho, e 
permitiu aos pesquisadores concluir que os apoios dos pés com mais estruturas internas 
potencialmente concorrentes eram "mais vazados" e, portanto, de qualidade inferior do que 
aqueles com menos estruturas, fornecendo uma visão sobre os mecanismos de dobramento 
de RNA que não foram descobertos usando técnicas de análise tradicionais. 
"Ser capaz de entender e explicar por que certas ferramentas funcionam ou não funcionam 
tem sido um objetivo secundário dentro da comunidade de inteligência artificial por algum 
tempo, mas a interpretabilidade precisa estar na vanguarda de nossas preocupações ao 
estudar biologia, porque as razões subjacentes para aqueles os comportamentos dos 
sistemas muitas vezes não podem ser intuídos ", disse Jim Collins, Ph.D., autor sênior do 
primeiro artigo. "Descobertas e interrupções significativas são o resultado de uma 
compreensão profunda de como a natureza funciona, e este projeto demonstra que o 
aprendizado de máquina, quando projetado e aplicado corretamente, pode aumentar muito 
nossa capacidade de obter informações importantes sobre os sistemas biológicos." Collins 
também é Professor Termeer de Engenharia Médica e Ciência no MIT. 
 
Agora voce esta falando minha lingua 
 
Enquanto a primeira equipe analisou as sequências de switch toehold como imagens 2D 
para prever sua qualidade, a segunda equipe criou duas arquiteturas de aprendizado 
profundodiferentes que abordaram o desafio usando técnicas ortogonais. Em seguida, eles 
foram além de prever a qualidade dos suportes de apoio e usaram seus modelos para 
otimizar e redesenhar interruptores de suporte de baixo desempenho para diferentes fins, 
que relatam no segundo artigo. 
O primeiro modelo, baseado em uma rede neural convolucional (CNN) e perceptron 
multicamadas (MLP), trata sequências de retenção como imagens 1D, ou linhas de bases 
de nucleotídeos, e identifica padrões de bases e potenciais interações entre essas bases 
para prever o bem e pés ruins. A equipe usou este modelo para criar um método de 
otimização denominado STORM (modelo de otimização e redesenho baseado em 
sequência), que permite o redesenho completo de uma sequência de toehold a partir do 
zero. Esta ferramenta de "quadro em branco" é ideal para gerar novos interruptores de apoio 
para executar uma função específica como parte de um circuito genético sintético, permitindo 
a criação de ferramentas biológicas complexas. 
"A parte realmente legal sobre o STORM e o modelo subjacente a ele é que, após semeá-
lo com os dados de entrada do primeiro artigo, pudemos ajustar o modelo com apenas 168 
amostras e usar o modelo aprimorado para otimizar as chaves de apoio. Isso chama 
questiona a suposição predominante de que você precisa gerar enormes conjuntos de dados 
toda vez que deseja aplicar um algoritmo de aprendizado de máquina a um novo problema 
e sugere que o aprendizado profundo é potencialmente mais aplicável para biólogos 
sintéticos do que pensávamos ", disse o co-autor Jackie Valeri, um aluno de pós-graduação 
do MIT e do Wyss Institute. 
O segundo modelo é baseado no processamento de linguagem natural (PNL) e trata cada 
sequência de pegada como uma "frase" que consiste em padrões de "palavras", 
eventualmente aprendendo como certas palavras são colocadas juntas para formar uma 
frase coerente. "Gosto de pensar em cada botão do pé como um poema de haicai: como um 
haicai, é um arranjo muito específico de frases dentro de sua língua mãe - neste caso, RNA. 
Estamos essencialmente treinando este modelo para aprender a escrever um bom haicai 
alimentando-o com muitos e muitos exemplos ", disse o co-primeiro autor Pradeep Ramesh, 
Ph.D., um pesquisador visitante de pós-doutorado no Wyss Institute e cientista de 
aprendizado de máquina na Sherlock Biosciences. 
Ramesh e seus co-autores integraram este modelo baseado em PNL com o modelo baseado 
em CNN para criar NuSpeak (Nucleic Acid Speech), uma abordagem de otimização que lhes 
permitiu redesenhar os últimos 9 nucleotídeos de um determinado toehold switch, mantendo 
os 21 nucleotídeos restantes intacta. Essa técnica permite a criação de apoios para os pés 
que são projetados para detectar a presença de sequências de RNA patogênicas específicas 
e podem ser usados para desenvolver novos testes diagnósticos. 
A equipe validou experimentalmente ambas as plataformas, otimizando interruptores de 
suporte projetados para detectar fragmentos do genoma viral SARS-CoV-2. O NuSpeak 
melhorou o desempenho dos sensores em uma média de 160%, enquanto o STORM criou 
versões melhores de quatro sensores de RNA viral SARS-CoV-2 "ruins", cujo desempenho 
melhorou em até 28 vezes. 
"Um benefício real das plataformas STORM e NuSpeak é que elas permitem que você 
projete e otimize rapidamente componentes de biologia sintética, como mostramos com o 
desenvolvimento de sensores de suporte para um diagnóstico COVID-19", disse a co-autora 
Katie Collins, estudante de graduação do MIT no Wyss Institute que trabalhou com o 
professor associado do MIT Timothy Lu, MD, Ph.D., autor correspondente do segundo artigo. 
"As abordagens baseadas em dados possibilitadas pelo aprendizado de máquina abrem a 
porta para sinergias realmente valiosas entre a ciência da computação e a biologia sintética, 
e estamos apenas começando a arranhar a superfície", disse Diogo Camacho, Ph.D., autor 
correspondente do segundo artigo, que é Cientista Sênior de Bioinformática e co-líder da 
Predictive BioAnalytics Initiative do Wyss Institute. "Talvez o aspecto mais importante das 
ferramentas que desenvolvemos nestes artigos é que elas são generalizáveis para outros 
tipos de sequências baseadas em RNA, como promotores indutíveis e riboswitches de 
ocorrência natural e, portanto, podem ser aplicadas a uma ampla gama de problemas e 
oportunidades em biotecnologia e medicina. " 
Autores adicionais dos artigos incluem Wyss Core Faculty Member e Professor de Genética 
da HMS George Church, Ph.D.; e os alunos de graduação do Wyss e MIT, Miguel Alcantar 
e Bianca Lepe. 
"A inteligência artificial é uma onda que está apenas começando a impactar a ciência e a 
indústria e tem um potencial incrível para ajudar a resolver problemas intratáveis. Os 
avanços descritos nesses estudos demonstram o poder de fundir computação com biologia 
sintética na bancada para desenvolver novos e mais poderosos tecnologias bioinspiradas, 
além de levar a novos insights sobre os mecanismos fundamentais de controle biológico ", 
disse Don Ingber, MD, Ph.D., Diretor Fundador do Wyss Institute. Ingber também é Professor 
Judah Folkman de Biologia Vascular na Harvard Medical School e do Programa de Biologia 
Vascular no Hospital Infantil de Boston, bem como Professor de Bioengenharia na Escola 
de Engenharia e Ciências Aplicadas John A. Paulson de Harvard.