人工设计蛋白领域先驱David Baker教授在《自然》发布最新论文,其团队所开发出的AI软件RFdiffusion能够突破既往诸多蛋白质设计限制,可根据需要“定制化”设计出包含高阶对称结构等以往无法通过AI设计的蛋白质。

《自然》新闻稿指出,此AI模型可按需设计生物分子,将可能带来变革性疫苗和药物开发的下一个时代。


以下为正文机器翻译,阅读原文请点击这里

一种名为RFdiffusion的人工智能工具设计了一种与甲状腺激素结合的蛋白质,以粉红色显示。

西雅图华盛顿大学(UW)的计算化学家David Juergens即将设计一种蛋白质,在30多亿年的修补中,进化从未产生过这种蛋白质。

在视频通话中,Juergens打开了他帮助开发的人工智能(AI)工具的基于云版本,称为RFdiffusion。这个神经网络和其他类似的网络正在帮助将定制蛋白质的创造——直到最近,这是一个高度技术性的、往往不成功的追求——带入了科学主流。

这些蛋白质可以成为疫苗、治疗和生物材料的基础。马萨诸塞州萨默维尔Generate Biomedicines的联合创始人兼首席技术官Gevorg Grigoryan说:“这是一个完全变革的时刻。”这家生物技术公司将蛋白质设计应用于药物开发。

这些工具的灵感来自合成逼真图像的人工智能软件,例如Midjourney软件,今年该软件被用来制作教皇方济各穿着设计师白色羽绒服的病毒图像。研究人员发现,类似的概念方法可以根据设计师指定的标准制作出逼真的蛋白质形状——例如,这意味着可以迅速绘制出应与另一个生物分子紧密结合的新蛋白质。早期的实验表明,当研究人员制造这些蛋白质时,有用的部分确实按照软件的建议发挥作用。

论文地址:https://www.nature.com/articles/s41586-023-06415-8 


最近,在使用深度学习方法设计新蛋白质方面取得了相当大的进展1-9。尽管取得了这一进展,但蛋白质设计的通用深度学习框架尚未得到描述,该框架能够解决广泛的设计挑战,包括de novo粘合剂设计和高阶对称架构的设计。扩散模型10,11在图像和语言生成建模方面取得了相当大的成功,但应用于蛋白质建模时成功有限,这可能是由于蛋白质骨干几何和序列-结构关系的复杂性。在这里,我们表明,通过微调蛋白质结构去噪任务的RoseTTAFold结构预测网络,我们获得了蛋白质骨架的生成模型,该模型在无条件和拓扑约束的蛋白质单体设计、蛋白质粘合剂设计、对称寡聚体设计、酶活性位点支架以及用于治疗和金属结合蛋白质设计的对称图案支架方面取得了出色的性能。我们通过实验表征数百个设计的对称组件、金属结合蛋白和蛋白质粘合剂的结构和功能,展示了这种方法的力量和通用性,称为RoseTTAFold扩散(RF扩散)。射频扩散的准确性由与流感血凝素复合体的设计粘合剂的低温EM结构得到证实,该结构与设计模型几乎相同。以类似于从用户指定输入生成图像的网络的方式,RFdiffusion能够从简单的分子规格中设计出各种功能蛋白质。

研究人员表示,在过去的一年里,这些工具彻底改变了蛋白质设计过程。纽约市哥伦比亚大学计算生物学家Mohammed AlQuraishi说:“这是能力的爆炸”,他的团队开发了一种这样的蛋白质设计工具。“您现在可以创建具有追捧品质的设计。”

在过去的几年里,Baker的团队和该领域的其他人发布了一系列基于人工智能的蛋白质设计工具。这些工具使用的一种方法,称为幻觉,涉及创建随机的氨基酸字符串,然后由AlphaFold或名为RoseTTAFold的类似工具进行优化,直到它类似于神经网络所暗示的可能折叠成特定结构的东西。另一个称为inpainting,获取蛋白质序列或结构的特定片段,并使用RoseTTAFold在它周围构建其余分子。

但这些工具远非完美。实验倾向于表明,通过幻觉方法设计的结构在实验室制作时并不总是形成折叠良好的蛋白质,例如,最终在试管底部形成粘液。幻觉方法也很难制造除小蛋白质以外的任何蛋白质(尽管其他研究人员在2月份的预印本中展示了如何使用该技术来设计更长的分子4)。当给予较短的片段时,Inpainting在形成蛋白质方面也做得不好。即使这种方法确实产生了理论上的蛋白质结构,它也无法为增加成功几率的问题提出多样化的解决方案。

这就是最近几个月发布的RFdiffusion和类似的蛋白质设计人工智能的来源。它们基于与生成真实图像的神经网络相同的原则,如Stable Diffusion、DALL-E和Midjourney。这些“扩散”网络根据数据进行训练,无论是图像还是蛋白质结构,然后逐渐变得嘈杂,最终与起始图像或结构没有相似之处。然后,网络学习“去诺化”数据,反向执行任务。

RFdiffusion等网络是在名为蛋白质数据库(PDB)的存储库中的数万个真实蛋白质结构上进行训练的。当网络制造一种新的蛋白质时,它从总噪音开始:随机的氨基酸分类。“你在问引起噪音的蛋白质是什么,”沃森解释道。经过几轮去噪后,它会产生类似于真实但新的蛋白质的东西。

当Baker的团队测试RFdiffusion时,除了蛋白质的长度外,没有提供任何指导,网络产生了多样化的、逼真的蛋白质,与PDB中训练的任何蛋白质不同。

但研究人员也能够指导该计划在去噪过程中根据特定的设计约束制造蛋白质,这个过程被称为调理。

例如,Baker的团队对射频扩散进行了调节,以制造包含特定褶皱的蛋白质,或可以附着在另一个分子表面的蛋白质(一种作为结合背后的相互作用)。Grigoryan的团队甚至开发了一个名为Chroma的扩散网络,然后对其进行调节,使其形状类似于英语中使用的26个大写字母以及阿拉伯数字的蛋白质。

相关阅读:https://www.nature.com/articles/d41586-022-02947-7