编辑 | 萝卜皮,本文转自ScienceAI

最近在使用深度学习方法设计新蛋白质方面取得了相当大的进展。尽管取得了这一进展,但尚未描述用于蛋白质设计的通用深度学习框架,该框架能够解决广泛的设计挑战,包括从头粘合剂设计和高阶对称体系结构的设计。扩散模型在图像和语言生成建模方面取得了相当大的成功,但在应用于蛋白质建模时取得了有限的成功,这可能是由于蛋白质骨架几何结构和序列结构关系的复杂性。

论文链接:https://www.biorxiv.org/content/10.1101/2022.12.09.519842v1?rss=1

在这里,华盛顿大学的大卫贝克(David Baker)团队展示了通过在蛋白质结构去噪任务上微调 RoseTTAFold 结构预测网络,获得了蛋白质骨架的生成模型,该模型在无条件和拓扑约束的蛋白质单体设计上取得了出色的性能,蛋白质结合剂设计、对称寡聚体设计、酶活性位点支架和用于治疗和金属结合蛋白质设计的对称基序支架。

研究人员通过实验表征数百种新设计的结构和功能,展示了这种称为 RoseTTAFold Diffusion (RFdiffusion) 的方法的强大功能和通用性。以类似于从用户指定的输入生成图像的网络的方式,RFdiffusion 能够从简单的分子规格设计多样化、复杂、功能性的蛋白质。

该研究以「Broadly applicable and accurate protein design by integrating structure prediction networks and diffusion generative models」为题,于 2022 年 12 月 10 日发布在 BioRxiv 预印平台。

背景

从头蛋白质设计旨在生成具有特定结构和/或功能特性的蛋白质,例如与给定目标进行结合相互作用、折叠成特定拓扑结构或稳定所需的功能「基序」(产生所需活性的几何结构和氨基酸特性)。去噪扩散概率模型 (DDPM) 是一类功能强大的机器学习模型,最近被证明可以响应文本提示生成新颖的逼真图像,它具有几个非常适合蛋白质设计的特性。

首先,DDPM 生成高度多样化的输出——DDPM 经过训练可以对被高斯噪声破坏的数据(例如图像或文本)进行去噪;通过学习随机逆转这种损坏,生成与训练数据非常相似的多种输出。其次,DDPM 可以在迭代生成过程的每个步骤中通过提供调节信息来指导特定的设计目标。第三,对于几乎所有的蛋白质设计应用,都需要明确地建模 3D 结构;SE(3)-等变 DDPM 能够以独立于表示框架的方式执行此操作。

最近的研究表明,通过调节小蛋白质「基序」或二级结构和块邻接(「折叠」)信息,可以使 DDPM 适用于蛋白质单体设计。虽然很有希望,但这些尝试在生成折叠到计算机中预期结构的序列方面取得的成功有限,这可能是由于去噪网络生成逼真的蛋白质骨架的能力有限,并且尚未经过实验测试。

研究概述

Baker 团队推断,可以通过利用 AlphaFold2 (AF2) 和 RoseTTAFold (RF) 等强大的结构预测方法中隐含的对蛋白质结构的深刻理解来开发改进的蛋白质设计扩散模型。RF 具有特别适合用于蛋白质设计 DDPM 的特性。首先,RF 可以以非常高的精度生成蛋白质结构,在之前的工作中,研究人员在为蛋白质设计微调 RF(「RFjoint Inpainting」)后,在准确搭建基序方面取得了相当大的成功。其次,RF 在具有旋转和平移等变性的残基的刚性框架表示上运行。第三,RF 架构支持在三个不同级别对设计规范进行调节:单个残基属性、残基之间的成对距离和方向以及 3D 坐标。

在 RFjoint Inpainting 中,研究人员通过微调 RF 一步设计蛋白质支架。实验表征表明,该方法可以以原子精度构建广泛的蛋白质功能基序,但该方法在不足以限制整体折叠的极简站点描述上失败,并且因为它是确定性的,所以只能针对给定问题产生有限的设计多样性。Baker 团队认为,通过微调 RoseTTAFold 作为生成扩散模型中的去噪网络,可以克服这两个问题:由于起点是随机噪声,每个去噪轨迹都会产生不同的解决方案,并且由于结构是通过多次去噪迭代逐步建立的,因此几乎不需要起始结构信息。

该团队构建了一个基于 RoseTTAFold 的扩散模型,RFdiffusion,使用 RF 帧表示,其中包含每个残基的 Cɑ 坐标和 N-Cɑ-C 刚性方向。研究人员通过在从蛋白质数据库 (PDB) 采样的结构上模拟随机步数(最多 200)的噪声过程来生成训练输入。对于平移,他们使用 3D 高斯噪声扰动 Cɑ 坐标。对于残差方向,他们在旋转矩阵的流形上使用布朗运动。

为了使 RFdiffusion 能够学习逆转噪声过程的每个步骤,研究人员通过最小化帧预测和真实蛋白质结构(未对齐)之间的均方误差 (MSE) 损失来训练模型,对所有残基进行平均。这种损失驱动去噪轨迹匹配每个时间步的数据分布,从而收敛于可设计的蛋白质主链结构。

图:RFdiffusion 学习去噪过程的分布。(来源:论文)

MSE 与 RF 结构预测训练(「帧对齐点误差」,FAPE)中使用的损失形成对比,因为与 FAPE 不同,MSE 损失对全局参考框架不是不变的,因此促进了时间步之间全局坐标框架的连续性。虽然在该研究中使用 RoseTTAFold 作为去噪网络架构的基础,但其他 SE(3) 等变结构预测网络(AF221、OmegaFold22、ESMFold23)原则上可以替换为类似的 DDPM。

为了生成新的蛋白质骨架,研究人员首先初始化随机残基帧,然后 RFdiffusion 进行去噪预测。通过在此预测的方向上采取一步来更新每个残差帧,并添加一些噪声以生成下一步的输入。添加的噪声的性质和反向步骤的大小被选择为使去噪过程与噪声过程的分布相匹配。RFdiffusion 最初寻求匹配与初始化纯随机帧兼容的所有可能蛋白质结构,因此去噪结构最初看起来不像蛋白质。

图:RFdiffusion 在单体生成方面的出色性能。(来源:论文)

然而,通过许多这样的步骤,输入可能产生的蛋白质结构的范围变窄,RF 扩散预测变得非常类似于蛋白质结构。研究人员使用 ProteinMPNN 网络随后设计编码这些结构的序列。该团队还考虑在 RFdiffusion 中同时设计结构和序列,但鉴于将 ProteinMPNN 与单独的结构扩散相结合的出色性能,他们没有广泛探索这种可能性。

图:RFdiffusion 是一种去噪扩散概率模型,以 RoseTTAFold 微调作为去噪网络。(来源:论文)

上图 A 突出显示了 RoseTTAFold 结构预测和 RF 扩散去噪步骤之间的相似之处:在这两种情况下,网络将坐标转换为预测结构,以模型的输入为条件。在 RoseTTAFold 中,序列是主要输入,额外的结构信息作为模板和初始坐标提供给模型。在 RFdiffusion 中,主要输入是来自上一步的噪声坐标。对于设计任务,研究人员可选择提供一系列辅助条件信息,包括部分序列、折叠信息或固定功能基序坐标。

该团队探索了两种不同的 RF 扩散训练策略:(1)以类似于「规范」扩散模型的方式,每个时间步的预测独立于之前时间步的预测;(2)自我调节,其中模型可以以时间步长之间的先前预测为条件。后一种策略的灵感来自 AF2 中「回收」的成功,这也是此处使用的最新 RF 模型的核心。RFdiffusion 中的自我调节显著提高了计算机基准测试的性能,包括有条件和无条件的蛋白质设计任务。自调节轨迹内预测一致性的增加可能至少部分解释了这些性能提升。从预训练的 RF 权重微调 RFdiffusion 比从未经训练的权重训练相同的时间长度要成功得多,并且 MSE 损失也很重要。

图:训练消融揭示了射频扩散成功的决定因素。(来源:论文)

对于该研究中的所有计算机基准测试,研究人员使用 AF2 结构预测网络 21 进行验证,并将计算机「成功」定义为 RF 扩散输出,其中从单个序列预测的 AF2 结构是 (1) 高置信度(平均预测对齐误差,pAE,< 5),(2)在设计结构的 2Å backbone-RMSD 范围内全局范围内,以及 (3) 在任何脚手架功能站点上的 1Å backbone-RMSD 范围内。这种对成功的定义比其他地方描述的要严格得多(图 S3A-B),但却是实验成功的良好预测指标。

讨论

RFdiffusion 是对当前基于物理和深度学习的蛋白质设计方法的重大改进,可应对广泛的设计挑战。最近使用 Rosetta 仅从目标结构信息设计结合蛋白方面取得了实质性进展,但这需要测试数万个设计。RFdiffusion 实现了高出两个数量级的实验成功率。因此,可以通过仅测试数十种设计来识别高亲和力结合剂(至少对此处通过实验表征的目标)。

在以前的研究中,有团队展示了 RFdiffusion 设计皮摩尔亲和结合剂与柔性螺旋肽的能力,进一步强调了 RFdiffusion 在从头设计结合剂中的实用性。还有研究表明,RFdiffusion 可用于通过部分噪声和去噪来改进初始设计,从而实现围绕给定输入结构的可调采样。对于肽结合剂设计,这使亲和力增加了近三个数量级,而无需对设计进行高通量筛选。

最近使用深度学习方法(Hallucination、RFjoint Inpainting 和 diffusion)在支架蛋白功能基序方面取得了进展,但是对于大型系统,Hallucination 变得非常缓慢,当提供的起始信息不足时修复失败,并且以前的扩散方法的准确性非常低 。这里的基准测试表明,RFdiffusion 在可支架基序的复杂性、精确定位侧链(用于催化和其他功能)的能力以及 AF2 基序重述的准确性方面大大优于所有以前的方法。MDM2 结合蛋白的稳健设计具有比支架式 P53 基序高三个数量级的结合亲和力,通过实验证明了射频扩散对基序支架的强大功能。

对于经典的无约束蛋白质结构生成问题,RFdiffusion 很容易生成由 AF2(和 ESMFold)准确预测的多达 600 个残基的新蛋白质结构,远远超过先前描述的扩散和其他方法所达到的复杂性和准确性。实验数据表明,设计可溶性表达,CD 光谱与设计模型一致。这些设计还具有极高的热稳定性,这也表明 RF 扩散设计保留了以前从头设计方法的理想性和稳定性,同时大大增加了复杂性。扩散模型提供的多功能性和控制使得 RF 扩散无条件生成能够扩展到具有任何所需对称性的高阶架构(幻觉方法主要限于循环对称性);使用电子显微镜对这些设计的一个子集进行实验表征,揭示了与设计模型非常相似的结构,并且在自然界中基本上没有先例。将精确的图案脚手架与设计对称组件的能力相结合,研究人员能够搭建跨越多个对称排列链的功能图案。

结语

总的来说,RF 扩散可解决的问题的复杂性以及解决方案的稳健性和准确性(在计算机和实验中都得到了广泛验证)远远超过了以前取得的成果。以一种让人联想到从文本提示中生成图像的方式,RF 扩散可以用最少的专业知识从非常简单的分子规格中生成蛋白质(例如,从目标蛋白质的规格、到该蛋白质的高亲和力结合物,以及从所需对称性的规格、具有该对称性的多种蛋白质组装)。

射频扩散的力量和范围可以在几个方向上扩展。RF 最近已扩展到核酸和蛋白质-核酸复合物,这应该使 RFdiffusion 能够设计核酸结合蛋白,也许还有折叠的 RNA 结构。将 RF 扩展到并入配体应该同样能够扩展 RF 扩散以明确模拟配体原子,从而允许设计蛋白质-配体相互作用。通过添加外部电位和微调,以及对基础方法的持续改进来定制 RFdiffusion,以应对特定设计挑战的能力,应该使蛋白质设计能够达到更高水平的复杂性,接近并在某些情况下超越自然进化所取得的成就。