ΑlaphaFold3的局限性


AlphaFold3万字长文解读文章的末尾,总结了AF3的局限性之一就是:无法预测蛋白动力学或者蛋白的多构象,AF3文章的图5c也展示了一个例子如下:


图5c|AF3的局限性之动力学,左边灰色是共晶结构是处于Open态,右边蓝色AF3预测结构是处于Close态。


在Twitter上大佬Sergey Ovchinnikov也测试了一个多构象蛋白Ltn10,AF3也不能准确预测其结构


图|AF3预测错误Ltn10的结构,绿色/青色一个为共晶,一个是预测结构。


由此可见,蛋白动力学/多构象的重要性。本文介绍的工作是微软开发的Distributional Graphormer(DiG)算法,就是致力于解决蛋白多构象/动力学的问题,直接用AI预测蛋白构象分布。

DiG的例子


 01  宣传视频

DiG是用扩散模型,其逆向过程是用的Transformer的变体Graphormer,Q/K/V考虑了图的性质做了一些相应的处理。DiG能完成:蛋白构象采样、蛋白小分子对接等四种类型的任务


 02  蛋白构象变化

DiG算法通过采样到蛋白的多构象,比如开关构象,然后经过插值算法,绘出蛋白转移路径,如下:

第一个是LmrP膜蛋白(1AKE)构象开关变化。



第二个是腺苷酸激酶(6T1Z)的构想开关变化。




 03  蛋白小分子对接

作者在官网还举了P35/Tyk2两个靶点蛋白-小分子的对接示例:




视频素材来自于:

https://distributionalgraphormer.github.io/


The following article is from AdvanceBC.

分子平衡分布预测

DiG

2024年5月8日,来自Shuxin Zheng 、 Chang Liu、Haiguang Liu和 Tie-Yan Liu 研究团队的 Jiyan He、Yu Shi和Ziheng Lu等人在Nature Machine Intelligence期刊上发表了一篇题为“Predicting equilibrium distributions for molecular systems with deep learning”的研究文章。研究团队开发了一个名为 Distributional Graphormer (DiG) 的深度学习框架,旨在预测分子系统的平衡分布。通过深度学习技术,DiG 可以高效生成分子的多样化构型,并估算状态密度,这一过程比传统的分子动力学模拟要快数个数量级。此外,DiG不仅提升了对分子系统的统计理解,还为研究分子系统的物理和化学现象打开了新的研究机会。该文的研究不仅推动了深度学习在分子科学中的应用,也为药物设计、催化剂研究和材料科学等领域提供了新的方法和视角。


背景介绍


深度学习方法在高效预测分子结构方面表现出色。例如,AlphaFold能以原子级精度预测蛋白质结构,促进了新的结构生物学应用;基于神经网络的对接方法能预测配体结合结构,支持药物发现的虚拟筛选;深度学习模型还能预测催化剂表面的吸附体结构。这些发展展示了深度学习在模拟分子结构和状态方面的潜力。

然而,仅预测最可能的结构只能揭示处于平衡状态的分子系统信息的一部分。分子具有很大的灵活性,而平衡分布对于准确计算宏观属性至关重要。例如,可以从结构概率推断生物分子功能,以识别亚稳态;并且可以使用统计力学从结构空间中的概率密度计算热力学性质,如熵和自由能。

图1a展示了传统结构预测与分子系统分布预测之间的区别。腺苷酸激酶有两种不同的功能构象(开放和闭合状态),这两种状态都是实验确定的,但预测的结构通常对应于高概率的亚稳态或中间态。因此,需要一种方法来采样具有多种功能状态的蛋白质(如腺苷酸激酶)的平衡分布。

与单一结构预测不同,平衡分布研究仍然依赖于传统且成本高昂的模拟方法,而深度学习方法尚未充分开发。通常情况下,平衡分布是通过分子动力学(MD)模拟来采样的,这种模拟成本高昂或不可行。增强采样模拟和马尔可夫状态建模可以加速罕见事件采样,但需要系统特定的集体变量且不易推广。另一种方法是粗粒度MD,已有提出使用深度学习方法。这些深度学习的粗粒度方法在个别分子系统上表现良好,但尚未显示出推广性。Boltzmann生成器是一种通过从简单参考状态创建概率流来生成平衡分布的深度学习方法,但这也难以推广到不同的分子上。对于小肽体,已展示出通过长时间步骤的流模拟的推广性,但尚未扩展到大型蛋白质。

在这篇文章中,研究团队开发了一种深度学习方法DiG,用于预测分子系统的平衡分布并有效采样多样化且功能相关的结构。DiG通过模拟退火过程,将简单分布逐步转化为目标复杂分布,能够在分子系统间推广并模拟实验观察到的多样结构。此模型基于Graphormer架构,可根据目标分子的化学图或蛋白质序列定制,并能够独立采样平衡分布。为适应数据稀缺情况,他们还开发了物理信息扩散预训练方法(PIDP),通过能量函数来训练DiG,实现了数据驱动和能量监督下的高效训练。

在评估DiG的三个预测任务中——蛋白质结构分布、结合口袋内的配体构象分布和催化剂表面的分子吸附分布——DiG成功生成了符合实际的多样化分子结构。特别是在模拟蛋白质主要功能状态的生成中表现出色。此外,DiG展现了通过偏好特定属性的分布来促进逆向设计的能力,这对于数据不足的属性分子设计领域具有重要意义。这些成果显示,DiG有效地将深度学习从预测单一结构扩展到预测结构分布,为高效预测分子的热力学属性开辟了新路径。


图1|使用DiG框架预测构象分布


研究内容

这项研究开发了一个名为Distributional Graphormer (DiG)的深度学习框架,以预测分子系统的平衡分布。DiG框架利用深度神经网络模拟从一个简单分布到目标分子系统的平衡分布的转变,这一过程受到物理学中退火过程的启发。框架的核心是利用分子系统的描述符(如化学图或蛋白质序列)作为输入,通过一系列扩散步骤,逐步转化简单分布以逼近平衡分布。

在DiG框架中,神经网络的设计基于Graphormer架构,这是一种针对图形数据优化的变换器模型,适合处理复杂的分子结构数据。该模型在每个扩散步骤中独立预测结构的变化,从而允许模型逐步从一个简单的初始分布(通常是高斯分布或均匀分布)转变为目标的复杂分布。此过程包括正向扩散过程,其中目标分布逐渐简化为简单分布,以及逆向扩散过程,逆向过程中简单分布逐步恢复为目标分布。为了有效地训练DiG模型,研究者们开发了基于物理信息的扩散预训练(PIDP)方法。这种方法利用从系统的能量函数派生的信息,不仅使模型能够在数据稀缺的情况下进行预训练,还可以通过每个扩散步骤的独立训练信号,避免长链反向传播的复杂性。PIDP方法的关键在于它允许模型从一个非平衡分布的初始结构集上进行训练,这些结构集可能是随机生成的,但足以覆盖分子结构的相关空间。在扩散过程模拟中,DiG框架通过逐步调整分子描述符和其相应的结构,实现从简单分布到复杂分布的转变。这个过程需要精确地控制每一步的网络输出,确保每次转变都尽可能接近实际的物理过程。此外,为了进一步提高预测的准确性,DiG在训练过程中结合了多种技术,包括端到端的训练策略和基于梯度的优化方法,以及特别设计的损失函数,用于量化和最小化预测分布与实际平衡分布之间的差异。总之,DiG框架通过结合现代深度学习技术与传统的分子动力学理论,提供了一种全新的方法来模拟和预测分子系统的平衡分布。

实验结果展示了DiG框架在多个分子系统任务中的应用和表现。具体地,DiG成功应用于蛋白质构象采样、配体结构采样、催化剂-吸附剂采样,以及基于属性的结构生成等任务。在蛋白质构象采样方面,DiG能够高效地生成与实验中已知的多个功能状态相似的蛋白质结构,包括在SARS-CoV-2病毒的蛋白质中得到验证的结构。这表明DiG不仅能精确模拟已知结构,还能探索未知的结构空间。在配体结构采样方面,DiG展示了其在药物设计中的潜力,通过精确预测与实验结构高度一致的配体结构,为药物分子设计提供支持。此外,DiG在催化剂-吸附剂采样任务中,能够有效预测催化剂表面上的吸附位点,并生成稳定的吸附剂构型,这对于催化剂设计和优化具有重要意义。在基于属性的结构生成方面,DiG能够生成具有目标物理属性的分子结构,例如调整碳结构以获得特定的电子带隙,这一能力显示了DiG在材料科学中的应用前景。整体上,这些结果验证了DiG在预测分子系统的平衡分布方面的有效性和高度适用性,展现了其作为一种强大工具在分子科学研究中的潜力。



研究结果


在此,研究团队展示了 DiG 可应用于研究蛋白质构象、蛋白质-配体相互作用以及分子在催化剂表面的吸附。此外,通过应用于碳同素异形体的生成以实现预期电子带隙,研究团队探讨了 DiG 的逆向设计能力。

 01  蛋白质构象采样

在生理条件下,大多数蛋白质分子表现出多种功能状态,这些状态通过动态过程相互联系。对这些构象的采样对于理解蛋白质属性及其与其他分子的相互作用至关重要。最近有报道称,AlphaFold1 可以通过操纵输入信息如多序列对齐(MSAs)生成特定蛋白质的替代构象。然而,此方法是基于变化 MSAs 深度开发的,难以泛化到所有蛋白质(特别是那些同源序列数量少的蛋白质)。因此,开发能够采样与构象空间能量景观一致的多样化结构的先进人工智能(AI)模型是非常需要的。研究团队展示了 DiG 能够生成多样化且功能相关的蛋白质结构,这是能够有效采样平衡分布的关键能力。


因为蛋白质构象的平衡分布难以通过实验或计算获得,存在高质量数据的缺乏用于训练或基准测试。为了训练此模型,研究团队从公共数据库收集实验和模拟结构。为了缓解数据稀缺,研究团队生成了一个 MD 模拟数据集,并开发了 PIDP 训练方法。通过两个层面评估 DiG 的性能:(1)通过将构象分布与从广泛的(毫秒时间尺度)原子级 MD 模拟获得的分布进行比较;(2)通过在具有多个构象的蛋白质上进行验证。如图2a 所示,从 MD 模拟得到的构象分布是针对两种来自 SARS-CoV-2 病毒的蛋白质(刺突蛋白的受体结合域(RBD)和主要蛋白酶,也称为 3CL 蛋白酶)。这两种蛋白质是 SARS-CoV-2 的关键组成部分,也是治疗 COVID-19 的药物开发的关键靶点。


在将蛋白质序列作为描述符输入到 DiG 后,生成的结构与模拟数据进行了比较。尽管 RBD 和主要蛋白酶的模拟数据未用于 DiG 训练,但生成的结构类似于构象分布(图2a)。在 RBD 构象的二维(2D)投影空间中,MD 模拟占据四个区域,这四个区域均由 DiG 采样(图2a,左侧)。四个代表性结构由 DiG 很好地再现。同样,主要蛋白酶模拟的三个代表性结构由 DiG 预测(图2a)。研究团队注意到,I 簇中的构象未被 DiG 很好地恢复,表明有改进的空间。在构象覆盖率方面,研究团队将 DiG 采样的区域与模拟中的区域进行了比较,在 2D 流形中(图2a),观察到大约 70% 的 RBD 构象由模拟采样可通过仅 10,000 个 DiG 生成的结构覆盖。


图2a|蛋白构象采样与Anton轨迹比较(上方),下方是一些示例


原子级 MD 模拟计算成本高,因此很少执行蛋白质的毫秒时间尺度模拟,除非是在如 Anton 超级计算机等特殊目的硬件上或通过在马尔可夫状态模型中结合广泛的分布式模拟进行。为了对 DiG 生成的多样化结构进行额外评估,研究团队转向那些已经通过实验确定的具有多种结构的蛋白质。在图2b 中,研究团队展示了 DiG 在生成四种蛋白质的多个构象方面的能力。实验结构以圆柱卡通显示,每个与 DiG 生成的两个结构(薄带)对齐。例如,DiG 生成的结构类似于腺苷酸激酶蛋白的开放或闭合状态(例如,与闭合状态的背骨根均方差 < 1.0 Å)。类似地,对于药物运输蛋白 LmrP,DiG 生成的结构覆盖了两种状态(根均方差 < 2.0)。在人类 BRAF 激酶的两种状态之间,整体结构差异不太明显。主要差异在 A-loop 区域和附近的螺旋(αC-螺旋,图中标出)。由 DiG 生成的结构准确捕捉了这些区域的结构差异。对于 D-核糖结合蛋白,两个域的包装是结构差异的主要来源。DiG 正确生成了对应于直立构象(圆柱卡通)和扭曲或倾斜构象的结构。如果对齐 D-核糖结合蛋白的一个域,另一个域只部分匹配扭曲构象作为“中间”状态。此外,DiG 可以通过潜在空间插值生成合理的构象过渡路径。总之,DiG 不仅能预测蛋白质的静态结构,还能生成对应不同功能状态的多样化结构。


图2b|蛋白构象采样



 02   配体结构在结合位点周围的采样


蛋白质构象采样的直接扩展是预测药物可靶位点中的配体结构。为了模拟蛋白质和配体之间的相互作用,研究团队对 1,500 个复合体进行了 MD 模拟,以训练 DiG 模型。研究团队评估了 DiG 在 409 个蛋白质-配体系统中的性能,这些系统不在训练数据集中。DiG 的输入包括蛋白质口袋信息(原子类型和位置)和配体描述符(一个 SMILES 字符串)。研究团队在输入节点和对表示中填充零,以处理口袋周围原子数量的不同和 SMILES 字符串长度的不同。预测结果是配体和蛋白质口袋的原子坐标分布。对于蛋白质口袋,与输入值相比,原子位置的变化最高可达 1.0 Å(根均方差),反映了在配体结构生成期间口袋的灵活性。对于配体结构,偏差来源于两个方面:(1)生成结构与实验结构之间的构象差异;(2)由于配体平移和旋转导致的结合姿态差异。在所有测试案例中,构象差异较小,平均根均方差值为 1.74 Å,表明生成的结构与晶体结构中解析的配体高度相似(见图3a)。当包括结合姿态偏差时,观察到更大的差异。然而,DiG 预测的结构与每个系统的实验结构非常相似。在每个系统中生成的 50 个结构中,最匹配的结构与实验数据的根均方差相比几乎在所有 409 个测试系统中均小于 2.0 Å(见图3a 了解根均方差分布)。配体生成结构的准确性与结合口袋的特性有关。例如,在 TYK2 激酶蛋白的案例中,图3b(顶部)显示的配体与晶体结构的平均偏差为 0.91 Å(根均方差)。对于靶点 P38,配体展示了更多样化的结合姿态,这可能是由于相对浅的结合口袋,使得最稳定的结合姿态与其他姿态相比不太占优势(图3b,底部)。MD 模拟揭示了与 DiG 生成的结构相似的趋势,配体与 TYK2 的结合比与 P38 的情况更紧密。总体而言,研究团队观察到生成的结构与实验观察到的姿态相似。

图3|DiG在蛋白质口袋周围配体结构采样方面的结果


结论与前景


研究团队引入了一个深度生成框架DiG,旨在预测分子状态的平衡概率分布,使得能够高效采样分子系统中的多样化构象和状态密度。受退火过程的启发,DiG 使用一系列深度神经网络逐步将状态分布从简单形态转变为目标形态。DiG 可以通过适当的数据训练来近似平衡分布。

研究团队已将 DiG 应用于多个分子任务,包括蛋白质构象采样、蛋白质-配体结合结构生成、分子在催化剂表面的吸附和属性引导的结构生成。DiG 生成的结构在化学上真实且多样化,并且在某些情况下其分布类似于低维投影中的 MD 模拟。通过利用先进的深度学习架构,DiG 学习了从分子描述符(如蛋白质的序列或复合分子的公式)表示的分子构象。此外,其使用扩散模型来模拟复杂的多模态分布的能力,使其能够在高维空间捕获平衡分布。

因此,该框架为分子科学中的大量研究机会和应用打开了大门。DiG 可以提供分子的统计理解,使得能够计算如自由能和热力学稳定性等宏观属性。这些见解对于研究分子系统的物理和化学现象至关重要。

尽管DiG能够生成独立同分布(i.i.d.)的构象从平衡分布中,相比于传统的采样或模拟方法,如马尔可夫链蒙特卡罗(MCMC)或 MD 模拟,DiG 提供了实质性的优势。这些传统方法需要通过稀有事件跨越能量障碍。在两个测试的蛋白质案例中,DiG 覆盖了与毫秒时间尺度 MD 模拟相似的构象空间。根据 OpenMM 性能基准测试,模拟刺突蛋白的 RBD 1.8 ms 需要大约 7-10 GPU 年在 NVIDIA A100 上,而使用 DiG 生成 50k 结构只需约 10 天在单个 A100 GPU 上,无需推断加速。在预测催化剂表面上的吸附体分布方面,已实现类似甚至更好的加速,如结果所示。结合高精度概率分布,这种数量级的加速将为分子模拟和设计带来革命性变化。

尽管在给定状态下定量预测平衡分布将取决于数据可用性,DiG 探索广阔而多样的构象空间的能力有助于发现新的功能性分子结构,包括蛋白质结构、配体构象体和吸附体配置。DiG 可以帮助将微观描述符和宏观观察连接起来,对包括但不限于生命科学、药物设计、催化研究和材料科学等多个分子科学领域产生潜在影响。


 代码文献

  1. 583-589. Zheng, S., He, J., Liu, C. et al. Predicting equilibrium distributions for molecular systems with deep learning. Nat Mach Intell (2024).

  2. https://doi.org/10.1038/s42256-024-00837-3

  3. https://doi.org/10.5281/zenodo.10911143

  4. https://covid.molssi.org/simulations/

  5. https://distributionalgraphormer.github.io/

内容中包含的图片若涉及版权问题,请及时与我们联系删除