本综述内容较为详尽(43页),推荐有兴趣的读者阅读原文。

本文介绍了一篇由浙江大学药学院侯廷军教授与意大利技术研究院Luigi Bonati教授团队联合发表在Chemical Reviews上的综述文章——《Enhanced Sampling in the Age of Machine Learning: Algorithms and Applications》。


分子动力学模拟(MD)是一种强大的“计算显微镜”,能揭示原子级别的物理、化学与生物过程。然而,许多关键事件(如蛋白折叠、药物结合、相变反应)往往发生在毫秒甚至秒级的时间尺度上,远超传统MD的计算极限。为此,研究人员发展出增强采样(Enhanced Sampling)方法,以此加速对罕见事件的探索。近几年,机器学习(ML)技术的引入给增强采样领域带来了颠覆性的变革,彻底改变了其研究范式。它不仅能自动学习关键的集合变量(Collective Variables, CVs),还能优化偏置势的构建方式,并且催生了一系列基于生成模型与强化学习的新型策略。本文系统梳理了ML在增强采样中的融合路径、算法框架与典型应用,全面展示了人工智能(AI)如何推动分子模拟迈向“智能探索”的新时代。


从显微镜到智能探索

分子动力学通过求解牛顿方程可精确描述原子运动,但受限于:

  • 势能面计算昂贵 —— 量子级别方法虽精确,但难以扩展;经验力场虽高效,却缺乏反应准确性。

  • 时间尺度受限 —— 常规MD步长需控制在飞秒级,导致难以捕捉宏观过程。

增强采样方法应运而生,典型策略包括:

  • 集合变量空间上施加偏置(如Metadynamics、Umbrella Sampling);

  • 采用广义系综或复本交换(如Replica Exchange);

  • 基于路径采样(如Transition Path Sampling)。

然而,这些方法仍依赖人工定义变量与经验偏置,限制了复杂体系的探索。随着深度学习、图神经网络与生成模型的发展,增强采样正在从“手工建模”走向“自我学习”。


机器学习驱动的增强采样框架

机器学习与增强采样的结合主要体现在三条路径:

  • 数据驱动的集合变量学习(MLCV)

利用有监督或无监督学习自动提取系统的低维表示,例如通过自编码器、主成分分析或图神经网络捕捉蛋白折叠的慢模态。


  • 偏置势能的学习与优化

借助神经网络直接拟合高维自由能面(Free Energy Surface, FES),实现智能偏置构建,代表方法包括VesNet、OPES、Deep Bias NN等。


  • 生成模型与强化学习采样

利用扩散模型、变分自编码器(VAE)、Boltzmann生成器等直接在分子构象空间中生成符合能量分布的样本,从根本上突破罕见事件瓶颈。


主要进展

数据驱动的集合变量(CV)自动学习

传统CV依赖人工经验,如二面角、键长、协调数等。MLCV通过模型自动识别主导慢动力学的变量。

  • 结构驱动型方法:利用分类器(如Deep-LDA、Deep-TDA)或降维网络(如Autoencoder、VAE)区分不同稳态。

  • 物理驱动型方法:通过学习动力学算符(如转移算子、Committor函数)发现主导能垒跃迁的隐变量。

  • 混合方法:在多任务框架下结合几何与物理信息,提高泛化与可解释性。

这些方法不仅提高了CV构建的精度,也实现了“自动化发现”复杂反应通道。


偏置势能的智能化学习

偏置势能的构建决定采样效率。近年来,研究人员使用神经网络直接学习自由能面,从而实现:

  • 高维能量面重建:通过神经网络近似自由能梯度,快速生成平滑偏置;

  • 动态自适应偏置:模型能随模拟数据更新,实现“在线学习”;

  • 路径引导偏置:结合反应路径与转移概率,精确引导稀有跃迁。

这一方向显著提升了自由能计算的收敛速度,尤其在高维蛋白体系中表现突出。


生成模型与强化学习采样

生成模型为增强采样带来范式创新:

  • Boltzmann 生成器:通过正向与逆向流学习Boltzmann分布,可在能量面上直接生成样本。

  • 扩散模型(Diffusion Model):在高噪声下逐步去噪生成物理合理结构,适用于反应路径与相变过程。

  • 强化学习(RL)采样器:将采样视为“决策过程”,智能选择下一步动力学方向,显著加速稀有事件探索。

这些方法展现出强大的可迁移性,为未来“自学习分子模拟系统”奠定基础。


应用前沿

增强采样与机器学习的结合已在多领域取得突破:

  • 生物体系:预测蛋白折叠路径、RNA 构象变化与分子识别机制;

  • 药物设计:高效采样配体结合路径,计算结合自由能,辅助AI药物筛选;

  • 催化与化学反应:解析反应坐标、过渡态结构与催化机理;

  • 相变与材料科学:建模结晶、熔融与固态转变过程。


未来展望

研究人员认为,增强采样正迈向“自动化与物理一致性并重”的新阶段:

  • 自适应CV发现与偏置联动:实现全流程闭环学习;

  • 与生成式AI的融合:从采样到分子设计的一体化;

  • 跨尺度模拟:将量子级势能与原子级动力学无缝衔接;

  • 可解释AI与不确定性量化:提升模型透明度与可信度。

未来,AI 不仅是加速器,更是科学家的“智能助手”,将帮助人类更高效地穿越能量景观的山谷与峰峦,理解生命与物质的微观世界。

整理 | 王建民

参考资料

Enhanced Sampling in the Age of Machine Learning: Algorithms and Applications. Kai Zhu, Enrico Trizio, Jintu Zhang, Renling Hu, Linlong Jiang, Tingjun Hou, and Luigi Bonati. Chemical Reviews.

DOI: 10.1021/acs.chemrev.5c00700


内容中包含的图片若涉及版权问题,请及时与我们联系删除