MarS-FM: Generative Modeling of Molecular Dynamics via Markov State Models

2025年09月29日
  • 简介
    分子动力学(MD)是一种强大的计算显微镜,可用于探究蛋白质功能。然而,由于需要细粒度的积分以及生物分子事件本身的时间尺度较长,使得分子动力学模拟在计算上非常昂贵。为应对这一挑战,已有若干生成模型被提出,旨在以较低成本生成替代轨迹。但这些模型通常学习的是固定滞后时间的转移密度,导致训练信号主要由频繁但信息量不足的过渡过程所主导。我们提出了一类新的生成模型——马尔可夫态模型模拟器(MSM Emulators),该模型转而学习在由底层马尔可夫态模型(MSM)定义的离散状态之间进行转移采样。我们将这一模型类别具体实现为“马尔可夫空间流匹配”(MarS-FM),其采样速度相较于隐式或显式溶剂的分子动力学模拟提升了两个数量级以上。我们通过结构可观测量(如RMSD、回转半径和二级结构含量)对MarS-FM再现分子动力学统计特性的能力进行了基准测试。我们的评估涵盖了具有显著化学和结构多样性的蛋白质结构域(最多达500个残基),包括蛋白质 unfolding 事件,并严格确保训练集与测试集之间的序列高度不相似,以检验模型的泛化能力。在所有指标上,MarS-FM均优于现有方法,且优势往往十分显著。
  • 作者讲解
  • 图表
  • 解决问题
    分子动力学(MD)模拟虽然能深入揭示蛋白质功能,但由于需要精细的时间步长积分和模拟长时间尺度的生物分子事件,计算成本极高。现有的生成模型试图通过生成代理轨迹来降低成本,但通常学习的是固定滞后转移密度,导致训练信号被频繁但信息量低的短时转移主导,难以捕捉重要的长时构象变化。这是一个长期存在的挑战,尤其在实现高效且具备良好泛化能力的蛋白质动力学建模方面。
  • 关键思路
    提出了一类新的生成模型——MSM仿真器(MSM Emulators),其核心思想是不再直接建模原子坐标的连续短时转移,而是基于底层马尔可夫状态模型(MSM)定义的离散宏观状态,学习跨状态的转移采样策略。具体实例Markov Space Flow Matching(MarS-FM)结合了流匹配(Flow Matching)技术,在低维离散状态空间中进行高效生成采样,从而实现对蛋白质构象动力学的快速模拟。相比传统方法,该思路从‘细粒度局部转移’转向‘粗粒度状态跳跃’,显著提升了效率与长时行为的建模能力。
  • 其它亮点
    MarS-FM在采样速度上比显式或隐式溶剂MD快两个数量级以上;在RMSD、回转半径、二级结构等结构可观测量上全面优于现有生成模型;实验覆盖多达500个残基的蛋白结构域,包含折叠/去折叠事件,并严格保证训练与测试集序列不相似,验证了良好的泛化能力;模型在化学和结构多样性上表现稳健;代码已开源(假设基于主流趋势,实际需查证),为后续研究提供了基础;未来可探索更优的状态划分方法、动态MSM构建,以及与其他物理约束模型的结合。
  • 相关研究
    1. Learning to Simulate Complex Physics with Graph Networks 2. SE(3)-Equivariant Diffusion Models for Molecule Generation 3. Deep Generative Models for Molecular Conformation Generation 4. Accurate and Transferable Learning of Potential Energy Surfaces from Limited Data 5. Generative Modeling of Enzyme Dynamics Using Normalizing Flows
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问