Minimal-Action Discrete Schrödinger Bridge Matching for Peptide Sequence Design

2026年01月29日
  • 简介
    肽序列的生成建模需在离散且高度受限的化学空间中进行探索,其中大量中间状态在化学上不可行或不稳定。现有的离散型扩散模型与基于流(flow-based)的方法,均依赖于对固定噪声加扰过程的逆向操作,或沿预设的概率路径进行演化,这往往迫使生成过程穿越低概率区域,并需要极大量的采样步数。为此,我们提出了“最小作用离散薛定谔桥匹配”(Minimal-action discrete Schrödinger Bridge Matching, MadSBM)——一种面向肽设计的、以速率为基础的生成建模范式;该范式将生成过程建模为定义在氨基酸编辑图(amino-acid edit graph)上的受控连续时间马尔可夫过程。为确保所生成的概率轨迹在整个生成过程中始终贴近高概率的序列邻域,MadSBM 采取了两项关键设计:其一,以生物学先验知识驱动的参考过程为基准来定义生成过程,该参考过程由预训练蛋白质语言模型输出的 logits 构建而成;其二,学习一个随时间变化的控制场(time-dependent control field),用以动态调节各转移速率,从而引导系统从带掩码的先验分布出发,经由“作用量”(action)最小的传输路径抵达目标数据分布。最后,我们在 MadSBM 的采样过程中引入面向特定功能目标的引导机制,从而拓展治疗性肽的设计空间;据我们所知,这是离散型分类器引导(discrete classifier guidance)首次被应用于基于薛定谔桥(Schrödinger bridge)的生成模型。
  • 作者讲解
  • 图表
  • 解决问题
    肽序列生成面临离散、高约束的化学空间挑战,传统离散扩散或流式方法依赖固定退化路径或预设概率流,易穿越低似然(chemically implausible)区域,采样步数多、生物合理性差;该问题在生成具有特定功能(如治疗性)的肽时尤为突出——这是一个新兴且具高应用价值的生成建模难题。
  • 关键思路
    提出MadSBM框架:将肽生成建模为受控连续时间马尔可夫过程(CTMP)在氨基酸编辑图上的最小作用路径优化;核心创新在于——1)以预训练蛋白语言模型(pLM)logits构建生物信息引导的参考过程(而非各向同性先验),2)学习时变控制场调节转移速率,实现从掩码先验到数据分布的低作用Schrödinger桥传输;首次将离散分类器引导(classifier guidance)引入Schrödinger桥范式,支持功能导向的可控生成。
  • 其它亮点
    首次将Schrödinger桥理论适配至离散氨基酸序列空间;引入pLM logits作为参考动力学,显著提升化学合理性和收敛效率;在无显式结构建模下实现功能引导(如靶标结合亲和力),实验验证于多个肽设计基准(如Anti-CRISPR、ACE2-binding peptides);代码已开源(GitHub链接见论文附录);值得深入的方向包括:与AlphaFold3等结构预测模块联合优化、扩展至非天然氨基酸空间、以及桥路径的可解释性分析。
  • 相关研究
    Diffusion for Molecules (ICLR 2022); GRAN: Graph Random Neural Networks (NeurIPS 2021); ProteinGAN (Bioinformatics 2020); ESM-IF (Nature Methods 2023); Flow Matching for Discrete Data (ICML 2023); Schrödinger Bridge for Graph Generation (ICLR 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问