DRUGAI
新药研发中,设计出一个高亲和力的分子只是第一步,更重要的是确保它能够顺利合成。传统的分子生成方法往往只关注到分子结构本身,忽视了后续的合成可行性。这篇文章将为您介绍一项名为3DSynthFlow的方法,它利用Compositional Generative Flows(CGFlow),能够同时生成分子的三维构象和对应的合成路径,真正实现“设计→合成”一体化。
论文名称:《Compositional Flows for 3D Molecule and Synthesis Pathway Co-design》作者:Tony Shen*、Seonghwan Seo*、Ross Irwin、Kieran Didi、Simon Olsson、Woo Youn Kim、Martin Ester
为什么要关注分子生成中的“合成可行性”?
现实挑战
在靶向药物设计中,一个分子只有具备足够高的蛋白结合亲和力,才可能展现出良好的生物活性;但如果该分子在实验室里合成难度极高,或者根本无法合成,那么再好的活性也无实用价值。现有多数生成模型虽然能够生成“看起来”很有效的分子结构,但并不能保证最终能在化学实验室里按步骤制备出来。
现有方法的局限
经典的扩散模型(Diffusion)或流匹配模型(Flow Matching)可胜任高维连续空间中的分子3D构象建模,但它们只能一次性对整个分子进行建模,并无法灵活地掩盖那些在化学合成上无效的“中间动作”,也就无法在生成过程中实时校验合成路径的合法性。

CGFlow:联合建模“组合结构+连续状态”的新范式
核心思路:
组合结构(Compositional Flow)
将一个分子的合成过程看成一个由若干步反应依次组成的序列。模型从“空白状态”开始,每当生成一个新的反应步骤,就将对应的化学基团添加到分子结构当中,直至完整分子构建完成。抢先移除或添加“无效反应”成为可能,从而保证最终生成的分子具有清晰的合成路线。
连续状态(State Flow)
与此同时,每加入一个反应步骤,对应的原子或基团在三维空间中的位置(即分子构象)也会随着时间逐渐“精炼”——从完全随机的噪声状态,通过流匹配(flow matching)或最优传输方式慢慢过渡到实际的3D坐标。这样一来,分子在构成过程中既能保证化学反应路径合法,又能同步优化其与靶蛋白相互作用的三维构象。
GFlowNets 赋能高效探索
在生成合成路径时,模型会根据预设的目标(如蛋白结合亲和力、分子药物相似性指标等)将每条路径赋予一个奖励(reward)。通过借鉴生成流网络(GFlowNets)的设计,CGFlow 可以在海量可能的反应序列中,有针对性地采样那些高奖励(即更有可能生成高亲和力、易合成分子)的路径。
3DSynthFlow:在蛋白口袋中同步生成“合成路径+靶向构象”
为了验证 CGFlow 在真实药物设计场景下的有效性,研究团队进一步开发了 3DSynthFlow,将上述框架应用于靶点特异性药物设计。其核心做法包括:
分解已知配体
先利用文献与反应规则(Enamine 合成协议)将真实存在的结合配体拆分为多个可合成的片段,并记录它们的反应步骤序列,作为训练时的“示范轨迹”。
3D 构象预测(State Flow)
对于任意半合成状态下的分子片段组合,模型都能在给定的蛋白口袋环境中,预测其三维“粗略构象”并随着时间逐渐精炼,直至完成后续片段加入时的全连接构象。Semla 架构(图神经网络)被用来高效地建模蛋白-配体消息传递与特征编码,确保每一步都兼顾“化学合理性”和“生物活性”(如氢键、疏水相互作用等细节)。
合成路径采样(Compositional Flow)
在每个固定时间点,模型根据当前半成品分子的3D构象和先前已生成的部分路径,使用 GFlowNet 策略挑选下一个化学反应步骤。例如:先进行“氨基化”(amination),再进行“还原氨基化”(reductive amination),最后执行“胺缩合”(amine condensation),循环迭代,直到依据 Enamine 指南完成两步合成限制。这样既保证了路径的化学可行性,又将每一步与蛋白靶标结合性能关联起来。
结论

LIT-PCBA 基准测试(15 个蛋白靶点)
在衡量顶级 100 条多样化候选分子的平均 Vina 结合评分时,3DSynthFlow 获得了市场领先的数值(平均约 -10.97 kcal/mol,远优于仅考虑二维合成的 RxnFlow 等方法),同时在采样效率上,比传统 2D 基于合成的生成策略提升了 5.8 倍。
更重要的是,最终获得的分子在 AiZynthFinder 回溯分析中的合成成功率达到 62.2%,大幅超过仅对2D合成建模的基线。
CrossDocked 数据集验证(口袋条件生成)
当模型面对新的、未见过的蛋白口袋时,3DSynthFlow 依然能够在 不调用额外打分函数 的情况下,生成有效结合构象和可行合成路径。其平均 Vina 结合评分高于 RxnFlow 和多种最新3D扩散模型,且依然保持了 55% 以上的合成成功率,证明了模型在泛化能力和实际可操作性方面的均衡优势。
小结与展望
技术创新点
联合建模:首次在一个统一框架下,将“化学合成路径”与“三维构象”两者统一起来,无需后期分步对接。
组分式流程:通过将流水线式的流匹配与序列式的 GFlowNet 采样并行运行,实现了从“空白”到“完整分子+路径”一体化生成。
高效探索:借助 GFlowNet,在庞大的反应空间中优先寻找高价值(高结合亲和力、易合成)的合成路径,显著加快发现速度。
应用前景
对于制药企业和学术实验室而言,3DSynthFlow 提供了一种“从构思到实验室合成”闭环式的生成工具,大大缩短了药物先导筛选的迭代周期;
未来可扩展到更大规模的片段库、更多步的合成流程,甚至纳入生物活性预测等多目标优化;同时,可将更强的三维预测网络(如更大规模的 Equivariant Diffusion 模型)替换进来,进一步提升结合预测精度。
总结:3DSynthFlow 以其“一键式”的合成友好型分子设计思路,为真实世界的靶向药物发现提供了创新思路,也为生成模型在化学生物学领域的应用树立了新标杆。
参考资料
Compositional Flows for 3D Molecule and Synthesis Pathway Co-design
作者:Tony Shen*、Seonghwan Seo*、Ross Irwin、Kieran Didi、Simon Olsson、Woo Youn Kim、Martin Ester
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢