DRUGONE

研究人员提出了 SynFormer —— 一种用于高效探索可合成化学空间的生成式建模框架。与传统分子生成方法不同,SynFormer 通过生成分子的合成路径来确保其可合成性。该模型结合了可扩展的 Transformer 架构与基于扩散模型的构建模块选择机制,在可合成分子设计方面优于现有方法。


SynFormer 在两个关键场景中展现了卓越性能:

  • 局部化学空间探索:生成查询分子的可合成类似物;

  • 全局化学空间探索:利用黑箱性质预测器识别最优分子。

此外,随着计算资源的增加,模型表现呈现明显的可扩展性。SynFormer 的代码与模型权重已开放,可广泛应用于药物发现与材料科学领域。

新型功能分子的发现是化学与工程学的核心挑战之一,对医疗健康、能源及可持续发展等领域均具有重大意义。然而,分子发现过程通常复杂、昂贵且高风险。


近年来,人工智能特别是生成式建模的快速发展,使研究人员能够直接学习分子结构的复杂分布,从而在更广泛的虚拟化学空间中进行高效探索。


但当前的生成模型在追求性能优化时,常常生成难以或无法合成的分子,导致研究成果难以落地。这种“可合成性缺失”问题限制了计算机辅助分子设计在实际药物研发中的应用。


研究人员指出,评估分子可合成性的启发式方法(如 SAscore)难以准确量化复杂因素,例如区域选择性、官能团兼容性及原料可得性。尽管已有尝试引入显式逆合成分析,但计算代价极高。


因此,研究人员提出:与其直接设计结构,不如在合成路径空间中进行设计,以确保生成的每个分子均可通过合理反应合成。这一思想催生了 SynFormer 框架。

方法概述

SynFormer 框架

SynFormer 是一个专为可合成化学空间建模设计的生成框架(图1)。研究人员将可合成化学空间定义为:由可购买的原料(building blocks)通过多步已知反应模板连接而成的所有可能分子。


研究人员基于 Enamine REAL、GalaXi、eXplore 等库的反应模板扩展,最终构建了包含 115 种反应模板与 223,244 种可购原料的化学反应网络。

为了表示合成路径,研究人员采用后缀符号(postfix notation),通过四类标记:[START]、[END]、[RXN]、[BB] 表示路径中的起止、反应与原料,实现了序列化建模。


在模型架构上,SynFormer 由以下两种形式组成:

  • SynFormer-ED(Encoder–Decoder):输入目标分子,输出相应的合成路径,用于重建与局部探索;

  • SynFormer-D(Decoder-only):用于直接生成新的合成路径,适合结合强化学习进行全局优化。

为了在上百万个原料中选择合适构建单元,研究人员在 Transformer 解码头上引入了离散去噪扩散模块,通过概率化的指纹生成与最近邻搜索,预测潜在原料分布。该模块使 SynFormer 具备端到端可微分性与强大的生成可控性。

结果

分子重建与化学空间覆盖

研究人员首先验证 SynFormer-ED 在可合成分子重建中的性能。


在从反应模板与原料枚举的 1000 个分子中,模型成功重建了 92.5% 的合成路径。


在真实应用场景下,SynFormer-ED 对 Enamine REAL 数据集的重建率为 66%,显著高于以往模型;在更复杂的 ChEMBL 数据库上仍达 20%。


此外,研究人员发现随着训练数据量和模型规模的增长,SynFormer 的损失显著下降,表现出良好的可扩展性。这说明通过增加数据与算力,可进一步提升模型性能。

局部化学空间探索

  • 从不可合成设计到可合成类似物

SynFormer-ED 可将“不可合成”的高分数分子“投影”至可合成空间(图3A)。

研究人员利用 ASKCOS 鉴定出的不可合成分子作为输入,生成了具有相似结构与药效性质的可合成类似物。

生成后的分子在可合成性评分(SA)上整体显著提升(图3B),且大部分样本保留了相似的多目标性质(图3C)。


在多个药物靶点的结构基础药物设计任务中,SynFormer-ED 还能将结构生成模型(如 Pocket2Mol)的输出修正为可合成版本,同时保持对接评分接近甚至略优(图3E–G)。


  • 命中扩展(Hit Expansion)

SynFormer-ED 还能以给定“命中化合物”为中心,探索局部可合成化学空间。


研究人员以 JNK3 抑制预测为例,将高分分子作为输入,SynFormer-ED 生成的类似物在高分区域的富集度显著高于传统最近邻搜索(图4B)。


在进一步验证中,针对 PKM2 与 KAT2A 蛋白的实验配体,SynFormer-ED 生成的类似物保持结构一致且合成路线多样,展示出可应用于药物优化阶段的潜力(图4D–E)。

全局化学空间优化

  • 结合强化学习的 SynFormer-D

研究人员将 SynFormer-D 与 REINFORCE 强化学习算法结合,用于在全局化学空间中优化黑箱分子性质。


以多巴胺 D2 受体结合亲和力为示例,SynFormer-D 在有限的 oracle 调用次数下成功偏向高分子生成,性能优于多种主流算法。


  • 与遗传算法结合的 SynFormer-ED

研究人员进一步将 SynFormer-ED 嵌入遗传算法的突变步骤中,形成 GraphGA-SF 框架,用于在进化过程中持续“校正”设计候选,使其保持在可合成空间内。


在 GuacaMol 基准的多目标优化任务(如 Sitagliptin MPO、Scaffold Hop 等)中,GraphGA-SF 的优化效率与原始 GraphGA 相当,但生成的分子均具备合成路径(图5D–F)。


该方法在保证性能的同时,显著提升了生成分子的可实现性。

讨论

SynFormer 通过在合成路径空间而非结构空间进行建模,成功实现了在可合成化学空间中的高效导航与优化。


其可扩展的 Transformer 架构与扩散模块显著提升了生成质量与控制性。


未来的改进方向包括:

  • 扩大反应模板与原料库以涵盖更多立体化学特征;

  • 提升强化学习阶段的样本效率;

  • 改善对复杂天然产物及高维有机结构的适配性。

SynFormer 的理念具有普适性,可进一步拓展至材料设计、催化剂发现与新能源分子开发等领域,为生成式化学的可实施性提供新的范式。

整理 | DrugOne团队


参考资料


W. Gao,S. Luo, & C.W. Coley,  Generative AI for navigating synthesizable chemical space, Proc. Natl. Acad. Sci. U.S.A. 122 (41) e2415665122, 

https://doi.org/10.1073/pnas.2415665122 (2025).

内容为【DrugOne】公众号原创转载请注明来源

内容中包含的图片若涉及版权问题,请及时与我们联系删除