DRUGAI

近日,中国医学科学院药物研究所汪小涧团队联合清华大学自动化系脑与认知科学研究所季向阳团队在《Nature communications》在线发表题为“RSGPT: a generative transformer model for retrosynthesis planning pre-trained on ten billion datapoints”的研究论文,成功构建了基于大规模预训练的逆合成规划模型RSGPT:借助RDChial算法匹配化学反应模板生成百亿化学反应数据,并引入了RLAIF策略优化预测反应原料的合理性,最终实现了RSGPT模型在合成推断任务上的SOTA水平,为智能合成规划研究提供了新范式。

有机化合物的逆合成分析是化学合成的核心问题,传统设计方法依赖化学家经验,并且因反应组合空间庞大及机理认知不足而面临挑战。近年来,人工智能推动了计算机辅助合成规划的发展,相关模型主要分为三类:基于模板方法依赖预设规则,可解释性强但泛化能力受限;半模板方法通过识别反应中心减少冗余,但难以处理多中心反应;无模板方法直接生成反应物,借助注意力机制与自然语言处理技术展现出优势。然而,现有研究受限于训练数据规模,即使最大数据库USPTO-FULL仅含约200万反应数据,导致模型推断准确率徘徊在50%左右,成为亟待突破的瓶颈问题。

基于RDChiral的合成数据生成

研究首先开发了一套基于RDChiral模板算法的合成数据生成方法。该方法从PubChem、ChEMBL和Enamine数据库中获取7800万个原始分子,采用BRICS算法进行分子切割,整合了200万个分子片段库。随后,利用RDChiral逆向合成模板提取算法,从USPTO-FULL数据集中提取反应模板,并将分子片段与模板反应中心进行精确匹配,最终构建了包含超100亿条反应的合成数据集。

通过结构相似性分析(TMAPs)发现,合成数据不仅完整覆盖了USPTO-50k数据集已知的化学空间,还显著拓展至分子量更大、结构更复杂的区域。通过三位化学专家盲评,平均每组反应物组合可对应9.2个不同模板,合成数据的合理性达到74%,满足预训练需求。该方法展现出突出的通用性和可扩展性:RDChiral不仅提供标准模板库,更能针对特定需求反应提取专用模板,为分子转化相关研究领域的大规模、高质量数据构建提供了标准化解决方法。

RSGPT模型的构建

RSGPT模型的训练采用三阶段策略:预训练、RLAIF强化学习和微调。研究团队基于LLaMA2架构,首先利用十亿级合成反应数据进行预训练,通过四个自监督学习任务使模型掌握产物、反应物与模板间的转化规律。在RLAIF阶段,创新性地引入RDChiral算法进行自动化反馈验证模型生成的预测结果。这种方法使模型在不依赖模板的情况下,仍能准确理解化学反应的内在规律。最后的微调阶段,模型仅需基于产物预测反应物,无需任何模板匹配或原子映射信息。通过USPTO-50k等基准数据集的针对性微调。

RSGPT模型效果评估

RSGPT模型在USPTO-50k测试中展现出卓越性能,Top-1准确率达63.4%,Top-10达93.0%,全面超越现有方法。在USPTO-MIT和USPTO-FULL数据集上,RSGPT同样保持领先优势。同时模型输出的SMILES有效性达97.7%,预测结果与真实值结果的平均Tanimoto值高达0.840,展现出强大的预测效果。

RSGPT消融实验

研究人员随后通过消融实验系统评估了RSGPT中使用的各种策略的贡献。完整模型在USPTO-50k上取得Top-1准确率63.4%,移除RLAIF导致准确率下降4.2%,表明RLAIF能有效提升预测合理性。若仅使用USPTO-50k直接训练,Top-1准确率骤降至26.4%,证实大规模预训练是模型良好预测能力的基础。数据增强策略分析显示:训练集和测试集同时数据增强可显著提升性能,20倍增强时Top-1达77.0%。


基于RSGPT模型的预测案例分析

为验证RSGPT的预测能力,研究人员选取了典型反应实例。在单步反应预测中,模型在Suzuki偶联,Williamson醚合成,亲核加成,脱保护等反应上开展了评价。结果表明模型整体上预测准确率较高,且与真实答案不符的预测结果通常也具有合理性。

此外研究人员还选择了三款目前临床广泛应用的药物分子:奥希替尼、非布司他、伏诺拉生。使用RSGPT模型预测其完整合成路线。结果表明模型具有推理完整反应路线的能力,进一步展现出其良好的应用效果。

本研究开发的RSGPT模型基于LLaMA2架构,采用无模板方法和RLAIF强化学习,实现了高精度逆合成规划,不仅显著提升了单步反应预测准确率,还可拓展至复杂药物的多步合成路线设计。中国医学科学院药物所汪小涧研究员、清华大学季向阳教授为本文共同通讯作者,清华大学邓亚峰博士、赵信达与药物所孙涵宇博士为本文共同第一作者。本研究工作在开展过程中获得了药物所李广研究员的重要支持与指导,得到了国家自然科学基金(82373718)、中国医学科学院医学与健康科技创新工程(2021-1-2M-028)及澳门科学技术发展基金(No.006/2023/SKL)的资助。

参考资料

Deng, Y., Zhao, X., Sun, H. et al. RSGPT: a generative transformer model for retrosynthesis planning pre-trained on ten billion datapoints. Nat Commun 16, 7012 (2025). 

https://doi.org/10.1038/s41467-025-62308-6

内容中包含的图片若涉及版权问题,请及时与我们联系删除