近日,苏州系统医学研究所–新加坡国立大学张阳教授团队在《Advanced Science》发表研究,提出了一种新的分子“基础模型”,探索如何在同一个 AI 框架中同时实现分子理解与分子设计。该工作以“Ouroboros(衔尾蛇)”为设计理念,构建了一种“编码—重建”式的正交架构,将分子表征学习与分子生成统一到同一个潜在空间中:模型先利用图神经网络学习具有化学意义的分子表示,再通过 Transformer 将这些表示重构为具体分子结构。更进一步,研究在训练过程中显式引入分子构象空间与药效团相似性约束,使模型在学习统计规律的同时,能够内化关键的药物化学知识。实验结果表明,Ouroboros 在虚拟筛选、多靶点分子设计、性质预测和定向分子优化等多类任务中展现出良好的泛化能力,为 AI 迈向真正“可设计”的分子基础模型提供了一种统一而可扩展的新思路。

研究动机:为什么需要新的分子基础模型?
在药物发现过程中,研究人员长期面对一个结构性矛盾:分子表征模型擅长理解分子,却无法直接生成新结构;而分子生成模型可以设计候选分子,却往往缺乏稳定、可解释的化学语义表征。许多生成式预训练依赖可tokenize的“化学语言”(如SMILES),从而难以充分利用分子图的结构优势;同时,高质量实验标签稀缺,迫使模型使用较“浅”的伪标签,难以学到更复杂的化学规律。这种割裂使得“设计—评估—优化”这一闭环流程不得不依赖多个模型拼接完成,不仅效率受限,也难以在复杂任务中积累可迁移的化学知识。

迭代式分子优化策略
近年来,“基础模型(foundational model)”的理念逐渐进入分子科学领域,其核心目标是:在单一模型中系统性地学习化学规律,使其能够同时支撑多种下游任务。然而,如何在一个模型中优雅地兼顾分子生成、分子表征与分子属性预测,仍然是一个未被充分解决的问题。为了填补这一空白,研究人员提出了一种名为 Ouroboros的新型分子基座模型

领域背景:AI 在药物发现中的三类核心任务
要理解 Ouroboros 的价值,我们需要先回顾 AI 在药物研发(AIDD)中的三个主要应用场景,以及它们如何在此模型中汇聚:
分子表征学习(Representation Learning):这是 AI 理解化学的基础。通过将复杂的分子图映射为低维的向量,AI 可以学习分子的“指纹”。优秀的表征应当能让结构相似、功能相近的分子在向量空间中彼此靠近。
分子属性预测(Property Prediction):这是药物筛选的核心,涉及对溶解度、渗透性、毒性(ADMET)、药物-靶标结合亲和力甚至是表型尺度的药物疗效等指标的建模。分子属性预测强调跨化学骨架的泛化能力:不仅要在已见结构附近准确,还要在新骨架上稳定工作 。
分子生成(Molecular Generation):这是“从无到有”的创造过程。从简单的骨架替换到复杂的 de novo 从头设计,AI 需要能够从表征空间中逆向解码出合理和属性优越的化学结构 。

在预训练中学习化学,在下游任务中学习生物学
当前的关键挑战在于: 能否在一个统一的基座模型中充分学习化学知识,使得它既能作为精准的“扫描仪”(表征与预测),又能作为高效的“打印机”(生成),并能在广泛属性建模任务上持续受益?
实现方案与核心创新:正交结构的 Ouroboros 模型
1. 正交架构:表征与生成的“二元统一”
Ouroboros 的核心创新,在于其正交(orthogonal)的模型结构设计。模型由两个相互独立、又通过表示空间紧密耦合的模块组成:
分子表征模块:基于分子图的 GNN 结构,结合全局注意力机制,学习能够反映构象、官能团相互作用及药效团特征的连续表示,即:“把分子压缩成编码”。
分子重建/生成模块:以表征向量为条件,对应到 SMILES 序列的重建与生成过程,即:“把编码解压回分子”。
这种设计的关键不在于“简单拼接”,而在于表征空间本身被约束为既可判别、又可生成的统一化学空间。换言之,模型学习到的不是任务特定特征,而是能够被反向“解码”为合理分子结构的化学表示。更重要的是,这种正交性允许两个模块分别进行预训练,使得研究人员可以针对不同任务选择最合适的网络结构和训练数据集,从而突破了传统模型中表征与生成难以两全的局限 。进一步地,研究人员将这种结构视为一种“化学意义上的自洽系统”:表征模块负责理解分子,重建/生成模块负责将AI探索到的新分子结构从表征空间中重建回分子结构,二者共同构成一个可迁移的分子基础模型。

Ouroboros的整体架构与训练/应用策略
得益于Ouroboros的正交框架,我们可以将其分子表征模块所建立的编码空间应用到各类下游任务中,并将这些“下游任务预测器”的输出作为损失函数,从而直接优化分子的编码向量,并使用分子重建模块解码分子结构在表征空间中被逐步优化的迁移路径。
2. 构象空间药效团相似性引导的知识正则化
Ouroboros 能够“理解”化学的关键在于其独特的预训练策略——构象空间药效团相似性
动态构象捕捉:不同于只看 2D 结构的传统方法,Ouroboros 在训练中引入了系统搜索的分子构象空间,模拟分子在真实环境中的动态行为。
药效团对齐:通过一个包含47 亿个分子对相似度的超大规模矩阵,模型被教导去识别分子间的药效团相似性,而不仅仅是简单的拓扑重复。
这种策略相当于为 AI 安装了一双“化学家的眼睛”,使其表征空间不仅具有统计学意义,更具备了深厚的化学规律约束
结果与分析:统一表示带来的能力涌现
在多项评估中,Ouroboros 展现出几个值得关注的现象:
卓越的零样本虚拟筛选能力:在针对 DUD-E 等经典数据集的测试中,Ouroboros 表现出了极强的泛化能力。即使只在 12.6 万个小规模数据集上进行预训练,其在数百万分子结构组成的虚拟筛选测试集上的表现也足以媲美甚至超越那些在数十亿量级数据上训练的巨型模型,这暗示了构象空间药效团相似性所带来的化学偏置在药物发现和相似性比较任务上的有效性。

相似性筛选任务的基准测试
广泛下游任务的属性建模能力:在属性预测任务中,即便冻结表征模块,仅训练轻量预测头,模型仍能在多种 ADMET 指标上保持稳定表现,体现出Ouroboros模型中化学表示空间的通用性。如果我们像其他分子表征模型一样在下游任务中启用微调,Ouroboros仍然可以取得与最佳基线模型(在ChEMBL数据集上执行预训练)相媲美的性能。

属性建模任务的基准测试
定向迁移实现分子的“按需设计”:得益于表征空间的平滑性和重构模块的高效性(结构恢复率超过 80%),研究人员开发了一种名为定向迁移(Directed Migration)的优化技术,其核心原理是将分子优化问题转化为一个分子表征向量的优化问题,进而使得我们可以“像优化神经网络参数一样优化分子结构”。在分子生成与优化场景中,研究人员展示了沿着表示空间进行扰动或反向传播,即可实现定向的分子演化,如在保持结构相似性的同时优化溶解度或膜通透性。
这些结果共同指向一个结论:当生成与表征共享同一语义空间时,模型不再只是“生成器”或“预测器”,而成为化学设计的统一接口。
局限性:未来的发展方向
在论文中,作者详细讨论了当前模型的局限性:其一,当前工作尚未直接预测分子的“动态构象空间”,这被认为是重要且有前景的延伸;其二,性质基准仅覆盖10项,仍有广阔扩展空间;其三,模型暂不直接预测蛋白-配体结合亲和力,而是依赖对接在迁移路径上筛选更优的小分子结合构象与打分,提示未来需要把蛋白表征纳入训练,以升级为端到端的DTI/亲和力预测与生成框架。
展望:面向药物化学的“基础设施级”模型
Ouroboros 并非终点,而是一个起点。其正交结构为未来扩展留下了充足空间,例如:
引入蛋白表示,实现端到端的药物–靶点联合建模;
将实验反馈纳入潜空间优化,实现闭环学习;
拓展到更复杂的化学体系,如共价抑制剂或大环分子。
基于这样的框架,Ouroboros可以被广泛的无缝嵌入到各类下游任务模型中,赋予这些下游任务模型优化小分子结构的能力。更重要的是,Ouroboros 所展示的并不仅是一种模型结构,而是一种“表征–生成一体化”的设计范式。它表明,分子基座模型不必在理解与创造之间做出取舍,而是可以通过合理的结构设计,让二者在同一化学认知体系中共存。
从方法论角度看,这篇论文的亮点不仅是某个单点指标,而是其“正交基座 + 化学知识投影约束”的工程化思想:用统一潜空间把表征、生成与属性建模连接成可复用引擎,再用不同的适配头服务于不同药物化学场景,形成真正可扩展的“表征-生成一体化”基础设施。
本论文的第一作者为苏州系统医学研究所王林博士,通讯作者为中国医学科学院苏州系统医学研究所特聘教授及新加坡国立大学教授张阳教授,作者团队还包括来自深药科技(苏州)有限公司的科研人员。张阳教授及其团队长期从事人工智能驱动的蛋白质与 RNA 结构预测及药物设计研究,其开发的多项计算方法在国际 CASP 蛋白质结构预测大赛中连续 9 次获得自动组冠军。王林博士主要研究方向为 AI 辅助的小分子药物发现方法与应用,其提出的 GeminiMol 方法曾在 2023 年首届上海市国际计算生物学创新大赛中获得一等奖。
----参考文献----
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢