只把一个候选分子画出来,并不等于它真的能成为药。真正麻烦的部分,往往发生在通向这个分子的路上:从哪些商品化原料出发,经过哪些中间体,哪一步会不会带来遗传毒性杂质,哪条路线看起来能合成、但其实在安全性上埋了雷。
最近,中南大学计算机学院与新疆大学软件学院团队在 Nucleic Acids Research 发表了 SynCraft。这是一个面向药物设计和合成规划的在线服务器,核心思路很直接:不要等逆合成路线规划完了之后,再拿终产物或少数中间体去做 ADMET 评估,而是在路线生成过程中,就实时评估每一个中间体的安全性和成药相关属性。

SynCraft 不是单纯又做了一个逆合成工具。它把基于反应模板的逆合成搜索、MolMVC 多视角分子表示学习模型、合成可及性评分、合成复杂度评分、类药性评价、2D/3D 可视化放进同一个网页流程里。用户输入 SMILES、画结构,或者上传分子文件后,系统会自动生成候选合成路线,并用颜色标记潜在高风险中间体。文章用伊马替尼案例做了一个很有现实感的演示:传统路线中一个容易被忽略的中间体,被 SynCraft 直接标记为遗传毒性风险,而文献中已经存在的替代路线则能降低或规避这类风险。
这项工作的价值,不在于宣称逆合成准确率全面压过已有工具。作者自己的实验也显示,在纯路线搜索上,SynCraft 与 AiZynthFinder 是接近的,甚至在一个复杂骨架测试中略低。它真正改变的是工作流:安全性不再是路线规划之后的补丁,而是路线选择本身的一部分。
服务器网址:https://syncraft.denglab.org/

药物发现里,能合成和能成药经常不是同一个问题
药物研发早期有一个听起来很顺的逻辑:先用虚拟筛选、生成式模型或者高通量筛选找到候选分子,再让合成规划工具想办法把它做出来,然后进入测试和优化。但真实流程没有这么线性。
今天的计算模型已经可以在极大的化学空间里搜索分子。文章提到,现代虚拟筛选面对的化学空间可以超过 个分子。这个数字本身很壮观,但也带来一个朴素的问题:模型越会设计分子,后端越需要回答这些分子是不是真的能做、做出来是否安全、路线中会不会出现危险中间体。
在药物化学里,ADMET 指的是吸收、分布、代谢、排泄与毒性。一个分子即使在靶点活性上表现很好,也可能因为溶解性、代谢稳定性、血脑屏障通透性、肝毒性、遗传毒性等问题止步。原文引用的背景数据显示,大约 40% 的临床前候选物最终会因为不理想的 ADMET 性质而失败,而且这些问题常常到较晚阶段才暴露。对于药企和实验室来说,晚发现意味着已经投入了合成、纯化、药效、药代、毒理甚至工艺开发成本。
这里还有一层更隐蔽的风险:ADMET 通常被理解为候选分子本身的性质,但在实际制药中,合成中间体和工艺杂质也会进入安全评价视野。尤其是 DNA 反应性或诱变性杂质,它们即便含量很低,也可能触发严格的监管控制。ICH M7 指南围绕这类诱变性杂质建立了风险评估和控制框架,其中一个常见的毒理学关注阈值是 1.5 μg/人/天。缬沙坦、雷尼替丁等药品中亚硝胺相关事件,也让行业更清楚地看到:合成路线和工艺杂质不是后台细节,它们可能直接成为药品质量和公共安全问题。
可是现有计算工具长期把这两件事分开处理。计算机辅助合成规划工具,如 AiZynthFinder、ASKCOS,擅长给出可行的逆合成路线,回答从目标分子倒推到商品化原料怎么走。SwissADME、ADMETlab 3.0 这类平台,则更偏向评估用户提交分子的药代、类药性及部分毒性相关指标;其中 ADMETlab 3.0 对毒性预测的覆盖更完整,而这类评估通常不会自动进入逆合成路线中每一个中间体的筛查过程。药物化学家往往需要先在逆合成平台上拿到路线,再手动复制中间体结构,逐个提交给 ADMET 平台,最后再把结果合并、比较、判断。
这听起来只是麻烦,实际影响更深。人在手动搬运数据时,很容易只检查终产物或少数关键中间体;路线一多,中间体一多,风险筛查就会变成低效而不完整的事。SynCraft 要解决的,就是这个工作流断点。

SynCraft 做了什么:把路线搜索和安全筛查接在同一个齿轮上
SynCraft 的输入方式比较贴近常规化学信息学工具:用户可以直接输入 SMILES,也可以用 Ketcher 画分子结构,或者上传 MOL/SDF 文件后转换为 SMILES。提交后,后端会先用 RDKit 标准化分子,并计算 InChIKey 用于搜索过程中的循环检测。
它的逆合成核心是基于反应模板的广度优先搜索。模板库来自 USPTO-MIT 数据集及 Retro* 使用的数据版本,合并后包含 384,512 个唯一反应模板。搜索默认最多走 6 步,每一步匹配排名靠前的模板,并在达到商品化砌块数据库或最大深度时终止。这里的商品化砌块库规模为 2240 万个,来自 ZINC15 和 eMolecules。
这套设定说明 SynCraft 的逆合成部分并不是完全黑箱的生成模型,而更像是一个大规模反应经验库驱动的路线探索系统。它会用路线评分综合考虑平均合成可及性、平均合成复杂度、ADMET 最低安全分和路线步数。也就是说,一条路线不只是因为断键看起来合理就排到前面,还要看中间体是否容易合成、路线是否太长、安全指标是否拖后腿。
真正让 SynCraft 与传统逆合成工具拉开距离的是 ADMET 模块。它调用的是作者团队此前发表的 MolMVC 模型。MolMVC 的思路是同时看分子的三种视角:一维序列表示、二维分子图拓扑和三维构象信息。直观地说,一个分子不仅是一串 SMILES,也不仅是一张平面结构图,它在空间中的构型、柔性和局部几何关系,也会影响分子性质预测。MolMVC 用多视角对比学习把这些信息对齐,再用于 BBBP、BACE、ClinTox、HIV、SIDER、ToxCast 等任务预测。
在 SynCraft 的网页界面里,所有生成出来的中间体都会被送入 MolMVC 评估。系统设定了风险阈值,例如 ClinTox 大于 0.70 或 ToxCast 小于 0.40 时,会给出高风险标记;如果出现较多 Lipinski 规则违反,或指标处在边界区间,则会给出中等风险提示。合成可及性 SA、合成复杂度 SCScore、QED 类药性评分也会同时展示,但它们更多是辅助判断,而不是简单把路线一票否决。
这一点很重要。SynCraft 不是替化学家做最终决定,而是让路线探索过程中原本看不见的风险浮出来。对于实验人员来说,这种提示的意义往往不在于立刻否定某条路线,而是提醒大家:这一步需要查文献、看杂质谱、关注 ICH M7 分类,或者考虑更干净的替代断键策略。

方法细节:它不是只看终点,而是在每个节点上看风险
从工作流上看,SynCraft 把一个目标分子拆成许多可能的前体,再继续向前追溯,直到找到可购买的砌块。这个过程很容易形成搜索爆炸,所以作者在模板排序、复杂度启发式过滤、搜索深度上都做了约束。
文章中提到,6 步深度上限来自作者的深度校准实验。在对应实验集中,94.3% 的分子可以在 6 步内解决;如果扩展到 8 步,求解率只增加 1.8%,但运行时间增加 4.2 倍。这个选择很工程化:对网页工具来说,用户等得起、结果可复现、搜索深度可控,比盲目追求更深路线更现实。
路线评分也体现了这种工程取向。评分函数不是只看终产物,而是把整条路线里的平均 SA、平均 SC、最低 ADMET 安全分以及步数惩罚放在一起。作者还用 200 个有已知合成路线的 ChEMBL 分子,优化这些权重,使路线评分与专家化学家的偏好评分保持较好的秩相关。
ADMET 阈值的设置也不是拍脑袋。ClinTox 的 0.70 阈值来自独立 Tox21 测试集上的 ROC 分析,在该阈值下,非毒性化合物有 91% 位于阈值以下;同时,在 1000 个 ChEMBL 基准分子产生的中间体中,被该阈值标记的化合物有 73.4% 含有经 Derek Nexus 确认的 ICH M7 结构警示。ToxCast 的 0.40 阈值则用 500 个 OECD 验证 Ames 测试结果做了验证,论文报告该阈值下有 84.2% 的确认 Ames 阳性。
这些数字不能简单理解为系统已经能替代实验毒理。它们更像是把风险筛查前移的一组操作阈值。对于早期药物设计和路线比较来说,及时发现一条路线中可能存在的遗传毒性中间体,往往比事后补救更有价值。
实验结果:逆合成本身不夸张,工作流优势很明显
在 MoleculeNet 六个任务上,MolMVC 的表现优于文章列出的多个分子表示学习基线。尤其在 ClinTox 上,MolMVC 的 ROC-AUC 达到 0.984;在 BACE 上为 0.859,在 ToxCast 上为 0.709。作者也指出,ClinTox 数据集只有 1468 个化合物,使用骨架划分时可能出现估计偏高的问题,所以他们进一步用独立 Tox21 数据集和 ICH M7 结构警示做外部校准。这个处理让结果更可信,也避免了只拿一个小数据集高分讲故事。

在逆合成任务上,SynCraft 在 USPTO-50k 测试集上的 top-1 准确率为 53.8%,top-5 准确率为 78.2%。在 1000 个类药 ChEMBL 分子上,系统在 6 步以内解决了 71%。另一个包含更复杂骨架的 100 分子试验中,SynCraft 求解率为 70%,AiZynthFinder 为 72%。
这组结果很值得细读。作者没有把 SynCraft 包装成一个纯逆合成性能碾压者。它的逆合成表现是可用、接近成熟工具,但优势并不在这里。它的优势在于:同一条路线树里,所有中间体都被同步评估,而不是由用户在另一个平台逐个补查。
工作流对比更能体现这一点。论文用 10 个类药分子做计时研究,把 SynCraft 与顺序流程进行比较。顺序流程是先用 AiZynthFinder 做逆合成,再手动把中间体提交到 SwissADME,最后整理 CSV。结果显示,顺序流程总耗时约 1230–1410 秒,而 SynCraft 为 84–114 秒,时间减少超过 91%–93%。这不是因为 SynCraft 的每一步算法都更快,而是因为它去掉了手动导出、工具切换、中间体逐个提交和结果合并这些低价值操作。
如果实验室已经有自动化 API 串联多个工具,时间差可能不会这么夸张。但对大多数网页工具用户来说,SynCraft 的价值非常朴素:少复制几次 SMILES,少合并几份表格,更重要的是少漏掉几个本该检查的中间体。

伊马替尼案例:真正刺眼的是路线中间那个红色警示
论文最有说服力的部分,是伊马替尼的案例。伊马替尼是 BCR-ABL 激酶抑制剂,也是一个制药史上非常重要的小分子药物。作者用伊马替尼甲磺酸盐作为演示分子,考察 SynCraft 能否在路线生成时发现潜在遗传毒性中间体。
系统生成的代表性传统路线中,多条路线都会汇聚到一个中间体:Compound 16,即 4-甲基-1,2-苯二胺。论文将其标注为 ICH M7 2 类诱变性杂质。该中间体曾在粗 API 中被检测到 560–800 ppm;按 400 mg/天治疗剂量估算,相当于超过 1.5 μg/天 TTC 限值约 149–213 倍。
在 SynCraft 界面里,这个中间体一出现就被标红:ClinTox 为 100%,ToxCast 为 0.18,路线级 Safety Score 为 33%。对比之下,AiZynthFinder 对相同三条路线给出的置信分数为 0.358–0.608,但没有毒性警示。这并不是 AiZynthFinder 做错了什么,而是它本来就主要回答化学可行性,不负责实时标出遗传毒性风险。
更关键的是,SynCraft 标出的风险并不是孤立的模型预测。作者进一步对应了文献中的替代路线,包括无保护基机械化学合成、纳米 ZnO 催化的 C–N 偶联路线、以及会聚式还原策略。这些路线能够避免、降低或处理 Compound 16 相关风险。论文给出的定量比较显示,传统路线 PMI 为 564,替代路线分别为 221、312、428;对应 ToxCast 从传统路线的 0.18 提升到 0.82、0.76、0.65,整体产率或关键步骤产率也处在 51%–86% 区间。
这就是 SynCraft 作为路线设计辅助工具的意义:它不只是告诉你某条路线能不能走,而是把哪条路走起来更安全这件事提前放到屏幕上。



另一个小例子:阿司匹林说明了它也能服务日常使用
论文还给了一个更轻量的例子:阿司匹林。用户在首页点击示例后,系统会自动提交阿司匹林结构,并在 32 秒内返回 5 条路线。排名最高的路线是一条与工业标准过程相符的一步酯化反应:水杨酸与乙酸酐反应生成阿司匹林。所有中间体都被标为绿色最优,ClinTox 小于 0.10,ToxCast 大于 0.80,SA 小于 2.5,且砌块价格低于 20 美元/克。
这个例子没有伊马替尼那么戏剧化,但它说明 SynCraft 不只适合复杂案例复盘,也可以作为教学、路线初筛、日常药物化学讨论的入口。一个网页里同时看到路线、中间体、风险颜色、SA、SC、QED 和 2D/3D 结构,对非计算背景的化学研究者会友好很多。
把安全从事后审查变成路线设计的一部分
SynCraft 的贡献可以概括为一句话:它把合成可行性和药代毒理安全性放到了同一个决策界面里。
过去,逆合成工具回答的是能不能做,ADMET 平台回答的是像不像药、安不安全。两个问题当然都重要,但如果它们不在同一个工作流里,研究者就会在效率和完整性之间妥协。SynCraft 的设计让每一个中间体都自动进入评估,从而降低漏查风险。对药物化学来说,这相当于把安全性从路线完成后的复核项,提前变成路线生成时的筛选项。
这对生成式药物设计也有现实意义。现在很多 AI 模型能快速提出新结构,但这些结构能否被经济、安全、可控地合成,仍然是落地瓶颈。一个候选分子如果只能通过高风险中间体或难以控制的工艺路线获得,它在实验室和工艺端都会付出代价。SynCraft 并不直接解决所有合成难题,但它给出了一个清晰方向:未来的分子设计工具不应只优化活性、相似性或合成可及性,还要把路线中的安全风险纳入设计闭环。
它的边界也很清楚。首先,SynCraft 的逆合成搜索性能与成熟工具相当,并没有在所有场景中更强;其次,ADMET 和毒性预测仍然是模型判断,不能替代实验验证、工艺杂质分析和监管评估;再次,阈值设置服务于早期筛查,真正进入药品开发时,仍需要结合具体工艺、暴露量、杂质去向、纯化能力和法规要求综合判断。
但这些边界不削弱它的价值。相反,边界越清楚,这个工具越像一个可以进入实际流程的助手。它不是替代合成化学家,也不是替代毒理专家,而是在分子路线还处于可调整阶段时,提醒研究者哪里可能需要停一下、查一下、换一条路。
END:路线不再只是通往终点的路,也是一张风险地图
SynCraft 这篇工作给人的启发,不是又多了一个网页服务器,而是路线规划的评价标准正在变化。
过去我们常说一条合成路线好,是因为步骤少、收率高、原料便宜、反应可靠。现在,至少在药物分子设计里,还要加上一条:路线中的中间体和潜在杂质是否安全可控。
SynCraft 把这件事做成了可视化、自动化、实时化的流程。它在伊马替尼案例中标出的红色风险,不只是一个模型分数,而是一个非常具体的工艺安全问题:某个中间体会不会成为遗传毒性杂质,是否已经有文献支持的替代路线,能不能在路线设计阶段就避开它。
药物发现的早期阶段总是充满不确定性。好的工具未必能消除不确定性,但可以让关键的不确定性早点出现。SynCraft 做的正是这件事:让合成路线从一张通往目标分子的路线图,变成一张同时标出安全风险的路线图。
参考文献
Qahtan Adnan Aljanabi, Zhijian Huang, Jinmiao Song, Lei Deng, SynCraft: an integrated web server for ADMET-aware retrosynthesis and molecular design, Nucleic Acids Research, 2026, gkag463
https://doi.org/10.1093/nar/gkag463
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢