DRUGAI

今天为大家介绍的是来自清华大学和微软研究院发表于Journal of Cheminformatics的一篇论文。在药物发现领域,全新(de novo)分子设计面临的核心挑战之一是结构-活性关系(SAR)的复杂性,尤其是活性悬崖(activity cliffs)现象——微小的分子结构变化可能导致生物活性的显著差异。传统AI模型往往将活性悬崖化合物视为统计异常值,而未能充分利用其在药物设计中的关键价值。针对这一问题,作者提出了活性悬崖感知强化学习框架(ACARL),首次将活性悬崖现象显式整合到AI驱动的分子生成过程中。实验表明,ACARL在多个靶点蛋白的分子生成任务中显著优于现有方法,为药物发现提供了更精准的设计工具。

背景与挑战

基于AI的全新药物设计通过生成具有特定生物活性的分子,加速了传统药物开发流程。然而,现有模型在建模SAR时存在以下局限性:

  • 活性悬崖的忽视:多数模型(特别是生成模型)无法捕捉和利用活性悬崖现象,导致设计出的分子在关键药理区域表现不足;

  • 连续性假设的局限:生成模型(如Transformer)倾向于为结构相似的分子分配相近的生成概率,即使它们是活性悬崖对;

  • 评价标准的缺陷:现有分子生成基准(如GuacaMol)缺乏对活性悬崖的模拟,降低了算法的实际应用价值。

图 1 活性悬崖示例


方法创新

ACARL通过两项核心技术解决了上述问题:

  • 活性悬崖指数(ACI):定量衡量分子对的SAR不连续性,结合Tanimoto距离和活性差异(如结合亲和力),动态识别活性悬崖化合物;

  • 对比强化学习损失函数:在RL训练中优先学习活性悬崖化合物和高评分分子,通过加权损失增强模型对关键SAR区域的关注。


具体流程包括:

  1. 预训练阶段:基于ChEMBL数据库训练Transformer模型,获得初始权重;
  2. RL微调阶段:利用对接评分(Quick Vina 2)作为环境反馈,通过对比损失动态调整生成策略,优化高活性分子和活性悬崖对的生成概率。

图 2 ACARL算法流程


实验结果

ACARL在三个靶点蛋白(5HT1B、5HT2B、ACM2)的测试中表现卓越:

  • 结合亲和力:Top-1和Top-100平均对接评分均优于Reinvent、JT-VAE、GCPN等8种基线方法;

  • 多样性:生成分子的内部多样性(IntDiv)与基线相当,表明模型在优化活性的同时保持了结构多样性;

  • 多目标设计:结合QED和SA评分,ACARL成功生成兼具高活性和可合成性的候选分子(如图3)。

图 3 多目标设计出的分子结合示意图


意义与展望

ACARL首次将SAR领域的活性悬崖知识嵌入AI驱动的分子生成框架,其优势包括:

  • 药理相关性:通过显式建模活性悬崖,生成的分子更可能具备实际药物开发潜力;

  • 灵活性:支持单目标(如结合亲和力)和多目标(如结合亲和力+QED+SA)优化,适配真实药物设计需求。

未来研究方向包括:

  • 结合湿实验验证生成分子的活性;

  • 探索活性悬崖的机理,进一步提升模型可解释性;

  • 设计新框架以显式利用活性悬崖相关的生物分子结构、相互作用信息。

参考资料

Hu, X., Liu, G., Zhao, Y. et al. Activity cliff-aware reinforcement learning for de novo drug design. J Cheminform 17, 54 (2025). 

https://doi.org/10.1186/s13321-025-01006-3

内容中包含的图片若涉及版权问题,请及时与我们联系删除