过去几十年,基于片段的药物发现 (FBDD) 通过识别与靶标蛋白有微弱相互作用的小分子片段,并优化这些片段的结构信息,可以开发出活性更高的先导化合物,在新药研发中发挥了重要作用。
尽管 FBDD 在药物发现和开发领域扮演着关键角色,但构建和筛选有效的分子片段库一直是该领域的主要挑战。传统的 FBDD 方法依赖于经验直觉,限制了它们发展多样化结构的能力。幸运的是,AI 的出现为这一挑战提供了变革性的解决方案。
近期,华中师范大学杨光富教授和王凡副教授团队等开发了一种名为 DigFrag 的数字化分段方法。该方法通过在分子图 (molecular graph) 上进行局部聚焦,突出关键的子结构 (substructures),并将这些子结构分割成片段。实验结果表明,DigFrag 分割的片段展现出更高的结构多样性,并且基于这些片段生成的化合物更符合预期的化学特性。这表明,采用 AI 方法生成的数据可能更适合于 AI 模型的训练和应用。
该研究以「DigFrag as a digital fragmentation method used for artificial intelligence-based drug design」为题,已发表在国际学术期刊 nature communications chemistry。
研究亮点:
* 研究发现,基于 DigFrag 分割的片段与 AI 模型结合时,能够有效地生成具有期望性质的分子
* 该研究通过精确筛选,最终确定了 24 个药物分子和 20 个农药分子
* 团队开发了一个用户友好的平台 MolFrag,整合了多种片段化技术,可支持更广泛的分子分析和设计工作
论文地址:
https://doi.org/10.1038/s42004-024-01346-5
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:自建数据库 PADFrag,收录近 3,000 种药物数据
该研究所使用的建模数据集主要来源于自建的数据库 PADFrag。具体来看,PADFrag 数据库主要收录了 DrugBank 数据库中 FDA 批准的药物目录,包含 1,652 种药物,以及 Alan Wood 列出的商业杀虫剂,共计 1,259 种。
*为探索药物发现的生物活性片段空间而构建的数据库 PADFrag
https://pubs.acs.org/doi/10.1021/acs.jcim.8b00285
为了确保数据的一致性和可靠性,研究团队排除了那些结构不标准的化合物。随后,按照 8:1:1 的比例,将整个数据集划分为训练集、验证集和测试集,以便于模型的训练、评估和测试。
DigFrag:工作流程 3 步走,可获得结构多样性更高的片段
DigFrag 是一种创新的数字化分段方法,它利用图注意力机制 (graph attention mechanism) 来识别和分割药物/农药类片段,核心优势在于其能够从机器智能的角度出发,而不是单纯依赖人类专业知识,从而获得结构多样性更高的片段。
此外,该研究整合了 BRICS、RECAP、MacFrag 和 DigFrag 四种方法分割的片段,并将其集成到 DeepFMPO 模型框架中,进而生成药物分子,并评估它们在不同指标上的表现。
最后,基于多种分子片段化技术,研究人员开发了一个用户友好的平台 MolFrag,以支持分子的分割工作。
具体来看,该研究的工作流程分为 3 个部分:
第一,基于 AI 的片段化方法:该研究基于图神经网络 (Graph Neural Network, GNN) 架构,采用 DigFrag 方法对分子进行片段化处理。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢