基于人工智能的小分子药物发现已成为计算机科学与生命科学交叉领域的一个重要趋势。在寻找新化合物的过程中,基于片段的药物发现已经成为一种新的方法。基于对基本语言单位的预训练和表征学习,生成式预训练变形器(GPT)模型在各个领域显示出了卓越的能力。与自然语言类似,分子编码作为化学语言的一种形式,需要与特定的化学逻辑相结合的分子切分(Molecular Fragmentation)方法,以实现精确的分子编码。

作为分子编码过程中的重要方法,分子切分方法值得深入研究。然而,目前关于切分方法均以多种基于片段的药物发现(FBDD,Fragment-based drug discovery)算法应用的工作中一部分呈现,尚缺乏一种对于切分方法的系统归纳。这篇综述提供了目前分子切分技术的全面概述。该文系统地总结了各种分子破碎技术的方法和应用,重点介绍了各种技术的特点和适用范围,并对其应用进行了讨论。最后对分子切分技术的发展趋势进行了展望,包括一些潜在的研究方向和挑战。
本综述发表于《Communications Chemistry》, 由南通大学智能信息研究中心Med-AI实验室负责人王理教授组织撰写,博士生邵劲松为论文的第一作者。
引言
在过去的50年里,人工智能在药物设计中的应用从未停止。随着DeepMind公布的人工智能(AI)预测算法AlphaFold2成功预测了来自100多万种物种的约2亿个蛋白质结构,人工智能驱动的小分子药物发现领域已成为计算机科学和生命科学十字路口的一个主要趋势。然而,这项技术在短期内能在多大程度上改变药物开发仍然取决于计算机理解和表示化学空间的能力。对化合物进行彻底而合理的分解是计算机理解化合物的关键一步。通过对化合物进行分段并确定子结构之间的相关性,可以为后续的工作奠定坚实的基础。在寻找新型化合物的过程中,FBDD作为一种新的方法出现了,在制药行业获得了越来越多的关注。FBDD用于减少损失,并为传统药物发现具有挑战性的生物靶点提供线索。FBDD有助于将低分子量配体(~150 Da)优化为具有类药物性质的强效分子。与高通量筛选相比,基于片段的方法需要筛选的化合物较少。虽然初始效价可能较低,但这些方法提供了更高效和高产的优化方法,显著扩大了化学空间。
新兴的生成式预训练Transformer(GPT)模型在各个领域显示出强大的应用能力。GPT的本质在于对语言单位(字或词)的预训练和表征学习,依赖于按照语言逻辑分割较长的句子。如果复合词被视为一种语言,那么像字符和单词这样的语言单位的概念就可以被具有特定功能的分子片段所取代。在化学空间中,分子片段充当了复合词的语言单位。创新药物发现方法的灵感源于对定量构效关系(QSAR)研究范式的重新思考,从根本上探索子结构与活性之间的关系。分子子结构描述的问题与自然语言处理(NLP)中的句子分割和翻译的挑战相似,因此提供了相互参照可能。大规模的生成模型依赖于化合物的精确表征。在使用Transformer进行化合物表示的早期研究中,将药物分解成片段,便于使用Transformer模型提取化合物子结构之间的语义关系,能够显著增强了模型对化合物的理解,推动下游任务的进展。因此,分子切分成为推进人工智能驱动的药物发现的必要和有效步骤。

图 1. 分子切分技术有利于下游任务
分子切分是将复杂分子系统地分解成更小的片段,是药物化学和药物发现的基本策略。这种方法提供了对分子识别和与生物靶标结合至关重要的结构特征和相互作用的见解。通过将复杂的化合物分解成更简单的成分,研究人员对调控配体-受体相互作用的基本原理有了更深入的了解。分子切分技术在先导化合物的鉴定、优化和化学空间的探索中发挥着关键作用,最终有助于新型治疗药物的开发。在这一背景下,对切分方法及其应用的研究继续为高效的药物设计和开发开辟了新的途径。
本综述首先总结了15种分子切分方法。从基于现有片段库的方法、基于序列的方法和基于结构的方法的角度介绍了分子切分的逻辑,并提出了潜在的分子切分方法。其次,讨论了分子切分技术的应用。最后,提出了基于具体应用场景的分子片段选择策略。
切分方法
基于现有片段库的分子切分方法
作为药物设计的重要策略,基于片段原理的FBDD对工业界和学术界都具有重要意义。在FBDD方法中,针对特定目标筛选了一组低分子量的极性片段/化合物。常见的筛选技术涉及生物物理学方法,包括x射线晶体学、核磁共振、差示扫描荧光法、等温滴定量热法、表面等离子体共振等。将这些通过多种方法筛选出来的片段组合成片段库是传统片段库的常用构建方法。基于这类片段库中所含片段对分子进行比对、匹配和切分,是一种常用的分子切分方法。
基于序列的分子切分方法
在SMILES被广泛推广之前,有许多非原子的方法来表示分子,如Wiswesser Line Notation (WLN), Hayward和Skolnik Notation。这些方法使用代表官能团的符号,如羧基或苯基,以及环系统。SYBYL行符号(SLN)允许在子结构中指定多个原子的宏原子。大分子分级编辑语言(HELM)通过声明单体,然后用聚合物线符号连接它们来表示复杂的生物分子。这些包括 SMILES 在内的分子线性表示方法推动了基于序列的分子切分方法的应用。对分子序列化采样,通过基于序列的分子切分方法对分子切分也是很多语言模型在分子表征领域的常用方法。
基于结构的分子切分方法
基于结构的片段化方法是一种用于药物设计和化合物分析的方法,它将化合物分解成分子片段,以识别和优化药物分子的关键特征。支架(Scaffold)是对化合物核心结构的抽象表征,具有不变性和变异性。支架生成的方法旨在识别和提取一系列化合物的共享核心结构,有助于改进结构活性关系分析和药物设计。这意味着Structure-Based Fragmentation可以利用Scaffold的概念来识别和提取一系列化合物中的共享核心结构,从而在药物设计和构效关系分析中发挥至关重要的作用。在早期的工作中,Bemis和Murcko试图通过分析二维分子结构、原子类型、杂交和键序从分子中提取框架。这代表了研究人员在支架工作上的努力,也是基于结构的片段化的早期工作,这加速了计算化学的进程。我们在最近的工作中发现了更多基于结构的片段化方法,这些方法也是在支架上工作的衍生。
其他潜在分子切分方法
目前,大部分的分割方法都是在现有方法的基础上进行改进或结合。这些方法有相同的优点,也有相同的缺点。对于许多可能的用例,跨域分割(例如,自然语言处理)可能是解决问题的一种重要的潜在方法。我们列出了一些可能的片段化方法,其中一些已在分子片段化工作中得到验证。
表 1 切分方法统计

展望
在今后的工作中,分子切分工作重仍然有一些新的方向或有待解决的问题。第一个方向是扩展分子破碎方法。基于能量的分子切分方法可以避免切割不易断裂的高能化学键,从而在化学反应中保留官能团片段。第二个方向是保存片段信息。分子被切分后,除了保留结构信息外,还应包括片段在原分子中的位置、能量、相关性等信息。最后一个方向是评估分子片段的质量。除了依赖下游任务绩效评估外,还需要建立直接从片段自身评估分子片段质量的体系。这确保了分子切分质量评估的公平性。
参考资料
Jinsong, S., Qifeng, J., Xing, C. et al. Molecular fragmentation as a crucial step in the AI-based drug development pathway. Commun Chem 7, 20 (2024). https://doi.org/10.1038/s42004-024-01109-2
代码
https://github.com/NTU-MedAI/MolFrag
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢