本综述内容较为详尽(103页),推荐有兴趣的读者阅读原文。

本文介绍了一篇由浙江大学药学院侯廷军教授与谢昌谕教授团队联合发表在Chemical Reviews上的综述文章——《Graph Neural Networks in Modern AI-Aided Drug Discovery》。


图神经网络(Graph Neural Networks, GNNs)作为深度学习中能够捕捉分子拓扑与结构信息的模型,近年来已逐渐成为人工智能辅助药物发现(AI-aided Drug Discovery, AIDD)的核心工具。通过直接在分子图上开展运算,GNNs 为学习类药分子复杂的拓扑与几何特征提供了一种直观而高效的框架,进一步巩固了其在现代分子建模中的关键地位。


该综述全面梳理了 GNNs 在药物发现中的方法学基础与典型应用,涵盖 分子性质预测、虚拟筛选、分子生成、生物医学知识图谱构建、合成路径规划 等核心任务。同时,文章特别关注了近年的方法学突破,包括 几何 GNNs、可解释模型、不确定性量化、可扩展图结构设计以及图生成框架。此外,还讨论了这些模型与现代深度学习范式的融合方式,如 自监督学习、多任务学习、元学习与预训练。在总结现有进展的基础上,研究人员也指出了 GNNs 在真实药物研发管线应用中所面临的实际挑战与方法学瓶颈,并对未来的发展方向进行了深入探讨。

药物研发是一个资源密集且耗时的过程,将一种新药推向市场通常需要十年以上的研发周期和巨额资金投入。这种高成本和高风险限制了许多疾病的有效治疗途径。因此,任何能够改变药物发现基本范式的方法学突破都会引起学术界与工业界的高度关注。


随着人工智能的快速发展,药物发现逐渐从基于规则的启发式方法转向数据驱动的策略。尤其是高质量实验数据(包括结构生物学和多组学数据)的不断积累,为人工智能在药物发现中的应用奠定了坚实基础。在这一背景下,人工智能辅助药物发现(AIDD)逐渐形成系统化范式,涵盖了靶点识别、初始化合物发现、先导化合物优化以及早期风险控制。其核心目标是提高候选分子的特异性与可开发性,同时降低毒性和临床失败风险。


要实现人工智能在药物发现中的潜力,必须首先将分子结构编码为机器可理解的表示。现有策略包括基于字符串的线性表示(如 SMILES、SELFIES)、分子指纹以及基于图或三维体素的表示。当这些表示与深度神经网络、卷积神经网络或 Transformer 等架构结合时,在定量构效关系建模和打分函数开发等任务中均展现了优异表现。然而,每种表示方式都有局限性:指纹和描述符依赖专家定义特征,表达能力有限;字符串表示虽然兼容序列模型,但难以捕捉分子拓扑对称性与长程依赖。

从本体论角度看,分子天然具有图结构:原子作为节点,化学键作为边,三维坐标进一步定义其构象几何。图神经网络(GNN)正好契合这种表示,能够通过消息传递机制捕捉局部原子相互作用,并逐层聚合为分子层级的语义信息。同时,若结合对称性约束(如 SO(3) 等变换),GNN 还可精确建模立体化学、电荷分布和空间构型。与传统表示相比,图表示在物理一致性、通用性和可解释性上具有显著优势。因此,GNN 正在逐渐成为分子建模的主流选择,并被广泛应用于制药企业、AI 生物技术初创公司和开放研究社区。


本综述旨在系统梳理图神经网络在现代人工智能辅助药物发现中的方法学基础与实际挑战。与以往仅针对特定任务或经验比较的调研不同,本综述从模型中心视角切入,强调 GNN 在不同分子设计任务中的统一逻辑与方法学联系。特别关注以下前沿方向:大规模 GNN 的可扩展性、几何深度学习、可解释性与不确定性量化、图生成模型与强化学习等。


此外,研究人员还探讨了 GNN 如何与自监督学习、多任务学习、预训练与元学习等现代深度学习范式结合,从而提升数据效率、泛化能力与鲁棒性。通过总结不同任务背后的共同数学原理与化学直觉,本综述旨在为研究人员提供一致的概念框架,促进 GNN 技术在实际药物发现中的有效应用。


图神经网络的方法学进展

GNN 的发展大致经历了谱方法与空间方法两个阶段。谱方法基于图拉普拉斯特征展开,空间方法直接在邻域聚合信息。随后,几何 GNN 通过引入对称性与等变性,提升了对分子三维结构的表达能力。随着数据集规模扩大,大规模 GNN 的训练与推理成为挑战,研究人员提出了图采样、层次化消息传递和高效并行化策略。此外,图生成与编辑方法的兴起,使 GNN 不仅能预测分子性质,还能直接生成和优化新分子结构。

分子性质预测

分子性质预测是 GNN 在药物发现中的核心应用之一,包括溶解度、渗透性、毒性和药代动力学特征。与传统分子描述符相比,GNN 更能捕捉结构–性质关系。近年来,可解释性方法(如注意力权重可视化、归因方法)帮助揭示 GNN 如何识别关键子结构。不确定性量化也是重要方向,可为药物研发提供风险评估,提升模型在临床前应用中的可信度。

虚拟筛选

虚拟筛选旨在预测候选分子与靶蛋白之间的结合能力。GNN 在结合位点识别、分子对接与亲和力预测中均展现出卓越性能。与传统基于打分函数的方法不同,GNN 能直接在分子图与蛋白结构图上建模复杂相互作用,提高对活性化合物的检出率。尽管如此,虚拟筛选仍面临蛋白质柔性、构象多样性以及数据稀缺等挑战。

分子生成与优化

GNN 已广泛应用于分子生成任务,通过自回归生成、图变分自编码器、对抗生成和扩散模型等方法,能够设计具有特定性质的新分子。在分子优化方面,GNN 可以在保留骨架的基础上修改取代基,或通过多目标优化同时提升活性、稳定性和合成可行性。与强化学习结合后,GNN 在探索化学空间时表现更高效,为全新药物分子的发现提供了可能。

知识图谱构建与推理

药物研发不仅依赖分子结构信息,还需要整合多模态数据。GNN 在构建生物医学知识图谱中发挥重要作用,可将蛋白质、疾病、药物及其相互作用统一建模。通过图表示学习,研究人员能够进行药物重定位、靶点发现和药物–疾病关联预测。这类方法在应对多模态、异质性和规模化数据时具有明显优势。

化学反应建模

GNN 在反应预测与合成规划中逐渐展现潜力。它们能够预测反应结果、条件与产率,并在逆合成规划中推断合成路径。相比基于模板的方法,GNN 能直接建模反应中心与反应物的关系,减少对人工规则的依赖。研究人员也在探索多任务学习框架,将反应预测与条件优化联合建模,提高化学反应建模的实际应用价值。

讨论与展望

图神经网络正在重塑人工智能辅助药物发现的格局。其优势在于能够直接处理分子图结构,学习复杂的拓扑与几何特征,支持性质预测、筛选、生成与反应建模等关键任务。然而,挑战仍然存在:

  • 数据问题:高质量标注数据不足,跨平台数据异质性显著;

  • 模型问题:大规模训练难度高,模型可解释性有限;

  • 应用问题:与真实研发流程的衔接仍不充分,如何应对实验验证与临床转化仍待探索。

未来的发展方向包括:

  • 构建更大规模、更高质量的多模态数据库;

  • 融合自监督、元学习和预训练框架提升模型泛化性;

  • 开发可解释且稳健的 GNN,增强在临床与工业环境中的信任度;

  • 推动跨学科合作,加快从模型到实验验证的闭环。

综上,GNN 正在成为人工智能驱动药物发现的重要引擎,为加速新药研发和拓展可探索的化学空间提供前所未有的机遇。

整理 | WJM

参考资料

Graph Neural Networks in Modern AI-Aided Drug Discovery. Odin Zhang, Haitao Lin, Xujun Zhang, Xiaorui Wang, Zhenxing Wu, Qing Ye, Weibo Zhao, Jike Wang, Kejun Ying, Yu Kang, Chang-Yu Hsieh, and Tingjun Hou. Chemical Reviews.

DOI: 10.1021/acs.chemrev.5c00461


内容中包含的图片若涉及版权问题,请及时与我们联系删除