高质量的分子表示对 AI 驱动的药物发现至关重要。尽管图神经网络(GNN)在该领域取得了一定进展,但由于标注分子数量有限,数据不平衡和过拟合等问题仍然存在。增强技术成为主流解决方案,但直接修改分子图的拓扑结构可能导致关键信息丢失。同时,面对分子数据的稀疏性与复杂性,对抗式增强也易引入噪声。

近日,「德睿智药」与武汉科技大学、厦门大学、湖南大学团队的合作论文“Adaptive symmetry-based adversarial perturbation augmentation for molecular graph representations with dual-fusion attention information”在国际信息融合领域顶级期刊《Information Fusion》(IF: 14.8)上发表。该论文提出了一种即插即用的新架构 GapCL,在基于梯度的对抗增强中引入对称扰动机制,以保留关键化学空间信息。同时,GapCL 融合双重注意力机制强化关键信息,并结合对比学习实现适应性扰动策略。在 12 项分子性质预测任务中,GapCL 显著提升了模型的鲁棒性与泛化能力,模型表现达到同类最优。实验结果表明该方法具备领先表现,能有效增强分子图表示能力。



01

引言




近年来,人工智能在多个领域取得显著进展,深度学习因其强大能力在药物发现等领域受到广泛关注。其中,分子表示模型通过将分子结构转化为计算机可处理的向量或特征,捕捉关键信息如化学性质、几何构型和电子分布,在药物设计、性质预测和虚拟筛选等任务中发挥核心作用,成为精准药物发现的重要支撑。

考虑到分子结构的复杂性与化合物的多样性,构建高质量的分子表示需依赖更强大的建模方法。相比依赖人工特征或浅层学习的传统方法,图神经网络(GNN)能更有效地从原子与键构成的图结构中提取拓扑信息,适应多样的下游任务。本文中,研究人员将图结构Transformer暂归类为GNN模型的一种,以统一视角讨论其在分子表示中的优势。

尽管GNN取得诸多进展,其泛化能力和鲁棒性仍受限于标注分子数据稀缺的问题。现有图增强方法虽能缓解标注不足,但可能破坏分子的化学属性,且多数方法缺乏扰动后的特征修正,增加应用复杂性与成本。

为此,研究人员提出GapCL架构,结合基于梯度的对抗扰动与融合双重注意力信息的对比学习策略。不同于直接修改图结构,GapCL在节点特征空间中引入对抗扰动,并基于图自同构划分对称轨道,对轨道内节点施加均值扰动,以保留结构一致性。同时,通过双融合注意力模块,在训练过程中自适应调整扰动强度,增强关键信息、抑制无关噪声,实现更精细化的分子表示。

在严格的结构骨架划分下,研究人员在 MoleculeNet 基准上的12项任务中,测试了5种代表性GNN模型与2种对抗学习方法。结果显示,GapCL在所有任务中均提升了模型性能,且优于现有对抗增强方法。可视化结果进一步验证GapCL提升了表示的判别性。

综上,研究人员提出的GapCL提供了一种稳健、通用且可扩展的高质量分子图表示学习方案。主要贡献包括:

•  提出GapCL架构,可集成于任意分子图表示模型,融合对抗扰动与对比学习,实施自适应增强策略;

•  设计基于对称性的扰动方案,并引入融合注意力机制以促进模型泛化;

•  多项基准实验验证GapCL显著提升GNN模型在分子性质预测任务中的表现。


02

研究方法




本文提出的GapCL架构包括两个关键模块:对称对抗扰动模块和双融合增强对比学习模块。整体流程如下:

图1. GapCL架构示意图

对称对抗扰动模块

为避免直接修改分子图拓扑结构可能带来的化学信息丢失,研究人员在节点特征空间中引入对抗扰动。传统增强方法如删除节点或边可能破坏结构一致性,而对抗扰动可在不改变图结构的前提下提升模型鲁棒性。

考虑到分子图中常存在对称性(如苯环结构),研究人员通过图自同构将节点划分为轨道(orbit),并对同一轨道内节点施加相同的平均扰动。这种对称扰动有助于在增强多样性的同时保持分子的结构属性一致性,从而提升模型的泛化能力。

双融合增强对比学习模块

该模块旨在突出关键信息并抑制无关噪声。首先,图神经网络提取原始节点嵌入(如GCN、GAT、MPNN等),再结合对抗扰动后的嵌入,通过交叉注意力机制实现特征融合,强化分子中的结构信息和敏感区域。注意力机制通过偏置加权方式将原始与扰动特征融合为统一的表示。

随后,融合特征进入多轮对比学习模块,借助SimCLR框架中的对比损失(NT-Xent loss)进行训练。通过区分正负样本对,模型能捕捉更细粒度的结构差异,获得更具判别力的分子表示。


03

实验与结果




数据集与评估设置

研究人员在 MoleculeNet 中选择了 12 个任务(包含9个分类任务和3个回归任务),以全面评估 GapCL 的性能。所有数据集使用严格的结构骨架划分(scaffold split),按 8:1:1 的比例划分为训练集、验证集和测试集。

分类任务使用 ROC-AUC 作为评估指标,回归任务使用 RMSE 衡量误差。

基线模型与对比方法

•  图表示模型:包括 GCN、GAT、MPNN、CoMPT、Uni-mol。

•  对抗学习方法:包括 PGD 和 FLAG 两种增强方法。

•  其他对比模型:包括 D-MPNN、Attentive FP、PretrainGNN、MolCLR、GROVER、GraphMVP、GEM、PremuNet 等多种有监督或预训练模型。

表1. 不同方法在9个分类和3个回归数据集上的评估结果

主要结果

GapCL 能够全面提升所有基础模型的性能,相较于 PGD 和 FLAG 也表现更优。特别是在 GCN、GAT、MPNN、CoMPT 等非预训练模型上,GapCL 在分类任务中平均提升约 2%,在回归任务中平均提升约 3%。对于强大的预训练模型 Uni-mol,GapCL 依然能带来一定提升,表明该方法具有通用性和拓展性。

消融实验

为验证各组件的贡献,研究人员在 5 个模型上分别移除部分模块进行测试。实验结果表明:

•  单独使用对称扰动(+AP)有一定效果;

•  结合双融合注意力模块(+AP_DF)效果略有提升;

•  完整的 GapCL(AP + DF + 对比学习)则显著优于其他组合,说明各模块协同增强效果显著。

表2. 消融实验结果

表示可视化分析

在 Tox21 和 Lipophilicity 数据集上进行 UMAP 降维可视化。GapCL增强的模型表示更为紧凑,能更清晰地区分毒性分子与非毒性分子、以及亲脂性值的变化趋势,表现出更强的结构敏感性和表示能力。

图2. 通过UMAP对潜在空间可视化

收敛性分析

以 BBBP 数据集为例,GapCL 显著加快了模型收敛速度,并在训练初期即实现更低损失值,说明其优化过程更加稳定高效。

超参数敏感性分析

研究人员评估了扰动强度 ε 和迭代轮数 M 对模型性能的影响。结果显示,在 ε=0.001,M=3 时模型性能最优。对比学习损失权重设置为 0.15 时,也获得最佳表现。因此实验中采用此组合作为默认参数配置。

图3. 在BBBP和ESOL任务上进行超参数敏感性分析


04

讨论与结论




本文提出了一个新型即插即用架构 GapCL,将梯度引导的对称性对抗扰动机制与双融合增强对比学习策略结合,以提升图神经网络在分子图表示学习中的鲁棒性与泛化能力,尤其在标注数据有限的场景下表现尤为突出。

在 MoleculeNet 基准上的多项实验证明,配备 GapCL 的模型能显著提升分子表示质量,进一步推动其在药物发现、材料设计等依赖图结构数据的任务中的应用潜力。

GapCL 的优势在于其结构灵活、通用性强,可作为增强模块集成至任意现有 GNN 框架,帮助模型更有效提取关键特征、增强分类与预测能力。尽管 GapCL 效果显著,其方法仍存在一定的计算开销,主要源于对称扰动与双注意力融合的引入,这使训练时间略有增加。然而实验表明,该额外代价在常规 GNN 流程中是可控的,且性能收益远大于计算负担。

此外,当前方法在进一步提升性能方面仍有潜力。未来的研究可探索更轻量的扰动策略、跨任务迁移能力,或将其推广至非分子图领域,以生成更鲁棒、可迁移的高质量图表示。

总结而言,GapCL 为高质量分子图表示学习提供了一个稳健且可扩展的新方向,同时也为图神经网络在科学问题中的应用拓展了方法论边界。


论文链接

https://doi.org/10.1016/j.inffus.2025.103062


既往研究

Nature BME | AI实现「大海捞针」:虚拟筛选发现全新的线粒体自噬诱导剂对抗阿尔茨海默症

ICML2023 | 基于非参数子图匹配的GNN解释模型MatchExplainer

Advanced Science | 首创引入蛋白动态信息的AI模型,高效预测药物-蛋白亲和力

Nature系列期刊 | 首创引入官能团信息,PharmHGT实现分子性质预测领域新突破

Scientific Data | 德睿发布全球最大单性质ADMET开源数据集,大语言模型驱动

关于德睿智药

德睿智药是一家临床阶段AI驱动的创新药物研发公司。公司愿景是通过推动人工智能和新药研发领域多种前沿技术渗透融合,持续输出兼具差异化和高临床价值的候选药物,从而让更多疾病有药可医,让更多生命重获健康。

公司拥有自研国际领先的工业级一站式AI驱动创新药物研发平台,包括基于知识图谱的数据挖掘平台PharmKG™,蛋白质动态模拟、结构预测平台Molecule Dance™和一站式AI药物设计平台Molecule Pro™。公司AI医药解决方案曾被欧美权威机构Deep Pharma Intelligence评为“2018-2020全球最重要的11个AI药物研发突破性成就”之一。2023年入选福布斯“Forbes Asia 100 to Watch”榜单,中国大陆仅11家初创公司上榜。2024年入选《财富》杂志IMPACT企业榜“中国最具社会影响力创业公司”。

德睿智药自研一站式AI制药平台

更多信息请访问网站:www.mindrank.ai

合作:bd@mindrank.ai

其他:info@mindrank.ai

内容中包含的图片若涉及版权问题,请及时与我们联系删除