DRUGONE
精确预测错义变异的功能影响对于疾病基因发现、临床基因诊断、治疗策略制定以及蛋白质工程至关重要。以往研究多集中于预测二分类的致病性,但错义变异的功能影响是多维的。同一基因的致病性错义变异可能通过不同作用机制(如功能获得或功能丧失)影响蛋白质功能,并导致截然不同的临床表现,需要差异化的治疗方案。研究人员开发了一种新方法——PreMode,用于进行基因特异的作用机制预测。PreMode 基于蛋白质序列和结构,利用 SE(3) 等变图神经网络建模编码序列变异的影响。在目前规模最大的带有作用机制标签的错义变异数据集上,PreMode 通过高效的迁移学习,在多种作用机制预测任务中达到了最新的性能。此外,PreMode 在预测激酶中的功能获得/丧失变异时,与其失活–激活构象转变的能量变化相一致。研究人员还展示了 PreMode 在深度突变扫描研究设计中的实用性,并证明其可通过主动学习扩展至非人源蛋白质的适应性优化。

错义变异是最常见的编码区变异类型之一,涉及众多疾病与生理状态。绝大多数错义变异的功能影响尚不明确,限制了精准诊断与临床干预的效率。在蛋白质工程领域,尤其是定向进化实验中,变异功能的理解与预测对于降低搜索空间和提高工程效率具有重要意义。然而,由于测序与功能测定成本高、变异空间巨大,全面描绘突变适应性景观仍具挑战。
过去十年,许多计算方法被开发用于二分类的致病性预测,这些方法利用序列保守性、蛋白质结构以及群体等位基因频率等手工或自学习特征进行建模。近年来,基于蛋白质语言模型的自监督方法也展现了强大的泛化能力。然而,仅预测“致病/良性”并不能刻画变异的具体功能后果。例如,SCN2A 的功能获得变异会导致婴儿癫痫性脑病,而功能丧失变异则与自闭症或智力障碍相关。因此,研究人员提出了“作用机制”这一更广泛的概念,以涵盖变异在分子层面和遗传层面对蛋白质功能的多维影响。
在分子层面,致病性变异可能改变蛋白质的稳定性、酶活性、调控功能及分子互作;在遗传层面,常见的分类方式是功能获得(GoF)和功能丧失(LoF)。二者通常导致显著不同的临床表型,并需要完全不同的治疗策略。然而,跨基因的通用 GoF/LoF 预测存在概念与泛化上的困难,因为蛋白质功能具有高度特异性。研究人员认为,预测任务应在具体基因或功能相似的蛋白家族范围内定义,但这又受限于数据稀缺。
结果
方法概述
研究人员提出了一个框架,将变异的功能影响分为分子层面和遗传层面的作用机制。在分子层面,变异影响蛋白质的稳定性、酶活性及调控过程;在遗传层面,分为 GoF 和 LoF 类型。PreMode 首先通过全基因组的致病性预测预训练模型,学习变异“距离”参数(反映致病性与良性差异),再通过特定基因或蛋白家族的小规模数据迁移学习,预测“方向”参数(反映作用机制类型)。

作用机制标注的错义变异数据集构建与特征分析
研究人员整理了迄今最大规模的带有分子与遗传层面作用机制标签的错义变异数据集,其中包括 8 个基因的多维深度突变扫描数据,以及来自文献和数据库的约 1.3k 个基因的 GoF 与 LoF 标签变异。分析显示,GoF 与 LoF 变异在结构置信度、蛋白质折叠能变化、表面可及性及进化保守性等方面存在显著差异,但这种差异在不同蛋白家族中不完全一致。例如,在 Na+/Ca2+ 离子通道基因中,GoF 变异更富集于跨膜 α 螺旋。

PreMode 模型架构
PreMode 输入包括氨基酸生化特性、蛋白质上下文和跨物种保守性信息,结合蛋白语言模型嵌入(ESM2)与 AlphaFold2 预测结构,并采用 SE(3) 等变图注意力机制同时建模主链与侧链几何信息。预训练阶段基于大规模致病性数据,迁移学习阶段在特定基因的 GoF/LoF 或多维 DMS 数据上优化。

分子层面作用机制预测
在 8 个基因的多维功能实验上,PreMode 的预测与实验结果的 Spearman 相关系数达到 0.6,显著优于现有方法。即使在训练数据缩减至 20% 时,PreMode 也保持领先性能。该模型还可用于识别实验测

量中的异常数据点,并可跨基因泛化稳定性预测。
遗传层面作用机制预测
在 9 个 GoF/LoF 变异数量充足的基因上,PreMode 的基因特异迁移学习性能优于所有基线方法(AUC 多数在 0.8–0.9 之间)。研究人员还发现,利用同一功能域的跨基因数据可提升小样本基因的预测性能。

全基因饱和突变扫描与结构机制解释
PreMode 在 BRAF、TP53、RET、KCNJ11、PTEN 等基因中绘制了全变异的作用机制预测景观,并结合结构建模与折叠能计算揭示了不同区域的 GoF 与 LoF 机制。例如,BRAF 激酶结构的 GoF 变异倾向破坏失活构象并稳定活化构象;PTEN 中部分变异仅影响酶活性而不影响稳定性,可能具有显性负效应。

主动学习加速迁移
在 GFP 蛋白的适应性优化实验中,PreMode 结合主动学习,仅用 40% 数据即可达到与全数据随机训练相当甚至更优的性能,大幅减少实验筛选规模。
讨论
研究人员提出的 PreMode 模型,通过全基因组预训练与基因特异迁移学习,解决了传统方法无法有效刻画错义变异多维功能影响的问题。分析结果显示,GoF 与 LoF 变异在结构、能量与保守性上具有不同模式,但这些差异具有蛋白家族特异性,因此需要蛋白特异的作用机制预测模型。
PreMode 结合了蛋白语言模型隐式特征与 SE(3) 等变结构建模,能够在分子层面预测多维功能影响,在遗传层面区分 GoF 与 LoF,且在小样本条件下表现优异。同时,PreMode 在深度突变扫描数据分析、噪声检测以及定向进化实验优化中展现了广泛的应用潜力。
当前 PreMode 在遗传层面仍采用二分类标签(GoF/LoF),未能进一步细分功能变化类型;此外,模型主要依赖静态结构,尚未充分考虑蛋白质动力学信息。未来,结合更细粒度的功能标签与动力学建模,有望进一步提升预测的准确性与可解释性。
整理 | DrugOne团队
参考资料
Zhong, G., Zhao, Y., Zhuang, D. et al. PreMode predicts mode-of-action of missense variants by deep graph representation learning of protein sequence and structural context. Nat Commun 16, 7189 (2025).
https://doi.org/10.1038/s41467-025-62318-4

内容为【DrugOne】公众号原创,|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢