DRUGONE

蛋白质语言模型通过从庞大的蛋白质数据库中学习氨基酸序列预测,获得了向量化表征。这些表征已广泛应用于突变效应预测、蛋白质折叠等任务,其成功的重要原因之一在于序列保守性与蛋白质功能相关。然而,序列保守性与功能之间的关系常受到进化和环境背景的影响。研究人员提出利用其他更直接的功能信息来增强模型。在本研究中,研究人员系统性地考察了利用 UniProt 中 19 类文本注释来训练模型的效果。结果显示,对部分注释进行微调能显著提升模型在多种功能预测任务上的表现,甚至在多个任务中超越了传统的 BLAST 工具,而这是以往预训练模型无法实现的。这表明文本注释等多模态数据在提升蛋白质语言模型中具有巨大潜力。

随着测序技术的发展,研究人员能够全面探索生命的蛋白质组。以 UniProt 为代表的数据库为蛋白质语言模型(PLM)的发展奠定了基础。这些模型依赖伪似然目标训练,能够学习残基间的条件依赖关系,进而捕捉蛋白质序列中的保守模式。已有研究指出,这种方法使模型能够通过序列共变与保守性提取功能相关信息,类似于自然语言模型在大规模语料中提取语义规律的方式。


然而,该训练目标存在局限:序列保守性与功能之间的关系会受到进化背景与环境因素的干扰,且原始序列数据难以反映实验获得的功能知识。因此,研究人员尝试引入新的数据模态,尤其是富含结构与功能信息的文本注释。此前已有工作探索文本注释在蛋白质表征学习中的应用,但规模有限,未能充分利用数据库中丰富的注释类型。本研究针对这一空白,构建了迄今最大规模的高质量注释数据集,并提出了新的框架。


结果


PAIR 框架概述

研究人员提出了 PAIR(Protein Annotation-Improved Representations),一个灵活的微调框架。该框架采用编码器-解码器结构,编码器输入氨基酸序列,解码器输出对应文本注释。通过交叉注意力机制,文本标记能够与氨基酸序列建立关联。在训练过程中,PAIR 通过联合优化学习更高质量的蛋白质表征。


注释类型对表征质量的影响

研究人员从 Swiss-Prot 提取了 19 种注释类别,分别对模型进行微调。评估结果表明,其中 14 种注释显著提升了模型在功能预测上的表现,尤其是 Pfam 域、蛋白家族和推荐名称带来了最大增益。相反,某些注释(如组织特异性、诱导信息)因数据量稀缺或功能关联度较低,导致模型性能下降。综合使用 14 种有效注释训练后,整体表现优于单一注释,表明不同注释之间存在协同作用。


提升功能预测性能

在更大规模的预训练模型(如 ESM1b、ESM2、ProtT5)上应用 PAIR 后,研究人员发现模型在家族、名称、结构域、结合位点和活性位点预测中均提升 8–15% 左右。在未见过的任务(如 EC 编号和 GO 注释)上也表现出较强的泛化能力。进一步在外部基准(亚细胞定位、Fold 分类、药物-靶点结合预测等)中,PAIR 均优于基础模型。


与 BLAST 的比较

传统的 BLAST 在多数任务中仍强于原始 PLM。但 PAIR 微调后的模型(尤其是 PAIR- ProtT5)在多个任务中超越了 BLAST,且在低序列相似性条件下表现尤为突出。这表明 PAIR 能捕捉超越局部比对的信息,同时其预计算向量表征也使检索效率优于 BLAST。


酶功能相似性的捕捉

研究人员还考察了 PAIR 在酶功能预测上的表现。结果显示,PAIR 在 EC 编号分类中形成了更清晰的功能簇结构。在少样本学习场景下,即便仅使用一个训练样本,PAIR 的准确率也超过 87%,显著优于基线模型。这表明 PAIR 在低资源环境下依然能够保持强大的功能预测能力。

讨论

研究人员提出的 PAIR 框架通过引入多样化的文本注释,有效提升了蛋白质表征的功能预测能力。与传统 PLM 相比,PAIR 在未表征的功能属性上表现更优,在酶功能预测中能利用少量样本获得高准确率,并在多任务中超越 BLAST。同时,PAIR 在计算效率上也具备优势。


这一研究表明,蛋白质模型的潜力远不止于序列信息。未来的方向包括整合三维结构、基因组数据与功能注释等多模态信息,从而获得更加丰富和可泛化的蛋白质表征。此外,PAIR 的灵活性也为扩展至小分子、核酸乃至更复杂的分子体系提供了可能,推动通用生物模型的发展。

整理 | DrugOne团队


参考资料


Duan, H., Skreta, M., Cotta, L. et al. Boosting the predictive power of protein representations with a corpus of text annotations. Nat Mach Intell (2025). 

https://doi.org/10.1038/s42256-025-01088-6

内容为【DrugOne】公众号原创转载请注明来源

内容中包含的图片若涉及版权问题,请及时与我们联系删除