【论文标题】Learning the protein language: Evolution, structure, and function

【作者团队】Tristan Bepler, Bonnie Berger

【发表时间】2021/06/16

【机 构】MIT

【论文链接】https://www.cell.com/cell-systems/fulltext/S2405-4712(21)00203-9#%20

【代码链接】https://github.com/tbepler/prose

【推荐理由】发表于Cell杂志,来自最早蛋白预训练迁移科学家之一Bepler et al的蛋白语言模型综述

近年来语言模型作为一种强大的机器学习方法,开始被用于从大规模的蛋白质序列数据库中提炼信息。仅从现成的序列数据中,这些模型可以发现整个蛋白质空间的进化、结构和功能区域。利用语言模型,我们可以将氨基酸序列编码为矢量表征,以捕捉其结构和功能特性,并评估序列突变体的进化适应性。本文讨论了蛋白质语言模型的最新进展以及它们在下游蛋白质属性预测问题上的应用。作者考虑了如何用先前的生物知识来丰富这些模型,并介绍了一种将蛋白质结构知识编码到所学表征中的方法。这些模型提炼出的知识使我们能够通过迁移学习改善下游的功能预测。深度蛋白质语言模型正在彻底改变蛋白质生物学,它们为蛋白质和治疗方法的设计提出了新的途径。然而,将强大的生物学先验知识编码到蛋白质语言模型中,并丰富其应用还需要进一步的发展。

本文的4条重点:

- 深度蛋白质语言模型可以从蛋白质序列中学习信息
- 深度蛋白质语言模型可以捕捉到序列突变体的结构、功能和进化适应性
- 深度蛋白质语言模型可以用先验知识充实,并为功能预测提供信息
- 深度蛋白质语言模型可以通过提出新的设计方法来彻底改变蛋白质生物学。

Figure thumbnail gr1

上图展示了蛋白质序列和结构分析中一些近期和经典方法的二维示意图,横轴和纵轴分别为该方法受第一性原理(强生物学先验)驱动与大数据驱动的程度。作者这里建议结合大型数据集和强大领域知识的方法将是蛋白质序列模型关键。具体来说,基于物理结构的先验可以通过结构监督学习,同时也可以从数以亿计的自然蛋白质序列中学习进化关系。此外,编码的进化和结构关系使我们能够通过迁移学习来学习蛋白质的功能特性。

蛋白语言模型的部分应用如下:

  • Riesselman,2018:在单个蛋白质家族上拟合的语言模型对深度突变扫描数据集中测量的变体适配度有惊人的准确预测。
  • Rives,2019;Luo,2020:语言模型学习的表征也是学习突变体适应性的强大特征,作为后续的监督学习任务
  • Bepler,Berger,2019:语言模型可以通过迁移学习改善蛋白质属性预测。
  • Hie et al,2021:使用语言模型学习病毒包膜蛋白的进化适配性,并能够预测可能使SARS-CoV-2 spike蛋白逃逸中和抗体的突变。

图缩略图 gr3

上图展示了本文的多任务蛋白语言模型MT-LSTM,3个任务分别为:A 掩码语言建模任务,B 残基-残基接触预测,和 C 结构相似性预测。模型在来自 Uniref 的 7600 万个蛋白质序列的数据集上和来自SCOP的 28,000 个包含结构的蛋白质序列数据上进行训练。

图缩略图 gr4

上图展示了模型结果的可视化,DLM-LSTM为去除结构信息的掩码语言模型。A图为可视化的流程。B图为可视化结果,可以观察到,即使 DLM-LSTM 模型仅使用序列信息进行训练,蛋白质序列仍可把握嵌入空间中的粗略结构关系。然而,当我们在语言模型训练中包含结构监督学习时,这种关系得到了改进。

C图展示了改模型的一个直接应用:通过向量嵌入来搜索蛋白质序列数据库中语义相关的蛋白质。作者在SCOP数据库中选取了多任务模型在训练期间没有看到的几对蛋白质,并使用直接基于序列同源性的方法(Needleman-Wunsch比对、HMM-序列比对和HMM-HMM比对、一种基于结构的方法(TMalign)以及在我们学习的嵌入空间中的序列之间的比对,计算这些序列之间的相似性。然后,我们根据这些方法在SCOP分类的基础上,正确找到在class、fold、superfalmily和family水平上相似的蛋白质对的能力进行评估。作者发现,在预测结构相似性时,作者学习的语义嵌入极大地超过了序列比对方法,甚至超过了TMalign的结构比较。有趣的是,我们观察到结构监督部分对于在细粒度水平上学习组织良好的嵌入至关重要,因为单靠DLM-LSTM表征在这项任务上表现不佳)。此外,多任务学习方法优于作者于2019年提出的两步学习方法(SSA-LSTM)。

图缩略图 gr5

上图展示了基于迁移学习的蛋白质语言模型功能预测。目前迁移学习与蛋白嵌入已经被应用到了结构相似性预测、二级结构预测、残基-残基接触预测,跨膜区域预测,蛋白质表型预测,fold识别,PPI预测,DTI预测等等。

图B展示了透膜性预测问题,一个序列标注任务,输入蛋白质序列,输出序列中的每个位置是否在跨膜区域中。该问题的主要难点在于信号肽,因其经常被混淆为透膜区域。作者在预训练模型的基础后追加了BiLSTM-CRF,效果显著。

图C展示了表型预测问题,针对的是预训练迁移模型是否可以感知序列上的微弱突变影响。由于这是小样本问题,作者使用了贝叶斯方法+迁移学习,使用的MT-LSTM 序列突变体嵌入作为特征,使用高斯过程 (GP) 回归进行表型预测。从结果上可以发现比现有方法更好地预测跨数据集未观察到的序列变异的表型。

总体上来看,强大的生物学先验是改进蛋白质语言模型的关键!语言模型通过浓缩来自庞大蛋白质序列数据库的信息来捕获蛋白质序列中残基之间的复杂关系,增加模型大小、计算能力和数据集大小也只会继续提高蛋白质语言模型的性能。由于它们的易用性和广泛的适用性,这些方法已经改变了今天的计算蛋白质生物学。此外,使用蛋白质特定属性,例如结构和功能,来增强语言模型提供了一条已经成功的途径,可以实现更丰富的表示和新的生物学。

内容中包含的图片若涉及版权问题,请及时与我们联系删除