【论文标题】ProteinBERT: A universal deep-learning model of protein sequence and function
【作者团队】 Nadav Brandes, Dan Ofer, Yam Peleg, Nadav Rappoport, Michal Linial
【发表时间】2021/05/24
【机 构】希伯来大学、内盖夫本-古里安大学、美敦力
【论文链接】https://www.biorxiv.org/content/10.1101/2021.05.24.445464v1
【代码地址】https://github.com/nadavbra/protein_bert
【推荐理由】基因本体和蛋白质语言模型的结合
自监督的深度语言模型在整个自然语言任务中显示出前所未有的成功,并且最近被重新用于生物序列。然而,现有的模型和预训练方法是为文本分析设计和优化的。本文介绍ProteinBERT,一个专门为蛋白质而设计的深度语言模型。我们的预训练方案包括掩蔽的语言建模与基因本体(GO)注释预测的新任务相结合。我们引入了新的架构,使该模型对非常大的序列长度具有高度的效率和灵活性。ProteinBERT的架构由局部和全局表征组成,允许对这些类型的输入和输出进行端到端处理。尽管使用的模型远小于竞争性的深度学习方法,ProteinBERT在涵盖不同蛋白质属性(包括蛋白质结构、翻译后修饰和生物物理属性)的多个基准上获得了最先进的性能。总的来说,ProteinBERT为快速训练蛋白质预测器提供了一个有效的框架,即使是在标注数据有限的情况下。


本文在TAPE标准任务的基础上,同时加入了5个新任务,分别是:
- 源自TAPE二级结构预测任务的衍生任务无序区域预测。
- 主要PTMs预测,其任务是预测每个残基是否经历了任何形式的翻译后修饰。
- 信号肽预测,其任务是预测整个蛋白质序列是否有信号肽。该基准来自signalP 5.0,是通过合并所有领域数据集得出的。
- 神经肽裂解预测的目标是 这里的目标是预测一个基本残基(K或R)是否会发生裂解,所有的候选序列都有一个信号肽。
- 4 classes预测属于folding任务,在7个SCOP(2.07)类别中,预测每个蛋白质的高级结构类别。

上图为结合了蛋白序列和GO注释的ProteinBERT架构。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢