【论文标题】Contrastive learning on protein embeddings enlightens midnight zone at lightning speed
【作者团队】
, , ,【发表时间】2021/11/15
【机 构】慕尼黑工大
【论文链接】https://doi.org/10.1101/2021.11.14.468528
【代码链接】https://github.com/Rostlab/EAT
由于最近在蛋白质三维结构预测方面的进展,特别是通过AlphaFold 2和RoseTTAFold,蛋白质三维信息的丰富程度将在未来几年爆发。基于三维结构的资源,如SCOP和CATH,已经将复杂的序列-结构-功能关系组织成一个分层的分类模式。实验结构是通过多序列比对来利用的,或者更普遍的是通过基于同源推理将注释从一个具有实验已知注释的蛋白质转移到一个没有注释的查询中。本文提出了一种新的方法,将同源推理的概念从低维的序列距离查询扩展到高维的基于嵌入的注释转移(EAT)的水平。其次,本文引入了一种新的解决方案,使用来自蛋白质语言模型的单一蛋白质序列表示,即所谓的嵌入(Prose、ESM-1b、ProtBERT和ProtT5),作为对比学习的输入,通过这种方法创建了一套新的嵌入,优化了蛋白质三维结构的分层分类所捕获的约束。这些新的嵌入(ProtTucker)明显改善了线程或折叠识别。因此,新的嵌入能够作用于白质比较的午夜区,即成对序列相似性水平类似于随机关系,很难用同源方法来分析的区域。基准测试表明,ProtTucker比先进的序列比较更进一步,而不需要计算比对,使其速度快了几个数量级。
训练部分说明了如何使用蛋白质三元组来对比学习CATH的层次结构。首先,来自蛋白质语言模型(pLMs)的嵌入;这里。ProSE、ESM-1b、ProtBERT和ProtT5被用作蛋白质三元组(anchor、正、负)的静态特征编码器。每个蛋白质的嵌入被同一个共享的前馈神经网络FNN(ProtTucker)单独处理,从而产生一个新的、学到的CATH优化的每个蛋白质嵌入。在优化过程中,软边际损失被用来最大化不同CATH类别的蛋白质之间的距离,同时最小化同一CATH类别的蛋白质之间的距离。不同结构相似度的三联体同时被用来优化一个共享网络,即所有CATH级别同时被同一个FNN学习。
推理部分概述了对比学习FNN如何用于推理,即对新蛋白质进行预测。对于所有蛋白质通过以下两个步骤提取所有嵌入。首先,从原始pLM(ProSE、ESM-1b、ProtBERT、ProtT5)中提取每个残基的嵌入,并通过对蛋白质长度的平均来创建每个蛋白质的嵌入,然后将这些嵌入作为预训练的FNNs的输入,即ProtTucker。与基于同源性的推理类似,预测是通过将最接近的命中的注释从查找集转移到查询蛋白上而产生的。虽然同源推理将最接近的命中通常定义为具有最低E值的命中,但这里利用的基于嵌入的注释转移,转移到ProtTucker嵌入空间中具有最小欧氏距离的命中。
上图展示了ProtTucker对于蛋白聚类的区分度提升。本文使用t-SNE将高维的ProtTucker(ProtT5)嵌入空间投射到对比学习之前(面板A;ProtT5)和之后(面板C;ProtTucker(ProtT5))的2D上。为了评估不同嵌入维度的影响,面板B可视化了用未经训练的ProtTucker版本嵌入的相同数据。颜色标志着CATH的主要等级水平,根据二级结构含量的主要区别来区分蛋白质,可以明显发现区分度的提升。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢