自从AlphaFold2发布后,对数百万种蛋白质三维结构的预测可以很快完成。然而,许多蛋白质有所谓的内在无序区(IDRs),它们没有明确的三维结构却具有特定生物学功能。这些IDRs与一些疾病,包括阿尔茨海默病有关。许多专家方法通过将复杂的机器学习模型与专家制作的输入特征和来自多重序列比对的进化信息相结合预测IDRs。这些输入特征中的一些并不总是可用的,而且生成时的计算成本很高,限制了它们的应用。本文提出了新的预测方法SETH,它从只使用单一序列作为输入的蛋白质语言模型Prot5产生的嵌入结合一个相对较浅的卷积神经网络中预测残基无序性,效果已经超过了更复杂的最先进的解决方案。另一方面SETH速度更快,可以在一台有48GB的RTX A6000 GPU的机器上,在不到30分钟内对人类蛋白质组做出预测。本文的方法捕捉到了无序性的微妙变化,从而展现了超越其他预测器的表现。
上图展示了对五个pLMs的线性回归效果。本文对CheZOD1174(Dass et al,2020,基于核磁共振测量)进行训练和测试,使用来自五个蛋白质语言模型(pLMs)的原始嵌入(没有进一步的优化)进行线性回归,五种plm即ProtT5、ProtBERT、ESM-1b、ProSE、SeqVec。第六行是从标准正态分布中随机抽样的1024维嵌入所计算的基线/随机预测。图A描述了使用观察和预测的CheZOD分数计算出的Spearman相关系数,图B为将分数二分类为无序(CheZOD分数≤8)/有序(CheZOD分数>8)后测量得到的AUC。
上图展示了由t-SNE揭示的嵌入信息。本文对CheZOD117测试集(13,069个残基)中所有序列的1024维ProtT5残基嵌入进行t-SNE降维,从ProtT5的最后一个注意层提取。图A显示了按顺序(CheZOD得分>8;红色)和无序(CheZOD得分≤8,蓝色)着色的嵌入。图B显示了相同的t-SNE投影,但按20种标准氨基酸类型着色。
上图展示了基于pLM的表现。
本文介绍的所有方法(SETH、ANN、LinReg、LogReg、LinReg1D)为红色,ODiNPred对比服务器方法为灰色,AlphaFold2(使用其pLDDT得分)为蓝色。本文的三个模型(SETH、ANN、LinReg/LinReg1D)和ODiNPred是根据连续的化学位移Z-scores(CheZOD分数)训练的,而LogReg是根据有序/无序的二元分类训练的逻辑回归。虚线将使用多序列比对的进化信息的模型(上)与基于单序列的方法(下)分开。
创新点
1. 本文专门使用来自蛋白质语言模型ProtT5的嵌入来预测由CheZOD分数代理的每残基蛋白质的无序/有序。最好的方法被称为SETH,它在连续的尺度上捕捉到了无序的细微差别,并利用从多序列比对中得到的进化信息超过了最先进的方法。
2.未经优化的嵌入带有关于无序的重要信息,以至于1024个维度中的大部分都很重要。由于SETH只使用单个蛋白质序列的嵌入,它很容易扩展到整个蛋白质组的分析,例如,所有人类蛋白质的无序性可以在不到30分钟内被预测。
3.尽管AlphaFold2预测的pLDDT在某种程度上与无序相关,但低pLDDT和CheZOD分数之间的相关性比SETH的预测差得多。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢