【标题】Improved inter-protein contact prediction using dimensional hybrid residual networks and protein language models

【作者团队】Yunda Si, Chengfei Yan

【发表时间】2021/08/08

【机 构】华中科大

【论文链接】https://doi.org/10.1101/2022.08.04.502748

【代码链接】https://github.com/ChengfeiYan/DRN-1D2D_Inter

相互作用的蛋白质之间的接触残基对的知识对于蛋白质-蛋白质相互作用(PPI)的结构特征非常有用。然而,从数十万个蛋白间残基对中准确识别出几十个接触的残基对是非常具有挑战性的,最先进的蛋白间接触预测方法的性能仍然相当有限。本文开发了一种深度学习方法DRN-1D2D_Inter,用于蛋白质间的接触预测。具体来说,我们采用了预训练的蛋白质语言模型来产生富含结构信息的输入特征,并通过维度混合残差块形成的残差网络来进行蛋白质间接触预测。本文在多个包括同源PPI和异源PPI数据集上对DRN-1D2D_Inter进行了广泛的基准测试,结果显示DRN-1D2D_Inter的表现一直明显优于两种最先进的蛋白质间接触预测方法,GLINTER和DeepHomo。后两种方法在预测中都利用了相互作用的蛋白质的原始结构,而DRN-1D2D_Inter纯粹从序列上进行预测。

上图展示了DRN-1D2D_Inter的模型架构。

DRN-1D2D_Inter的输入特征可分为四类:从相互作用蛋白的序列中提取的一维序列特征,从相互作用蛋白的同源序列的MSA中提取的一维序列特征,从pair序列中提取的二维蛋白间pair特征和从pair的MSA中提取的二维蛋白间pair特征。

具体来说,给定一个由两个相互作用的蛋白质形成的PPI,其序列长度分别为LA和LB,从相互作用的蛋白质的序列中提取的一维序列特征包括来自ESM-1b的两个序列的嵌入。从两个相互作用的蛋白质的MSA中提取的一维顺序特征包括位置特异性评分矩阵(PSSM)和从ESM-MSA-1b输出的MSA嵌入。从pair序列中提取的二维蛋白间pair特征包括ESM-1b生成的660个蛋白间注意力图。从pair的MSA中得出的二维蛋白间pair特征包括ESM-MSA-1b产生的144个蛋白间注意力图,由CCMpred计算的蛋白间进化耦合矩阵,蛋白间相互信息矩阵,APC校正的相互信息矩阵和MetaPSICOV中提供的alnstats计算的接触势能矩阵(即蛋白间共进化特征)。在输入到DRN-1D2D_Inter网络之前,首先将每个相互作用的蛋白质的所有一维顺序特征连接起来,形成相互作用的蛋白质的一维表示,维度分别为(LA,2068)和(LB,2068),然后通过外连接将其转换为二维的成对特征图,维度为(LA, LB, 4136)。最后,将转换后的二维特征图与其他所有蛋白质间的二维特征结合起来,形成DRN-1D2D_Inter((LA, LB, 4944))的二维输入特征图。

然后,输入特征由维度混合残差块形成的维度混合残差网络进行转换。本文将1D卷积核的长度从9增加到15,因为发现使用较长的1D核可以略微提高模型的性能。在网络开始时,使用核大小为1*1的卷积层,将输入特征的通道数从4944减少到96。在9个1D2D块之后,使用核大小为1*1的另一个卷积层将通道数从96个转变为1个,然后应用sigmoid层来产生预测的蛋白间接触图。

上图展示了DRN-1D2D_Inter在HomoPDB和HeteroPDB测试集的消融实验。

a图:在HomoPDB和HeteroPDB上,不同消融研究模型对基线模型(模型a)的前50个预测接触的平均精度的增加。

由于DRN-1D2D_Inter的输入特征可以归纳为四类。(1)来自相互作用蛋白序列的一维特征(ESM-1b嵌入),(2)来自相互作用蛋白同源序列MSA的一维特征(PSSM + ESM-MSA-1b嵌入),(3)来自pair序列的二维特征(ESM-1b注意力)。(4)来自pairMSA的二维特征(CCMpred + alnstats + ESM-MSA-1b里),笨呢在应用DRN-1D2D_Inter的四类输入特征的不同组合作为其输入特征的情况下,又训练了四个模型。具体来说,以应用特征类别1)为基线,我们陆续在模型中加入了三个额外的特征类别(模型a:特征(1);模型b:特征(1)+(2);模型c:特征(1)+(2)+(3);模型d:特征(1)+(2)+(3)+(4))。所有这四个模型都是使用与DRN-1D2D_Inter相同的流程在相同的训练和验证分区上训练的,没有交叉验证。另外本文进一步评估了四个模型与DRN-1D2D_inter(模型e:模型d+交叉验证)在HomoPDB和HeteroPDB上的表现。

可以看出,基线模型已经取得了与DeepHomo和GLINTER相差无几的性能,尽管基线模型只使用序列嵌入作为输入特征。从表中也可以看出,加入额外的输入特征和交叉验证都提高了模型的性能,除了序列嵌入外,来自pairMSA的二维特征也对模型的性能起着非常重要的作用。

b-c图:在HomoPDB和HeteroPDB中展示了模型c和模型d对每个目标的前50个预测的蛋白间接触的精确度比较,可以清楚地看到,纳入pairMSA的二维特征后,明显提高了模型的性能。

 

创新点

  • 本文采用蛋白质语言模型生成结构信息丰富的特征,而不是直接从单体结构中提取结构特征,这使得我们可以纯粹从序列中进行蛋白间接触预测
  • 本文利用维度混合残差块而不是传统的二维残差块来构建残差网络,之前的研究表明,应用维度混合残差块可以增加网络的有效感受野,从而提高模型性能。