上图展示了DRN-1D2D_Inter的模型架构。
DRN-1D2D_Inter的输入特征可分为四类:从相互作用蛋白的序列中提取的一维序列特征,从相互作用蛋白的同源序列的MSA中提取的一维序列特征,从pair序列中提取的二维蛋白间pair特征和从pair的MSA中提取的二维蛋白间pair特征。
具体来说,给定一个由两个相互作用的蛋白质形成的PPI,其序列长度分别为LA和LB,从相互作用的蛋白质的序列中提取的一维序列特征包括来自ESM-1b的两个序列的嵌入。从两个相互作用的蛋白质的MSA中提取的一维顺序特征包括位置特异性评分矩阵(PSSM)和从ESM-MSA-1b输出的MSA嵌入。从pair序列中提取的二维蛋白间pair特征包括ESM-1b生成的660个蛋白间注意力图。从pair的MSA中得出的二维蛋白间pair特征包括ESM-MSA-1b产生的144个蛋白间注意力图,由CCMpred计算的蛋白间进化耦合矩阵,蛋白间相互信息矩阵,APC校正的相互信息矩阵和MetaPSICOV中提供的alnstats计算的接触势能矩阵(即蛋白间共进化特征)。在输入到DRN-1D2D_Inter网络之前,首先将每个相互作用的蛋白质的所有一维顺序特征连接起来,形成相互作用的蛋白质的一维表示,维度分别为(LA,2068)和(LB,2068),然后通过外连接将其转换为二维的成对特征图,维度为(LA, LB, 4136)。最后,将转换后的二维特征图与其他所有蛋白质间的二维特征结合起来,形成DRN-1D2D_Inter((LA, LB, 4944))的二维输入特征图。
然后,输入特征由维度混合残差块形成的维度混合残差网络进行转换。本文将1D卷积核的长度从9增加到15,因为发现使用较长的1D核可以略微提高模型的性能。在网络开始时,使用核大小为1*1的卷积层,将输入特征的通道数从4944减少到96。在9个1D2D块之后,使用核大小为1*1的另一个卷积层将通道数从96个转变为1个,然后应用sigmoid层来产生预测的蛋白间接触图。
上图展示了DRN-1D2D_Inter在HomoPDB和HeteroPDB测试集的消融实验。
a图:在HomoPDB和HeteroPDB上,不同消融研究模型对基线模型(模型a)的前50个预测接触的平均精度的增加。
由于DRN-1D2D_Inter的输入特征可以归纳为四类。(1)来自相互作用蛋白序列的一维特征(ESM-1b嵌入),(2)来自相互作用蛋白同源序列MSA的一维特征(PSSM + ESM-MSA-1b嵌入),(3)来自pair序列的二维特征(ESM-1b注意力)。(4)来自pairMSA的二维特征(CCMpred + alnstats + ESM-MSA-1b里),笨呢在应用DRN-1D2D_Inter的四类输入特征的不同组合作为其输入特征的情况下,又训练了四个模型。具体来说,以应用特征类别1)为基线,我们陆续在模型中加入了三个额外的特征类别(模型a:特征(1);模型b:特征(1)+(2);模型c:特征(1)+(2)+(3);模型d:特征(1)+(2)+(3)+(4))。所有这四个模型都是使用与DRN-1D2D_Inter相同的流程在相同的训练和验证分区上训练的,没有交叉验证。另外本文进一步评估了四个模型与DRN-1D2D_inter(模型e:模型d+交叉验证)在HomoPDB和HeteroPDB上的表现。
可以看出,基线模型已经取得了与DeepHomo和GLINTER相差无几的性能,尽管基线模型只使用序列嵌入作为输入特征。从表中也可以看出,加入额外的输入特征和交叉验证都提高了模型的性能,除了序列嵌入外,来自pairMSA的二维特征也对模型的性能起着非常重要的作用。
b-c图:在HomoPDB和HeteroPDB中展示了模型c和模型d对每个目标的前50个预测的蛋白间接触的精确度比较,可以清楚地看到,纳入pairMSA的二维特征后,明显提高了模型的性能。
创新点
- 本文采用蛋白质语言模型生成结构信息丰富的特征,而不是直接从单体结构中提取结构特征,这使得我们可以纯粹从序列中进行蛋白间接触预测
- 本文利用维度混合残差块而不是传统的二维残差块来构建残差网络,之前的研究表明,应用维度混合残差块可以增加网络的有效感受野,从而提高模型性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢