蛋白质与DNA的相互作用在生物系统中起着至关重要的作用,确定蛋白质与DNA的结合位点是对各种生物活动,如转录和修复,进行机理理解和设计新型药物的第一步。如何从蛋白质序列中准确识别DNA结合残基仍然是一项具有挑战性的任务。目前,大多数现有的基于序列的方法只考虑了顺序相邻的上下文特征,这对捕捉空间信息是有限的。基于最近AlphaFold2在蛋白质结构预测方面的突破,本文提出了一个精确的预测器GraphSite,用于识别基于AlphaFold2预测的结构模型的DNA结合残基。作者将结合位点预测问题转化为图节点分类任务,并采用基于Transformer的预训练模型,将蛋白质结构信息和AlphaFold2表征考虑在内。通过利用预测的蛋白质结构和图transformer,GraphSite大大改善了基于序列和结构的最新方法。该算法在181种蛋白质的独立测试集上得到进一步证实,GraphSite在AUPR和MCC上分别超过了最先进的基于结构的方法16.4%和11.2%。
上图显示了GraphSite的整体结构。蛋白质序列被输入到AlphaFold2以产生的蛋白表征和预测的蛋白质结构,从中提取距离图和DSSP。然后,单一表征、DSSP和序列衍生的特征PSSM和HMM被连接起来,形成节点特征向量,然后将其输入到具有k-nearest mask的距离图的图transformer模型,以学习DNA结合点模式。
上图展示了GraphSite与SOTA方法在两个测试集上的性能比较。GraphSite仍然明显优于其他所有方法,包括使用原生蛋白质结构的基于结构的方法。另一方面,当使用预测的结构作为输入时,本文的方法在AUPR和MCC上分别超过了最好的基于结构的方法GraphBind 16.4%和11.2%。这表明本文的方法是实用的,对于只有蛋白质序列而不是原生结构的情况,本文的方法要强大得多。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢