【论文标题】Protein embeddings and deep learning predict binding residues for various ligand classes

【作者团队】Maria Littmann, Michael Heinzinger, Christian Dallago, Konstantin Weissenow, Burkhard Rost

【发表时间】2021/09/05

【机 构】慕尼黑工业大学

【论文链接】https://doi.org/10.1101/2021.09.03.458869

【代码链接】https://github.com/Rostlab/bindPredict

研究蛋白质功能的一个重要方面是蛋白质与配体的结合,包括小分子、金属离子和大分子,如DNA或RNA。尽管有几十年的实验进展,许多结合点仍然不明显。本文提出了bindEmbed21,一种预测蛋白质残基是否与金属离子、核酸或小分子结合的方法。这种基于人工智能的方法完全使用基于Transformer的蛋白质语言模型ProtT5的嵌入作为输入,只使用单一序列而不使用多重序列比对(MSA)信息,其性能优于现有的基于MSA的方法,与基于同源性的推理相结合后其总体性能可以达到F1值45%。模型预测的结合残基也可以补充实验证据,预测前25%的结合残基,至少有73%是正确预测的。最后,它在所有人类蛋白质中发现了超过42%的没有出现的结合残基。

 

上图显示了数据集DevSet1014(交叉验证集,最浅的颜色),TestSet300(固定测试集,较深的颜色),以及TestSetNew46(额外测试集,最深的颜色)的结果情况。预测残基与A.金属离子、B.核酸、C.小分子和D.任何配体类结合的情况,将所有三个类归为一类,即将预测/观察到的每个残基与三个配体类之一结合的情况视为结合,其他都为非结合。在交叉训练集DevSet1014上,bindEmbed21DL预测了任何结合残基,F1=39±2%。令人惊讶的是,这个数字在测试集TestSet300中略高(F1=43±2%),而在额外的测试集TestSetNew46中则相似(F1=37±6%)

内容中包含的图片若涉及版权问题,请及时与我们联系删除