慕尼黑工业大学 | 蛋白质嵌入和深度学习预测配体结合残基

【论文标题】Protein embeddings and deep learning predict binding residues for various ligand classes

【作者团队】Maria Littmann, Michael Heinzinger, Christian Dallago, Konstantin Weissenow, Burkhard Rost

【发表时间】2021/09/05

【机构】慕尼黑工业大学

【论文链接】https://doi.org/10.1101/2021.09.03.458869

【代码链接】https://github.com/Rostlab/bindPredict

研究蛋白质功能的一个重要方面是蛋白质与配体的结合，包括小分子、金属离子和大分子，如DNA或RNA。尽管有几十年的实验进展，许多结合点仍然不明显。本文提出了bindEmbed21，一种预测蛋白质残基是否与金属离子、核酸或小分子结合的方法。这种基于人工智能的方法完全使用基于Transformer的蛋白质语言模型ProtT5的嵌入作为输入，只使用单一序列而不使用多重序列比对（MSA）信息，其性能优于现有的基于MSA的方法，与基于同源性的推理相结合后其总体性能可以达到F1值45%。模型预测的结合残基也可以补充实验证据，预测前25%的结合残基，至少有73%是正确预测的。最后，它在所有人类蛋白质中发现了超过42%的没有出现的结合残基。

上图显示了数据集DevSet1014（交叉验证集，最浅的颜色），TestSet300（固定测试集，较深的颜色），以及TestSetNew46（额外测试集，最深的颜色）的结果情况。预测残基与A.金属离子、B.核酸、C.小分子和D.任何配体类结合的情况，将所有三个类归为一类，即将预测/观察到的每个残基与三个配体类之一结合的情况视为结合，其他都为非结合。在交叉训练集DevSet1014上，bindEmbed21DL预测了任何结合残基，F1=39±2%。令人惊讶的是，这个数字在测试集TestSet300中略高（F1=43±2%），而在额外的测试集TestSetNew46中则相似（F1=37±6%）

内容中包含的图片若涉及版权问题，请及时与我们联系删除

慕尼黑工业大学 | 蛋白质嵌入和深度学习预测配体结合残基

评论列表

评论