Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering

2024年04月24日
  • 简介
    蛋白质对于生命过程至关重要,支撑着生物进化和多样性。测序技术的进步已经揭示了数百万种蛋白质,强调了需要先进的预训练蛋白质模型来进行生物分析和人工智能开发。Facebook的ESM2是迄今为止最先进的蛋白质语言模型,利用掩码预测任务进行无监督学习,具有显著的生化准确性,为氨基酸表示打下了基础。然而,它在提供功能性蛋白质洞见方面还存在不足,这表明有机会提高表示质量。我们的研究通过将蛋白质家族分类纳入ESM2的训练中来解决这一差距。这种方法加上基于社区传播的聚类算法,提高了全局蛋白质表示,而上下文预测任务则微调了局部氨基酸的准确性。值得注意的是,我们的模型在几个下游实验中取得了最先进的结果,展示了将全局和局部方法相结合,大幅提高蛋白质表示质量的能力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提高预训练蛋白质模型的表示质量,以更好地支持生物分析和人工智能开发。作者通过将蛋白质家族分类纳入ESM2的训练中来解决其在提供功能性蛋白质见解方面的不足。
  • 关键思路
    本论文的关键思路是将蛋白质家族分类和基于社区传播的聚类算法融入ESM2的训练中,以提高全局蛋白质表示的质量,并通过上下文预测任务来微调局部氨基酸的准确性。
  • 其它亮点
    本论文的模型在多个下游实验中取得了最先进的结果,同时还提供了开源代码和数据集。作者指出,这种全局和局部相结合的方法可以大大提高蛋白质表示质量,值得进一步研究。
  • 相关研究
    在最近的相关研究中,还有一些关于预训练蛋白质模型的工作,如TAPE和UniRep。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问