ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling

2024年03月05日
  • 简介
    蛋白质语言模型已经在蛋白质工程领域展示了重要潜力。然而,目前的蛋白质语言模型主要在残基层面上运作,这限制了它们在原子层面上提供信息的能力。这种限制阻碍了我们充分利用蛋白质语言模型在涉及蛋白质和小分子的应用中的能力。在本文中,我们提出了一种新方法ESM-AA(ESM全原子),它能够实现原子层面和残基层面统一的分子建模。ESM-AA通过在多尺度代码切换蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系来实现这一目标。实验结果表明,ESM-AA在蛋白质-分子任务中超过了以前的方法,展示了蛋白质语言模型的充分利用。进一步的研究揭示,通过统一的分子建模,ESM-AA不仅获得了分子知识,而且还保留了对蛋白质的理解。ESM-AA的源代码已公开发布在https://github.com/zhengkangjie/ESM-AA。
  • 图表
  • 解决问题
    ESM-AA论文旨在解决当前蛋白质语言模型在残基层面上的局限性,无法提供原子层面的信息,限制了其在蛋白质和小分子应用中的能力。
  • 关键思路
    ESM-AA通过预训练多尺度代码切换蛋白质序列,并利用多尺度位置编码来捕捉残基和原子之间的关系,实现了原子层面和残基层面的统一分子建模。
  • 其它亮点
    ESM-AA在蛋白质-小分子任务中超越了以前的方法,展示了蛋白质语言模型的全部利用。该论文公开了ESM-AA的源代码,并使用了多个数据集进行了实验验证。
  • 相关研究
    在这个领域中,最近的相关研究包括UniRep、TAPE、ProtTrans等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论