Structure Language Models for Protein Conformation Generation

2024年10月24日
  • 简介
    蛋白质采用多种结构构象以执行其多样的生物功能,理解这些构象对于推进药物发现至关重要。传统的基于物理的模拟方法通常在采样平衡构象方面遇到困难,并且计算成本高昂。最近,深度生成模型在生成蛋白质构象方面展现出潜力,成为一种更高效的替代方法。然而,这些方法主要依赖于三维几何空间内的扩散过程,这通常集中在亚稳态附近,运行时间上往往效率低下。在本文中,我们引入了结构语言建模(SLM)作为高效生成蛋白质构象的新框架。具体而言,首先使用离散变分自编码器将蛋白质结构编码到一个紧凑的潜在空间中,然后通过条件语言建模有效捕捉序列特异性构象分布。这使得与现有方法相比,能够更高效且可解释地探索多样化的集合模式。基于这一通用框架,我们使用各种流行的语言模型架构实例化SLM,并提出了一种新的类似BERT的结构语言模型ESMDiff,该模型从ESM3进行掩码扩散微调。我们在多种场景中验证了我们的方法,包括BPTI的平衡动力学、构象变化对以及内在无序蛋白。SLM提供了一种高效的解决方案,在生成多样化构象方面比现有方法快20-100倍,为未来研究开辟了有前景的方向。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决传统物理模拟方法在生成蛋白质结构时遇到的采样效率低和计算成本高的问题。这是一个长期存在的挑战,特别是在需要探索蛋白质多种构象以促进药物发现的研究中。
  • 关键思路
    论文提出了一种名为Structure Language Modeling (SLM) 的新框架,通过将蛋白质结构编码到一个紧凑的潜在空间中,并利用条件语言模型来捕捉特定序列的构象分布,从而更高效地生成蛋白质构象。与现有的基于扩散的方法相比,SLM能够更有效地探索多样化的构象模式。
  • 其它亮点
    论文设计了一系列实验,包括BPTI的平衡动力学、构象变化对和内在无序蛋白的测试,验证了SLM的有效性和高效性。实验结果显示,SLM比现有方法快20-100倍。此外,论文还提出了ESMDiff,这是一种从ESM3预训练模型中微调得到的BERT-like结构语言模型,专门用于掩码扩散任务。论文提供了开源代码,为未来的研究提供了基础。
  • 相关研究
    近期在蛋白质结构生成领域的一些相关研究包括:1.《Diffusion Models for Protein Structure Generation》(2022),探讨了基于扩散过程的蛋白质结构生成方法;2.《ProteinMPNN: Fast and Accurate Inverse Protein Folding Using Diffusion Models》(2022),介绍了使用扩散模型进行逆向蛋白质折叠的高效方法;3.《Generative Models for Protein Structure Prediction and Design》(2021),综述了生成模型在蛋白质结构预测和设计中的应用。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问