Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation

2024年05月30日
  • 简介
    本文介绍了一种新型序列条件下的SE(3)-等变流匹配模型——FoldFlow-2,用于蛋白质结构生成。蛋白质是几乎所有生物过程的必需品,其多样的功能来自于复杂的三维结构,而这些结构又是由它们的氨基酸序列决定的。FoldFlow-2相比之前的FoldFlow系列模型具有显著的新型架构特征,包括用于编码序列的大型蛋白质语言模型、结构和序列表示的新型多模式融合主干以及基于几何变换器的解码器。为了增加生成样本的多样性和新颖性,从而对于新药研发至关重要,我们在一个比之前的PDB数据集大一个数量级的新数据集上对FoldFlow-2进行了大规模训练,其中包括PDB中已知的蛋白质和通过过滤获得的高质量合成结构。我们进一步证明了将FoldFlow-2对齐到任意奖励(例如增加二级结构多样性)的能力,通过引入强化微调(ReFT)目标。我们经验性地观察到,FoldFlow-2在无条件生成方面优于以往最先进的基于蛋白质结构的生成模型,包括设计能力、多样性和新颖性等所有指标,同时在所有蛋白质长度上展现出了泛化能力,在平衡构象采样任务上也表现出色。最后,我们证明了经过精细调整的FoldFlow-2在挑战性的条件设计任务中取得了进展,例如设计VHH纳米抗体的支架。
  • 作者讲解
  • 图表
  • 解决问题
    FoldFlow-2是一种新型的序列条件SE(3)-等变流匹配模型,用于生成蛋白质结构。该论文试图解决的问题是如何通过蛋白质的氨基酸序列生成其三维结构,以便更好地理解蛋白质的功能和设计新的药物。这是一个相对较新的问题,需要不断进行研究和探索。
  • 关键思路
    FoldFlow-2的关键思路是利用氨基酸序列的生物学归纳偏见,结合新的架构特征,包括蛋白质大型语言模型、多模态融合主干和基于几何变换的解码器,生成蛋白质的结构。此外,通过在一个比之前的数据集大一个数量级的数据集上进行训练,并引入增强微调目标,提高生成样本的多样性和新颖性。
  • 其它亮点
    论文的亮点包括:1. 引入了一种新型的序列条件SE(3)-等变流匹配模型,可以生成高质量的蛋白质结构;2. 使用了比之前更大的数据集进行训练,并引入增强微调目标,提高了生成样本的多样性和新颖性;3. 在多个指标上,FoldFlow-2都优于之前的蛋白质结构生成模型,表现出更好的设计性、多样性和新颖性;4. 论文还尝试了一些有趣的条件设计任务,如为VHH纳米体设计支架。
  • 相关研究
    与此论文相关的其他研究包括:1. RFDiffusion:一种基于扩散的生成模型,用于生成蛋白质结构;2. AlphaFold:一种基于深度学习的蛋白质结构预测模型;3. TrRosetta:一种基于残基共现的蛋白质结构预测模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问