- 简介蛋白质折叠模型通常通过将领域知识融入架构模块和训练流程,取得了突破性成果。然而,鉴于生成模型在其他相关问题上已取得成功,人们自然会质疑这些特定的架构设计是否是构建高性能模型的必要条件。本文提出了SimpleFold,这是首个基于流匹配(flow-matching)的蛋白质折叠模型,仅使用通用的Transformer模块。传统的蛋白质折叠模型通常采用计算成本高昂的模块,例如三角更新、显式的残基对表示,或针对该领域精心设计的多个训练目标。相比之下,SimpleFold仅使用标准的Transformer模块并结合自适应层,并通过一个包含额外结构项的生成式流匹配目标进行训练。我们将SimpleFold扩展至30亿参数,并在约900万个蒸馏得到的蛋白质结构数据以及实验PDB数据上进行了训练。在标准折叠基准测试中,SimpleFold-3B的表现与当前最先进的基线模型相当;此外,SimpleFold在集成预测方面表现出色,而这一点对于采用确定性重构目标训练的模型而言通常是难以实现的。得益于其通用架构,SimpleFold在消费级硬件上的部署和推理过程均展现出较高的效率。SimpleFold挑战了蛋白质折叠领域对复杂、特定领域架构的依赖,为未来的发展开辟了一种全新的设计思路。
- 解决问题蛋白质折叠模型通常依赖复杂的领域特定架构(如三角更新、显式对表示或多目标训练),这些设计虽然有效但计算开销大且难以部署。论文试图验证:是否可以在不使用这些复杂模块的情况下,仅依靠通用Transformer结构和生成式建模方法构建高性能的蛋白质折叠模型?这是一个具有挑战性的问题,尤其是在追求高效、可扩展和通用架构的趋势下。
- 关键思路提出SimpleFold,首个基于流匹配(flow-matching)的蛋白质折叠模型,完全采用标准的通用Transformer块,结合自适应层和生成式训练目标(流匹配+结构项),摒弃了传统方法中的领域特定组件。其关键创新在于用纯粹的序列建模框架解决三维结构预测问题,证明复杂先验设计并非性能的必要条件。
- 其它亮点SimpleFold规模达30亿参数,在约900万蒸馏蛋白结构与实验PDB数据上训练;在标准折叠基准上表现媲美当前最优模型,并在集成预测任务中展现出优于确定性重建模型的稳定性与多样性;模型更易于部署,可在消费级硬件上进行推理;代码与模型有望推动通用架构在生物结构预测中的应用,后续可探索更大规模预训练、跨模态泛化及实际药物设计场景。
- 1. AlphaFold2: Using Deep Learning for Accurate Protein Structure Prediction 2. Evoformer-Based Models in Protein Structure Prediction: A New Era of Sequence-Structure Modeling 3. Protein Structure Prediction with Diffusion Models 4. Language Models Are One Model Away from General-Purpose Molecular Representations 5. Geometric Deep Learning for Protein Structure Prediction: Progress and Challenges
沙发等你来抢
去评论
评论
沙发等你来抢