Proteina: Scaling Flow-based Protein Structure Generative Models

2025年03月02日
  • 简介
    最近,基于扩散和流动的蛋白质结构生成模型已成为从头设计蛋白质的强大工具。在此基础上,我们开发了Proteina,这是一种新的大规模基于流动的蛋白质主链生成器,它利用分层折叠类标签进行条件化,并依赖于一种定制的可扩展变压器架构,其参数量最多为先前模型的5倍。为了有意义地量化性能,我们引入了一组新的指标,这些指标直接测量生成的蛋白质与参考集之间的分布相似性,从而补充现有的指标。我们进一步探索将训练数据扩展到数百万个合成蛋白质结构,并研究改进的训练和采样方法,以适应蛋白质主链生成。这包括针对蛋白质主链的微调策略(如LoRA),以及新的引导方法(如无分类器引导和自引导)和新的调整后的训练目标。Proteina在从头设计蛋白质主链方面达到了最先进的性能,能够以前所未有的长度(最多800个残基)生成多样且可设计的蛋白质。分层条件化提供了新的控制手段,使高级别的二级结构引导和低级别的特定折叠生成成为可能。
  • 图表
  • 解决问题
    该论文旨在解决蛋白质从头设计中的结构生成问题,特别是如何利用深度学习模型生成具有高保真度和多样性的蛋白质主链结构。这是一个在生物医学和药物设计领域非常重要的问题,并且随着蛋白质结构预测的需求增加,它变得愈发关键。
  • 关键思路
    Proteina引入了一种新的基于流的生成模型,该模型使用分层折叠类别标签进行条件化,并采用定制的大规模可扩展Transformer架构。相比于先前的模型,Proteina拥有高达5倍的参数量,从而增强了模型的表达能力和生成能力。此外,它还提出了新的评估指标来衡量生成的蛋白质与参考集之间的分布相似性,以及改进了训练和采样方法以适应蛋白质主链生成。
  • 其它亮点
    1. Proteina实现了前所未有的长链(长达800个残基)蛋白质的设计。 2. 提出了新的评估标准,直接测量生成蛋白质与真实数据间的分布相似性。 3. 引入了多种创新技术,如LoRA微调、无分类器引导及自引导等。 4. 论文开源了代码和预训练模型,促进了后续研究的发展。 5. 实验设计包括大规模合成蛋白质结构的数据集,展示了模型在不同条件下的性能。
  • 相关研究
    近年来,在蛋白质结构预测和生成方面有许多相关研究,例如: - AlphaFold2: 使用深度学习预测蛋白质三维结构,取得了重大突破。 - RoseTTAFold: 提出了一种快速准确的蛋白质结构预测方法。 - ProteinMPNN: 利用神经网络生成高质量的蛋白质序列。 - Diffusion-based models for protein structure generation: 探索了扩散模型在蛋白质结构生成中的应用。 这些工作为Proteina的发展提供了坚实的基础,并推动了整个领域的进步。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论