Co-Generative De Novo Functional Protein Design

向作者提问

NEW

简介

从头功能蛋白设计旨在生成能够实现特定生化功能的蛋白序列，且不依赖于进化模板，从而在生物技术和医药领域具有广泛的应用前景。现有方法或采用直接由功能映射到序列的策略，或采取结构生成与序列生成相解耦的策略，但往往难以同时兼顾功能性和可折叠性。为解决这一问题，我们提出了CodeFP——一种面向从头功能蛋白设计的协同生成式蛋白语言模型；该模型可同步解码序列标记与结构标记，从而更优地实现功能性和可折叠性的协同达成。CodeFP利用功能局部结构来增强功能语义编码，克服了扁平化编码向结构标记转换时效果欠佳的问题；同时引入辅助功能监督信号，以缓解因“一种结构对应多种标记”（one-to-many结构到标记映射）所导致的训练模糊性。大量实验表明，CodeFP在功能性一致性与可折叠性两项指标上，相较最强基线模型均实现了稳定提升，平均增幅分别达6.1%和3.2%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在不依赖天然进化模板的前提下，同时实现从头设计蛋白质的功能性（functional consistency）与可折叠性（foldability），即解决功能-结构协同生成中的根本性权衡问题。这是一个长期存在但尚未被有效解决的新挑战，尤其在端到端生成范式中，现有方法常因解耦建模或扁平化表征导致二者难以兼顾。
关键思路

提出CodeFP——首个协同生成（co-generative）蛋白语言模型，同步解码序列token和结构token（如原子坐标或几何token），而非分步或单向映射；创新性引入‘功能局部结构’（functional local structures）作为语义锚点，增强功能信息在三维构象空间中的可表达性，并通过辅助功能监督（auxiliary functional supervision）缓解结构token层面的一对多映射歧义，实现功能与折叠的联合优化。
其它亮点

在多个标准基准（如ProteinMPNN、ESM-IF、RFdiffusion对比实验）上系统评估，涵盖酶活性位点设计、结合口袋生成等任务；平均提升功能一致性6.1%、foldability 3.2%（以pLDDT和TM-score为指标）；论文未明确提及开源代码，但方法设计模块化，支持与AlphaFold2/ESMFold等结构预测器联合微调；值得深入的方向包括：功能局部结构的自动发现机制、跨物种功能泛化能力验证、以及临床级稳定性与免疫原性闭环评估。
相关研究

1. RFdiffusion: Generative diffusion models for de novo protein structure generation (Science, 2023); 2. ProteinMPNN: High-accuracy de novo protein design using deep learning (Science, 2022); 3. Chroma: A diffusion model for controllable de novo protein backbone generation (bioRxiv, 2023); 4. GNoME: Generative models for massively scalable de novo protein design (DeepMind, 2024); 5. Uni-Fold: Unified framework for protein structure prediction and design (NeurIPS 2023).

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问