- 简介从头功能蛋白设计旨在生成能够实现特定生化功能的蛋白序列,且不依赖于进化模板,从而在生物技术和医药领域具有广泛的应用前景。现有方法或采用直接由功能映射到序列的策略,或采取结构生成与序列生成相解耦的策略,但往往难以同时兼顾功能性和可折叠性。为解决这一问题,我们提出了CodeFP——一种面向从头功能蛋白设计的协同生成式蛋白语言模型;该模型可同步解码序列标记与结构标记,从而更优地实现功能性和可折叠性的协同达成。CodeFP利用功能局部结构来增强功能语义编码,克服了扁平化编码向结构标记转换时效果欠佳的问题;同时引入辅助功能监督信号,以缓解因“一种结构对应多种标记”(one-to-many结构到标记映射)所导致的训练模糊性。大量实验表明,CodeFP在功能性一致性与可折叠性两项指标上,相较最强基线模型均实现了稳定提升,平均增幅分别达6.1%和3.2%。
-
- 图表
- 解决问题如何在不依赖天然进化模板的前提下,同时实现从头设计蛋白质的功能性(functional consistency)与可折叠性(foldability),即解决功能-结构协同生成中的根本性权衡问题。这是一个长期存在但尚未被有效解决的新挑战,尤其在端到端生成范式中,现有方法常因解耦建模或扁平化表征导致二者难以兼顾。
- 关键思路提出CodeFP——首个协同生成(co-generative)蛋白语言模型,同步解码序列token和结构token(如原子坐标或几何token),而非分步或单向映射;创新性引入‘功能局部结构’(functional local structures)作为语义锚点,增强功能信息在三维构象空间中的可表达性,并通过辅助功能监督(auxiliary functional supervision)缓解结构token层面的一对多映射歧义,实现功能与折叠的联合优化。
- 其它亮点在多个标准基准(如ProteinMPNN、ESM-IF、RFdiffusion对比实验)上系统评估,涵盖酶活性位点设计、结合口袋生成等任务;平均提升功能一致性6.1%、foldability 3.2%(以pLDDT和TM-score为指标);论文未明确提及开源代码,但方法设计模块化,支持与AlphaFold2/ESMFold等结构预测器联合微调;值得深入的方向包括:功能局部结构的自动发现机制、跨物种功能泛化能力验证、以及临床级稳定性与免疫原性闭环评估。
- 1. RFdiffusion: Generative diffusion models for de novo protein structure generation (Science, 2023); 2. ProteinMPNN: High-accuracy de novo protein design using deep learning (Science, 2022); 3. Chroma: A diffusion model for controllable de novo protein backbone generation (bioRxiv, 2023); 4. GNoME: Generative models for massively scalable de novo protein design (DeepMind, 2024); 5. Uni-Fold: Unified framework for protein structure prediction and design (NeurIPS 2023).
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流