——前言——
从头蛋白质设计(de novo protein design)领域正经历一场由深度学习驱动的范式转变。过去数十年间,蛋白质设计从依赖随机筛选与直觉引导的早期阶段,逐步演进为以计算方法为核心的精准设计策略。近年来,随着 RFdiffusion、ProteinMPNN 和 AlphaFold 等开源工具的成熟与推广,生化学家和分子生物学家得以在无需深厚计算背景的前提下,广泛探索蛋白质设计的应用空间。
昨日,Nature 在线发表了 David Baker 课题组最新的“The past, present and future of de novo protein design”蛋白设计综述,介绍了蛋白设计领域的最新进展。这也是他们在2016年Nature综述“The coming of age of de novo protein design”之后,时隔十年又一力作。值得一提的是,本文的第一作者是本课题组毕业的杨为博士,目前就职于深圳医学科学院,课题组相关信息见文末。
这篇综述指出,蛋白质设计领域的三大基础挑战——结构设计、组装体设计和蛋白质结合剂设计——已经接近或基本得到解决。该领域的核心问题正从"如何设计蛋白质"转变为"应该设计什么蛋白质"。与此同时,小分子结合剂设计、酶催化设计和多态蛋白系统等前沿方向也取得了重大进展。展望未来五到十年,综述认为研究者们有望设计出功能远超自然进化所能产生的复杂蛋白质纳米机器,为医学、材料科学和能源领域带来变革性应用。
——方法学演进——
综述回顾蛋白设计方法从经典时代到如今生成式人工智能时代的演进。
1. 经典时代(1990s–2020)
从头蛋白质设计的早期研究主要依赖基于物理的能量函数方法。Rosetta 软件套件是这一时代的核心工具,其原理是通过力场能量最小化来搜索序列–结构空间。2003年,Baker 团队成功设计了 Top7——这是第一个不依赖任何天然蛋白质模板、完全从头设计的稳定蛋白质折叠体,标志着该领域的里程碑。然而,经典方法的瓶颈在于计算成本高昂且成功率有限,大量设计需要经过实验验证才能筛选出少数可行方案。
2. 结构预测驱动的设计(2020–2022)
AlphaFold2 和 RoseTTAFold 等蛋白质结构预测模型的突破,为蛋白质设计带来了全新范式。研究者开发了"幻觉"(hallucination)策略——通过优化输入序列,使结构预测模型以高置信度预测出目标结构,从而反向获得可折叠为目标构型的序列。这一方法将结构预测的成功转化为设计能力,显著提升了设计效率和成功率。预测模型的置信度指标(如 pLDDT 和 PAE)成为评估设计质量的重要工具。
3. 生成式 AI 时代(2022至今)
当前蛋白质设计已进入以生成式人工智能为核心的新纪元。RFdiffusion 采用去噪扩散模型,能够从随机噪声中直接生成蛋白质骨架结构;ProteinMPNN 基于图神经网络,为给定骨架设计最优氨基酸序列;AlphaFold 则用于对设计方案进行结构预测和排序。这三个工具构成了"生成–设计–验证"的三位一体流水线,已成为当前蛋白质设计的标准工作流程。在此基础上,RFdiffusion2 进一步实现了全原子级别的扩散,能够同时生成蛋白质骨架和侧链构象,并可围绕小分子配体设计结合口袋。
此外,蛋白质语言模型也为设计提供了互补途径。ESM 系列采用掩码语言模型架构,ProGen 使用自回归生成策略,还有基于离散扩散的方法和多模态联合设计模型,它们从进化序列数据中学习蛋白质的"语法",能够生成具有特定功能的序列。这些方法与结构导向的扩散模型形成互补,共同构成了当代蛋白质设计的方法学全景。
——六大设计挑战及进展——
1. 蛋白质折叠体设计(基本解决)
蛋白质折叠体设计是从头蛋白质设计的基础问题,即能否设计出能稳定折叠为预定三维结构的氨基酸序列。从2003年 Top7 的首次成功开始,该领域经过二十余年的发展,如今已能精准设计几乎所有主要折叠类型。这包括 TIM 桶状折叠(TIM barrel)、β-桶状结构(β-barrel)、跨膜蛋白以及纳米孔道蛋白等。高分辨率晶体结构验证表明,设计蛋白的实际结构与计算预测高度吻合,亚埃级精度已成常态。
折叠体设计的前沿已延伸至非天然化学空间。研究者成功将非天然氨基酸纳入设计框架,拓展了蛋白质的化学功能多样性。环肽和大环分子的设计取得了重要进展,这类分子因其潜在的口服生物利用度而在药物开发中备受关注。跨膜蛋白设计同样实现了突破,从 α-螺旋孔道到 β-桶状孔道,再到具有锌离子门控功能的转运蛋白开关,设计能力已覆盖膜蛋白的多种拓扑结构。综合而言,折叠体设计已被认为是基本解决的问题。

图一、蛋白质设计主要挑战
2. 蛋白质组装体设计(基本解决)
蛋白质组装体设计追求的是将多个蛋白质亚基精确组装成预定的高阶结构。这一方向已从简单的环状寡聚体发展到多面体蛋白质笼、一维纤维、二维阵列乃至三维蛋白质晶体,实现了从零维到三维的全维度覆盖。尤其值得注意的是,基于从头设计蛋白质纳米笼的 SKYCovione COVID-19 疫苗已获临床批准,成为首个从头设计蛋白质在临床医学中获得监管认可的里程碑事件。
近年来的技术进步使组装体设计的复杂度和功能性进一步提升。研究者成功构建了直径超过100纳米的伪对称蛋白质笼,这类笼由四种不同组分组装而成,其尺寸和复杂度已接近病毒衣壳。可重构二维蛋白质阵列能够在特定信号触发下从平面阵列转变为三维笼状结构,展现了动态响应性组装的可能。这些进展表明,蛋白质组装体设计已基本实现了从简单到复杂、从静态到动态的全面覆盖。
3. 蛋白质结合剂设计(接近解决)
设计能够以高亲和力和高特异性识别并结合靶标蛋白的结合剂,是蛋白质设计中最具应用价值的方向之一。截至该综述发表,已有超过200个不同靶标的结合剂设计成功并通过实验验证,涵盖了从抗病毒到抗癌的广泛应用领域。在抗病毒应用中,研究者设计了能够中和流感病毒、SARS-CoV-2 和 MERS 冠状病毒的蛋白质,其中部分蛋白可通过鼻喷方式给药,为传染病防控提供了新途径。
抗毒素领域同样取得了显著成果,已成功设计出针对蛇毒、肉毒素和艰难梭菌毒素的中和蛋白。在抗肿瘤领域,靶向 EGFR、HER2、PD-L1 和 FGFR4 等重要肿瘤靶标的结合剂,以及模拟 IL-2 和 IL-21 等细胞因子功能的设计蛋白,展现了从头设计在肿瘤免疫治疗中的巨大潜力。针对神经退行性疾病,设计蛋白已被证明能够抑制 β-淀粉样蛋白和 tau 蛋白的病理性聚集。此外,利用 TRIM21 和内吞诱导机制实现的靶向蛋白降解的蛋白设计策略,也为不可成药靶标的干预开辟了新路径。

图二、蛋白质结合剂设计
4. 小分子结合剂与传感器设计(快速进展中)
设计能够识别并结合小分子化合物的蛋白质,长期以来是该领域的重大挑战。传统方法在小分子结合口袋的精准构建上面临困难,因为小分子的化学多样性远超蛋白质表位。RFdiffusion2 和全原子扩散模型的出现改变了这一局面——这些方法能够直接围绕目标小分子配体生成蛋白质结构,从而实现结合口袋的定制化设计。已成功设计的靶标小分子包括阿哌沙班(抗凝药)、甲氨蝶呤(抗癌药)、地高辛(强心苷)、芬太尼(阿片类镇痛药)和皮质醇(应激激素)等,展现了广泛的化学覆盖能力。
基于小分子结合蛋白,研究者进一步开发了多种生物传感器。化学诱导二聚化(CID)传感器利用小分子作为"分子胶水",在配体存在时驱动两个蛋白质组分的组装,从而输出可检测的信号。纳米孔传感器则将设计蛋白与纳米孔技术结合,实现了对小分子的单分子级电信号检测。这些应用将蛋白质设计从结构工程推向了功能器件层面。
5. 酶催化设计(重大突破但仍有挑战)
酶催化设计是蛋白质设计中最具挑战性的方向之一,因为它不仅要求精确的结构设计,还需要在过渡态稳定化、底物结合和产物释放等动态过程中实现精准调控。经典方法采用"理论酶"(theozyme)策略,先构建理想的过渡态活性位点模型,再用 Rosetta 将其嵌入蛋白质骨架,但该方法效率较低,成功案例有限。
RFdiffusion2 与 PLACER 等新一代工具的出现,带来了酶设计领域的重大突破。研究者已成功设计出催化效率(kcat/KM)超过 10⁴ 的金属水解酶,以及多种高活性的丝氨酸水解酶、锌水解酶、荧光素酶和血红素过氧化物酶等。这些从头设计的酶在效率上已接近甚至达到天然酶的水平。然而,对于涉及高能垒反应的催化过程,设计方法仍面临根本性挑战,这也是未来需要重点攻克的方向。
6. 多态动态系统(前沿方向)
多态动态蛋白系统的设计代表了该领域最前沿的探索方向。LOCKR 系统实现了蛋白质逻辑门功能,通过"钥匙–笼"机制控制蛋白质构象的切换,已被应用于 CAR-T 细胞治疗中的 AND 逻辑门靶向策略——只有同时检测到两个肿瘤抗原时才激活 T 细胞杀伤功能,从而提高治疗的特异性和安全性。
别构开关蛋白的设计使得蛋白质功能可以被特定信号精确调控。条件激活细胞因子是这一概念的杰出应用:例如,设计的 IL-21 模拟物被"笼"状结构封锁,只有在肿瘤微环境中遇到 PD-L1 时才被释放并激活免疫功能,实现了时空特异性的免疫调控。分子机器领域同样取得了令人瞩目的进展,研究者构建了基于轴和转子的纳米旋转装置,这是向蛋白质纳米机器迈出的关键一步。此外,DNA 和 RNA 结合蛋白的设计进一步拓展了蛋白质设计在核酸生物学中的应用前景。
——未来展望与挑战——
展望未来,从头蛋白质设计有望在多个前沿方向实现突破。生物矿化模板设计可能赋予蛋白质精确控制无机材料沉积的能力,用于新型功能材料的制备。人工光合作用系统——即设计能够高效捕获光能并驱动化学反应的蛋白质——被视为解决能源问题的潜在途径。更为宏远的目标是构建蛋白质纳米机器,即由多个可动蛋白质组分协调运作的分子级装置,其功能复杂度将远超自然进化所能产生的任何蛋白质系统。

图三、新功能蛋白的设计
然而,走向广泛应用仍面临多重挑战。免疫原性问题需要在设计阶段就将免疫逃逸策略纳入考量,以确保设计蛋白在治疗应用中的安全性。大规模生产的工程化和成本控制对于实现商业化至关重要。高能垒催化反应的酶设计仍然是方法学上的瓶颈,需要对过渡态理论和蛋白质动力学有更深入的理解。此外,随着蛋白质设计能力的日益强大,伦理和生物安全考量变得愈发紧迫——如何防止设计能力被滥用于制造有害生物制剂,需要学术界和监管机构的共同关注。知识产权框架也需要适应这一快速发展的领域,以在促进创新与保护发明之间取得平衡。
综上,一个激动人心的未来图景正徐徐展开:在深度学习与计算设计的双重驱动下,从头蛋白质设计正从基础研究走向实际应用,有望深刻改变生物医药、材料科学和能源技术的面貌。
参考文献:
[1] Yang, W., Wang, S., Lee, G.R. et al. The past, present and future of de novo protein design. Nature 652, 1139–1152 (2026). https://doi.org/10.1038/s41586-026-10328-7

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢