刚刚，诺奖得主David Baker团队Nature发文：AI正从“造分子”迈向“造机器”

自然演化用了数亿年，才构建出了今天的蛋白质世界。催化反应、传递信号、识别病原体，几乎所有精密生命过程的背后，都有蛋白质在“工作”。但癌症、阿尔茨海默病、气候变化等挑战，并不会给人类留下再等待几百万年的时间。

于是，一个非常直接的问题摆在面前：我们能否不再停留在天然蛋白质的“修修补补”，而是从零开始，主动设计出全新的蛋白质？

这正是从头蛋白质设计的出发点。它不以天然蛋白为模板，而是直接从功能出发，用计算方法同时构建全新的结构和序列。这个方向已发展近 30 年，而过去 5 年，随着深度学习的加入，进展明显提速。

刚刚，诺贝尔化学奖得主、华盛顿大学教授 David Baker 团队在一篇发表在权威科学期刊 Nature 上的系统性综述中，全面回顾了这一领域的发展历程，包括过去、现在和未来。

论文链接：https://www.nature.com/articles/s41586-026-10328-7

更值得关注的是，Baker 团队判断，未来 5-10 年，蛋白质设计有望从“造分子”迈向“造机器”，并在医学、技术和可持续发展等领域展现超越天然蛋白的巨大潜力。

过去：从物理法则出发

从头蛋白质设计最早要回答的问题，其实很基础：人工写出的氨基酸序列，能不能稳定折叠成预期结构？

1988 年，Regan 和 DeGrado 设计出可以自组装成螺旋束的多肽，证明人工序列的确能够编码特定结构。但那时的突破还主要停留在二级结构层面。真正决定这个领域命运的问题是：人类能不能从零设计出一个可以稳定折叠、而且在自然界中不存在的全新蛋白？

2003 年，Kuhlman 等人借助 Rosetta 设计出了 Top7，一个没有天然同源结构的全新折叠。它的重要性不在于“又多了一个蛋白”，而在于它证明了一件事：从头创造蛋白质，不只是概念，而是可以真正做到。

图｜蛋白质设计的主要挑战，以及蛋白质折叠体和组装体的设计

此后近 20 年，Rosetta 基本定义了这一领域的方法学框架。研究者陆续做出了 TIM barrel、重复蛋白、跨膜蛋白、纳米颗粒等多种新结构，蛋白质设计也从“能不能做”走向“能做多复杂”。跨膜蛋白、孔道、离子通道乃至具有构象切换能力的转运体，都已经进入可设计范围；设计空间也不再局限于二十种天然氨基酸，而是开始扩展到非天然侧链、非天然骨架以及具有口服潜力的大环体系。

不过，这条路线的局限也始终明显。Rosetta 依赖物理能量函数和预设的构象采样，擅长在已有框架内优化，却不擅长大范围探索复杂结构空间。换句话说，它能精修，但不太有“想象力”。这一点在酶设计上尤其突出：要让催化残基在三维空间中精确排布，以稳定反应过渡态，远比“做出一个能折起来的蛋白”困难得多。面对高极性界面、动态构象和内在无序区域，传统方法也常常力不从心。

现在：正被生成式AI改写

转折发生在 2020 年前后。AlphaFold 和 RoseTTAFold 的出现，改变的并不只是“结构预测更准了”，而是整个设计问题的提法。过去的设计更像是在寻找低能量结构；现在的设计越来越像是在采样“高概率的序列-结构对”。前者只关心某个结构本身是否稳定，后者则隐含地考虑了这个序列会不会更倾向于折叠成别的构象。对设计来说，这种约束更强。

在这一转变之上，生成式 AI 开始运用于蛋白质设计。最有代表性的方法是 RFdiffusion。它把扩散模型引入蛋白主链生成，从随机噪声出发，逐步“去噪”，生成满足几何与功能约束的新蛋白骨架。随后，再由 ProteinMPNN 为固定骨架设计序列，用 AlphaFold 一类工具做结构回判和筛选。今天，这套“骨架生成 + 序列设计 + 结构验证”的流程，已经成为许多设计任务的主流框架。

早期还有一类被称为“hallucination”的方法，直接在序列空间优化模型输出。它们证明了深度学习模型里确实蕴含了可用于设计的信息，但也暴露出一个问题：模型“看起来像”，并不等于蛋白真的能稳定折叠。后续研究发现，给这些骨架重新配上 ProteinMPNN 设计的序列，成功率会明显提高。当前主流程，正是在这轮筛选中逐渐稳定下来的。

除了结构生成，蛋白语言模型也在迅速进入这条路线。受 BERT、GPT 这类模型启发，研究者已经能用掩码语言模型、自回归模型，甚至序列-结构协同生成模型来学习和生成蛋白序列。它们还未完全取代现有主流程，但已经成为从头设计的重要补充。

在这套新方法推动下，几类任务进展尤其快。

第一类是结构和组装。今天，从单体蛋白到跨膜蛋白、宏环肽、纳米颗粒、蛋白纤维、二维晶格、三维晶体，设计方法已经能在很大范围内稳定工作。“做出一个自然界没有的新结构”这件事，已经接近不再是最难的问题。更重要的是，组装体不再只是“漂亮结构”。基于二十面体设计纳米颗粒的路线，已经走向真实疫苗平台，并催生 SKYCovione 这样的实际产品；类似思路也正在与 mRNA 递送、蛋白材料和细胞工程结合。

第二类是蛋白质结合剂。过去几年，这个方向进展非常快，靶标已经覆盖病毒蛋白、蛇毒毒素、免疫检查点、细胞因子受体等多个体系。原文不只讨论了“能结合”，还系统展开了几类应用：抗病毒、抗毒素、受体激动剂与拮抗剂、跨血脑屏障递送、促进内吞与溶酶体降解，乃至细胞内靶标降解。部分抗病毒案例中，设计蛋白在动物模型中的效力已可与抗体相当，甚至更强；其中，部分 IL-2 类似物已进入人体临床试验，其他不少案例仍处于临床前阶段。

图｜针对蛋白质靶标的结合设计

第三类是小分子结合与传感。这个方向还谈不上“已经解决”，但工具箱已经成形。研究者已经能围绕目标小分子直接生成结合口袋，并据此构建新的结合蛋白和传感器。Digoxigenin、甲氨蝶呤、Apixaban、胆酸、皮质醇、芬太尼等分子都已有实验验证。它们不仅能用于检测，还能被做成“治疗性海绵”、化学诱导二聚化系统，甚至进一步接到纳米孔平台上，把分子识别变成可读出的信号。

图｜小分子结合蛋白与酶的设计

第四类是酶。这里进展很大，但难题也最集中。新的生成方法已经能从原子级活性位点几何出发“长出”支架，再配合 PLACER 等方法评估活性位点的预组织能力。丝氨酸水解酶和金属水解酶都已经出现了比过去强得多的案例。但整体而言，成功仍主要集中在机理相对简单、能垒较低的反应。真正困难的地方在于：催化不是“能结合就行”，而是要在过渡态那一瞬间，把多个关键官能团放到几乎不能出错的位置上。

未来：边界清楚了，难题更集中了

Baker 团队认为，蛋白质折叠、组装，以及相当一部分蛋白质结合剂设计，已经接近“主要问题不再是会不会设计，而是该设计什么”的阶段。真正困难的问题，主要集中在更高一层的整合上。

第一，是高活性酶设计。要把结合、定位、电荷组织和过渡态稳定全部做到位，仍然很难。今天的进步是真实的，但距离天然酶在复杂反应中的表现，仍有明显差距。

图｜具有新功能的蛋白质设计

第二，是动态多状态系统和分子机器。如果说今天的设计蛋白已经越来越会“站住”和“抓住”，那它们距离真正“动起来、循环起来、持续做功”还有很长距离。论文里提到的轴-转子组装体、可切换装配体、LOCKR 逻辑系统，都说明这个方向已经起步；但要把结合、构象变化、催化和能量耦合整合成一个像 ATP 合酶或核糖体那样的系统，今天仍有明显差距。

第三，是核酸识别与调控。原综述把这一点放进了展望：DNA 结合蛋白已可以设计，RFdiffusion 也已扩展到 RNA 和蛋白-RNA 三维结构设计。这一方向有望为基因调控和合成生物学带来新的工具。

第四，是可持续发展相关应用。设计蛋白不仅可以用来做药，还可能参与无机材料模板、生物矿化、人工光合作用和可再生能源体系的构建。也就是说，从头蛋白质设计未来不只是医药平台，也可能成为材料与能源技术的平台。

若要真正走向应用，现实问题也绕不过去。免疫原性当然重要，但并不是唯一问题。大规模制造、低成本生产、新的实验检测与高通量筛选体系，以及生成式设计工具带来的生物安全问题，都会决定这个领域能走多远。

这篇综述最重要的信号，不是“蛋白质设计已经完成”，恰恰相反，它说明这个领域终于走过了“证明能不能做”的阶段，开始进入“挑哪些真正值得做的问题”的阶段。结构设计、组装设计和结合剂设计，正在越来越接近工程问题；而高效催化、动态切换、分子机器，以及核酸、材料和制造层面的拓展，仍然是下一阶段最核心的挑战。

从这个角度看，从头蛋白质设计最激动人心的地方，也许不是它已经完成了什么，而是它终于把问题边界画清楚了。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

刚刚，诺奖得主David Baker团队Nature发文：AI正从“造分子”迈向“造机器”

过去：从物理法则出发

现在：正被生成式AI改写

未来：边界清楚了，难题更集中了

评论列表

评论