近日一篇发表于Science的重磅综述“How artificial intelligence is reengineering protein engineering”以统计学视角系统拆解了人工智能对蛋白质工程的颠覆性重构,将这一依赖漫长实验迭代的学科,推向了高效、精准、可定制的全新发展阶段,也为生物医药、农业育种、生物制造等领域带来了前所未有的变革可能。

生命运作的核心引擎:蛋白质工程的使命与传统路径的桎梏
蛋白质作为驱动所有生命形式运转的核心分子,承担着催化生化反应、调控基因表达、构筑细胞结构等关键功能,而人类改造天然蛋白质、创造全新蛋白质的核心目标,正是为了研发新型治疗药物与疫苗、培育抗逆性更强的农作物、实现抗生素与生物材料的低成本制造,这也是蛋白质工程成为最具社会影响力科研领域的核心原因。在人工智能介入之前,蛋白质工程领域已诞生两项斩获诺贝尔奖的经典方法,分别是 2018年获奖的定向进化2024年获奖的计算蛋白质设计,二者凭借不同的技术逻辑为蛋白质改造奠定了基础,却始终难以突破天然探索效率与物理模型精度的双重限制。

诺奖级方法的共同困境:浩瀚序列空间中的探索难题
定向进化通过模拟自然选择的迭代突变与人工筛选实现蛋白质优化,无需复杂生物物理建模却需耗费大量时间、成本与实验人力,且只能在初始蛋白序列的小范围内进行探索;计算蛋白质设计依托蛋白质数据库的统计数据与物理能量函数开展硅基设计,能够突破已知蛋白空间的限制却无法精准捕捉酶催化、蛋白质动态构象等复杂生物特性
两种方法共同面对的终极挑战,是蛋白质序列空间的浩瀚无垠 —— 仅由 100 个氨基酸构成的小型蛋白质,就拥有20^100≈10^130种序列组合,这一数字远超宇宙中原子总数的估算值,而能正确折叠并发挥功能的序列仅占其中极小部分,盲目搜索无异于大海捞针。

AI 的破局之道:以智能搜索与精准打分重构设计逻辑
人工智能为蛋白质工程带来的核心变革,集中体现为对序列空间搜索蛋白质属性打分两大核心环节的全面优化
一方面让算法能够在超高维的序列空间中完成大跨度、有方向的智能跳跃,找到传统方法无法触及的优质序列,另一方面以更低成本、更高效率精准预测蛋白质的表达量、稳定性、催化活性等关键属性,为序列搜索提供可靠的决策依据。
从统计学本质来看,AI 驱动的蛋白质设计不再是直接寻找目标序列,而是通过模型学习符合设计要求的蛋白质概率分布,再从分布中直接采样生成理想分子,这一逻辑转变彻底改写了蛋白质工程的探索范式。

条件生成的三大范式:AI 定制蛋白质的核心技术路径
综述明确提出,获取条件生成模型是 AI 蛋白质设计的核心,而当前学界主要通过三种技术策略实现这一目标,每一种策略都在灵活性、计算成本与适配场景上形成了差异化优势。
直接嵌入条件策略在模型训练之初就将酶活、配体结合、二级结构等目标属性植入模型架构,直观直接却需在新增属性时重新训练大型模型;
贝叶斯融合策略将预训练的泛蛋白模型与属性预测模型结合,依托贝叶斯定理实现 “即插即用” 的灵活适配,无需重新训练基础模型却面临计算分母难以求解的问题;
实时引导策略以扩散模型、流匹配模型为核心,在生成过程中用属性信息实时引导采样过程,无需训练新生成模型却需承担迭代采样的计算成本,成为当前蛋白质骨架设计的主流方案。


从序列到原子:AI 驱动的蛋白质全链路设计体系
依托生成式 AI 模型,蛋白质工程已实现从序列生成到原子结构构建的全流程自动化,形成了完整且可落地的设计闭环。
序列生成从单一蛋白家族的 Potts 模型、变分自编码器,升级为覆盖所有蛋白家族的 ESM 系列、ProstT5 等泛蛋白大模型,实现跨家族、高通量的序列创造;
骨架生成以 Chroma、RFdiffusion 等扩散模型为核心,能够从噪声中逐步还原出具备对称性、结合位点、功能基序的定制化 3D 骨架;
反向折叠通过 ProteinMPNN、ESM-IF1 等模型,将骨架结构转化为可折叠的氨基酸序列,序列还原率远超传统方法;
序列-结构联合生成则突破分步设计的局限,同步生成序列与原子级空间结构,完美适配活性位点、小分子结合等原子级设计需求。

突破与瓶颈:当前 AI 蛋白工程的能力边界与待解难题
人工智能的介入让蛋白质结合体设计的命中率从不足 0.05% 实现数量级提升,微型球状蛋白、抗体等分子的设计已走向实用化,但领域仍面临诸多难以攻克的核心瓶颈。酶设计成为当前最难突破的方向,精准的活性位点原子构型与全新反应的催化功能无法仅靠 AI 实现从头设计;柔性环区、天然无序区域的分子识别缺乏通用模型支撑,而蛋白质与 DNA、RNA、小分子的复合物结构数据稀缺,也限制了跨靶点设计的发展。同时,模型泛化能力、评测标准缺失、湿实验验证成本高昂等问题,也成为 AI 蛋白质工程进一步落地的阻碍。

诺奖得主的核心论断:AI 是强力工具,人类定义科学的终极问题
作为计算蛋白质设计领域的领军者与诺奖得主,David Baker 在接受ChosunBiz专访中给出了关于 AI 与蛋白设计关系的权威定论:AI 彻底改变了蛋白质设计的研究方式,但它始终只是工具,永远无法替代人类研究者
在他看来,AI 能够高效解决蛋白设计中的技术难题,却无法承担设定研究方向、判别实验结果意义、规划临床转化路径的核心责任;比算力、基础设施更重要的是顶尖科研人才与开放协同的研究生态,构建让研究者自由交流、深度探索的 “共享大脑” 式科研环境,远比单纯追求技术模型迭代更具价值。
同时 David Baker 也指出,AI 在蛋白设计领域的能力存在明确边界,将设计出的蛋白质转化为获批药物、完成临床试验的过程,因公共数据不足与生物医学认知局限,难以依靠 AI 实现快速突破,这一阶段仍需人类研究者的深度参与与长期攻坚。
从研究方向来看,David Baker 透露未来将聚焦纳米机器、农业抗逆蛋白等全新领域,用蛋白质设计技术应对全球变暖、疾病治疗等重大挑战;从科研生态来看,人才培养与开放协同的研究环境将成为核心竞争力,正如 David Baker 所强调的,科学的突破从来不是依靠单一工具的升级,而是源于研究者对核心问题的执着探索与团队间的深度协作。
参考文献:
  • Jennifer Listgarten,Hanlun Jiang,How artificial intelligence is reengineering protein engineering.Science392,159-166(2026).DOI:10.1126/science.aec8444
  • https://biz.chosun.com/en/en-science/2026/04/08/Y2HAKUH2XNHBXBDHEXUKCPAUUA/

原创内容未经授权,禁止转载至其他平台。
©2021 医药速览 保留所有权利


内容中包含的图片若涉及版权问题,请及时与我们联系删除