引言:从经验走向理性,生物制造的“数字基石”

在生命科学进入“按需设计”的合成生物学时代,如何精准地预测一个分子(配体)与蛋白质(受体)的结合模式,就像是在微观世界里寻找一把开启生命工厂大门的“钥匙”。这一过程被称为“分子对接”(Protein-Ligand Docking)。


过去,这项工作主要依靠科学家的经验或计算成本高昂的物理计算模拟。然而,生命系统的复杂性往往超出预期:蛋白质不是静止的锁,而是不断变换形状的“果冻”。如何在蛋白质结构动态变化的情况下,依然精准地预测分子和蛋白的结合模式? 这是生物医药研发和工业酶工程中公认的“深水区”挑战。


近日,微元合成(Microcyto)联合斯坦福大学、普林斯顿大学、北京大学、南京大学、字节跳动等全球知名科研机构,在人工智能顶级学术会议 ICLR 2026 上发表了最新成果PoseX,这是一个面向全球科学家的开放式协作平台,旨在解决真实场景下的分子对接难题,对不同对接算法和模型给出最公平和最真实的能力评估,为生物制造、生物基材料及工业酶设计提供最坚实的数字化底座。


PoseX的发布将加速突破传统分子对接方法在动态蛋白场景下的局限,以 AI 驱动的精准预测能力攻克这一长期困扰行业的核心难题,让按需设计分子与蛋白结合成为现实,为合成生物学、新药研发与酶工程带来底层技术革新。(平台地址:http://dock-lab.tech/)。



行业痛点:为什么“实战”对接这么难?

在分子对接领域,存在两种场景:

  • self-docking: 把共晶结构中的配体拿出来,再塞回它原本那个完美适配的口袋。这就像拿着拼图最后一块去填空,只要形状对了一切都好说;

  • cross-docking: 手里只有蛋白和配体A共结晶时的构象,要把配体B塞进去;侧链要转动,骨架要呼吸,口袋形状可能完全重塑——这才是酶设计和药物研发的真实战场;

长期以来,工业界缺乏一个统一的、高质量的基准来评估各类算法在“跨构象”场景下的表现。许多在实验环境下表现优异的算法,一到真实场景就纷纷折戟。PoseX 的出现,正是为了定义“实战标准”,研究中不仅构建了专门针对Cross-Docking的高难度数据集,还一口气对24种主流方法(从老牌Glide、Autodock Vina到当红炸子鸡AlphaFold3,Boltz,Chai)进行了残酷的"大逃杀"。


为什么Cross-Docking如此困难? 原文Figure S12给出了一个生动案例:当配体YI8从其共晶结构8V6Y转移到蛋白8V71时,发生严重的空间冲突——配体原本完美适配的位置,在新蛋白构象中被侧链"堵死"了。所有物理方法在此case上全军覆没(RMSD ≥ 2Å),而SurfDock和AlphaFold3成功预测了正确pose。



深度解析:PoseX 平台的技术突破

填补空白: 全球首个大规模cross-docking benchmark

PoseX 分别构建了一个包含 718 个样本点的self-docking数据集和 1,312 个样本点的cross-docking数据集。这是目前全球最贴近真实研发场景、数据质量最高的开源对接评测平台,解决了以往基准数据单一、泛化性差、偏离实际应用场景的问题。

算法全覆盖:AI 与物理方法的“巅峰对决”

我们在 PoseX 平台上集成了 24 种代表性算法,涵盖了三大流派:

  • 物理方法: 如行业标杆 Schrödinger Glide,MOE,Discovery Studio等;

  • AI对接方法: 如基于深度学习的 DiffDock,SurfDock 等;

  • AI共折叠方法: 如震惊业界的 AlphaFold3和RoseTTAFold-All-Atom,Boltz,Chai等;


核心发现:AI 算法首次全面超越传统物理方法

在 PoseX 的严苛测试下,我们得出了具有里程碑意义的结论:顶尖的 AI 对接方法(如 SurfDock)和共折叠方法(如 AlphaFold3),在处理最具挑战性的跨构象对接任务时,其准确率和稳健性已全面超越了统治行业数十年的物理模型。 这一发现为工业界全面转向“AI 原生”的研发流程提供了强有力的理论依据。



总体排名:谁是Cross-Docking之王?

self-docking评测结果                                                        

三个关键结果:

  • AI全面领先:Top 9方法中,5个是AI Docking,4个是AI Co-folding;

  • SurfDock一骑绝尘:比第二名Uni-Mol高出近8个百分点,且运行速度极快(10.8秒/样本);

  • 物理方法明显落后:最好的GNINA也只有54%左右,与AI顶尖方法差距约20个百分点;



深度挖掘:AI是真懂结合,还是在"背题"?

为了进一步分析AI模型的泛化能力,研究中还分析了评测数据与训练数据之间的口袋相似性对于各个模型的影响。无论口袋怎样,基于物理的方法总能保持着比较稳定的预测结果(这是物理方法的独特优势!)。而大部分 AI 的方法,如:DiffDock、AlphaFold3 等在全新口袋上表现断崖式下跌。值得注意的是 SurfDock 在AI方法中展现出最好的泛化性,即使是在未知口袋场景中,预测结果也要优于基于物理的对接方法。

PoseX-SD上按照pocket相似度排序的评测结果

PoseX-CD上按照pocket相似度排序的评测结



Pocket信息的作用

研究中发现显式建模结合口袋能显著提升对接性能。当前的AI Co-folding方法(如:AlphaFold 3、Chai-1 等)是盲对接,不需要指定口袋。在指定口袋信息的场景下SurfDock 以77.0%的最高成功率胜出,其次是 UMD V2,这些方法受益于口袋信息来处理跨构象变化,其性能优于基于物理的方法。而在盲对接赛道中,AlphaFold3 以68.8%的成功率领先其他模型。

指定口袋/不指定口袋信息在PoseX-CD的对接评测结果

指定口袋/不指定口袋信息在PoseX-CD的对接评测结果



Relaxation带来的增益

在蛋白-配体对接领域,AI方法虽然速度惊人、RMSD表现突出,但有时生成的结合姿势会存在分子内/分子间碰撞(clashes)等问题。针对这一领域痛点,PoseX 研究中提出了一套高质量Relaxation(能量最小化)后处理模块,基于OpenMM实现全自动化能量优化与短时分子动力学模拟,智能修复蛋白与小分子的结构细节。在结合Relaxation后,SurfDock在PoseX自对接(PoseX-SD)数据集上成功率达到78.0%,在更具挑战的交叉对接(PoseX-CD)数据集上达到77.0%,双双创下基准SOTA。通过Relaxation,对接结果的物理有效性显著改善,AI预测结果从“看起来像”真正变成“物理上站得住脚”。


应用前景:加速生物基产品的“从 0 到 1”

高效酶进化与“超级催化剂”设计

在酶工程领域,准确捕捉酶与底物在不同构象下的动态交互是核心瓶颈。PoseX筛选出的高精度AI算法,能精准模拟蛋白构象变化(Cross-Docking场景),帮助我们快速设计出耐高温、高转化率、高选择性的“超级酶”。原本需要数轮湿实验迭代的定向进化过程,如今在数字空间内即可完成高效筛选与优化,极大缩短了从实验室到工业发酵罐的转化周期。


代谢路径优化与高价值生物基产品开发

针对各类高附加值产品的生产,PoseX可精准定位最优代谢网络中的关键酶-底物或酶-中间体节点,结合pocket信息指导和Relaxation姿态精炼,实现代谢重构与瓶颈解除。无论是上游路径设计还是下游产物纯化,PoseX都让“分子级优化”与“工业级放大”无缝衔接,推动产量、纯度和成本指标的突破性提升,让原本漫长的产品开发周期加速落地。


显著降低研发成本与风险

传统湿实验筛选往往耗时数月、成本高昂,而PoseX驱动的AI模拟+物理后处理,可将这一过程压缩至数天至几周内完成。这不仅大幅提升了生物制造的研发投入产出比(ROI),还显著降低了失败风险,让更多创新想法从“概念验证”快速走向“工业应用”。


结语:致敬科学,拥抱未来

基于AI的生物技术与传统方法的博弈从未停止,PoseX 正在为这场博弈建立全新的坐标系。目前,PoseX 评测平台已正式开放,我们诚邀每一位深耕计算生物学、药物研发及机器学习领域的同仁参与进来,利用更科学的基准共同打磨算法的锋芒。


关于 PoseX 平台的使用心得或技术反馈,欢迎在评论区留言讨论。 让我们在真实的实战数据中,一起探寻 AI 攻克生物难题的最优解。

参考资料

Jiang, Y., Li, X., Zhang, Y., Han, J., Xu, Y., Pandit, A., Zhang, Z., Wang, M., Wang, M., Liu, C. and Yang, G., 2025. PoseX: AI Defeats Physics-based Methods on Protein Ligand Cross-Docking.

内容中包含的图片若涉及版权问题,请及时与我们联系删除