DRUGONE
人工智能在结构生物学中的应用,已经将蛋白设计从一个概念性挑战转变为创造自然界中不存在蛋白质的一种切实可行的方法。通过利用机器学习,研究人员现在能够在计算机中设计出具有特定结构和结合特性的蛋白质。这使得能够快速生成与多种甚至此前被认为无法攻克的靶点高亲和力结合的蛋白。与传统实验方法相比,这一策略显著缩短了结合物开发的时间和资源需求,同时提高了命中率和可设计性。最新成果包括能够中和毒素、调节免疫通路以及与无序靶点高效结合的蛋白。随着模型精度的提升,可设计的范围持续扩大,而在临床前模型中的功能验证正在为治疗应用铺平道路。全新结合物设计代表了蛋白工程的一场范式转变,研究人员如今能够按需编程定制结合物,以应对特定的生物学挑战。

蛋白质是自然界的分子机器:它们能够催化化学反应、传递信号、抵御感染,并作为生命的基本支架。进化在数十亿年间塑造了极其丰富的蛋白质结构与功能。在过去的一个世纪里,研究人员不断提出一个大胆的问题:人类能否做到同样的事情?不仅理解自然的蛋白质,还能从零开始设计新的蛋白质?这便是全新蛋白设计的挑战:去想象、去工程化并创造自然界中不存在的蛋白质。通过从头构建蛋白质,这种方法超越了自然进化的限制,使研究人员能够创造具有精确、可编程特性的分子,为医学、生物技术和材料科学带来变革潜力。
在过去几十年里,从零开始设计蛋白质的努力收效有限,主要受制于难以预测序列与结构的关系以及折叠途径。虽然已知序列、结构与功能之间紧密联系,但准确刻画这种关系一直是挑战。全新蛋白设计同时在序列和结构两个层面展开,进入了超越进化的新领域,研究人员不仅需要理解自然的规则,还要学会利用这些规则去创造自然界中不存在的新型蛋白。人工智能的最新进展彻底改变了这一局面,使得研究人员能够设计出不仅稳定折叠,而且具备特定功能的蛋白质。其中一个迅速发展的方向便是全新蛋白结合物的设计,即构建能以高亲和力选择性结合靶点的蛋白质。这些结合物能够作为抑制剂、激活剂、诊断工具或治疗中的靶向分子。人工智能驱动的结构预测与设计使机器学习成为创造功能性结合蛋白的核心手段。
在这篇综述中,研究人员将回顾人工智能在全新蛋白结合物设计中的最新进展,介绍结构预测工具如何演化为生成设计方法,并重点讨论当前在构建功能性结合物方面的策略、应用与挑战,同时涉及技术、伦理和监管层面的考量。
全新蛋白设计的历史演进
从能量景观到结合界面的蓝图
早期的蛋白设计尝试旨在回答一个核心问题:新的氨基酸序列能否折叠成稳定且具有功能的结构?1988年的一次重大突破是基于理性设计原则构建的四螺旋束,依靠疏水与极性残基的规律分布来促进正确折叠。这一发现证明了新的序列确实能够被设计成有序结构,奠定了理性蛋白设计的基础,并推动全新蛋白设计进入下一个阶段。
为应对蛋白折叠的复杂性,研究人员开发了计算工具在计算机中探索和设计蛋白结构。能量优化方法被引入,使得能够通过最小化自由能来优化序列。然而,这种方法在复杂结构和庞大序列空间中常陷入局部最小值。随着计算能力增强,主链采样和柔性主链设计等方法逐渐出现,提高了灵活性和精度,从而能够设计更复杂的蛋白。2003年,一个被称为TOP7的全新蛋白首次展示了无需自然模板即可折叠成稳定结构,这标志着计算机设计的真正成熟。随后,研究人员的目标从仅仅生成稳定折叠扩展到构建功能性结合物。
研究人员成功设计了能够高亲和力结合流感血凝素保守区域的蛋白,这些方法利用热点定位和几何互补,将关键结合残基安放到合适的支架中以优化相互作用。后续的工作逐渐发展为更具规模化的流程,结合酵母展示等高通量筛选手段,系统地生成并验证大量结合物库。然而,这些方法仍然高度依赖专家干预,对多样化靶点的适用性有限。
人工智能时代的到来:集体成就
随着计算方法不断成熟,蛋白质数据库中结构信息的迅速积累放大了其潜力。冷冻电镜、X射线晶体学和核磁共振等技术推动了高质量结构数据的大规模存储,为AI模型的训练提供了关键资源。与此同时,基因组与宏基因组测序的扩展,使多序列比对更加深入,进一步提高了结构预测的准确性。
这些开放资源为AI驱动的结构理解奠定了基础。随着计算能力和深度网络架构(如Evoformer)的发展,AlphaFold2出现并在关键评测中取得接近实验的精度,标志着深度学习预测蛋白结构的巨大成功。这一进展不仅是结构生物学的里程碑,也为全新蛋白设计提供了可依赖的规则基础。
AI生成结合物的崛起
人工智能最早的应用之一是全新蛋白结合物的生成,它们能够以类似抗体的特异性和亲和力与靶分子相互作用。最初的方法如“幻觉”通过反向使用结构预测模型,从随机输入生成稳定的折叠骨架,随后发展为功能导向设计,通过嵌入约束直接在新支架中引入结合基序。随着RoseTTAFold2和几何深度学习方法(如表面指纹识别)的加入,AI设计的结合物逐渐能覆盖更复杂的靶点,包括SARS-CoV-2刺突蛋白和免疫检查点分子。
生成模型RFdiffusion的出现更是推动设计迈上新台阶。它能够从噪声中逐步生成新的折叠与功能,并通过与ProteinMPNN等工具配合实现快速序列填充与AlphaFold2筛选,使得设计流程在计算机中即可完成,大幅提高实验命中率。2024年,AI驱动的蛋白结构预测与设计成果获得诺贝尔化学奖,标志着该领域的重大突破。如今,研究人员已经进入一个能够快速、精确并具有临床相关性的全新蛋白结合物设计阶段。

全新蛋白结合物的深度学习设计
现代框架:扩散模型与当前实践
生成式扩散模型的引入改变了全新蛋白设计的格局。类似图像生成模型的成功,RFdiffusion通过逐步加噪与去噪生成蛋白骨架,不仅能产生全新折叠,还能根据用户需求设计出具有特定结构、功能和结合几何的蛋白。它通常与ProteinMPNN配合使用,由前者提出折叠,后者完成序列填充,再由AlphaFold2对结果进行打分与筛选。与以往方法相比,这一流程的实验成功率提高了百倍以上,大大减少了所需的实验筛选数量。
除了RFdiffusion和ProteinMPNN,研究人员还开发了BindCraft等新工具,其通过AlphaFold2引导反向传播与ProteinMPNN的序列优化,考虑了靶点的柔性,从而在更少实验验证下获得高亲和力结合物。这些方法让结合物的设计更加高效与经济。

可调结构与靶向工程
深度学习在蛋白设计中的优势之一是可塑性。研究人员不仅直接使用模型,还通过再训练来优化蛋白的溶解性、热稳定性、免疫原性降低以及非蛋白配体的结合能力。这种灵活性意味着结合物不仅能成功结合,还能满足特定环境下的应用需求,例如在极端条件下稳定存在或在特定细胞中正确折叠。
扩散模型的部分扩展策略还能在现有设计基础上增加可控变异,生成皮摩尔亲和力的高性能结合物,甚至直接应用于生物传感器。
全新结合物的应用
AI设计的结合物已经在多个领域展示了潜力:
毒素中和:研究人员通过RFdiffusion设计了针对蛇毒和细菌毒素的结合物,不仅在体外表现出优越的结合能力,还在动物实验中实现了完全保护,显示出真实的治疗潜力。
免疫调控:通过设计与免疫受体(如TNFR家族)结合的蛋白,研究人员能够选择性地抑制或激活免疫反应。这类结合物在小鼠炎症模型和癌症相关免疫通路中表现出强效,且实验筛选量远小于传统方法。
更广泛应用:结合物已被用于抗癌、抗耐药细菌、抗过敏、抗病毒等多个领域,并在无序蛋白、极性靶点、GPCR等复杂目标上展现可行性。
当前挑战与新兴解决方案
尽管进展迅速,全新结合物设计仍面临若干挑战:
计算与资源不平衡:设计流程需要高性能计算资源与跨学科知识,这在资源有限的机构中形成瓶颈。开源平台如ColabFold部分缓解了这一问题。
预测与实验差距:现有评分指标能提高成功率,但仍不能完全保证实验命中,亟需结合更多实验数据进行模型再训练。
靶点范围与结构多样性:当前方法在复杂靶点、β折叠架构、抗体设计等方面仍有限制,但新工具的出现正在逐步突破这些边界。
递送与免疫原性:虽然大部分全新蛋白较小且稳定,但免疫反应风险仍需系统评估,递送方式(蛋白、mRNA、纳米颗粒等)也需进一步探索。

伦理、归属与监管
随着AI设计的结合物逐渐接近临床应用,关于数据归属、创造者身份、知识产权与潜在双重用途的讨论愈发重要。AI并未取代研究人员,而是将工作重心从繁琐建模转向更高层次的假设生成与结果验证。这要求提升跨学科计算素养,并建立更清晰的伦理与法律框架,确保创新与公共利益的平衡。
结论
在短短五年间,全新结合物设计因AI的推动实现了前所未有的加速。从AlphaFold2到RFdiffusion,再到BindCraft与Chai-2,这些工具展示了设计复杂度和自主性的不断提升。AI的开放与普及,使研究人员的关注点从“能否实现”转向“能如何应用”。随着蛋白数据集扩展、生成模型改进以及合成与验证技术的进步,全新结合物设计的未来前景愈发光明。
整理 | DrugOne团队
参考资料
Fox et al., Code to complex: AI-driven de novo binder design, Structure (2025), https://doi.org/10.1016/j.
str.2025.08.007

内容为【DrugOne】公众号原创|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢