蛋白质的功能实现与构象动态变化密切相关,从酶的催化循环到受体的信号传导,从抗体的抗原识别到转运蛋白的底物转运,其生物学活性均依赖于不同构象状态间的转换。传统蛋白质结构预测方法(包括AlphaFold系列早期版本)虽在单一优势构象预测上取得突破性进展,但难以捕捉蛋白质天然存在的构象多样性,成为解析蛋白质作用机制、开发靶向药物的重要瓶颈。

瑞典林雪平大学的Yogesh Kalakoti和Björn Wallner团在预印版平台bioRxiv发表的最新研究,推出了基于AlphaFold3(AF3)的增强采样框架AFsample3。该工具通过创新的多序列比对(MSA)扰动策略和无参考构象筛选系统,在多构象蛋白质建模领域实现了飞跃,为结构生物学研究提供了更强大的技术支撑。本文将从技术原理、核心性能、创新价值及应用前景等方面,对该研究进行深度解析。

一、技术原理:基于AlphaFold3的多构象生成与筛选机制

AFsample3的核心创新在于对AlphaFold3推理系统的精准优化,无需额外网络训练,通过模块化设计实现了构象多样性生成与高效筛选,其技术框架主要包括三大核心模块:

1. MSA随机掩码策略:打破进化信号束缚

AFsample3延续了AFsample2的MSA扰动思路,但针对AlphaFold3的扩散模型架构进行了关键优化。其核心机制是在推理过程中随机掩码MSA的部分列通过打破原始MSA中固定的进化保守信号,促使模型探索更广泛的构象空间

研究发现,AlphaFold3对MSA扰动的耐受性显著高于AlphaFold2:AFsample3的最优MSA掩码比例为40%,而AlphaFold2在掩码比例超过20%后性能急剧下降。这种高耐受性源于AlphaFold3的扩散模型架构,其在处理噪声输入时的鲁棒性更强,即使50% MSA被掩码,模型仍能保持>80的置信度(pLDDT),且生成构象的质量显著优于同等扰动下的AlphaFold2模型。

2. 多参数优化的采样系统

为平衡构象质量与计算效率,AFsample3建立了多参数优化的采样体系:

  • 采样规模:针对238个靶标蛋白的测试表明,多数蛋白仅需生成300个模型即可获得高质量交替构象,较AFsample2的采样需求显著降低;
  • 组合策略:支持MSA掩码与MSA子采样的联合使用,对于部分目标蛋白,AFsample2结合子采样后可生成更优构象(36/238靶标),而AFsample3因本身已捕获MSA子采样的优势,联合使用无显著性能提升;
  • 动态适配:针对不同蛋白的构象特性,支持掩码比例(0.0-0.5)和聚类数量(默认k=20)的灵活调整,实现个性化采样。

3. DiSco无参考构象筛选协议

针对实际研究中缺乏实验参考构象的场景,AFsample3开发了基于距离评分(DiSco)的无参考状态选择系统,其核心流程包括:

  1. 利用Foldseek计算模型间成对TM-score,构建相似性矩阵;
  2. 通过PCA降维和k-means聚类,将构象 ensemble 划分为k个结构簇;
  3. 采用“高置信度优先+最大差异性”策略排序簇代表:先选择置信度最高的簇,后续依次选择与已选簇TM-score最小的簇,生成构象候选列表。

性能验证表明,DiSco协议显著优于基于置信度或簇大小的筛选方法:选择前5个簇代表时,交替构象的平均minTM达0.78,较后两者(0.74)提升明显;针对单构象预测,前10个簇代表中89%(212/238)的目标蛋白可获得TM>0.8的高质量模型,接近理论最优水平(95%)。

二、核心性能:基于238个多构象蛋白的全面验证

研究团队采用Cfold数据集238个非冗余蛋白,每个蛋白含至少两种实验确定构象,TM-score差异0.3-0.8)(Fig. 1),从构象质量、多样性、鲁棒性三个维度对AFsample3进行了全面验证,其核心性能优势如下:

1. 构象预测质量显著提升

  • 交替构象优化:28%的靶标蛋白(67/238)的交替构象预测质量实现显著改善(ΔTM>0.1),仅3%(8/238)的目标性能轻微下降,与AF2vanilla、AF3vanilla、AFsample2的改善-恶化比分别达96:14、67:8、72:20;
  • 高质量构象数量激增:TM>0.8的高质量交替构象数量从AF3vanilla的54个增至83个,提升幅度达54%(p<0.0001),远超AFsample2的63个和AF2vanilla的32个;
  • 无性能权衡:与AFsample2 改善交替构象需牺牲优势构象质量 不同,AFsample3同时提升了优势构象(平均TM=0.874)和交替构象(平均TM=0.733)的预测质量,展现出更强的整体鲁棒性。

2. 构象ensemble多样性大幅增强

采用优化后的fill-ratio指标(强调两端构象的同时量化中间态分布)评估构象多样性:

  • AFsample3的平均fill-ratio达0.313,显著高于AF3vanilla(0.215)、AFsample2(0.279)和AF2vanilla(0.195);
  • 典型案例验证:对于大肠杆菌核糖结合蛋白(1URP),AF2vanilla和AF3vanilla均无法生成交替构象,而AFsample3不仅成功预测交替构象,还生成了fill-ratio=0.90的多样化ensemble;对于周质二肽转运受体(1DPP),AFsample3的fill-ratio(0.96)较AF3vanilla(0.62)提升55%。

3. 中间态构象的生物学有效性

AFsample3生成的中间态构象经PDB结构映射验证,展现出明确的生物学相关性

  • 在fill-ratio>0.27的118个ensemble中,77个包含可映射至已知PDB结构的中间态,证实这些构象并非随机噪声,而是蛋白质天然构象空间的组成部分;
  • 41个未找到PDB匹配的ensemble,其预测中间态可能代表尚未被实验解析的功能关键态,为后续研究提供了新的靶点。

4. 跨场景鲁棒性优异

AFsample3在不同构象差异和序列长度的目标蛋白中均表现稳定:

  • 针对构象相似度较高(TM>0.5)的目标蛋白,其交替构象预测准确率提升最为显著;
  • 对于长序列蛋白(序列长度>1000 AA),仍能保持稳定的构象生成能力,而传统方法往往因序列复杂性导致性能下降。

三、创新价值:多构象建模领域的三大突破

1. 技术突破:AlphaFold3架构的高效适配

AFsample3系统验证了MSA扰动策略在AlphaFold3扩散模型架构中的有效性,揭示了AlphaFold3对噪声输入的高耐受性。这一发现不仅为后续多构象建模工具开发提供了重要参考,也为理解AlphaFold3的推理机制提供了关键 insights——其扩散模型架构在保留进化信号的同时,具备更强的构象空间探索能力。

2. 方法突破:无参考构象筛选的标准化

DiSco协议的开发实现了无参考构象筛选的标准化,解决了传统方法依赖实验参考结构的局限性。该协议可直接应用于未知构象蛋白的研究,为孤儿蛋白、新发现蛋白的构象解析提供了可行方案,显著拓展了多构象建模的应用场景。

3. 性能突破:质量与多样性的协同优化

AFsample3打破了“构象质量与多样性不可兼得”的传统困境,通过MSA掩码比例的精准优化和筛选策略的创新,实现了两者的协同提升。这种协同效应使得AFsample3不仅能生成高质量的两端构象,还能捕获连续的构象过渡态,为解析蛋白质构象转换机制提供了更完整的模型支撑。

四、应用前景与研究启示

1. 核心应用场景

  • 机制解析:通过捕获完整的构象景观,助力解析变构调节、酶激活、受体脱敏等依赖构象转换的生物学过程。例如,在分泌型卷曲相关蛋白(sFRP)的研究中,AFsample3预测的构象 ensemble 成功捕获了Fz结构域与netrin样结构域的铰链旋转运动,与SAXS实验结果一致;
  • 药物研发:针对药物靶点的多构象状态设计小分子药物或抗体,可提高药物的特异性和亲和力,减少脱靶效应。例如,针对激酶的活性态与非活性态设计双靶点抑制剂,提升治疗效果;
  • 实验指导:预测的未解析中间态构象可为冷冻电镜、X射线晶体学等实验提供明确的靶点,加速实验解析进程;
  • 数据库补充:生成的高质量多构象模型可丰富PDB数据库,为结构生物学研究提供更多参考。

2. 研究局限与未来方向

尽管AFsample3取得了显著进展,但仍存在一定局限:

  • 最优参数的个性化选择:目前掩码比例和采样规模的优化依赖经验值,未来需开发基于蛋白序列/结构特征的自动适配算法;
  • 极端构象的预测能力:对于构象差异极大(TM<0.3)的蛋白,其交替构象预测准确率仍有提升空间;
  • 计算效率的进一步优化:尽管较AFsample2有所提升,但大规模ensemble生成仍需较高计算资源。

未来研究可围绕三个方向展开:一是结合深度学习算法预测最优采样参数,实现完全自动化多构象建模;二是整合分子动力学模拟数据,进一步提升中间态构象的准确性;三是拓展至蛋白-配体、蛋白-蛋白复合物的多构象建模,满足更复杂的研究需求。

3. 与同类方法的对比优势

方法
核心策略
平均TM(交替构象)
fill-ratio
计算开销
无参考筛选
AF2vanilla
原始AF2推理
0.665
0.195
AF3vanilla
原始AF3推理
0.691
0.215
AFsample2
AF2+20% MSA掩码
0.704
0.279
中高
基础版
AF2_conformations
AF2+MSA子采样
0.714
0.307
AFsample3
AF3+40% MSA掩码
0.733
0.313
优化版DiSco

由上表可见,AFsample3在构象质量、多样性和功能完整性上均处于同类方法领先水平,且计算开销与主流方法相当,具备较强的实用性。

五、总结

AFsample3作为基于AlphaFold3的增强采样框架,通过创新的MSA随机掩码策略、DiSco无参考筛选协议和多参数优化系统,在多构象蛋白质建模领域实现了技术突破。其核心优势在于:无需额外网络训练,即可显著提升交替构象预测质量和构象ensemble多样性;无参考筛选功能拓展了应用场景;计算开销可控,具备实际应用价值。

参考文献:Yogesh KalakotiBjörn Wallner, AFsample3: Generating and selecting multiple conformational states with Alphafold3, bioRxiv 2026.01.16.699904.

内容中包含的图片若涉及版权问题,请及时与我们联系删除