
蛋白质的功能实现与构象动态变化密切相关,从酶的催化循环到受体的信号传导,从抗体的抗原识别到转运蛋白的底物转运,其生物学活性均依赖于不同构象状态间的转换。传统蛋白质结构预测方法(包括AlphaFold系列早期版本)虽在单一优势构象预测上取得突破性进展,但难以捕捉蛋白质天然存在的构象多样性,成为解析蛋白质作用机制、开发靶向药物的重要瓶颈。
瑞典林雪平大学的Yogesh Kalakoti和Björn Wallner团在预印版平台bioRxiv发表的最新研究,推出了基于AlphaFold3(AF3)的增强采样框架AFsample3。该工具通过创新的多序列比对(MSA)扰动策略和无参考构象筛选系统,在多构象蛋白质建模领域实现了飞跃,为结构生物学研究提供了更强大的技术支撑。本文将从技术原理、核心性能、创新价值及应用前景等方面,对该研究进行深度解析。
AFsample3的核心创新在于对AlphaFold3推理系统的精准优化,无需额外网络训练,通过模块化设计实现了构象多样性生成与高效筛选,其技术框架主要包括三大核心模块:
AFsample3延续了AFsample2的MSA扰动思路,但针对AlphaFold3的扩散模型架构进行了关键优化。其核心机制是在推理过程中随机掩码MSA的部分列,通过打破原始MSA中固定的进化保守信号,促使模型探索更广泛的构象空间。
研究发现,AlphaFold3对MSA扰动的耐受性显著高于AlphaFold2:AFsample3的最优MSA掩码比例为40%,而AlphaFold2在掩码比例超过20%后性能急剧下降。这种高耐受性源于AlphaFold3的扩散模型架构,其在处理噪声输入时的鲁棒性更强,即使50% MSA被掩码,模型仍能保持>80的置信度(pLDDT),且生成构象的质量显著优于同等扰动下的AlphaFold2模型。

为平衡构象质量与计算效率,AFsample3建立了多参数优化的采样体系:
采样规模:针对238个靶标蛋白的测试表明,多数蛋白仅需生成300个模型即可获得高质量交替构象,较AFsample2的采样需求显著降低; 组合策略:支持MSA掩码与MSA子采样的联合使用,对于部分目标蛋白,AFsample2结合子采样后可生成更优构象(36/238靶标),而AFsample3因本身已捕获MSA子采样的优势,联合使用无显著性能提升; 动态适配:针对不同蛋白的构象特性,支持掩码比例(0.0-0.5)和聚类数量(默认k=20)的灵活调整,实现个性化采样。
针对实际研究中缺乏实验参考构象的场景,AFsample3开发了基于距离评分(DiSco)的无参考状态选择系统,其核心流程包括:
利用Foldseek计算模型间成对TM-score,构建相似性矩阵; 通过PCA降维和k-means聚类,将构象 ensemble 划分为k个结构簇; 采用“高置信度优先+最大差异性”策略排序簇代表:先选择置信度最高的簇,后续依次选择与已选簇TM-score最小的簇,生成构象候选列表。
性能验证表明,DiSco协议显著优于基于置信度或簇大小的筛选方法:选择前5个簇代表时,交替构象的平均minTM达0.78,较后两者(0.74)提升明显;针对单构象预测,前10个簇代表中89%(212/238)的目标蛋白可获得TM>0.8的高质量模型,接近理论最优水平(95%)。
研究团队采用Cfold数据集(238个非冗余蛋白,每个蛋白含至少两种实验确定构象,TM-score差异0.3-0.8)(Fig. 1),从构象质量、多样性、鲁棒性三个维度对AFsample3进行了全面验证,其核心性能优势如下:
交替构象优化:28%的靶标蛋白(67/238)的交替构象预测质量实现显著改善(ΔTM>0.1),仅3%(8/238)的目标性能轻微下降,与AF2vanilla、AF3vanilla、AFsample2的改善-恶化比分别达96:14、67:8、72:20; 高质量构象数量激增:TM>0.8的高质量交替构象数量从AF3vanilla的54个增至83个,提升幅度达54%(p<0.0001),远超AFsample2的63个和AF2vanilla的32个; 无性能权衡:与AFsample2 改善交替构象需牺牲优势构象质量 不同,AFsample3同时提升了优势构象(平均TM=0.874)和交替构象(平均TM=0.733)的预测质量,展现出更强的整体鲁棒性。 



采用优化后的fill-ratio指标(强调两端构象的同时量化中间态分布)评估构象多样性:
AFsample3的平均fill-ratio达0.313,显著高于AF3vanilla(0.215)、AFsample2(0.279)和AF2vanilla(0.195); 典型案例验证:对于大肠杆菌核糖结合蛋白(1URP),AF2vanilla和AF3vanilla均无法生成交替构象,而AFsample3不仅成功预测交替构象,还生成了fill-ratio=0.90的多样化ensemble;对于周质二肽转运受体(1DPP),AFsample3的fill-ratio(0.96)较AF3vanilla(0.62)提升55%。 
AFsample3生成的中间态构象经PDB结构映射验证,展现出明确的生物学相关性:
在fill-ratio>0.27的118个ensemble中,77个包含可映射至已知PDB结构的中间态,证实这些构象并非随机噪声,而是蛋白质天然构象空间的组成部分; 41个未找到PDB匹配的ensemble,其预测中间态可能代表尚未被实验解析的功能关键态,为后续研究提供了新的靶点。

AFsample3在不同构象差异和序列长度的目标蛋白中均表现稳定:
针对构象相似度较高(TM>0.5)的目标蛋白,其交替构象预测准确率提升最为显著; 对于长序列蛋白(序列长度>1000 AA),仍能保持稳定的构象生成能力,而传统方法往往因序列复杂性导致性能下降。
AFsample3系统验证了MSA扰动策略在AlphaFold3扩散模型架构中的有效性,揭示了AlphaFold3对噪声输入的高耐受性。这一发现不仅为后续多构象建模工具开发提供了重要参考,也为理解AlphaFold3的推理机制提供了关键 insights——其扩散模型架构在保留进化信号的同时,具备更强的构象空间探索能力。
DiSco协议的开发实现了无参考构象筛选的标准化,解决了传统方法依赖实验参考结构的局限性。该协议可直接应用于未知构象蛋白的研究,为孤儿蛋白、新发现蛋白的构象解析提供了可行方案,显著拓展了多构象建模的应用场景。
AFsample3打破了“构象质量与多样性不可兼得”的传统困境,通过MSA掩码比例的精准优化和筛选策略的创新,实现了两者的协同提升。这种协同效应使得AFsample3不仅能生成高质量的两端构象,还能捕获连续的构象过渡态,为解析蛋白质构象转换机制提供了更完整的模型支撑。
机制解析:通过捕获完整的构象景观,助力解析变构调节、酶激活、受体脱敏等依赖构象转换的生物学过程。例如,在分泌型卷曲相关蛋白(sFRP)的研究中,AFsample3预测的构象 ensemble 成功捕获了Fz结构域与netrin样结构域的铰链旋转运动,与SAXS实验结果一致; 药物研发:针对药物靶点的多构象状态设计小分子药物或抗体,可提高药物的特异性和亲和力,减少脱靶效应。例如,针对激酶的活性态与非活性态设计双靶点抑制剂,提升治疗效果; 实验指导:预测的未解析中间态构象可为冷冻电镜、X射线晶体学等实验提供明确的靶点,加速实验解析进程; 数据库补充:生成的高质量多构象模型可丰富PDB数据库,为结构生物学研究提供更多参考。
尽管AFsample3取得了显著进展,但仍存在一定局限:
最优参数的个性化选择:目前掩码比例和采样规模的优化依赖经验值,未来需开发基于蛋白序列/结构特征的自动适配算法; 极端构象的预测能力:对于构象差异极大(TM<0.3)的蛋白,其交替构象预测准确率仍有提升空间; 计算效率的进一步优化:尽管较AFsample2有所提升,但大规模ensemble生成仍需较高计算资源。
未来研究可围绕三个方向展开:一是结合深度学习算法预测最优采样参数,实现完全自动化多构象建模;二是整合分子动力学模拟数据,进一步提升中间态构象的准确性;三是拓展至蛋白-配体、蛋白-蛋白复合物的多构象建模,满足更复杂的研究需求。
由上表可见,AFsample3在构象质量、多样性和功能完整性上均处于同类方法领先水平,且计算开销与主流方法相当,具备较强的实用性。
AFsample3作为基于AlphaFold3的增强采样框架,通过创新的MSA随机掩码策略、DiSco无参考筛选协议和多参数优化系统,在多构象蛋白质建模领域实现了技术突破。其核心优势在于:无需额外网络训练,即可显著提升交替构象预测质量和构象ensemble多样性;无参考筛选功能拓展了应用场景;计算开销可控,具备实际应用价值。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢