DRUGONE
蛋白质具有高度的构象柔性,其形状适应能力对功能特性至关重要。例如,抗体互补决定区(CDR)环的柔性会影响结合亲和力与特异性,是理解并设计抗原结合能力的关键因素。尽管 AlphaFold 等方法已能高精度预测单一静态结构,但结构柔性的可靠预测仍未实现,主要受限于适合的训练数据稀缺。
研究人员聚焦于抗体与 T 细胞受体(TCR)中功能上重要的 CDR3 环的柔性预测。为此,研究人员构建了 ALL-conformations 数据集,从蛋白质数据库(PDB)中系统提取 CDR3 及其类似环结构,共包含 120 万个环结构、超过 10 万条独特序列,覆盖了实验中观察到的所有构象。基于此数据集,研究人员开发了 ITsFlexible 模型——一种基于图神经网络(GNN)的深度学习工具,可将 CDR 环二分类为“刚性”或“柔性”。ITsFlexible 在晶体结构数据集上优于所有对照方法,并能泛化至分子动力学模拟。研究人员进一步使用 ITsFlexible 预测了三个无解析结构的 CDRH3 环的柔性,并通过冷冻电镜实验验证,其中两个预测结果与实验一致。

蛋白质通常具有多种稳定的构象状态,这些状态间的转变对功能至关重要。抗体和 TCR 主要通过六个互补决定区(CDRs)识别抗原,其构象柔性影响结合特异性、亲和力及多特异性。柔性可以增加结合谱的广度,但也可能降低亲和力。
虽然 AlphaFold 等模型能准确预测静态结构,但预测蛋白质的多重构象状态仍极具挑战。造成困难的关键因素是缺乏可用于训练的高质量数据。实验技术如核磁共振(NMR)与氢氘交换质谱虽能测定动态性,但难以获得原子级柔性信息;而晶体结构虽解析度高,却仅能代表部分构象。分子动力学(MD)模拟能生成构象系综,但计算代价高昂,尚不足以支持大规模机器学习模型训练。
在此背景下,研究人员聚焦于抗体和 TCR 的 CDR3 柔性预测,构建覆盖全蛋白的环结构数据库以弥补数据不足,从而开发出可泛化的柔性预测方法。
方法概述
ALL-conformations 数据集构建
研究人员从 PDB 中系统挖掘由两条反平行 β 链包围的环状结构,形成 ALL-conformations 数据集,包含五个子集:抗体 CDRH3、CDRL3、TCR CDRB3、CDRA3 以及所有蛋白中的类似环结构。该数据集共含 120 万个晶体结构,约 10 万条独特序列,覆盖了实验观察到的全部构象状态。
环被定义为“柔性”或“刚性”:若同一序列在不同结构中出现多种构象,则标记为柔性;若在至少五个独立晶体结构中保持一致,则定义为刚性。最终获得超过 1.6 万个刚性环和 4,000 个柔性环。
ITsFlexible 模型设计
ITsFlexible 是一个基于 E(n)-等变图神经网络(GNN) 的二分类模型,输入包括环及其局部结构环境的图表示。节点特征编码氨基酸类型、是否属于环、Cα 原子坐标等;边特征包括共价键信息与距离编码。模型通过三层图卷积更新节点表示,并经线性层输出柔性概率。
模型使用二元交叉熵损失函数、Adam 优化器训练,训练–验证–测试比例为 70–15–15,并控制序列相似度不超过 80%。
基线与对照方法
对比模型包括:
基于环长度与溶剂暴露度的逻辑回归模型;
由 AlphaFold 预测的残基置信度(pLDDT)模型;
基于多序列比对(MSA)子采样的 AlphaFold 生成构象多样性方法;
抗体专用预测器 ABodyBuilder2 的 RMSPE(预测误差)指标。

结果
ALL-conformations 数据集分析
该数据集全面收录了蛋白质中 β 链间环状结构的所有实验构象。研究人员利用 RMSD 聚类方法标注环的柔性特征,最终获得超过 2 万个明确柔性标签的环序列。

模型性能评估
在 PDB 测试集中,ITsFlexible 的 ROC AUC 达到 0.84,PR AUC 为 0.62,显著优于所有基线与零样本方法(图2)。模型消融实验显示,仅使用环序列或局部结构的模型性能下降,说明环与其环境的相互作用是柔性的重要决定因素。

对抗体与TCR的柔性预测
研究人员在抗体与TCR的 CDR3 数据上进一步评估模型性能。ITsFlexible 对所有四类CDR(H3、L3、A3、B3)均取得高准确率(图3),尤其在 CDRH3 集上表现最优,优于 AlphaFold MSA 子采样与 ABodyBuilder2 预测误差模型。
结果显示:
CDRL3 与 CDRB3 的分类最准确;
CDRH3 性能略低但依然领先所有方法;
模型在序列多样性高的情况下仍保持稳定泛化能力。

分子动力学验证
研究人员对 19 个抗体进行了 MD 模拟,独立计算 CDR3 的柔性标签。结果表明:
在 MD 数据中,CDRH3 的柔性比例为 84%,CDRL3 为 37%;
ITsFlexible 准确区分柔性与刚性环,表现出接近完美的分离度。

冷冻电镜实验验证
研究人员选取三种预测结果不同的抗体进行 cryo-EM 验证。
抗体1:预测为刚性,实验显示单一构象,与预测一致;
抗体2:预测为柔性,实验观察到结合界面的构象异质性,验证正确;
抗体3:预测为柔性,但实验未观察到异质性,可能因抗原结合导致刚化。
总体上,两项预测与实验一致,验证了模型的可靠性。

讨论
构象变化是许多蛋白质功能的核心,尤其对抗体和TCR而言,CDR3的柔性直接影响结合亲和力与特异性。然而,当前结构预测工具难以捕捉多重构象。
研究人员通过构建 ALL-conformations 数据集与 ITsFlexible 模型,实现了对CDR3柔性的高精度预测。该方法揭示:
序列与局部结构环境共同决定环的柔性;
模型可在无实验结构的抗体中使用预测模型输入实现可靠判断;
AlphaFold置信度(pLDDT)与抗体预测误差(RMSPE)均不足以表征柔性;
MSA子采样虽能提升结构多样性,但仍无法准确反映真实构象灵活性。
此外,研究人员指出,该模型能辅助药物设计:
柔性预测可帮助筛选亲和力更高、特异性更强的抗体;
可优先确定需要MD模拟的分子,从而提高计算资源利用率;
有助于改进抗原–抗体对接、亲和力优化等后续任务。
最后,研究人员认为,该工作为蛋白质柔性建模奠定了基础,未来可进一步扩展至结合态与游离态构象的比较预测,为生物分子设计提供新的工具路径。
整理 | DrugOne团队
参考资料
Spoendlin, F.C., Fernández-Quintero, M.L., Raghavan, S.S.R. et al. Predicting the conformational flexibility of antibody and T cell receptor complementarity-determining regions. Nat Mach Intell (2025).
https://doi.org/10.1038/s42256-025-01131-6

内容为【DrugOne】公众号原创|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢