DRUGONE

适应性免疫系统通过B细胞和T细胞对抗原的精准识别,为机体提供长期且高度特异性的免疫保护。然而,突变如何改变这些免疫识别过程中的分子互作,仍然是免疫学与计算生物学中的核心难题。现有基于深度学习的突变效应预测方法虽然能够利用大规模预训练模型学习蛋白质规律,但大多局限于特定任务或单一模态,难以在复杂且异质化的免疫识别场景中实现泛化。


研究人员提出了一种统一的多模态框架 UniAIR(Unified Adaptive Immune Recognition),用于跨适应性免疫识别场景的通用突变效应预测。UniAIR整合了标准化数据处理流程、以界面为中心的序列—结构融合Transformer,以及用于多专家集成与预测结构适配的扩展模块。该框架能够同时处理抗体—抗原、TCR–pHLA等多种免疫识别任务,并适用于实验结构缺失或不完整的情况。


研究结果表明,UniAIR在多个大规模基准测试中均达到当前最佳性能,并在抗体成熟、抗原逃逸预测、TCR–pHLA优化等任务中展现出优异泛化能力。特别是在有限实验反馈条件下,UniAIR成功实现了多轮肽段优化,并能够从不完整结构中识别关键功能突变位点。该研究为构建统一的免疫突变景观解析平台提供了基础,也为免疫治疗与疫苗设计提供了新的AI工具。

适应性免疫是机体抵御病原体的重要防御体系,其核心在于B细胞与T细胞受体对抗原的高特异性识别。当病原体首次进入机体后,免疫系统会形成具有长期记忆能力的B细胞和T细胞克隆,从而在再次感染时迅速启动免疫反应。同时,免疫识别还具有一定交叉反应性,使其能够识别具有相似表位结构的相关抗原。


这些识别过程高度依赖蛋白质之间的精确相互作用,例如抗体与抗原、TCR与pMHC之间的结合。然而,无论发生在抗原还是免疫受体上的突变,都可能显著改变结合亲和力与特异性,进而导致免疫逃逸、抗体失效甚至自身免疫疾病等问题。因此,准确预测突变对免疫识别的影响,对于理解亲和力成熟机制、疫苗设计以及免疫治疗开发具有重要意义。


传统实验方法如SPR和ELISA虽然能够测定结合亲和力,但通量有限,难以覆盖复杂的突变组合空间。深度突变扫描和酵母展示技术虽然提高了突变覆盖率,但实验成本高昂,且对于多位点组合突变的系统性探索仍然十分困难。


随着大规模免疫学数据不断积累,机器学习逐渐成为预测突变效应的重要工具。目前的方法大致可分为基于序列和基于结构两类。蛋白语言模型能够从海量序列中学习进化规律,在蛋白功能预测等任务中取得成功;而结构模型则擅长学习高分辨率的空间相互作用模式。但这两类方法都难以独立完整描述免疫识别中复杂、多模态且高度异质的相互作用过程。更重要的是,现有模型通常只针对特定任务设计,例如抗原逃逸预测、抗体成熟或T细胞表位优化等,因此跨任务泛化能力有限。


为解决这些问题,研究人员提出了统一多模态框架UniAIR,希望通过标准化数据处理和联合学习序列与结构信息,实现跨免疫识别场景的通用突变效应预测。



方法

UniAIR由三个核心部分组成,包括标准化界面构建模块、多模态序列—结构融合模型ESSM,以及适用于真实场景的扩展模块。研究人员首先构建了一套统一的数据处理流程,对来自不同来源的免疫复合物数据进行质量控制、结构补全和突变中心界面构建,从而将异构输入统一转换为标准化表示。


随后,研究人员设计了S-Former结构,这是一种序列—结构协同注意力Transformer。该模型能够同时整合蛋白语言模型中的进化信息以及蛋白结构中的几何特征,通过结构引导的注意力机制持续更新序列与结构表示,从而学习免疫识别界面的潜在规律。研究人员将S-Former与ESM2结合形成ESSM模型,并利用大规模免疫复合物数据进行预训练。


为了进一步提升预测性能,研究人员提出MoFPE模块,将多个预训练结构模型进行集成,包括ESSM、GearBind、RDE-DDG和PPIformer。系统通过结构感知门控网络动态分配不同专家模型的权重,从而实现自适应预测。


此外,为解决实验结构缺失的问题,研究人员开发了UniAIR-LT模块。该模块在预测结构与实验结构之间引入轻量级潜空间适配器,从而降低结构预测误差带来的表示偏移,提高模型在真实应用中的鲁棒性。

图1:UniAIR整体框架,包括标准化界面构建、多模态融合模块、MoFPE专家集成与UniAIR-LT结构适配模块。



结果

UniAIR在突变效应预测中达到当前最佳性能

研究人员首先在SKEMPI v2数据集上对ESSM和UniAIR进行了评估。结果显示,ESSM已经能够明显优于传统蛋白语言模型,而UniAIR通过多专家融合进一步提升了性能,在PCC、SPC、RMSE和MAE等多个指标上均达到当前最佳水平。


在HER2抗体数据集和TCR–pMHC独立测试集中,UniAIR同样保持稳定表现,显示出优秀的跨任务泛化能力。特别是一些原本只能在特定任务中表现良好的模型,在不同数据集之间性能波动明显,而UniAIR则能够在多种免疫识别场景中维持一致准确率。

图2:UniAIR在SKEMPI v2、HER2以及TCR–pMHC测试集上的性能评估结果与t-SNE可视化。


UniAIR揭示TCR–pHLA与抗体识别中的突变规律

研究人员随后利用UniAIR对TCR–pHLA复合物进行了零样本突变扫描分析。结果发现,肽段第2、6和9位氨基酸对结合亲和力影响最大,这与已知HLA锚定位点和TCR接触位点高度一致。


在CDR3β区域分析中,研究人员将其划分为六个片段,发现中央区域对突变最为敏感,而直接接触pHLA的残基比非接触区域更加关键。进一步的氨基酸偏好分析显示,肽段更偏好极性残基,而CDR3β区域则倾向于使用疏水残基来稳定界面结构。


研究人员还利用UniAIR对P36-5D2抗体进行了零样本亲和力成熟预测。模型在超过13万种四重突变组合中筛选出高潜力突变体,其中绝大多数实验验证成功的高亲和力突变均被模型排在前20%。这表明UniAIR不仅能够恢复已知规律,还能够发现潜在更优的候选突变。

图3:UniAIR在TCR–pHLA和抗体成熟中的零样本突变扫描与突变偏好分析。


UniAIR利用少量数据预测抗原逃逸

研究人员进一步将UniAIR应用于拉沙病毒GPC蛋白的抗原逃逸预测任务。研究人员针对多个不同结合模式的人源抗体进行了分析,并计算每个位点的逃逸潜力评分。结果显示,随着微调数据增加,模型预测精度持续提升。即使仅使用10%的深度突变扫描数据,UniAIR依然能够成功识别大部分高风险逃逸位点。


研究人员还发现,模型预测得到的关键逃逸位点氨基酸偏好与实验结果高度一致。例如,对于25.10C抗体,UniAIR预测228位点的芳香族或带正电氨基酸替换会显著削弱结合,从而导致免疫逃逸。结构热图分析进一步显示,高逃逸位点会聚集于对应抗体的结合表位区域。

图4:UniAIR在拉沙病毒GPC抗原逃逸预测中的少样本学习结果。


UniAIR联合FEP实现KRAS新抗原肽优化

为了验证UniAIR在实际免疫治疗设计中的潜力,研究人员构建了结合自由能微扰(FEP)的迭代优化流程,用于KRASG12D新抗原肽优化。研究人员首先利用UniAIR对9-mer肽段进行深度突变扫描,再通过FEP验证筛选出的高分突变。


经过多轮优化后,研究人员获得了一系列能够同时增强肽段–HLA与TCR–pHLA结合能力的突变体。分子动力学模拟显示,这些突变体具有更高的氢键数量和更稳定的界面接触,从而提升整体结合稳定性。部分突变还能够更好填充HLA结合槽中的空腔,为结合增强提供了明确结构基础。

图5:UniAIR结合FEP进行KRASG12D新抗原肽优化的整体流程与分子动力学分析。


UniAIR能够处理预测结构与不完整结构

研究人员最后评估了UniAIR-LT在预测结构场景中的表现。结果显示,即使使用ESMFold或OpenFold预测结构,UniAIR仍然优于所有仅基于序列的方法;加入潜空间适配器后,模型性能进一步提升。


研究人员通过t-SNE与余弦相似度分析发现,适配器能够有效缩小预测结构与实验结构之间的表示差异,并降低预测偏差。在一些结构预测错误较严重的案例中,UniAIR-LT仍然能够显著恢复预测能力。


此外,在拉沙病毒GPC结构不完整的真实案例中,UniAIR-LT依然成功识别出了关键功能逃逸位点,说明其具有较强的真实应用潜力。

图6:UniAIR-LT在预测结构与不完整结构条件下的性能提升与结构表示对齐分析。



讨论

该研究提出的UniAIR首次构建了一个统一的多模态免疫突变效应预测框架,实现了从抗体—抗原到TCR–pHLA等多类免疫识别任务的统一建模。与传统针对单一任务设计的方法相比,UniAIR通过标准化数据处理、多专家融合以及潜空间适配机制,大幅提升了模型的泛化能力与真实场景适应能力。


研究结果表明,UniAIR不仅能够高精度预测突变对免疫识别的影响,还能够在极少实验数据条件下完成抗原逃逸分析、抗体成熟与新抗原优化等复杂任务。尤其是与FEP等高精度物理模拟方法结合后,UniAIR展示出强大的高通量筛选能力,为未来AI驱动的免疫治疗设计提供了新的工作范式。


此外,UniAIR-LT对于预测结构误差的鲁棒适配,也解决了当前结构生物学中实验结构不足的重要瓶颈。这意味着未来即使缺少高分辨率实验结构,研究人员依然能够利用预测结构进行高质量免疫识别建模。


总体而言,UniAIR为理解适应性免疫识别中的突变景观提供了统一计算框架,也为疫苗开发、抗体工程、TCR设计以及个性化癌症免疫治疗带来了重要推动。

整理 | DrugOne团队


参考资料


Han, R., Zhang, Y., Liu, X. et al. Generalizable mutation-effect prediction across adaptive immune recognition via unified multimodal framework. Nat Mach Intell (2026). 

https://doi.org/10.1038/s42256-026-01243-7

内容为【DrugOne】公众号原创转载请注明来源

内容中包含的图片若涉及版权问题,请及时与我们联系删除