DRUGONE
T细胞受体(TCR)如何识别抗原,是适应性免疫学中最核心但也最复杂的问题之一。由于不同TCR可能识别相同抗原,而高度相似的TCR又可能表现出完全不同的特异性,因此仅依赖序列信息预测TCR功能长期面临巨大挑战。该研究提出了一种结合高通量酵母展示(yeast display)与蛋白质语言模型(protein language models, pLMs)的整合平台,用于构建“深度肽识别图谱(deep peptide recognition profiles, PRPs)”。每个PRP能够系统描述单个TCR对数百万肽段的识别模式。
研究人员将该系统应用于与强直性脊柱炎(AS)和急性前葡萄膜炎(AAU)相关的HLA-B*27:05限制性TCR,并利用这些高密度识别数据训练蛋白语言模型。结果显示,PRP训练的模型在预测T细胞激活方面显著优于AlphaFold3和tFold-TCR等结构预测方法。研究人员进一步发现并验证了多个新的疾病相关候选自身抗原,包括来源于PSG5的肽段。研究还揭示,模型对新TCR的泛化能力更多取决于“功能距离(PRP divergence)”,而不是序列相似性。该研究为系统解析TCR特异性、发现自身抗原以及指导TCR工程设计提供了全新框架。

T细胞受体通过识别由主要组织相容性复合体(MHC)呈递的抗原肽,驱动机体对病原体、肿瘤和自身免疫疾病的免疫反应。然而,TCR–pMHC识别体系具有极高复杂性。一个长期存在的“免疫学悖论”是:序列几乎完全不同的TCR可以识别相同抗原,而仅有微小差异的TCR却可能具有完全不同的特异性。
此前,研究人员已经开发了GLIPH、TCRdist等基于序列聚类的方法,用于推测TCR特异性。但这些方法更适合发现宏观统计规律,难以解析精细层面的抗原识别差异。与此同时,AlphaFold3等结构预测方法虽然能够建模TCR–pMHC复合物结构,但对于真实T细胞激活的预测能力仍然有限。
高通量酵母展示和哺乳动物展示技术虽然能够大规模筛选TCR识别肽段,但如何有效利用这些数据建立泛化模型仍是难题。尤其在强直性脊柱炎和急性前葡萄膜炎等HLA-B27相关自身免疫疾病中,真正驱动疾病的自身抗原长期难以明确。
因此,研究人员提出将大规模实验筛选与蛋白语言模型结合,构建高分辨率PRP图谱,希望利用“功能识别空间”而非单纯序列相似性,重新定义TCR之间的关系,并进一步实现疾病相关抗原发现。
方法
研究人员首先构建了一个包含约10^9种9-mer肽段的HLA-B*27:05酵母展示文库,其中固定P2位精氨酸和P8位脯氨酸,以增强对疾病相关TCR识别模式的覆盖。随后,研究人员利用16种来源于AS和AAU患者的TCR,对该文库进行四轮筛选,并通过深度测序获得每个TCR富集的肽段集合,从而构建对应PRP。
随后,研究人员利用蛋白语言模型对CDR3β序列与肽段序列进行联合建模,并通过Transformer与卷积神经网络预测TCR–肽结合分数。由于此前晶体结构研究表明,该类HLA-B27相关TCR主要依赖CDR3β进行肽识别,因此模型重点聚焦于β链。
研究人员进一步利用模型对人类蛋白组中的20多万个HLA-B27限制性9-mer肽段进行扫描,以预测潜在自身抗原,并通过T细胞激活实验、流式细胞术以及晶体结构解析进行验证。

图1:PRP构建流程,包括酵母展示筛选、深度测序、蛋白语言模型训练与抗原发现流程。
结果
PRP揭示TCR之间的“功能聚类”而非单纯序列聚类
研究人员首先分析了16种疾病相关TCR的PRP。结果显示,不同TCR识别的肽段数量差异极大,从数百种到超过6,000种不等。
研究人员利用Jensen–Shannon divergence比较不同TCR之间的PRP差异,并构建“功能距离”指标。结果发现,TCR会根据共享肽识别模式形成明显聚类,而这种聚类与CDR3β序列相似性并不一致。
例如,135.1、135.3和135.8虽然序列存在差异,却形成高度相似的识别簇;相反,一些序列相近TCR却表现出完全不同的肽识别谱。UMAP、t-SNE和PCA分析均重复观察到相同趋势,说明“功能识别空间”比单纯序列空间更能反映真实TCR关系。
结构分析进一步表明,该类HLA-B27相关TCR采用典型“β链主导”结合模式:CDR3β位于肽中央并承担主要接触,而CDR3α则更加外围且高度保守。这为模型聚焦CDR3β提供了结构学依据。

图2:TCR功能聚类、PRP divergence分析与CDR3β主导识别结构。
PRP训练的蛋白语言模型能够精准预测肽结合特异性
研究人员随后利用PRP数据微调蛋白语言模型。结果显示,模型能够高精度区分结合与非结合肽段,大多数TCR的AUROC超过0.95。
进一步实验发现,加入α链信息并未显著提升性能。这说明在该疾病相关TCR体系中,β链已经编码了大部分特异性信息。研究人员还通过α链替换实验验证,即便替换α链,整体激活模式仍然主要由β链决定。
梯度归因分析显示,模型自动识别了多个关键结合位点,例如P4、P5和P8位残基。这些热点与实验筛选得到的结合motif以及晶体结构中的关键接触位点高度一致,说明模型真正学习到了TCR–pMHC相互作用规则。
研究人员随后利用模型扫描人类蛋白组,发现多个高交叉反应性自身肽候选。其中15个候选肽段被预测可被超过三分之一的疾病相关TCR识别,包括来源于PSG5、PRPF3、DAB2IP等蛋白的肽段。

图3:蛋白语言模型预测框架、关键识别位点归因分析以及自身抗原预测热图。
模型预测结果能够真实对应T细胞激活
研究人员进一步测试这些预测肽是否真正能够激活T细胞。结果显示,仅依赖PRP训练的模型,就能够有效区分激活性与非激活性肽段。
与AlphaFold3和tFold-TCR相比,PRP训练模型在预测T细胞激活方面表现显著更优。研究人员认为,序列模型可能隐式学习了静态结构模型难以捕获的构象动态信息。
在多个TCR中,模型预测分数与CD69激活实验显著相关。尤其值得注意的是,某些来源于PSG5和PRPF3的肽段,激活能力甚至超过已知细菌抗原YEIH。
进一步分析发现,PSG5在虹膜色素上皮细胞中具有特异表达,而虹膜正是AAU炎症发生部位。这提示PSG5可能是AAU和AS的重要自身抗原。
研究人员进一步利用PSG5–HLA-B27四聚体染色发现,AS/AAU患者外周血中PSG5特异性CD8+ T细胞显著增多,而健康HLA-B27阳性对照中并未观察到类似现象。晶体结构分析还发现,PSG5与已知细菌抗原YEIH采用几乎相同的TCR结合模式。

图4:T细胞激活实验、PSG5表达分析与PSG5–TCR复合物结构。
联合建模能够增强TCR邻域中的泛化能力
研究人员进一步构建了19.2 TCR的多个CDR3β突变体,以研究模型如何泛化到新TCR。结果显示,这些突变体虽然存在1–3个氨基酸变化,但仍然保留相似PRP,因此形成“功能邻域”。
仅利用野生型19.2训练的模型,就能够较好预测多个突变体的肽结合行为。然而,对于真实T细胞激活预测,单独模型性能有限。
研究人员随后将整个19.2邻域的PRP联合训练为一个统一模型。结果显示,联合模型在激活预测方面显著优于单个模型。这说明,整合相似TCR之间共享的识别规则,能够增强模型对细粒度特异性的学习。
此外,多个重要自身抗原肽(如PSG5和PRPF3)在不同19.2突变体中依然能够稳定激活T细胞,进一步支持这些抗原可能具有真实病理学意义。

图5:19.2 TCR邻域构建与联合训练模型性能比较。
模型泛化能力取决于“功能距离”而非序列距离
最后,研究人员利用leave-one-out交叉验证测试模型对全新TCR的泛化能力。结果发现,模型性能与CDR3β编辑距离或TCRdist并无明显相关性。
相反,模型性能与PRP divergence显著相关。换句话说,真正决定模型能否泛化的,并不是序列是否相似,而是两个TCR在“肽识别功能空间”中是否接近。
研究人员还引入Mahalanobis distance作为模型内部“不确定性指标”。结果显示,该距离能够有效估计一个新TCR是否超出训练分布,从而预测模型可信度。
这一结果意味着,未来TCR建模可能需要从“序列相似性”转向“功能识别空间”的概念。

图6:PRP divergence、Mahalanobis distance与模型泛化能力分析。
讨论
该研究建立了一个结合高通量实验与蛋白语言模型的TCR识别解析平台,并首次系统证明,“深度肽识别图谱”能够比传统序列方法更准确地定义TCR之间的关系。
研究最重要的突破之一,是证明PRP训练的序列模型在预测真实T细胞激活方面优于当前主流结构预测方法。这说明,仅依赖静态结构可能不足以描述复杂TCR识别,而基于大规模功能数据的模型能够学习更深层的动态规律。
研究还发现,PSG5可能是AS和AAU的重要候选自身抗原。这不仅为HLA-B27相关疾病提供了新的机制解释,也展示了AI驱动抗原发现的巨大潜力。
更深层次地,该研究提出了“功能距离优于序列距离”的概念,意味着未来免疫AI模型可能需要围绕“识别空间”而不是“序列空间”建立。研究人员认为,随着更多PRP数据积累,未来有望建立真正可泛化的TCR–抗原预测系统,从而推动自身免疫疾病研究、肿瘤免疫治疗以及TCR工程设计进入全新阶段。
整理 | DrugOne团队
参考资料
Wang, N., Yeh, H., Lai, B. et al. Deep peptide recognition profiling decodes TCR specificity and enables disease-associated antigen discovery. Nat Biotechnol (2026).
https://doi.org/10.1038/s41587-026-03128-x

内容为【DrugOne】公众号原创|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢