【论文标题】TCR-BERT: learning the grammar of T-cell receptors for flexible antigen-xbinding analyses
【作者团队】Kevin Wu, Kathryn E. Yost, Bence Daniel, Julia A. Belk, Yu Xia, Takeshi Egawa, Ansuman Satpathy, Howard Y. Chang, James Zou
【发表时间】2021/11/20
【机 构】斯坦福、华盛顿大学医学院
【论文链接】https://doi.org/10.1101/2021.11.18.469186
【代码链接】https://github.com/wukevin/tcr-bert
T细胞受体(TCR)使T细胞能够识别和响应由感染和病变细胞呈现的抗原。然而,由于TCRs惊人的多样性和TCR抗原识别背后复杂的结合动力学,预测一个给定的TCR可能与哪些抗原结合是具有挑战性的。本文提出了TCR-BERT,一个深度学习模型,将自监督的迁移学习应用于这个问题。TCR-BERT利用未标记的TCR序列来学习TCR序列的一般的、通用的表征,从而实现众多下游应用。本文证明了TCR-BERT可以用来建立最先进的TCR-抗原结合预测器,与之前的方法相比,具有更好的通用性。TCR-BERT同时促进了对可能共享抗原特异性的序列进行聚类。它还促进了对具有挑战性的、未解决的问题的计算方法,如设计具有工程化结合亲和力的新型TCR序列。重要的是,TCR-BERT通过专注于具有已知生物学意义的残基来实现所有这些进展。TCR-BERT可以成为T细胞科学家的一个有用的工具,使他们能够更好地理解和更多样化的应用,并提供了一个概念框架,以利用未标记的数据来改善生物序列的机器学习。
上图展示了TCR-BERT利用自监督的预训练对TCR进行建模的过程。
TCR-BERT采用T细胞受体氨基酸序列,并产生一个连续的嵌入,可用于下游任务。为了预训练TCR-BERT,本文首先进行掩蔽氨基酸预测,训练TCR-BERT根据周围的氨基酸来预测一个掩蔽或隐藏的氨基酸("."),从而学习自然发生的TCR的 "语法 "结构。这是在一个没有MHC或HLA限制的TRA和TRB序列的大语料库中完成的,关键是不需要抗原结合亲和力的知识。接下来,本文利用这个模型并进一步训练它,在一组45个抗原标签中预测给定的TRB氨基酸序列所结合的抗原。在检查预训练的效果并为下游任务选择一个最佳的表征层后,TCR-BERT可用于各种TCR分析,包括预测抗原结合和TCR聚类。
TCR-BERT可以用来建立最先进的预测抗原结合的分类器。
(A) 将TCR-BERT嵌入训练的PCA-SVM与基线监督卷积神经网络进行比较。每个点代表测试AUPRC使用两种方法中的每一种对单一抗原进行分类。较大的点表示有更多训练实例的抗原。TCR-BERT在25/26个实例中提供了改进的性能。
(B)将PCA-SVM应用于本文的TCR-BERT模型与PCA-SVM在针对一般氨基酸序列的类似语言模型ESM上进行比较。每个点代表AUPRC使用PCA-SVM对单一抗原进行分类。在所有情况下,TCR-BERT的嵌入使分类性能大大改善。这对其他大型氨基酸语言模型如TAPE也是如此,这表明TCR-BERT的专门预训练对于在这些高变异的TCR链上取得良好的性能至关重要。
(C) 本文评估各种抗原结合预测方法在不同患者中的推广能力。本文使用一个病人的数据训练分类器来预测TRB与人类NP177抗原的结合,并在4个测试病人身上评估这些模型。在大型数据集上利用预训练的模型以实线表示,而监督模型则以虚线表示。TCR-BERT和TAPE是唯一能预测TCR-抗原特异性的方法,其中TCR-BERT的性能最好。另一方面,这两种监督方法的表现都比随机分类器差,说明是过度拟合。
(D) 使用描述GP33结合的小鼠数据集,本文评估了各种模型在给出TRA/TRB序列对时的抗原结合预测。本文对TCR-BERT进行了微调,以达到同类领先的性能,就像它对以前仅有的TRB抗原结合预测问题一样。
上图展示了TCR-BERT的注意力揭示了有生物学意义的学习模式。
(A) 热力图显示了TCR-BERT在微调后为预测LCMV GP33的结合所学到的注意力,在固定长度的测试集TRA和TRB序列中平均。纵轴表示TRA(顶部)和TRB(底部)序列中的位置,横轴表示TCR-BERT中的12个注意头中的每一个。注意力往往集中在TCR的中心,这与先前的文献相一致。
(B,C)本文使用三个经验性的PDB结构(5m00、5m01和5m02)来分析类似的GP33系统,将这些平均注意力与TCR-抗原结合的生物物理结构联系起来。蓝线表示,对于TRA中的每个残基,每个实验结构中与抗原的最小距离。橙色线表示TCR-BERT对这些相同残基的关注。TCR-BERT对最接近抗原的残基给予最多关注,即那些最可能接触抗原的残基。
(D)三维结构显示MHC(绿色)、改良的GP33抗原、TRA(粉红色)和TRB(黄色)。侧链被显示出来,并突出显示了抗原和TCR残基平均接受模型关注的前33个百分点。TCR-BERT所关注的残基经常与呈现的抗原直接接触;黄色的TRB链尤其如此,它与抗原的距离更近。
、
上图展示了TCR-BERT使新型TCR序列工程成为可能
(A) 为了设计对GP33抗原有亲和力的序列,本文选取了100个与GP33没有测量结合的内源性TRA和TRB对,使用基于TCR-BERT的分类器来选择最有可能结合的序列,并使用这些序列来采样新的TCR序列,使用TCR-BERT的屏蔽氨基酸预测作为生成模型。这种定向进化过程被重复进行,以反复完善TCR的池子。这丰富了理想的结合特性,超越了简单地从原始输入中选择。
(B)为了评估本文的TCR工程过程的有效性,本文使用BLAST将本文的起始和最终工程TRB序列与先前确定的小鼠TRB相匹配。本文发现最终的工程序列与先前已知的GP33结合的TRBs(蓝色)相比,产生了更多重要的命中(其中也包含较少的命中)。
(C) 本文的计算工程序列与几个已知的GP33结合物相匹配,而这些结合物并没有被本文的起始序列类似地匹配。这些新的匹配表明,本文的TCR工程过程产生了新的但有生物学意义的序列。在这里,本文总结了这些以前没有观察到的匹配(底部图案),以及本文生成的具有显著相似性的序列(顶部图案)。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢