【标题】SEMA: Antigen B-cell conformational epitope prediction using deep transfer learning

【作者团队】Tatiana I. Shashkova, Dmitriy Umerenkov, Mikhail Salnikov,  Pavel V. Strashnov,  Alina V. Konstantinova, Ivan Lebed,  Dmitrii N. Shcherbinin,  Marina N. Asatryan,  Olga L. Kardymon,  Nikita V. Ivanisenko

【发表时间】2021/06/21

【机 构】俄罗斯AIRI研究院等

【论文链接】https://doi.org/10.1101/2022.06.20.496780

【代码链接】https://github.com/AIRI-Institute/SEMAi

【网页链接】http://sema.airi.net

疫苗设计和免疫治疗药物开发的主要任务之一是预测与抗原三级结构中主要抗体结合位点相对应的B细胞构象表位。到目前为止,已经涌现了多种方法来解决这个问题。然而,对于广泛的抗原,它们的准确性是有限的。本文应用迁移学习方法,使用预训练的深度学习模型来开发一个模型,根据主要抗原序列和三级结构来预测构象的B细胞表位。本文将预训练的蛋白质语言模型ESM-1b和一个反折叠模型ESM-IF1微调,以定量预测抗体-抗原相互作用的特征并区分表位和非表位残基。由此产生的名为SEMA的模型在独立的测试集上表现出最佳性能,与同行评议的工具相比,ROC AUC为0.76。本文表明,SEMA可以对SARS-CoV-2的RBD结构域中的免疫优势区域进行定量的排序且效果良好。

上图展示了表位数据集的生成过程。本文筛选了 PDB 数据库以选择与抗体相互作用的抗原表位残基。对于每个抗原残基,计算了contact numbe(接触数)r特征,该特征表示抗原残基与距离半径R 1 内的抗体残基的接触次数。如果与相互作用抗体的距离低于指定的临界值 R 1,则认为抗原残基为表位。R 1 在 4.5、6.0 和 8.0 Å 范围内选择。4.5 Å 的截止值反映了与抗体残基直接相互作用的存在。6.0 Å 和 8.0 Å 的半径值还包括参与长程相互作用的残基。

众所周知,抗原表位可以在空间上分布在抗原结构上,在某些情况下,这些实验信息可能会丢失。考虑到这一点,本文根据与相互作用抗体 R 2的距离将非表位残基拆分为“近距离”( R < R 2) 和“远距离”( R > R2)。本文选择R 2 等于 12.0、14.0 或 16.0 Å 来分析表位边界区域信息对模型准确性的影响。

上图展示了模型SEMA。SEMA 涉及使用基于序列 (SEMA-1D) 和基于结构 (SEMA-3D) 的方法来预测构象 B 细胞表位并提供可解释的分数

上图展示了用SEMA预测RBD免疫优势表位的结果。

SARS-CoV-2的S蛋白的RBD结构域是迄今为止在结构上最有特色的抗原之一。本文对RBD结构域而不是全长的S蛋白进行分析,以排除目前SEMA没有考虑的糖基化的假定影响。为了评估SEMA的性能,在模型训练期间,本文排除了S-蛋白的所有同源序列(相同程度>70%),特别是MERS和SARS-CoV的S-蛋白。对SEMA-3D进行了评估,以解决三个问题:(1)正确分配表位和非表位残基;(2)正确预测接触数特征;(3)预测免疫显性表位残基。RBD的免疫优势残基是根据PDB数据库中RBD/抗体复合物的比例来估计的,其中RBD残基与抗体有直接接触。本文假设计算出的比率可以估计出RBD残基的免疫原性,高的比率对应于免疫显性残基。

(A)) SARS-CoV-2的RBD结构域(PDB ID 7KS9,B链)根据SEMA预测得分(左)、免疫原性得分(中)、接触数值(右)进行着色。残基的颜色从棕色(低值)到青色(高值)。免疫原性为PDB数据库中RBD/抗体复合物的比率,其中RBD残基在8.0 Å内与抗体接触。

(B) SEMA得分和的抗原接触数特征之间的相关性。

(C) SEMA得分和免疫原性得分之间的相关性。

(D) 基于免疫原性评分阈值的不同表位/非表位残基分类计算的ROC AUC值。

SEMA-3D为接触数值和估计的免疫原性分数提供了高的相关系数。此外,本文根据比率阈值计算了模型的ROC AUC指标,以区分免疫显性残基(高比率)和其他残基(低比率)。这提供了对模型性能更可靠的估计,因为RBD结构域的大多数溶剂暴露的残基都被标记为表位,因为至少存在一个相应残基与抗体交互的结构。从分数截止值可以看出,SEMA-3D在这个任务上实现了平均ROC AUC指标为0.75。

 

创新点

  • 本文生成了一个基准,包括根据两个距离截止值对表位残基进行分类的抗原。第一个距离,R1,定义了正的表位标签类别,而第二个距离,R2,定义了如果残基离表位太远而在度量计算中被忽略。有限的R2半径使得评估该模型预测表位边界的能力成为可能。此外,对于每个抗原残基,本文计算了接触数特征,对应于位于抗原残基半径R1内的抗体原子数。这一特征被引入到模型训练中,为抗体和抗原之间的相互作用提供额外的空间信息。
  • 本文展示了一个微调的蛋白质语言模型(ESM-1v)和一个反折叠模型(ESM-IF1)在预测构象表位时表现良好。更具体地说,该模型是在只有783条抗原记录的非冗余集上进行微调的,其表位残基是根据PDB数据库中可用的抗原/抗体结构和选定的R1和R2半径值分配的。
  • 本文最终展示了模型SEMA;它包括SEMA-1D(微调的ESM-1v)和SEMA-3D(微调的ESM-IF1)模型,分别用于基于序列和基于结构的构象B细胞表位预测。SEMA在所有基准任务中都取得了很高的指标,并在R1=8.0 Å和R2=16.0 Å的屏蔽数据集中进行了训练。
  • 此外,本文表明SEMA可以预测RBD域残基的免疫原性。在这种情况下,本文评估了RBD结构域残基的免疫原性,即在所有可用的RBD/抗体复合物中,相应残基与抗体直接接触的复合物的比率。