本文筛选了 PDB 数据库以选择与抗体相互作用的抗原表位残基。对于每个抗原残基,计算了contact numbe(接触数)r特征,该特征表示抗原残基与距离半径R 1 内的抗体残基的接触次数。如果与相互作用抗体的距离低于指定的临界值 R 1,则认为抗原残基为表位。R 1 在 4.5、6.0 和 8.0 Å 范围内选择。4.5 Å 的截止值反映了与抗体残基直接相互作用的存在。6.0 Å 和 8.0 Å 的半径值还包括参与长程相互作用的残基。
众所周知,抗原表位可以在空间上分布在抗原结构上,在某些情况下,这些实验信息可能会丢失。考虑到这一点,本文根据与相互作用抗体 R 2的距离将非表位残基拆分为“近距离”( R < R 2) 和“远距离”( R > R2)。本文选择R 2 等于 12.0、14.0 或 16.0 Å 来分析表位边界区域信息对模型准确性的影响。
SARS-CoV-2的S蛋白的RBD结构域是迄今为止在结构上最有特色的抗原之一。本文对RBD结构域而不是全长的S蛋白进行分析,以排除目前SEMA没有考虑的糖基化的假定影响。为了评估SEMA的性能,在模型训练期间,本文排除了S-蛋白的所有同源序列(相同程度>70%),特别是MERS和SARS-CoV的S-蛋白。对SEMA-3D进行了评估,以解决三个问题:(1)正确分配表位和非表位残基;(2)正确预测接触数特征;(3)预测免疫显性表位残基。RBD的免疫优势残基是根据PDB数据库中RBD/抗体复合物的比例来估计的,其中RBD残基与抗体有直接接触。本文假设计算出的比率可以估计出RBD残基的免疫原性,高的比率对应于免疫显性残基。
- 本文生成了一个基准,包括根据两个距离截止值对表位残基进行分类的抗原。第一个距离,R1,定义了正的表位标签类别,而第二个距离,R2,定义了如果残基离表位太远而在度量计算中被忽略。有限的R2半径使得评估该模型预测表位边界的能力成为可能。此外,对于每个抗原残基,本文计算了接触数特征,对应于位于抗原残基半径R1内的抗体原子数。这一特征被引入到模型训练中,为抗体和抗原之间的相互作用提供额外的空间信息。
- 本文展示了一个微调的蛋白质语言模型(ESM-1v)和一个反折叠模型(ESM-IF1)在预测构象表位时表现良好。更具体地说,该模型是在只有783条抗原记录的非冗余集上进行微调的,其表位残基是根据PDB数据库中可用的抗原/抗体结构和选定的R1和R2半径值分配的。
- 本文最终展示了模型SEMA;它包括SEMA-1D(微调的ESM-1v)和SEMA-3D(微调的ESM-IF1)模型,分别用于基于序列和基于结构的构象B细胞表位预测。SEMA在所有基准任务中都取得了很高的指标,并在R1=8.0 Å和R2=16.0 Å的屏蔽数据集中进行了训练。
- 此外,本文表明SEMA可以预测RBD域残基的免疫原性。在这种情况下,本文评估了RBD结构域残基的免疫原性,即在所有可用的RBD/抗体复合物中,相应残基与抗体直接接触的复合物的比率。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢