【论文标题】solPredict: Antibody apparent solubility prediction from sequence by transfer learning

【作者团队】Jiangyan Feng, Min Jiang, James Shih, Qing Chai

【发表时间】2021/12/09

【机 构】礼来

【论文链接】https://doi.org/10.1101/2021.12.07.471655

人们对开发皮下给药途径的治疗性mAbs越来越感兴趣,原因包括病人的便利性和依从性。这需要确定具有优异溶解度的mAbs,以利于高浓度制剂的开发。然而,早期选择具有最佳高浓度属性的可开发抗体仍然具有挑战性。由于实验性筛选通常是材料和劳动力密集型的,因此人们对开发强大的、能够仅根据序列信息筛选数千种分子的虚拟工具有很大兴趣。在本文中,本文提出了一个应用蛋白质语言模型的策略,名为solPredict,以预测mAbs在组氨酸(pH6.0)缓冲液条件下的溶解度。 solPredict将从预训练的蛋白质语言模型ESM-1b中提取的嵌入从单一序列输入到浅层神经网络。模型在由220种不同的mAbs组成的数据集,以及从PEG诱导沉淀法中获得的蛋白质溶解度推断数据上训练和五折交叉检验进行超参数调整。solPredict与实验数据实现了高度相关,Spearman相关系数=0.86,Pearson相关系数=0.84,R2=0.69,RMSE=4.40。solPredict的输出直接对应于实验溶解度测量(PEG%),并能对结果进行定量解释。这种方法消除了对mAbs的三维结构建模、描述符计算和专家制作的输入特征的需要。solPredict的计算费用极低,能够在早期抗体发现过程中对mAbs进行快速、大规模和高通量的筛选。

上图展示了solPredict的架构。首先,通过使用大型无标签蛋白质序列数据库预训练的蛋白质语言模型,将完整的IgG序列转换成固定大小的嵌入(每条链为1280)。接下来,重链和轻链嵌入被串联成2560维的特征向量,并作为下游回归模型的输入,预测mAb的溶解度。通过PEG诱导沉淀法测量的定量溶解度数据被用来监督训练回归模型。

上图展示了不同回归模型在测试数据集上的表现。SVM, RF, MLP1层和MLP2层模型在测试数据集上的预测(y轴)和实验测量的溶解度(x轴)的相关性。黑色虚线指的是完美相关:y=x。图例中显示了四个评价指标的统计数据。每个模型的离群点(mAb11, IgG2)都有注释。

MLP2层在学习复杂的序列与溶解度关系方面更出色。由于数据集有限,没有测试额外的隐藏层。随着更多定量溶解度数据的出现,更复杂的中性网络可能会进一步提高性能。由于MLP2层模型在所有四个评价指标中表现最好,因此它被选为solPredict的下游回归模型。综上所述,本文表明,对一般蛋白质序列进行预训练的蛋白质语言模型可以为抗体相关的下游任务提供一个强大的信号。

上图显示了使用t-SNE沿两个维度对嵌入进行可视化。使用原始嵌入和训练后的MLP2层模型的最后一个隐藏层表示所有260个mAbs。右侧B图中突出显示了离群者(mAb11, IgG2),每个点代表一个mAb,每个mAb的颜色是由实验测量的溶解度决定的。离群的mAb11被错误地放在了高溶解度mAbs的中间,进一步验证了本文之前的假设,即IgG2的关系还没有被很好地学习。总之,这表明预训练的蛋白质嵌入包含了关于蛋白质序列的一般属性,用一个小的数据集进行进一步的监督学习就足以为特定的任务重组嵌入了。

内容中包含的图片若涉及版权问题,请及时与我们联系删除