近日,阿卜杜拉国王大学和中科院发布了一篇发布了一篇借助深度学习方法研究SARS-COV-2抗原进化的预印本 ,旨在解决在实验检测能力缺乏的限制下,探索巨大蛋白潜在序列空间,发现潜在具有高抗原进化潜力的组合突变的问题 。作者提出了MLAEP,它结合了结构建模、多任务学习和遗传算法来模拟病毒的适应度景观(fitness landscape),并通过虚拟定向进化预测整个RBD区域的具有高抗原进化潜力的组合突变。为了证明模型的有效性,作者使用了假病毒中和试验数据集验证了模型预测逃逸潜力方面的性能。本文也发现模型打分与突变体的采样时间之间有0.65 的相关系数。另外,使用遗传算法生成的具有免疫逃逸潜力的生成RBD突变序列与免疫力低下的COVID-19患者体内发现的毒株以及新出现的突变体有类似的突变,实验显示生成序列具有与Omicron相当甚至更好的免疫逃逸潜力,可能成为未来的高风险突变体。总之,MLAEP可以为公共卫生决策提供支持并指导新疫苗的开发。
MLAEP全称为Machine Learning-guided Antigenic Evolution Prediction。如下图显示,该方法训练了一个多任务深度神经网络模型来预测突变体RBD对ACE2和抗体的结合特异性。
具体来说,模型在给定具有结合标签的RBD突变序列以及ACE2和抗体结构的情况下可以学习到预测该RBD对ACE2和抗体的结合特异性的非线性映射函数。该函数的参数是由三个模块组成的可学习的映射参数:序列特征提取器ESM-1b、结构特征提取器Structured Transformer和九个分类头。其中,ESM-1b是由Meta在UniRef50数据库中约2700万个自然蛋白质序列上使用Transformer架构进行预训练得到的;Structured Transformer则是来自Ingraham et al.通过图神经网络和注意力机制提取信息,图节点的注意力限制在其三维空间中的k=30个近邻中,节点特征包括该原子和紧邻的二面角,边特征描述了节点之间的关系,包括两个节点在三维空间中的相对距离、方向和朝向,从而实现了对结构的预训练。以上模块共享同一组参数,以端到端方式进行训练,目的是使九个任务,即RBD与ACE2和八种抗体是否有结合,的目标函数平均分类交叉熵最小,从而实现了输入一个RBD突变体序列,输出其对于ACE2和八种抗体的结合概率的功能。本文把给定序列的RBD突变体经过模型预测的和八种抗体结合概率的平均值定义为模型对其抗体逃逸潜力的评价。

MLAEP的关键假设是未来的病毒突变体往往具有更高的抗体逃逸潜力,同时在高免疫压力下不会失去太多ACE2结合能力。因此MLAEP旨在解决一个搜索问题:从一个初始序列开始,如何在某个范围内搜索到具有相当甚至更高抗体逃逸潜力,同时保持ACE2结合能力的突变序列?为了解决这个问题,作者认为需要通过学习突变对ACE2结合和抗体逃逸的影响,构建抗原区域,尤其是RBD区域的虚拟适应度景观。受机器学习指导下的蛋白质工程领域进展的启发,本文将训练好的多任务模型作为打分函数,将所有九个任务的平均预测分数作为适应度分数,并使用遗传算法来搜索具有优化适应度的新突变体。
详细内容请参考原公众号链接
总结
1.深度学习模型,尤其是本文的多任务模型可以学习多个突变之间的高阶关系,并作为预测器来预测新出现的突变的逃逸潜力,尤其是对于那些突变严重的突变体,如Omicron系,另外这里的多任务学习模型也可以用其他突变效应预测模型代替。
2.本文使用遗传算法来搜索新的突变,但其他搜索算法,如爬坡、模拟退火和强化学习也可以与模型相结合。
3.与Evo-velocity分析相结合有助于揭示现有序列的进化轨迹,并能发现未来可能出现的高风险突变。
4.目前模型只关注RBD序列,而许多突变发生在该区域之外。越来越多的实验表征了其他区域的突变的功能,其中语言模型可能会提供相应的语义方向,未来可作为新的研究课题。
5.本文只优化了ACE2结合和抗体逃逸两个指标,而进化也是由许多其他属性驱动的,如流行病学特征和T细胞反应。本公众号之前推送的文章Karim et al.中引入了条件对数似然分数和增长分数、表位变化分数等协助理解和预测SARS-COV-2的进化。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢