【论文标题】Evolutionary velocity with protein language models

【作者团队】 Brian L. Hie,  Kevin K. Yang,  Peter S. Kim

【发表时间】2021/06/07

【机 构】斯坦福,微软

【论文链接】https://www.biorxiv.org/content/10.1101/2021.06.07.447389v1

【推荐理由】蛋白质语言模型与传统生信的融合展示

预测生物同源的顺序是进化生物学的一项基本任务。对于蛋白质的进化来说,这种顺序通常是通过首先将序列排列成系统发育树来确定的,这存在限制性的假设,并可能存在大量的模糊性。本文展示了被称为语言模型的机器学习算法如何学习预测进化方向性的突变可能性,从而实现系统发育分析,解决现有方法的关键限制。作者的主要概念进展是通过局部进化预测构建一个蛋白质进化的 "矢量场",作者称之为进化速度。本文表明,进化速度可以成功地预测不同时间尺度的进化秩序,从病毒蛋白在几年内的进化到真核生物蛋白在地质年代的进化。Evo-velocity还产生了新的进化见解,预测了病毒-宿主免疫逃逸的策略,解决了关于蛇蛋白进化的冲突理论,并揭示了水平基因转移在真核生物糖酵解进化中的关键作用。本工作表明,语言模型可以学习足够的天然蛋白质进化规则,以实现进化的可预测性。

上图展示了通过预测局部进化构建进化矢量场的过程。四张子图分别代表了(A)全局进化过程可以通过局部进化预测的集合来近似。(B) 为了进行这些预测,我们可以利用语言模型来学习一个氨基酸在某些序列环境中出现的可能性。(C) 语言模型学习的伪似然与基于DMS的各种蛋白质fitness的测量相关,而语言模型不需要明确地在这些数据上进行训练。DeepSequence为每个蛋白质家族训练一个单独的模型,而ESM-1b和TAPE是一般的语言模型,每个模型都在一个单一的、非冗余的数据集上训练。圆圈表示同一研究中不同DMS特征的相关性;条形高度表示这些特征的平均值。D)Evo-velocity使用语言模型的可能性为序列相似性网络中的边缘分配一个方向性,使下游的分析,如预测根节点,在伪时间中排序节点,并识别与Evo-velocity最大变化有关的突变。

上图清楚地展示了甲型流感核蛋白的进化速度。其他的例子包括病毒,真核蛋白等,在文中有所展示。子图们分别代表了:A)NP序列的过程,以KNN序列相似性网络表示,显示了与流感各种亚型的时间演变相对应的结构;灰线表示网络边缘。将进化速度叠加在可视化的流图上,显示了进化速度的流向和已知采样时间之间的视觉相关性。来自Gong等人的已知系统发育路径(橙色圆圈)从Aichi/1968开始,到Brisbane/2007结束,沿着进化速度的方向移动。(B) 使用进化速度方向性来预测根部,揭示了四个主要的根部区域,对应于历史上不同流感大流行事件的开始。(C) 将序列按假时排序,并在二维等高线图中显示假时在进化速度方向上的增加,这里被可视化为进化速度向量的二维领域。(D)平均而言,在(A)和(C)中可视化的Gong等人的路径随着时间的推移在进化速度得分方面有积极的变化,并且在很大程度上类似于通过在我们的进化速度上进行随机行走产生的模拟路径。在Gong等人的路径中,有一部分进化速度分数为负数,这可能是由于排序不明确造成的,考虑到进化速度可以更好地解决这个问题。(E) 所有NP序列的最大似然、中点根系的系统发育树表明,H5N1和H7N9亚型序列是从H1N1序列中分支出来的。(F) 与此相反,evo-velocity预测H5N1/H7N9流感的独立起源,并且由于趋同进化而与H1N1序列相似。G)对NP的M374I突变在进化速度上的变化幅度第二大,并且位于NP上研究最充分的人类T细胞表位。

上图为古代进化的速度。子图分别为:(A) 蛇蛋白的无根最大似然系统发育树显示真核生物的多样性大大高于原核生物的多样性,导致一些人假设有一个真核生物根。B, C)尽管原核生物的多样性较低,但evo-velocity仍然在原核生物内确定了蛇蛋白的根,真核生物是evo-velocity伪时间的最后一个域,表明原核生物蛇蛋白不是通过HGT从真核生物获得的。(D, E) 酶的进化速度预测根基开始于古生物和一些细菌的区域,真核生物的酶在伪时间上是最新的,在序列上直接接近古生物的酶。F, G) evo-velocity预测的PGK的根部开始于一个主要是细菌的区域,有一些古细菌,真核生物PGK在假时间内也是非常新的,直接接近细菌PGK。(H) 序列和进化速度预测的根表明,真核生物糖酵解的组成酶是通过HGT的不同进化路径获得的

内容中包含的图片若涉及版权问题,请及时与我们联系删除