【论文标题】Distillation of MSA Embeddings to Folded Protein Structures with Graph Transformers

【作者团队】 Allan Costa, Manvitha Ponnapati, Joseph M. Jacobson,  Pranam Chatterjee

【发表时间】2021/06/02

【机 构】MIT

【论文链接】https://www.biorxiv.org/content/10.1101/2021.06.02.446809v1.full

【推荐理由】SOTA语言模型端到端预测蛋白质三级结构

蛋白质结构预测一直是生物学中的一个长期目标。最近语言模型被用来捕捉蛋白质序列的进化语义。丰富以多重序列比对(MSA)的信息,语言模型可以编码蛋白质的三级结构。在这项工作中,作者引入了一个基于注意力的图结构,利用MSA transformer的嵌入,直接从蛋白质序列中产生三维折叠结构。我们预期这个管线将为高效的、端到端的蛋白质结构预测提供基础。

上图为利用MSA Transformer和Graph Transformer的序列到结构管线。(a) 首先将一个长度为N的蛋白质序列增强到数量为S的MSA。MSA Transformer对这个标记矩阵进行操作,产生丰富的个体和成对的嵌入关系。(b) 深度神经网络提取相关的特征,并为下游的图transformer构建隐变量。单都和成对的嵌入分别被分配到节点和边上。(c) 图transformer通过基于注意力的机制对节点表示进行操作,考虑成对的边缘属性。最终的节点编码被直接投射到ℝ3,并计算出损失的诱导距离图。

上图为ESM结构拆分数据集(左)和CASP13自由建模(右)的样本,蓝色痕迹表示模型预测,红色痕迹表示地面真相。轨迹是通过对预测的Cα坐标序列进行拟合产生的。

上图为对CASP13自由建模目标的模型预测的定性评估。本文的模型能够捕捉到长距离的相互作用,而trRosetta在结构上仅限于短距离的依赖关系。作者着重强调T0950和T0963D2是具有挑战性的重建的例子。

内容中包含的图片若涉及版权问题,请及时与我们联系删除