许锦波团队开发蛋白逆折叠深度学习框架，用更少结构数据训练获得更准确序列预测

计算蛋白质设计（CPD）在医疗、生物传感器、酶工程等与人类健康生活息息相关的领域，均起到了基础支持作用。蛋白质逆向折叠（通过结构预测序列）则是 CPD最主要的研究方向之一。

在最近的一项研究中，芝加哥丰田计算技术研究所的许锦波教授团队建立了一个解决逆向蛋白质折叠问题的框架。尽管该模型没有明显使用进化信息，但它能够从结构数据中学习到蛋白质功能，并且优于在大型序列数据库上训练出来的蛋白质语言模型。研究人员希望，他们的模型能够促使其他研究人员进一步使用结构信息来预测蛋白质突变效应。

该研究以「A Deep SE(3)-Equivariant Model for Learning Inverse Protein Folding」为题，于 2022 年 4 月 15 日发布在 bioRxiv 预印平台。

CPD 的研究近况

计算蛋白质设计有两个广泛尝试的目标：1、逆向折叠，也称为固定骨架设计，其目的是生成兼容事先给定的蛋白质骨架结构的新氨基酸序列；2、从头设计，其目的是开发具有某些所需性质的蛋白质序列。通过设计自然界不存在的蛋白质，这些方法促进了生物医疗、生物传感器、酶等领域的发展。

由于传统观点认为蛋白质的天然状态对应于其自由能最小值，因此 CPD传统上被视为能量最小化问题。在这种情况下，能量函数通常由基于物理的能量项和基于知识的能量项的组合而成，后者通常来自实验数据。在能量优化期间，对蛋白质序列进行采样和突变，直到能量最小值。

尽管这种方法取得了一些成功，但它也有一些主要缺点。首先，搜索空间随着蛋白质序列长度呈指数增长。这对设计稍微大点的蛋白质提出了相当大的挑战。接下来，为了计算效率，总能量通常被近似为单体和两体分数项的加权和，而忽略了更复杂的多体相互作用。设计出来的蛋白质序列与天然类似物接近的程度受到能量函数准确性的限制。

许教授团队认为，如果能仅从结构数据中获得蛋白质功能有关的信息，那么仅以蛋白结构和部分序列为条件的生成模型，也可以用作一个对单点突变的功能影响的零样本预测器。

于是，在新的研究中，许教授团队扩展了他们前期关于侧链结构预测的工作，并引入了一种深度 SE(3)-等变图 transformer 架构，直接对从蛋白质主干结构派生的特征进行操作，实现了同时预测每个残基的氨基酸类型和侧链构象。

该架构由两个主要的子模块组成：12 层 Locality Aware Graph Transformer 和 8 层 TFN-Transformer。其中，Locality Aware Graph transformer利用蛋白质主干的几何形状来优化单个残基和残基对的特征表示，并将注意力限制在空间上相邻的残基对。该模块的输出和蛋白质主干坐标一起被传递到下一个模块 TFN transformer，该模块为每个输入残基产生侧链构象和氨基酸类型。这些模块的详细信息在许教授另一篇文献中有完整描述，下面给出了示意图。

文献链接：https://www.biorxiv.org/content/10.1101/2022.03.11.483812v1

图示：方法概述。（来源：论文）

研究人员在四个测试集（ CASP13、CASP14、CATH4.2 和 TS50）上比较了几种现有的逆向折叠方法，表明新方法在所有数据集上具有明显更高的天然序列恢复率(NSR)。

此外，他们通过将预测出来的残基变异概率与深度突变扫描（DMS）实验进行比较，验证新模型在捕获蛋白质功能方面的效果。这一研究结果也揭示了结构信息在未来蛋白质突变效应预测研究中的应用。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

许锦波团队开发蛋白逆折叠深度学习框架，用更少结构数据训练获得更准确序列预测

评论列表

评论