本文分享的是巴黎索邦大学、都灵理工大学和巴黎高等师范学院联合发表的文章,该篇文章介绍了一个基于简单自回归模型的蛋白质序列高效生成模型。生成模型的优越性表现在不仅可以设计基于序列数据的蛋白质,也可以提取深深地隐藏在序列数据库中蛋白质的结构和功能信息。本文提出了基于简单自回归模型的高准确率、高计算效率的序列生成模型。其性能类似于现有的基于玻尔兹曼机或深度生成模型的方法,但计算成本大大降低。此外,该模型的简单结构具有独特的数学优势,提高了在序列生成和评估上的适用性。

论文链接:https://doi.org/10.1038/s41467-021-25756-4

代码链接:https://github.com/pagnani/ArDCA.git

本文提出了一个基于浅层(单层)自回归模型和广义逻辑回归的简单模型架构——arDCA,简单的结构使其在数据有限的情况下健壮性更强,学习速度更高;而自回归模型可以精确计算序列概率。在突变效应和残基接触预测方面可与最先进的技术相媲美。最后,arDCA模型的熵与给定蛋白质家族相关的功能序列空间的大小有关,这比在bmDCA中的计算更加有效。

arDCA方法的体系结构

内容中包含的图片若涉及版权问题,请及时与我们联系删除