蛋白质设计旨在构建针对特定目的定制的新型蛋白质,从而具有解决许多环境和生物医学问题的潜力。基于 Transformer 的体系结构的最新进展已经实现了能够生成具有类人能力的文本的语言模型。

受这一思想启发,拜罗伊特大学的研究人员描述了 ProtGPT2,这是一种在蛋白质空间上训练的语言模型,它按照自然的原则生成从头蛋白质序列。生成的蛋白质显示出天然氨基酸倾向,而无序预测表明 ProtGPT2 生成的蛋白质中有 88% 是球状的,与天然序列一致。

蛋白质数据库中的敏感序列搜索表明 ProtGPT2 序列与自然序列关系较远,相似性网络则进一步表明 ProtGPT2 是在对蛋白质空间的未探索区域进行采样。

ProtGPT2 序列经 AlphaFold 预测,可产生具有实施例和大循环的良好折叠的非理想化结构,这也揭示了当前结构数据库中未捕获的拓扑。

ProtGPT2 可在几秒钟内生成序列并且免费。

该研究以「ProtGPT2 is a deep unsupervised language model for protein design」为题,于 2022 年 7 月 27 日发布在《Nature Communications》。

模型和数据集:https://huggingface.co/nferruz/ProtGPT2
论文链接:https://www.nature.com/articles/s41467-022-32007-7

内容中包含的图片若涉及版权问题,请及时与我们联系删除