人工智能有可能在进化的规模上开启对蛋白质结构的洞察力。直到 2022 年才有可能将蛋白质结构预测扩展到 2 亿个编目蛋白质。对大规模基因测序实验揭示的呈指数增长的数十亿蛋白质序列的结构进行表征,需要在折叠速度上取得突破。

在这里,Meta AI 团队和纽约大学的研究人员展示了,使用大型语言模型从主序列直接推断结构,可以在高分辨率结构预测中实现一个数量级的加速。

利用语言模型在数百万序列中学习进化模式的洞察力,该团队训练了多达 15B 个参数的模型,这是迄今为止最大的蛋白质语言模型。随着语言模型的缩放,它们学习的信息能够以单个原子的分辨率预测蛋白质的三维结构。这导致预测速度比最先进的技术快 60 倍,同时保持分辨率和准确性。

在此基础上,研究人员提出了 ESM Metage-nomic Atlas。这是宏基因组蛋白质的首次大规模结构表征,具有超过 6.17 亿个结构。该图谱揭示了超过 2.25 亿个高置信度预测,其中数百万个预测的结构与实验确定的结构相比是新颖的,从而以前所未有的视角了解地球上一些最不为人知的蛋白质结构的广度和多样性。

该研究以「Evolutionary-scale prediction of atomic level protein structure with a language model」为题,于 2023 年 3 月 16 日发布在《Science》。

论文链接:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v3.abstract

图片

图片