如今,在蛋白质结构预测领域,各大厂也出现了「百家争鸣,百家齐放」。
今年,DeepMind 公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的所有蛋白质。现在,另一家科技巨头 Meta 正在填补另一空白,微生物领域。
简单来说,Meta 使用 AI 技术预测了约 6 亿种蛋白质结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。团队负责人 Alexander Rives 表示:「这些蛋白质是我们所知最少的结构,它们是非常神秘的蛋白质。我认为这些发现为深入了解生物学提供了潜力。」
通常,语言模型是在大量文本上进行训练的。Meta 为了将语言模型应用于蛋白质,Rives 的研究小组将已知的蛋白质序列作为输入,这些蛋白质由 20 种氨基酸组成,并用不同的字母表示。然后,该网络在遮蔽一定比例氨基酸的情况下学会了自动补全蛋白质。
Meta 将这个网络命名为 ESMFold。虽然 ESMFold 预测准确性不如 AlphaFold,但在预测结构方面,它比 AlphaFold 快约 60 倍。这一速度意味着可以将蛋白质结构预测扩展到更大的数据库。

论文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2
项目地址:https://github.com/facebookresearch/esm
内容中包含的图片若涉及版权问题,请及时与我们联系删除



评论
沙发等你来抢