人类基因组掌握着2万多种蛋白质的指令。但其中只有约三分之一的人通过实验确定了他们的3D结构。在许多情况下,这些结构只是部分已知的。

7月22日,DeepMind 与欧洲生物信息研究所(EMBL-EBI)合作发布了AlphaFold DB;利用 AlphaFold 确定了覆盖几乎整个人类蛋白质组(98.5% 的所有人类蛋白)的蛋白质的结构。此外,该工具预测了从小鼠和玉米(玉米)到疟疾寄生虫等各种其他生物体的几乎完整的蛋白质组。

这项最新的研究成果于 7 月 22 日以「Highly accurate protein structure prediction for the human proteome」为题发表在杂志《Nature》上。

论文链接:https://www.nature.com/articles/s41586-021-03828-1

研究发现 AlphaFold 能对人类蛋白质组 58% 的氨基酸的结构位置给出可信预测。其中,对 35.7% 的结构位置的预测达到了很高的置信度,是实验方法覆盖的结构数量的两倍。在蛋白水平上,AlphaFold 对 43.8% 的蛋白的至少四分之三的氨基酸序列给出了可信预测。预测信息将通过 EMBL-EBI 托管的公用数据库免费向公众开放。

清华大学生命科学学院的龚海鹏副教授告诉机器之心——ScienceAI,「这项工作影响非常深远,将在很大程度上改变相关领域的科研模式」,而且从事蛋白质功能和机理研究、分子动力学模拟和基于结构的药物开发、蛋白质结构解析的研究者都能从中受益。

龚海鹏副教授表示,对于计算化学领域和生物信息学领域的研究者,给出了很好的蛋白质初始结构信息,可以基于此进行分子动力学模拟以及计算机辅助药物设计等工作。研究蛋白质功能和机理的学者,也可以根据预测的结构解释实验中氨基酸残基突变对蛋白质功能的影响,有助于更深入和更准确地理解蛋白质的工作机理。目前结构解析团队用冷冻电镜法较容易建立低分辨率的电子密度图,用X射线晶体衍射法常常缺乏相位信息,这些缺陷都影响结构的解析;而该研究结果的开源,使得大部分实验室可以根据精度较低的实验数据建立较为合理的结构模型。

不过,芝加哥丰田计算技术研究所的许锦波教授指出:「AlphaFold 预测人类蛋白的覆盖率很高,达到了 98.5%,但在某些生物制药或疾病治疗领域,对蛋白质氨基酸结构精度需要达到原子级别,从这个角度看,AlphaFold 还有一定的提升空间。」

另一些研究人员也同意许教授的看法。自然资源部第三海洋研究所一名研究蛋白互作的研究人员表示,AlphaFold 是对实验结构生物学的一种补充技术,它可以加速现有的生物结构实验研究,节约数月的时间,但「预测毕竟是预测,还是需要实验证实」。

参与这项工作的 DeepMind 研究人员表示,「像AlphaFold 这样擅长理解蛋白质结构任务的网络架构的发展令人乐观,我们可以在相关问题上(预测复合物的结构、结合非蛋白质成分等)取得进展……大规模的准确结构预测将成为一种重要工具,让我们能从结构的角度解答新的科学问题,而 AlphaFold 的预测结果将帮助进一步阐明蛋白质的作用。」