生物学中最大的问题之一终于得到解决。

生物学中有一句古老的格言:结构决定功能。为了了解在健康身体中发挥重要作用的无数蛋白质的功能 - 或在患病身体中的功能障碍 - 科学家必须首先确定这些蛋白质的分子结构。但这绝非易事:蛋白质分子由多达数千个氨基酸的长而曲折的链组成,这些化合物可以以多种方式相互作用,呈现出大量可能的三维形状。弄清楚单个蛋白质的结构,或解决“蛋白质折叠问题”,可能需要多年的挑剔实验。

但今年早些时候,由谷歌旗下公司 DeepMind 开发的名为 AlphaFold 的人工智能程序预测了几乎所有已知蛋白质的 3-D 结构——总共约 2 亿个。DeepMind 首席执行官 Demis Hassabis 和高级研究科学家 John Jumper 因这一成就共同获得了今年价值 300 万美元的生命科学突破奖,这为从扩大我们对基础分子生物学的理解到加速药物开发的应用打开了大门。

2016 年,DeepMind 的 AlphaGo AI 在比赛中击败世界围棋冠军李世石成为头条新闻后不久就开发了 AlphaFold 。但哈萨比斯说,目标始终是开发能够解决科学中重要问题的人工智能。DeepMind 已经在公共数据库中免费提供了几乎所有存在氨基酸序列的物种的蛋白质结构。

《科学美国人》Tanya Lewis与 Hassabis 就开发 AlphaFold、它的一些最令人兴奋的潜在应用以及高度复杂的人工智能的伦理考虑进行了交谈。下面是采访记录的整理。

你为什么决定创建 AlphaFold,你是如何做到现在可以折叠几乎所有已知蛋白质的?

我们几乎在我们从首尔的 AlphaGo 比赛回来后的第二天就开始了这个项目,在那里我们击败了世界 [围棋] 冠军李世石。我正在和 AlphaGo 的项目负责人 Dave Silver 交谈,我们正在讨论“DeepMind 应该做的下一个大项目是什么?” 我觉得是时候解决科学中真正困难的事情了,因为我们或多或少地解决了游戏 AI 的巅峰之作。我想最终将人工智能应用到现实世界的领域。这一直是 DeepMind 的使命:开发可以真正普遍应用于许多问题的通用算法。我们从游戏开始,因为出于各种原因,在游戏中开发和测试东西真的很有效。但最终,这绝不是最终目标。最终目标是开发AlphaFold 之类的东西。

这是一个庞大的项目——在 CASP14 [结构预测的关键评估,蛋白质折叠竞赛] 之前大约需要五六年的工作。我们在 CASP13 比赛中有一个更早的版本,那就是 AlphaFold 1。这是最先进的,你知道,比以前任何人都做得好很多,我认为这是第一次使用机器学习作为一个系统的核心组件来尝试破解这个问题。这让我们有信心进一步推动它。我们必须为 AlphaFold 2 重新设计东西,并在其中提出一大堆新想法,并为团队带来更多专家——从事蛋白质折叠工作的生物学家、化学家和生物物理学家——并将他们与我们的工程和机器学习团队结合起来。

在我的整个职业生涯中,我一直在研究和思考通用 AI,甚至在大学期间也是如此。我倾向于记下科学问题,我认为有一天可能会适应我们构建的算法类型,自 1990 年代以来,蛋白质折叠对我来说一直是正确的。我有很多很多生物学家朋友,他们过去一直对我讲这件事。

您对 AlphaFold 如此成功感到惊讶吗?

是的,事实上,这很令人惊讶。我认为这绝对是我们做过的最困难的事情,而且我还要说我们构建过的最复杂的系统。描述所有方法的 Nature 论文,以及补充信息和技术细节,长达 60 页。有 32 种不同的组件算法,并且每种算法都是必需的。这是一个相当复杂的架构,需要大量创新。这就是为什么花了这么长时间。拥有来自不同背景和学科的所有这些不同的投入是非常重要的。而且我认为我们在 DeepMind 做得特别好的是将它们混合在一起——不仅仅是机器学习和工程。

但是在AlphaFold 1之后有一段艰难的时期。我们首先做的是我们试图将AlphaFold 1推到最大。在 CASP13 之后大约六个月,我们意识到它不会达到我们想要实际解决问题并对实验家和生物学家有用的原子精度。所以我做了决定,我们需要回到绘图板上,把我们获得的知识,包括哪里有用,哪里没用,然后看看我们是否真的可以回到几乎是头脑风暴的阶段这些经验和知识,并提出了一大堆新想法和新架构。我们做到了,最终奏效了。但是在那次重置后的大约六个月到一年的时间里,情况变得更糟,而不是更好。早期的 AlphaFold 2 系统比 AlphaFold 1 差很多。在您似乎在准确性方面倒退的时期内,这可能非常可怕。幸运的是,这就是我们在游戏方面的经验以及我们之前构建的所有其他 AI 系统发挥作用的地方。我见过我们穿过死亡之谷,然后从另一边出来。

你能在一个非常简单的层面上解释一下 AlphaFold 是如何工作的吗?

这是一件相当复杂的事情。我们不确定很多事情。很明显,AlphaFold 2 正在学习一些关于化学和物理结构的隐含知识。它有点知道什么事情可能是合理的。据了解,通过看到真实的蛋白质结构,我们所知道的。而且,我们的一项创新是做一些称为自蒸馏的事情,即:获得早期版本的 AlphaFold 2 来预测大量结构,同时预测这些预测的置信度。

我们建立的其中一件事是使用称为多序列对齐的过程对化学键角和进化历史的理解。这些带来了一些限制,这有助于缩小可能的蛋白质结构的搜索空间。搜索空间太大,无法通过蛮力进行。但显然,现实世界的物理学以某种方式解决了这个问题,因为蛋白质在纳秒或毫秒内折叠起来。实际上,我们正试图通过从输出示例中学习来对该过程进行逆向工程。我认为 AlphaFold 已经捕捉到了一些关于分子物理和化学的非常深刻的东西。

总的来说,人工智能的迷人之处在于它是一个黑匣子。但最终,它似乎正在学习有关自然世界的实际规则。

是的,它几乎是在直觉上学习它。我认为我们将有越来越多的研究人员关注 AlphaFold 不擅长预测的蛋白质区域,并提出问题:“当蛋白质没有清晰的形状、不与某物相互作用时,它们在生物学中真的是无序的吗?大约 30% 的蛋白质(来自有核的生物体)被认为是无序的。许多这类蛋白质与疾病有关,例如神经退行性疾病,因为它们可能会缠结在一起。你可以看到它们是如何做到的,因为它们只是一种软线,而不是形成结构。

我们对 AlphaFold 2 所做的另一件非常重要的事情是,我们在机器学习系统中没有这样做,是输出每个氨基酸的置信度度量,因为我们希望生物学家能够真正知道他们预测的哪些部分可以依赖而无需了解任何有关机器学习的知识。

AlphaFold 最令人兴奋的应用程序有哪些?

我们有很多来自合作伙伴(早期采用者)的非常好的案例研究,他们与 AlphaFold 合作了一年。他们正在做各种各样的事情,从解决抗生素耐药性到通过设计吃塑料的酶来解决塑料污染。我一直在与 [CRISPR 先驱] Jennifer Doudna 谈论紫花苜蓿作物的可持续性——她的团队正在努力改造作物,使其在面对气候变化时更具可持续性。

但也有很多非常酷的基础研究正在使用它进行。《科学》杂志上有一整期关于核孔复合体的特刊。他们解决了体内最大蛋白质之一的结构。而且我认为三个小组同时从低温电磁 [低温电子显微镜] 数据中解决了这个问题——但他们都需要 AlphaFold 预测来增强某些地方的低温电磁低分辨率数据。因此,实验结构数据与 AlphaFold 的结合对结构生物学家来说是一个真正的福音,我们不一定会预测到这一点。

然后实际上,我们采访过的几乎所有制药公司都在使用 AlphaFold。我们可能永远不会知道全部影响是什么,因为很明显,它们保留了这种专有性。但我喜欢认为我们已经帮助加速了疾病的真正治愈和药物开发,可能需要几年时间。

围绕人工智能及其所能做的一切,特别是在科学和医学方面,有很多炒作。但 AlphaFold 似乎有一个明显的好处。

我的意思是,由你决定。但我想说,很多人告诉我,这是人工智能在科学领域做某事的最具体、最有用的案例。我喜欢我们兑现人工智能承诺的事实。我的意思是,你可以说“炒作”,但我们试着让我们的工作自己说话。

我记得当我们在 2010 年开始时,没有人在研究人工智能。然后现在,12 年后,似乎每个人和他们的狗都在谈论它。在大多数情况下,我确信你必须一直进行筛选,就好像他们有时甚至不知道 AI 是什么,或者他们误用了这个术语,或者发生的事情并不令人印象深刻。但我认为 AlphaFold 是一个非常好的概念证明或可能发生的榜样。而且我认为在接下来的十年中,我们将看到更多这样的情况——人工智能确实有助于真正加速一些科学突破——我们希望成为更多的一部分。我们认为这只是一个开始。

退一步说,人工智能最近经常出现在新闻中,无论是用于生产智能语言还是创造数字艺术。您是否认为 AI 已经更加深入公众意识,我们应该如何看待它的后果?

好,当然。我们 [在 DeepMind] 拥有自己的大型语言模型和文本到图像系统的内部版本,我们可能会在明年某个时候发布其中的一些。看到发展的爆炸式增长真的很有趣。显然,AlphaFold 在科学界是巨大的。但随着语言和图像 AI 的出现,它开始突破主流,因为显然每个人都懂语言,并且可以欣赏图像。您不必具备任何科学专业知识。

但我认为我们应该始终考虑道德问题,这也是我们尚未发布的原因之一。我们正试图负责真正检查这些模型可以做什么——它们如何脱离轨道,如果它们有毒会发生什么,所有这些都是目前最重要的事情。我们认为,其中一些系统还没有准备好向公众发布,至少不是不受限制的。但在某些时候,这会发生。在 DeepMind,我们有这样一句话:“负责任地开拓”。对我来说,这就是应用科学方法来分析这些系统并构建这些系统。我想很多时候,尤其是在硅谷,有一种黑客心态,比如“我们只要破解它,把它放在那里,然后看看会发生什么。

我一生都在研究人工智能,因为我认为它将成为有史以来对人类最有益的事情,比如治愈疾病、帮助改善气候等等。但它是一种双重用途的技术——它取决于作为一个社会,我们决定如何部署它——以及我们使用它的目的。

内容中包含的图片若涉及版权问题,请及时与我们联系删除