人工智能通过允许研究人员分析现代科学仪器产生的海量数据,改变了科学工作的方式。它可以在一百万大海捞针中找到一根针,并且通过深度学习,它可以从数据本身中学习。人工智能正在加速基因搜寻、医学、药物设计和有机化合物创造方面的进步。
深度学习使用算法(通常是经过大量数据训练的神经网络)从新数据中提取信息。它与传统计算的分步说明非常不同。相反,它从数据中学习。深度学习远没有传统计算机编程那么透明,留下了重要的问题——系统学到了什么,它知道什么?
作为一名化学教授,康涅狄格学院(Connecticut College)的 Marc Zimmer 喜欢设计至少有一个难题的测试,以扩展学生的知识,以确定他们是否可以结合不同的想法并综合新的想法和概念。研究人员为 AI 倡导者的典型代表 AlphaFold 设计了这样一个问题,它解决了蛋白质折叠问题。
蛋白质存在于所有生物体中。它们为细胞提供结构、催化反应、运输小分子、消化食物等等。它们由长链氨基酸组成,就像绳子上的珠子一样。但要让蛋白质在细胞中发挥作用,它必须扭曲并弯曲成复杂的三维结构,这一过程称为蛋白质折叠。错误折叠的蛋白质会导致疾病。
在 1972 年的诺贝尔化学奖获奖感言中,Christiaan Anfinsen 假设应该可以从蛋白质的组成部分(氨基酸)的序列中计算出蛋白质的三维结构。
正如本文中字母的顺序和间距赋予其意义和信息一样,氨基酸的顺序决定了蛋白质的身份和形状,从而产生了它的功能。
由于氨基酸结构单元固有的灵活性,一个典型的蛋白质可以采用大约 10 到 300 种不同形式的幂。这是一个巨大的数字,比宇宙中原子的数量还要多。然而,在一毫秒内,生物体内的每种蛋白质都会折叠成自己特定的形状——构成蛋白质的所有化学键的最低能量排列。仅改变蛋白质中通常存在的数百种氨基酸中的一种氨基酸,它可能会错误折叠并不再起作用。
50 年来,计算机科学家一直试图解决蛋白质折叠问题——但收效甚微。然后在 2016 年,谷歌母公司 Alphabet 的人工智能子公司 DeepMind 启动了其 AlphaFold 计划。它使用蛋白质数据库作为训练集,其中包含超过 150,000 种蛋白质的实验确定结构。
在不到五年的时间里,AlphaFold 解决了蛋白质折叠问题——至少是其中最有用的部分,即根据其氨基酸序列确定蛋白质结构。AlphaFold 没有解释蛋白质如何如此快速和准确地折叠。这对人工智能来说是一次重大胜利,因为它不仅获得了巨大的科学声望,而且还是一项重大的科学进步,可以影响每个人的生活。
今天,多亏了 AlphaFold2 和 RoseTTAFold 等程序,像 Marc Zimmer 这样的研究人员可以在一两个小时内免费从构成蛋白质的氨基酸序列中确定蛋白质的三维结构。在 AlphaFold2 之前,我们必须使蛋白质结晶并使用 X 射线晶体学解决结构,这个过程需要数月时间,每个结构花费数万美元。
我们现在还可以访问 AlphaFold 蛋白质结构数据库,Deepmind 已经在其中存储了人类、小鼠和 20 多个其他物种中发现的几乎所有蛋白质的 3D 结构。迄今为止,他们已经解决了超过一百万个结构,并计划仅在今年再增加一亿个结构。蛋白质知识飞速增长。到 2022 年底,所有已知蛋白质的一半的结构可能会被记录下来,其中包括许多与新的有用功能相关的新独特结构。
AlphaFold2 并非旨在预测蛋白质如何相互作用,但它已经能够模拟单个蛋白质如何结合形成由多种蛋白质组成的大型复杂单元。我们对 AlphaFold 提出了一个具有挑战性的问题——它的结构训练集是否教会了它一些化学知识?它能否判断氨基酸是否会相互反应——这是一种罕见但重要的事件?
Marc Zimmer 是一名对荧光蛋白感兴趣的计算化学家。这些是在水母和珊瑚等数百种海洋生物中发现的蛋白质。它们的光芒可以用来照亮和研究疾病。
蛋白质数据库中有 578 种荧光蛋白,其中 10 种「破碎」且不发出荧光。蛋白质很少攻击自己,这一过程称为自催化翻译后修饰,很难预测哪些蛋白质会与自己发生反应,哪些不会。
只有具有大量荧光蛋白知识的化学家才能使用氨基酸序列来找到具有正确氨基酸序列的荧光蛋白,以进行使它们发出荧光所需的化学转化。当我们向 AlphaFold2 展示蛋白质数据库中没有的 44 种荧光蛋白的序列时,它折叠固定的荧光蛋白与断裂的荧光蛋白不同。
结果让我们大吃一惊:AlphaFold2 学会了一些化学知识。它已经弄清楚荧光蛋白中的哪些氨基酸会产生使它们发光的化学作用。我们怀疑蛋白质数据库训练集和多序列比对使 AlphaFold2 能够像化学家一样「思考」并寻找相互反应所需的氨基酸以使蛋白质发荧光。
从其训练集中学习一些化学的折叠程序也具有更广泛的含义。通过提出正确的问题,其他深度学习算法还能获得什么?面部识别算法能否找到隐藏的疾病标记?旨在预测消费者消费模式的算法是否也能发现轻微盗窃或欺骗的倾向?最重要的是,这种能力——以及其他人工智能系统中类似的能力飞跃——是否可取?
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢