近日,Nature发表文章讨论Alphafold,Deepmind的这个能够预测蛋白质三维形状的工具已经在改变生物学了,作者Ewen Callaway。
去年7月,总部位于伦敦的DeepMind公司(隶属于谷歌母公司Alphabet)公开了一个名为AlphaFold的人工智能(AI)工具。该软件可以从蛋白质的序列中预测其三维形状,而且大部分情况下是精确的。这改变了成千上万的其他生物学家的研究。
"AlphaFold改变了游戏,"德国马普所的计算生物学家Martin Beck说。"这就像一场地震。你可以到处看到它,"以色列耶路撒冷希伯来大学的计算结构生物学家Ora Schueler-Furman说,他正在使用AlphaFold为蛋白质相互作用建模。"有七月之前和之后"。
在过去的半年里,AlphaFold的狂热已经笼罩了整个生命科学界。"伦敦大学学院的计算生物学家Christine Orengo说:"我参加的每个会议,人们都在说'为什么不使用AlphaFold?”
在某些情况下,人工智能为科学家们节省了时间;在其他情况下,它使以前无法想象或极不现实的研究成为可能。它有局限性,一些科学家发现它的预测对他们的工作来说太不可靠。但是,它的崛起和实验的进展已不可阻挡。
甚至那些开发该软件的人也在努力跟上它在从药物发现和蛋白质设计到复杂生命起源等领域的应用。DeepMind的AlphaFold团队负责人John Jumper说:"我一觉醒来就在Twitter上输入AlphaFold,","看到所有的东西是一种相当不错的体验。"
惊人的成功
AlphaFold在2020年12月引起了轰动,当时它在一个名为 "蛋白质结构预测关键评估"(CASP)的比赛中占了上风。该竞赛每两年举行一次,衡量生物学最伟大的挑战之一的进展:仅从氨基酸序列确定蛋白质的三维形状。参赛者与使用X射线晶体学或低温电子显微镜(cryo-EM)等实验方法确定的相同蛋白质结构进行评判,这些方法向蛋白质发射X射线或电子束,以建立其形状图。
2020年版本的AlphaFold是该软件的第二版。Jumper说,它还赢得了2018年的CASP,但其早期的努力大多不够好,无法替代实验确定的结构。然而,AlphaFold2的预测结果平均来说与经验结构相当。
目前还不清楚DeepMind何时会广泛提供该软件或其预测结果,因此研究人员利用Jumper公开演讲中的信息以及他们自己的见解,开发了自己的人工智能工具,称为RoseTTAFold。
然后在2021年7月15日,描述RoseTTAFold和AlphaFold2的论文出现了,以及免费提供的开源代码和专家运行自己版本的工具所需的其他信息。一周后,DeepMind宣布它已经用AlphaFold预测了人类制造的几乎所有蛋白质的结构,以及其他20种被广泛研究的生物体的整个 "蛋白质组",如小鼠和大肠杆菌,总共有超过365,000个结构。DeepMind还将这些数据公开发布到由位于英国欣克斯顿的EMBL欧洲生物信息学研究所(EMBL-EBI)维护的数据库中。这个数据库后来已经扩展到了近一百万个结构。
今年,DeepMind计划发布总数超过1亿的结构预测。这几乎是所有已知蛋白质的一半,比PDB蛋白质结构库中实验确定的蛋白质数量多出数百倍。
AlphaFold部署了深度学习神经网络:计算架构的灵感来自于大脑辨别数据中的模式。它已经在PDB和其他数据库中的数十万个实验确定的蛋白质结构和序列上进行了训练。面对一个新的序列,它首先寻找数据库中的相关序列,这可以识别倾向于一起进化的氨基酸,表明它们在三维空间中很接近。现有相关蛋白质的结构提供了另一种方法来估计新序列中氨基酸对之间的距离。
AlphaFold在试图对氨基酸的三维位置进行建模时,从这些平行的轨道上来回迭代线索,不断地更新其估计。专家们说,该软件对机器学习研究中的新想法的应用似乎是AlphaFold如此出色的原因,特别是它使用了一种被称为 "注意力 "的人工智能机制来确定哪些氨基酸连接在任何时候对其任务来说是最突出的。
该网络对相关蛋白质序列信息的依赖意味着AlphaFold有一些限制。它不是被设计来预测突变的影响,例如那些导致疾病的突变,对蛋白质的形状。它也没有被训练来确定蛋白质在存在其他相互作用的蛋白质或分子的情况下如何改变形状。但是它的模型带有分数,可以衡量网络在预测蛋白质的每个氨基酸单元方面的置信度,而且研究人员正在调整AlphaFold的代码以扩大其能力。
据DeepMind称,到目前为止,已经有40多万人使用了EMBL-EBI的AlphaFold数据库。还有一些AlphaFold的 "超级用户":研究人员在自己的服务器上设置了该软件,或者转向基于云的AlphaFold版本,以预测EMBL-EBI数据库中没有的结构,或者为该工具设想新的用途。
解决结构问题
生物学家们已经对AlphaFold解决结构的能力留下了深刻印象。"丹麦奥胡斯大学的结构生物学家Thomas Boesen说:"根据我目前看到的情况,我非常信任AlphaFold。该软件已经成功地预测了Boesen的中心已经确定但尚未公布的蛋白质的形状。"他说:"这对我来说是一个很大的验证。他和奥胡斯微生物生态学家Tina Šantl-Temkiv正在使用AlphaFold对促进冰的形成的细菌蛋白质的结构进行建模,这可能有助于云中冰的冷却效果,因为生物学家还不能通过实验完全确定这些结构。
斯德哥尔摩大学的蛋白质生物信息学家Arne Elofsson说,只要一个蛋白质折叠成一个定义明确的三维形状,AlphaFold的预测就很难被打败。"这是一个一键式的解决方案,可能是你要得到的最好的模型。"
在AlphaFold不太自信的地方,"它非常善于告诉你什么时候它不起作用",Elofsson说。在这种情况下,预测的结构可能类似于漂浮的意大利面条(见 "好、坏、丑")。这通常对应于蛋白质中缺乏确定形状的区域,至少在孤立的情况下是如此。这种本质上无序的区域,约占人类蛋白质组的三分之一,可能只有在另一个分子(如信号伙伴)出现时才会变得很明确。
伦敦癌症研究所的计算生物学家Norman Davey说,AlphaFold识别无序状态的能力对于他研究这些区域的特性的工作来说是一个游戏规则的改变。"他说:"我们的预测质量立即有了巨大的提高,而我们却什么都没做。
AlphaFold将蛋白质结构转储到EMBL-EBI数据库中的做法也立即被投入使用。Orengo的团队正在搜索它,不需要通过实验验证的情况下以确定新的蛋白质种类,并且已经发现了数百个,甚至数千个潜在的新蛋白质家族,扩大了科学家对蛋白质外观和功能的认识。在另一项工作中,该团队正在搜索从海洋和废水中获取的DNA序列数据库,以尝试识别新的吃塑料的酶。研究人员利用AlphaFold快速估算出数千种蛋白质的结构,希望能更好地了解酶是如何进化到分解塑料的,并有可能改进它们。
马萨诸塞州剑桥市哈佛大学的进化生物学家Sergey Ovchinnikov说,将任何蛋白质编码基因序列转化为可靠结构的能力应该对进化研究特别有力。研究人员通过比较基因序列来确定生物体及其基因在不同物种间的关系。对于远距离相关的基因,比较可能无法找到进化的亲属,因为序列已经发生了很大的变化。但是通过比较蛋白质结构,其变化往往没有基因序列那么快,研究人员也许能够发现被忽视的古老关系。"苏黎世瑞士联邦理工学院的计算生物学家Pedro Beltrao说:"这为研究蛋白质的进化和生命的起源提供了一个惊人的机会。
为了测试这个想法,由首尔国立大学计算生物学家Martin Steinegger领导的一个团队和他的同事使用他们开发的一个工具,称为Foldseek,在EMBL-EBI的AlphaFold数据库6中寻找SARS-CoV-2的RNA复制酶的亲属。这一搜索发现了以前未被发现的可能的古代亲属:包括粘菌在内的所有真核生物的蛋白质,这些蛋白质在其三维结构上类似于被称为逆转录酶的酶,HIV等病毒利用这些酶将RNA复制到DNA中,尽管在遗传序列水平上的相似性非常小。
辅助实验
对于那些想要确定特定蛋白质的详细结构的科学家来说,AlphaFold预测不一定是一个直接的解决方案。相反,它提供了一个初步的近似值,可以通过实验来验证或完善,而它本身也有助于理解实验数据。例如,来自X射线晶体学的原始数据以X射线衍射的模式出现。通常情况下,科学家需要对蛋白质的结构有一个初步的猜测,以解释这些图案。英国剑桥大学的结构生物学家Randy Read说,以前,他们经常从PDB中的相关蛋白质中拼凑信息,或者使用实验方法,他的实验室专门研究这些方法中的一些。Read说,现在,AlphaFold的预测已经使这些方法对于大多数X射线模式来说变得没有必要,他的实验室正在努力在实验模型中更好地利用AlphaFold。"我们已经完全调整了我们的研究重点"。
他和其他研究人员已经使用AlphaFold从X射线数据中确定了晶体结构,而这些数据如果没有一个适当的起始模型是无法解释的。"Read实验室的前博士后Claudia Millán Nebot说:"人们正在解决那些多年来没有被解决的结构。她预计会有大量的新蛋白质结构提交给PDB,这在很大程度上是AlphaFold的结果。
专门从事低温电镜的实验室也是如此,低温电镜可以捕捉到闪冻蛋白质的照片。北卡罗来纳大学教堂山分校的结构生物学家和药理学家Bryan Roth说,在某些情况下,AlphaFold的模型准确地预测了称为G-蛋白偶联受体(GPCRs)的蛋白质的独特特征,而其他计算工具却搞错了。"他说:"它似乎真的很适合生成第一个模型,然后我们用一些实验数据对其进行完善。"这为我们节省了一些时间"。
但是Roth补充说,AlphaFold并不总是那么准确。他说,在他的实验室已经解决的几十个GPCR结构中,但尚未发表,"大约有一半的时间,AlphaFold结构是相当好的,而一半的时间对我们的目的来说或多或少是无用的"。他说,在某些情况下,AlphaFold标记的预测具有很高的可信度,但实验结构显示它是错误的。即使该软件是正确的,它也不能模拟一个蛋白质与药物或其他小分子(配体)结合时的样子,这可能会大大改变结构。这种警告使罗斯怀疑AlphaFold对药物发现有多大作用。
在药物发现工作中,使用计算对接软件来筛选数十亿的小分子,以找到一些可能与蛋白质结合的小分子,这是它们可能成为有用药物的一个迹象,这一点越来越普遍。Roth现在正与加州大学旧金山分校的药物化学家Brian Shoichet合作,看看AlphaFold的预测与实验确定的结构在这项工作中如何比较。
Shoichet说他们的工作仅限于AlphaFold的预测与实验结构相吻合的蛋白质。但即使在这些情况下,对接软件也会为实验结构和AlphaFold的预测找到不同的药物,这表明微小的差异可能很重要。"Shoichet说:"这并不意味着我们不会找到新的配体,我们只是会找到不同的配体。他的团队现在正在合成使用AlphaFold结构确定的潜在药物,并在实验室中测试其活性。
辩证乐观展望
Shoichet说,制药公司和生物技术公司的研究人员对AlphaFold在帮助药物发现方面的潜力感到兴奋。"我持有辩证的乐观主义。" 2021年11月,DeepMind推出了自己的子公司IsoMorphic Labs,旨在将AlphaFold和其他AI工具应用于药物发现。但该公司对其计划没有说什么别的。
Karen Akinsanya在总部位于纽约的药物发现公司Schrödinger领导治疗药物的开发,该公司还发布了化学模拟软件,她说她和她的同事已经在使用AlphaFold结构,包括GPCRs,进行虚拟筛选和候选药物的化合物设计方面取得了一些成功。她发现,就像实验结构一样,需要额外的软件来了解氨基酸侧链的细节或单个氢原子可能所在的位置。一旦做到这一点,AlphaFold结构已被证明足以指导药物发现。
"很难说'这是万能的';因为你可以对一个结构做得非常好,而且是令人惊讶和激动的好,所以它明显适用于所有结构。Akinsanya说:"显然不是这样。她和她的同事们发现,AlphaFold的准确性预测并不能表明一个结构是否对以后的药物筛选有用。她说,AlphaFold结构将永远不会完全取代药物发现中的实验性结构。但它们可能会通过补充实验方法来加速这一过程。
对AlphaFold感到好奇的药物开发者在1月份收到了好消息,DeepMind解除了对其用于商业应用的一个关键限制。当该公司在2021年7月发布AlphaFold的代码时,它曾规定,运行AlphaFold神经网络所需的参数或权重,在数十万个蛋白质结构和序列上训练网络的最终结果,只能用于非商业用途。Akinsanya说,这对工业界的一些人来说是一个瓶颈,当DeepMind改变立场时,出现了 "兴奋的浪潮"。RoseTTAFold也有类似的限制,其开发者之一Ovchinnikov说,但下一个版本将是完全开源的。
人工智能工具不仅改变了科学家确定蛋白质外观的方式。一些研究人员正在使用它们来制造全新的蛋白质。"西雅图华盛顿大学的生物化学家David Baker说:"深度学习正在完全改变我的小组进行蛋白质设计的方式,他是设计蛋白质以及预测其结构领域的领导者。他的团队与计算化学家Minkyung Baek领导了开发RoseTTAFold的工作。
Baker的团队让AlphaFold和RoseTTAFold来 "幻想 "新的蛋白质。研究人员已经改变了AI代码,以便在给定随机的氨基酸序列时,软件将对其进行优化,直到它们类似于神经网络所识别的蛋白质。
2021年12月,Baker和他的同事报告说在细菌中表达了129个这些幻想蛋白质,并发现其中大约五分之一的蛋白质折叠成类似于其预测的形状。Baker说:"这确实是第一个证明,你可以使用这些网络来设计蛋白质。他的团队现在正在使用这种方法来设计做有用的事情的蛋白质,例如催化一个特定的化学反应,方法是指定负责所需功能的氨基酸,并让人工智能幻想其余的功能。
探索AlphaFold
当DeepMind发布其AlphaFold代码时,Ovchinnikov想更好地了解该工具的工作原理。在几天之内,他和包括Steinegger在内的计算生物学同事建立了一个名为ColabFold的网站,允许任何人向AlphaFold或RoseTTAFold提交蛋白质序列并获得结构预测。Ovchinnikov想象他和其他科学家将使用ColabFold试图 "打破 "AlphaFold,例如,通过提供关于目标蛋白质序列进化亲属的虚假信息。通过这样做,Ovchinnikov希望他能确定该网络是如何学会预测结构的。
事实证明,大多数使用ColabFold的研究人员只是想得到一个蛋白质结构。但其他研究人员将其作为一个平台,修改AlphaFold的输入,以解决新的应用。"到目前为止,最受欢迎的探索是在由多条相互作用的肽链组成的蛋白质复合物上使用该工具,而且往往是交织在一起的肽链。
AlphaFold被设计用来预测单个肽链的形状,它的训练完全由这类蛋白质组成。但是该网络似乎已经了解了一些关于复合物如何折叠在一起的情况。在AlphaFold的代码发布几天后,东京大学的蛋白质生物信息学家Yoshitaka Moriwaki在推特上说,如果两个蛋白质序列用一个长的连接序列缝合起来,它可以准确地预测它们之间的相互作用。Baek很快分享了另一个预测复合体的案例,这是从开发RoseTTAFold中收集到的。
ColabFold后来加入了预测复合体的能力。而在2021年10月,DeepMind发布了一个名为AlphaFold-Multimer的更新,与前者不同,它是专门针对蛋白质复合体进行训练的。Jumper的团队将其应用于PDB中的数千个复合物,并发现它预测了大约70%的已知蛋白质-蛋白质相互作用。
这些工具已经在帮助研究人员发现潜在的新蛋白质partner。Elofsson的团队使用AlphaFold预测了65000个人类蛋白质对的结构,这些蛋白质对根据实验数据被怀疑有相互作用。Baker领导的一个团队使用AlphaFold和RoseTTAFold来模拟几乎每一对由酵母编码的蛋白质之间的相互作用,发现了100多个以前未知的复合体。Elofsson说,这样的筛选只是一个起点。它们在预测一些蛋白质配对方面做得很好,特别是那些稳定的蛋白质配对,但在识别更多的瞬时相互作用方面却很困难。"Elofsson说:"因为它看起来不错并不意味着它是正确的。"你需要一些实验数据来证明你是正确的。"
AlphaFold的局限性
对于AlphaFold取得的所有进展,科学家们说,重要的是要清楚它的局限性,特别是考虑到那些不擅长预测蛋白质结构的研究人员在使用它。
试图将AlphaFold应用于破坏蛋白质自然结构的各种突变,包括与早期乳腺癌有关的突变,证实该软件不具备预测蛋白质新突变后果的能力,因为没有与进化有关的序列可供研究。
AlphaFold团队现在正在考虑如何设计一个神经网络来处理新的突变。Jumper预计,这将需要网络更好地预测一个蛋白质如何从其未折叠状态转为折叠状态。哥伦比亚大学的计算生物学家Mohammed AlQuraishi说,这可能需要只依靠它所学的蛋白质物理学知识来预测结构的软件。"他说:"我们感兴趣的一件事是在不使用进化信息的情况下从单一序列进行预测。"这是一个关键的问题,确实仍未解决。"
AlphaFold也被设计为预测单一结构,尽管它已经改为吐出不止一个结构。但是许多蛋白质具有多种构象,这可能对它们的功能很重要。"Schueler-Furman说:"AlphaFold无法真正处理那些可以在不同构象中采用不同结构的蛋白质。而且预测是针对孤立的结构,而许多蛋白质与配体如DNA和RNA、脂肪分子和矿物质如铁一起发挥作用。"Elofsson说:"我们仍然缺少配体,我们缺少关于蛋白质的其他一切。
AlQuraishi说,开发这些下一代的神经网络将是一个巨大的挑战。AlphaFold依赖于几十年的研究,这些研究产生了网络可以从中学习的蛋白质的实验结构。这种数据量目前还不能用来捕捉蛋白质的动态,或蛋白质可能与之相互作用的数万亿个小分子的形状。Jumper补充说,PDB包括蛋白质与其他分子相互作用的结构,但这只是捕捉到化学多样性的一小部分。
研究人员认为,他们需要时间来确定如何最好地使用AlphaFold和相关的AI工具。AlQuraishi认为这与电视的早期有相似之处,当时一些节目是由电台广播员简单地阅读新闻。"我认为我们会发现我们还没有想到的结构的新应用。"
AlphaFold革命的结局是什么,谁也说不准。Baker说:"事情变化得太快了"。"即使在明年,我们也会看到使用这些工具取得的真正的重大突破。" EMBL-EBI的计算生物学家Janet Thornton认为AlphaFold最大的影响之一可能只是说服生物学家对来自计算和理论方法的见解更加开放。"她说:"对我来说,革命是思维方式的改变。
AlphaFold革命激发了Kosinski的大梦想。他想象着AlphaFold启发的工具不仅可以用来为单个蛋白质和复合体建模,而且可以为整个细胞器甚至细胞建模,直至单个蛋白质分子的水平。"这是我们在未来几十年里要追寻的梦想"。
评论
沙发等你来抢