点击蓝字 关注我们

微末生物

Nanomega BioAI

DeepMind团队于2020年末发布的Alphafold2,以较高的成功率在很大程度上解决了根据序列预测蛋白质三维结构的科学问题。然而,自然界并非仅由蛋白质分子本身构成——如何预测蛋白质的翻译后修饰、蛋白质与诸多小分子的相互作用情况、蛋白-蛋白(尤其是抗体)间的相互作用情况,对生物大分子结构预测算法来说是一个长期存在的挑战。

 

在三年之后的2024年5月8日,DeepMind John Jumper团队和Isomorphic Labs Demis Hassabis团队合作在Nature上发表文章Accurate structure prediction of biomolecular interactions with AlphaFold 3(图1),报道了迭代升级后的版本「AlphaFold3」,利用基于扩散模型(diffusion architecture)的新模型结构更新了原有的计算模型结构。


图1:2024年5月8日Nature发表的Alphafold3相关文章


从网络结构和训练方式上看,新的Alphafold3和它的上一代Alphafold2在整体上较为类似,都是先由一个大主干演算出化学复合物(指蛋白分子,在AF3里也包括其他分子)的配对表示方法(representation,相当于机器学习中的特征构造部分,对蛋白分子来说是序列特征MSA representation和序列平方特征pair representation),然后利用其结构模块(Structure block),使用这些信息生成明确的原子位置。

 

然而,Alphafold3在具体的模块构成上做出了大量改变。具体而言,在主干部分,开发者大幅度缩减了处理蛋白分子“序列特征”,即多序列比对特征(multiple sequence alignment,MSA)部分的规模和算法复杂性,将原有的Evoformer block(图2)缩减成为仅4个块的MSA module,并且仅采用了廉价的成对加权平均法来处理MSA representation。


图2: Alphafold2和Alphafold3的模型结构(model architecture)对比,上为AF2,下为AF3。可以看到AF3中对MSA信息的处理策略和之后的结构生成方式发生了变化


对于被缩减的Evoformer block,开发人员用一个新的Pairformer取而代之。这个模块仅能处理序列平方特征(pair representation,表示氨基酸两两之间在结构上的接触概率)的数据,因此所有数据内容都要通过pair representation向下游传达。这样一来,对于pair representaiton来说,仍然是经过48 blocks进行处理,这个过程的复杂度在AF2的Evoformer和AF3的Pairformer中维持不变。在接下来生成结构的计算过程中,也仅使用pair representation作为数据的输入。

 

在主干部分之后,AF3在结构预测部分采用了当今最为热门的扩散模型(diffusion model),取代了之前的Structure model。新的Diffusion model采用和AI绘画相似的底层原理,能够直接从原子云生成完整的原子模型,不必像之前的Structure model一样通过操作氨基酸特征性骨架和侧链扭转角度来生成结构。其多尺度性质(低噪声水平诱导网络改善局部结构)也使AF3能够消除立体化学损失,并通过对网络中的链接模式进行特殊处理来轻松容纳任意的化学成分。

 

实验证明,Alphafold3能以较高准确率预测蛋白质与其他生物分子相互作用的结构(图3)。该模型能预测PDB内几乎所有分子类型的复合物结构,不仅能够预测药物中常用的分子如小分子配体和大分子抗体等与蛋白质的结合方式,还能揭示这些分子如何影响人体细胞在健康和病理状态下的蛋白质相互作用。


图3: DNA结合蛋白。AlphaFold 3对具有蛋白质(蓝色)与DNA双螺旋(粉红色)结合的分子复合物的预测与通过艰苦的实验(灰色)发现的真实分子结构近乎完美匹配。(PDB编号:7R6R)图片来源:Google DeepMind 官网


在蛋白质与各种其他分子的相互作用层面上(包括蛋白质翻译后修饰),Alphafold3都展现出了遥遥领先的精准度,包括超越了之前Alphafold2的衍生版Alpha-Multimer。在PoseBusters基准集(由2021年之后发表在PDB上的428个蛋白质-配体结合结构数据组成)上的训练数据显示,对于蛋白质与小分子的相互作用,即使不使用任何辅助性的已知信息输入,仅使用蛋白序列和分子配体SMILES信息作为输入,AlphaFold3的成功率也高达76%,大优于基于经典计算方法并要借助其他已知复合结构作为辅助的Vina38、39等Autodock对接工具,且大优于其他真正的盲对接工具如RoseTTAFold All-Atom。同时,对于蛋白质与DNA分子结合的准确性,AlphaFold3的成功率高达65%,而目前最好成绩仅有28%。AlphaFold 3甚至还改进了其预测蛋白质相互作用的能力,在蛋白质-抗体结合的复杂情况中,AlphaFold3成功率高达62%,而其他算法仅有30%,性能提升了约两倍。

     

在文章中,作者也指出了一些Alphafold3的局限性。约4.4%的结构会出现不正确的手性(chirality violation),或是出现原子重叠(overlapping “clashing” atoms)的现象;由于扩散模型而引入的大模型幻觉问题可能会使得特定无序区无法展示出某些特征性的二级结构(如ribbon);另外,进一步提升预测准确性需要生成一个很大的预测集并对预测结构进行排序,而这则会产生额外的成本。模型在立体化学、大模型幻觉(hallucination)、动态和对某些特定分子预测的准确性上还有待提升。

 

“AlphaFold 2在2020年于蛋白质结构预测方面取得了根本性突破。到目前为止,全球数百万研究人员使用AlphaFold 2在疟疾疫苗、癌症治疗和酶设计等领域做出成果……而AlphaFold 3将我们带入超越蛋白质的广泛生物分子。这一飞跃可以解锁更具变革性的科学,从开发生物可再生材料和更具抗性的农作物,到加速药物设计和基因组学研究。”在谷歌DeepMind的官网更新的页面上,研究人员写下了这一段话。

 

从Alphafold2到Alphafold3,从蛋白质三维结构预测到蛋白质与其他分子的互作结构预测,利用AI方法解析生物大分子的结构奥秘为生命科学的发展起到了重大的推动作用。这种用计算机解析蛋白质与其他分子复杂相互作用的能力是AI for science的一个典型代表,将拓展我们对诸多生物过程的理解,为科研工作提供大量帮助,并大幅度加速药物研发的进程。中科微末团队在生物大分子及其三维结构解析+人工智能方法的交叉领域拥有强大团队和深层技术储备。我们致力于为药企和高校医院科研工作者提供一站式、自动化、原子级分辨率的结构解析服务和AI for science科研服务,助力创新药物研发和科研成果转化。




微末生物

Nanomega BioAI

请关注微末生物

期待与您交流

内容中包含的图片若涉及版权问题,请及时与我们联系删除