AlphaFold3发布后,尽管对于生物医药界意义深远,但对于业内的震撼似乎远远小于AlphaFold2。


要知道,AlphaFold 2和AlphaFold 3之间有一个主要区别:验证方式。


AlphaFold2当时在CASP14上进行盲测,打败其他对手而名声大噪;而AlphaFold3则使用了基准测试数据集,这些数据集通常被精心编译过。


那么AlphaFold3究竟有哪些提升?近日,牛津大学的人工智能科学研究员兼生物化学老师Eric Schmidt发表了一篇关于AlphaFold3的深度测评文章。


Eric对AlphaFold3的模型架构和技术细节进行了研究,并且推测哪些是重要的,哪些是不重要的。还讨论AlphaFold3如何影响techbio的不同领域。


AF2与AF3的技术细节


从模型上看,AF3和AF2的架构非常相似。如果说 AlphaFold2代表了范式转变,那么AlphaFold3则拥有相似的架构。


AlphaFold 2(上)和 AlphaFold 3(下)架构的比较


该模型分为两个模块:一个从多个序列比对中捕获协同进化信息,另一个将这些推论转换为蛋白质的三维坐标。除此之外,还有一个置信度预测,用于给出输出结果的可信程度。


不过AlphaFold3仍然有不少改进和惊喜。第一个惊喜是,该模型对协同进化信息的强调已经大大减少。


作者认为,从多序列比对中提取信息的能力是 AlphaFold 2 的秘诀。协同进化包含大量关于蛋白质结构的信息,而 AlphaFold 2 中的算法是一种非常聪明的提取方法。


毕竟,一种蛋白质有太多可能的构象,即使使用最先进的搜索算法,也无法手动探索它们并找到最佳构象。早在 AlphaFold 2 之前,就已经建立了挖掘结构接近的残基对,然后通过约束优化构建合理模型的方法。


上一代 AlphaFold 中使用的策略是将两种学习表示结合起来,一种是“对表示”,捕获推断的结构信息,另一种是“MSA 表示”,捕获协同进化,两种表示不断交换信息以达到推理。然而在AlphaFold3中,这两个表示被合并为一个单对表示。


第二个惊喜是,AlphaFold2使用的是注意力机制,然而在 AlphaFold 3 中,该架构甚至不再基于注意力,而是使用“相对标准”的扩散模型,与DALL-E,StableDiffusion等背后的技术相同。扩散模型已广泛用于蛋白质设计工作,如 Chroma 和 RFDiffusion-AA 都使用由其位置和旋转定义的理想化残基。


作者非常认同DeepMind在扩散模型上的成功,因为很多关于扩散模型的研究或多或少地失败了。


AlphaFold 3 在如此简单的架构下的出色性能可能会引起整个领域的思考——明年在基于扩散的设计方面会有一些令人兴奋的改进。


DeepMind采用了很多方法来训练各种分子。


对于蛋白质复合物,运行交叉蒸馏方法,使用 AlphaFold Multimer v2.3 预测多个复合物,并在此基础上进行训练;对于RNA,他们使用预测结构;而对于DNA,他们使用一堆增强算法,如来自JASPAR的数据。然而,对于配体它们只使用PDB。


同样,Eric对AlphaFold3在配体上的表现感到惊讶,特别是仅在PDB有限的数据中学习了大量知识,怀疑该模型是否以某种方式学习了分子间相互作用的物理原理。


例如根据使用网页版AlphaFold3的结果,它大致再现了电解溶液的结构,并且当人们将一堆脂质添加到跨膜蛋白中时,它会形成假膜,这表明它具有一定程度的物理化学理解。一项基准测试表明,排名分数还捕获了突变如何改变蛋白质-蛋白质结合亲和力的重要特征。


蛋白质-配体预测


最受关注的还是蛋白质-配体预测,因为大多数药物的作用原理是与目标蛋白质结合,如果有一个能够告诉分子与蛋白质结合位置和方式的模型,肯定是药物发现的强有力工具。


但是,AlphaFold3到底有多好?


蛋白质-配体复合物预测有许多基准,近期主流的是由 OPIGlet Martin Buttenschoen 提出的 PoseBusters。该基准包含许多先前确定的蛋白质-配体晶体结构,并评估预测位置和真实位置之间的相似性。


PoseBusters示例


在基准测试中,AlphaFold 3 实现了近 80% 的性能,这明显领先于第二种方法 AutoDock Vina,后者约为 55%。


AutoDock Vina不是最先进的,但它是使用最广泛的分子对接模拟工具之一,并且是PoseBusters论文中表现最好的。这个改进表明 AlphaFold 3 可以生成具有物理意义的构象,并且它们与实验中得到的构象非常相似。


AlphaFold 3 在 PoseBusters 上的性能,PoseBusters 是机器学习对接的蛋白质-配体基准。


蛋白质-配体相互作用领域预测事实上都不够好。这些模型经常输出错误的结果,或者有非常大的偏见,PDB中的大多数结构都是易于结晶和研究的蛋白质,具有一定的治疗相关性,并且属于一组与治疗相关的靶点。


想一想:如果在激酶抑制剂的结构上训练一个模型,它就会知道任何看起来像ATP的东西都应该进入ATP结合位点。出于这个原因,令人震惊的是,DeepMind没有用以前未确定的晶体结构来验证该模型。


另一个问题是这些预测的局限性有多大。论文中提到了E3连接酶的情况,它可以采用两种不同的结构:在没有配体的情况下处于开放状态;和闭合状态,当绑定到它时。然而,当对有和没有配体的 E3 连接酶进行预测时,AlphaFold 3 总是预测闭合状态。


这是一个有点令人失望的结果,因为共折叠方法已经假设针对具有诱导构象变化的靶标设计药物,甚至是仅在蛋白质的一种构象形式中显而易见的隐秘口袋。


还有需要考虑到的落地因素:将AF3进行蛋白质-配体预测需要多长时间。对于蛋白质-配体对来说,使用AutoDock Vina等工具进行分子对接需要一分钟的时间 。


这意味着,如果要想评估一个大型的潜在药物样分子库,例如包含70亿个化合物Enamine REAL库,成本将急剧飙升,这都会影响AF3的适用性。


抗体-抗原预测


除小分子之外,抗体与其他蛋白质的相互作用也非常重要,因为当前抗体药物已经是生物医药的重要治疗药物。


AlphaFold2对于抗体结构预测的基本上束手无策。因为它很难预测缺乏进化信息的蛋白质(例如抗体)、结构依赖于环境条件的蛋白质(例如膜蛋白)以及具有无序区域的蛋白质(例如IDP)的结构。


AlphaFold 3 似乎实现了抗体-抗原相互作用的性能,这与 AlphaFold 2 Multimer 在一般蛋白质-蛋白质相互作用方面的表现大致相似。论文图中显示的结构似乎是高质量的,并且根据报告的相互作用分数,表位鉴定似乎有所改善。


然而,一个明显的遗漏是,模型中没有关于侧链预测质量的报告。这一点非常重要,因为了解哪些特定的相互作用决定了特异性对于蛋白质工程非常重要,例如,对于生产能够改进溶解度、稳定性或免疫原性的抗体。


还有另一个有趣的点,论文中指出,为了获得最高的准确性,可能需要生成大量的预测并对其进行排名。在其中一张图(见下文)中,作者展示了当他们生成1000个抗体(就他们的预测置信度而言)而不是一个时,性能的巨大提高,几乎翻了一番。


AlphaFold 3 对抗体抗原预测任务中数量的敏感性


结果似乎很有希望。抗体是工业界和学术界的热门领域,更好地预测抗体如何与其抗原相互作用无疑是在制造更好的药物和诊断方法方面向前迈出的一步。


好消息是 AlphaFold 服务器对蛋白质没有限制,很多团队已经在对 AlphaFold 3 进行抗体结构预测任务的基准测试。


蛋白质-核酸预测


蛋白质-核酸预测的关键是研究转录因子如何与DNA相互作用。


使用类似AlphaFold的技术来预测蛋白质-DNA相互作用的想法并不稀奇,目前最先进的技术是RoseTTAFold2NA,根据RoseTTAFold调整拓展而来。


通过对比,可以看到AlphaFold3在PDB结构上的蛋白质-DNA 和蛋白质-RNA 相互作用显示出了改进作用。


虽然AlphaFold3的表现不如最佳方法 Alchemy-RNA,但它非常接近,后者是一种依赖手动输入的方法。


AlphaFold 3 在蛋白质核酸基准测试中的表现


使AlphaFold 2预测转录因子的结构时,通常会得到很多杂乱无章的结构,除了可能对应于一个保守基序(例如锌指结构)的清晰结构之外。


另一方面,当预测与DNA结合的转录因子的结构时,结构则更明确——这与内在无序蛋白的一个核心原则相符,即它们在与结合伙伴存在时会采取合理的结构。


作为非核酸专家,作者认为这些结构看起来是合理的,完全符合对蛋白质-DNA结构的期望。有可能转录因子-蛋白质结构的结果是来自JASPAR数据库的增强信息。


总的来说,在这方面AF3看起来像是一个生成假设的有价值的工具。


其他:翻译后修饰


AlphaFold 3 的最后一个卖点是它预测非经典氨基酸的能力,非经典氨基酸对于合成天然产物、设计多肽和药物分子的结构非常重要。


这种解释这些不寻常氨基酸的能力使AlphaFold 3能够创建更准确的蛋白质结构模型,并研究一系列新的问题。


例如“减肥神药”司美格鲁肽用机制可以简化为模仿天然肠道激素GLP-1的非经典氨基酸。这种工程氨基酸不能像天然氨基酸那样容易被酶分解,从而产生更持久的效果。


更广泛地说,翻译后修饰对于理解生物分子的生物行为至关重要。例如,抗体在特定位置被高度糖基化,这种修饰对于抗体的稳定性和信号能力都至关重要。蛋白质组中的许多蛋白质都受磷酸化调节:添加一个带高度负电荷的基团会诱导构象变化。


乙酰化、甲基化和泛素化只是这些化学调整的其他几个例子,它们可以极大地改变蛋白质的功能。


AlphaFold 3 掺入非经典氨基酸的能力肯定会有助于我们更好地理解生物学,尽管仍然需要确定预测与现实的确切相关性(例如,AlphaFold 3 区分蛋白质的磷酸化和非磷酸化版本)。


写在最后


读完 AlphaFold3论文后,作者的第一印象是它是开创性的,但是AlphaFold3的范式转变更少。


简单来说,AlphaFold3没有前一代那么令人惊艳。


一方面是,当AlphaFold2当初通过 CASP14 上的盲测惊艳亮相,而AlphaFold3除开一些基准测试外没有任何验证,架构上的创新也较少。


还有一个重要原因是数据。AlphaFold2的数据集截止到2018 年 4 月,而AF3为2021年 9 月,中间只有2年半的数据收集时间,更新的有价值数量不多。


作者认为,生物人工智能领域的下一个创新将不是通过算法来实现的,而是通过找到生成大量数据并将其放入架构中的方法来实现的。


这也是很多AI制药公司正在做的事,生成大量的数据,包括与大型制药公司合作访问数据。更有可能的是,他们将通过AlphaFold3的预测与大规模DNA编码的文库筛选进行交叉,以破解亲和力问题。


也就是说,未来十年的许多发展将在工业界而不是学术界取得。因为这些公司才有收集大规模数据,以及训练大模型的能力。


而我们即将见证人工智能和生物学腾飞的十年。未来,机器学习模型将显著增强药物发现科学家的能力,高质量的预测将有望取代部分耗时耗力的湿实验分析。


当然,这里面还有非常多挑战,包括缺乏临床数据,即使在治疗学以外的其他领域(诊断、农业技术等),也存在许多障碍,因为我们缺乏对生物学的理解。


然而,无论面临何种挑战,现在都是开启Tech+Bio的绝佳时期。


—The End—

推荐阅读

内容中包含的图片若涉及版权问题,请及时与我们联系删除