点击蓝字 关注我们

微末生物

Nanomega BioAI

工程化生命过程的努力从来没有停止。人们曾经尝试使用生物物理学、数字生物学的计算方法,依靠工程设计理念对蛋白骨架及其功能进行“从头设计”,来达到“定制”蛋白分子的终极目标。在这一方面进行的研究,尽管面临着重重困难,也取得了许多显著的进展,并构建起了蛋白质从头设计(de novo)这一领域的基本原理和研究范式。

 

现在,人工智能(AI)方法的崛起为科研人员从头创造具有全新形状和分子功能的蛋白质提供了强大的助力。AI在很大程度上提升了蛋白质从头设计方法的成功率,并且为这一领域中的许多关键问题,如结构细节的精确调整、与小分子结构的精确互补等,提供了有效的解决方案。最近这篇发表于Cell杂志的超长篇重磅综述De novo protein design—From new structures to programmable functions详细地介绍了蛋白质从头设计领域的科学理念、重要进展、以及AI时代下的全新变革。因原文篇幅过长,本篇内容详解单独推送。

 

现在,让我们一起来对蛋白质设计领域的现状进行初步认识。


蛋白质设计领域的概念与途径



在人们探索蛋白质设计方案的过程中,一些基本的设计方法逐渐被构建起来。尽管目前蛋白质设计所依靠的方法发生了变革,但领域内的一些基本原理仍然适用,一些关键的挑战也仍然需要面对。


计算蛋白质设计从根本上说是一个优化问题(图1)。基本上所有的设计方法都是这样:给定一个所需的目标结构(及其功能),设计方法试图预测生成一个能稳定采用该结构(并具有该功能)的最佳序列。从头的、全新的设计不从自然发生、进化的蛋白质出发,而是旨在拓展蛋白质结构、序列和功能的空间,使其超越自然界中的蛋白质结构、序列和功能。


图1:传统蛋白质设计分为结构生成(Structure generation)和序列设计(Sequence design)



整个蛋白质的序列空间无穷无尽,而真正具有三维结构的排列方式分布稀疏。在研究探寻整个序列/结构空间(所有可能氨基酸的排列组合)的过程中,找到合适而有效的搜索算法至关重要。一个小型的仅100氨基酸的蛋白质就可能带来10130种不同序列组合,而想要遍历这些组合来寻找可能的创新结构对人类来说显然是不可能的。不过从另一个角度讲,这样大量的组合情况似乎也暗示了一个事实:蛋白质庞大的结构空间中仍然蕴含着全新的有功能的结构,而问题则是如何才能将其发掘出来。

 

每一次从头设计的计算,都会产生数百条结果序列。在具体的蛋白质设计过程中,我们需要强大的打分算法以迅速区分这些设计结果是相对更加“成功”还是“不成功”。目前已有几种基于分子动力学和能量函数的稳定性评估方法,但在速度上却无法达标;而如果使用“先粗后细”的方法,即优先使用模糊的评估手段缩小数据处理量,也并不可行,因为在评估手段较为模糊时所得分数与真实情况的相关性已经很差。相比之下,AI方法通过接收大量的序列库数据进行训练后输出评分,而不是基于物理原理直接计算分数,为筛选值得进行实验验证的“可靠”序列提供了革命性的新方法。

 

对结构的阐释只是蛋白质从头设计的第一步,更重要的问题仍然是功能的实现。一个能够实现特定功能的【蛋白质】不仅仅是一个由特定原子排布方式决定的【活性中心】,功能的实现还涵盖了多个方面的要求,如蛋白质的稳定性、构象可变性及变化速率、与互作对象特异性结合的能力等。此外,对从头设计的蛋白质来说,其功能的实现及优化还会涉及利弊权衡的过程(比如,以稳定性为代价换取部分结构的可动性),因此计算机需要同时对多个目标进行优化计算,来平衡这些相互竞争的优化对象。显然,我们以足够的精确度设计其中许多要求的能力仍然有限。


序列优化问题:

前AI时代与后AI时代的方法及其探索



这里首先讨论蛋白序列的优化问题。为了使蛋白设计的过程相对简化,人们一般把设计完整结构性蛋白的过程一分为二:第一步先生成蛋白的三维结构骨架,第二步根据这一骨架预测出对应的氨基酸序列(图2)。其中第二步,又称“定骨架设计”,是最先被研究的一类问题。


图2:蛋白质设计的第二步可以看作是蛋白三维结构预测的逆过程


定骨架设计的里程碑式成就发生在2003年。这是人们首次通过计算设计出一种自然界中不存在的蛋白质折叠形式——Top7。该蛋白的设计过程如下:使用建模程序Rosetta首先生成一个新的蛋白质骨架,然后开始迭代循环:根据固定的骨架设计序列,然后根据固定的序列调整骨架(令二者尽可能一致)。

 

Top7的例子说明了一个关键概念:蛋白质骨架并不是固定不变的,当我们在设计中改变序列或蛋白质执行其功能时,骨架就会发生变化。现在,在设计过程中一般会考虑到这种骨架的可变性,比如:

(1)骨架最小化与固定骨架设计交错进行(如Top7算法);

(2)在设计过程中不断对骨架进行小幅调整并采样比较其效果;

(3)预先生成一系列骨架的集合,对集合中每一种骨架进行序列设计和评分。

 

与严肃和工程化的建模计算方法相比,AI更像是灵活地“学习”了某种蛋白质的“语言”。在较为成功的AI蛋白质序列设计方法中,其中一类为大语言模型。就目前最火的大语言模型ChatGPT而言,在训练过程中,模型需要填补完整句子中缺损的单词;在经过训练之后,模型就能独立生成完整的句式结构。对蛋白质来说,其氨基酸序列也可以被看作是一种“语句”,而相似的方法也可以用来训练模型对氨基酸序列进行“填空”(图3)。


图3:蛋白质序列大语言模型(以ProGene为例)


在训练过程中,模型可能已经抽离出并学会了蛋白质的“基本语言”,这种语言在某种程度上是“蛋白世界”的“通用语言”。此类模型,如ESM-2,ProGene,ProGPT2等,能够如同ChatGPT生成文章一样,“凭空”生成具有结构和功能的蛋白序列。实验证明,他们能够生成单体的、稳定的蛋白,并且有着不同于自然界的独特结构。其中,ProGene的训练数据更为细化,除了大量的训练序列之外,还提供了这些序列所属的家族及其大致功能。它能够生成与自然蛋白质具有相似催化参数的功能性蛋白,并且其中相当一部分序列和训练集中的序列相似性较低(<31%)。

 

然而,对于这些大语言模型生成的蛋白质来说,虽然有生物化学的实验数据为其提供实证性数据,却缺乏对其三维结构的直接实验解析;正因如此,我们还暂时不能确定它们否确实具备计算结果中的“新型结构”。而这实际上就恰恰是冷冻电镜的“用武之地”。

 

另一项研究表明,语言模型在多样化的功能序列设计中无需进行多序列比对。在一项对抗体的研究中,研究人员成功地生成了多样的、表达良好的纳米抗体(nanobody),而由于环长的高度多样性和基因序列的复杂性,纳米抗体彼此之间很难进行序列比对。

 

上述基于语言模型的方法似乎并没有按着传统蛋白质设计的路子来。它们不需要任何结构信息作为输入,也不涉及根据结构预测序列的过程,只是从“语言”到“语言”,一步到位地生成全新序列。而另外一些深度学习方法则在训练过程中吸收了双方信息——结构的,和序列的。在给定一个三维结构“蓝图”的基础上,这些掌握了结构-序列对应关系的模型能够将局部结构信息作为“背景语境”,预测出与之对应的氨基酸序列。其中的一个代表是ProteinMPNN。

 

ProteinMPNN脱胎于一个现有的基于图的蛋白质从头设计模型。【编者注:基于图指的是graph-based,首先把蛋白质的三维结构(structure)用图(graph)来表示,然后通过转换器(transformer,包括encoder和decoder)生成蛋白质序列。这也是一种神经网络方法。在不同蛋白质中存在“结构保守性”现象,也就是不同蛋白在序列上关系较远但在三维结构上是较近的。基于图的方法对这种依赖关系的捕捉能力很强。(图4)】结构解析实验证明,ProteinMPNN能够生成具备全新折叠的单体蛋白质结构、以及具备对称组织结构的大型蛋白复合体。最近的另外一个模型,Frame2seq,能够在保持与ProteinMPNN相近准确率的基础上,以较高速率完成任务,还能够提供一个评估序列可靠性的数据。它同样能够设计出和训练集中蛋白结构完全不同的全新蛋白。


图4:基于图的神经网络模型提供了新的蛋白质定骨架设计方法


总体而言,基于AI的序列设计方法在实验验证中的成功率很高(通常大于10%,在有利的情况下大于50%)。这大大增加了计算设计可处理的应用数量和类型。


目标结构的生成:

三维结构生成的基本思路和后AI时代的方法革新



我们之前讲过,一个蛋白质的从头设计,需要『两步走』—— ① 得到一种目标的结构,②预测出来一条能够形成目标结构的氨基酸序列。当下比较主流的序列生成方案,比如ProteinMPNN,就需要事先为其提供一个蛋白结构蓝图。这就引出了两个问题:首先,需要一种有效的方法来生成结构蓝图;其次,这一蓝图必须具备“可设计性”(designable)。可设计性是说,所生成的蓝图结构必须能够被至少一种序列有效地填充,不能出现任何一种序列都无法折叠成当前蓝图结构的情况。


想要保证蛋白质蓝图是“可设计的”,最简单的方法就是从自然界存在的蛋白骨架开始,直接借用之。初期有些计算方法,比如将酶重设计以改造其底物特异性的尝试,还有改造天然蛋白分子间互作关系的尝试,都取得了一定进展。但是,总地来说,将一种已经成型的自然分子通过计算方法改造成具备另一种功能的人工分子是非常困难的,而且往往不如直接诉诸定向进化。


对于全螺旋结构的蛋白质,结构生成的问题可以被“优雅地”解决。这很大程度上是因为螺旋结构十分稳定、可控,而且容易被参数化。在螺旋结构方面,有一组描述相互作用螺旋的几何形状和相对方向的参数方程(克里克参数化,Crick’s parameterization),它们使得大量卷曲螺旋结构的从头生成和重新设计变得非常容易。广泛的从头设计及其实验验证,系统地描述了卷曲螺旋的“周期表”。克里克参数化方法可扩展到任意螺旋束结构,并且被实验证明具有极高的热稳定性。另外,螺旋结构,由于其规律性和一致性,还很容易通过“剪接”的方式被拼凑到一起,这使得通过融合、拼接等方法,组合大量不同参数的螺旋,从头生成大量的创新结构甚至是较大的分子复合物变得轻而易举。


然而,想要实现一些更加复杂的、具有特定功能的蛋白质设计,光使用螺旋结构显然是不够的,更多结构,如螺旋变体也应纳入其中。更加普适性的蛋白设计策略还应当关注具备α螺旋束、β折叠片层以及其他二级结构成分的复杂蛋白。


这类设计策略可以概括为典型的“四步走”(图5):

1

首先,设计一个确定的拓扑结构,包括各种二级结构元件(如α螺旋和β折叠)连接的逻辑方式,是为“蓝图”;

2

其次,根据蓝图确定的的元件位置,利用小块的肽段(序列未定,如一些螺旋和短肽段落)组装拼接成蓝图中要求的拓扑形态,并且按照规定的拓扑结构将这些小块用环结构连接起来;

 

这一步骤所用的肽段和环片段通常取自PDB数据库中比较有代表性的片段,这可以保证至少在局部(一维)水平上具备序列-结构兼容性,从而保证搭建出的结构模型具备可设计性。在高级折叠水平上的可设计性则可以通过现有蛋白质拓扑结构中发现的规则来评估,例如一些二级结构在三级图案中的特定组织规律。拓扑填充中一个经典的例子是成功完成了对称三糖磷酸异构酶(TIM)-桶状蛋白质的从头设计,这是一项长期存在的设计挑战,需要特定的侧链-骨架氢键来定义桶状重复单元之间的链排列才能成功。

3

根据确定的三维结构骨架生成对应的序列(即定骨架设计,比如之前Top7的例子);

4

检查,反过来根据序列用计算机方法预测其结构,并将预测结果和结构蓝图对比。

根据这些方法,人们已经从头生成了大量含有α螺旋和β折叠的较复杂的蛋白结构。这些方法被集成化在TopoBuilder这样的方法软件中。


图5:三维结构设计是一个从拓扑蓝图到三维结构再到序列的过程


然而,尽管人们能有效处理全螺旋蛋白质、α螺旋+β折叠蛋白质的从头设计,却始终无法实现全β折叠蛋白质的从头设计。事实上,人们最终发现自然界的全β折叠蛋白也并非是完美的、符合理论的。它们都存在一些非标准结构缺陷,这使得一些张力从结构中释放。

 

除了三级结构之外,蛋白质四级结构(大分子复合物)的从头设计也是值得讨论的一环。从头设计能够设计出大量尺寸可观的对称组合体作为重要的运载工具、反应腔室或疫苗纳米颗粒,对药物学研究有着重大影响。对这些对称复合物的组装,通常需要将各组分(天然或从头设计的)单体,按照所需的对称性进行对接,而关键在于重新设计由这种对接关系的决定所产生的互作界面。对称性使得这些结构设计变得更加容易:任何设计的界面相互作用(如果是净有利的)都会在组装过程中多次重复,从而形成一个大的分子复合物,对整体的稳定性起持续的增强作用。

 

前述的结构生成方法都需要给定的蛋白质拓扑蓝图。然而,对AI方法来说,它并不需要用户事先确定一个蛋白质的拓扑结构和元件成分。其中一种基于AI的蛋白质从头设计方法为“蛋白质幻觉”(hallucination),它已经经过了实验验证。这一方法认为,既然目前的大模型已经能够从给定序列预测蛋白质结构,那么大模型习得的内容也许就能够支持其从头生成一些创新的蛋白质结构,使该结构的对应序列与训练集中的任何一种都不相同。

 

研究人员利用结构结构预测模型trRosetta完成了这一过程。该方法首先生成一段随机的氨基酸序列,并将其输入trRosetta 结构预测网络,以预测起始残基-残基间距离图(即三维结构)。这一步显然不会生成任何有序结构。然后,他们在氨基酸序列空间对现有序列进行蒙特卡洛(Monte Carlo)采样,并对网络预测的残基间距离分布与所有蛋白质的平均背景距离分布之间的对比度(KL散度)进行优化。【编者注:KL散度又称相对熵。在优化过程中,需要尽可能扩大网络预测结果和平均背景之间的差距,即扩大二者的KL散度,来生成新的有序结构。也就是说,每一次迭代时计算机先随机突变当前序列的一个位点,然后计算评估新序列是否能够带来KL散度的扩大,以此来决定是否接受这一突变。多次迭代可以优化序列的结构性,也就是所谓的蒙特卡洛采样过程。】以不同的随机序列作为起点进行优化,可以得到不同的、跨越多种序列和结构排列的新型蛋白分子结构(图6),这一过程被称为network hallucination。这项对trRosetta“再就业”的研究实际上从原理上证明了:为结构预测而训练出的深度神经网络,也可以被利用来进行蛋白质结构的从头生成和设计。


图6:使用蛋白质幻觉模型(hallucinating)生成创新蛋白结构的算法原理


从大模型“幻觉”中得到的结果包括了生成的三维结构及其对应序列。然而,这些序列恰恰被实验证明是成功率极低的。不过人们还发现,如果在第二步介入ProteinMPNN方法对hallucination生成的三维结构进行重新的氨基酸序列预测,就会大大提升设计成功率。这听起来或许有些可笑,但它实际上反映了用于结构预测的模型对序列中某些“点突变”的不敏感性。这种不敏感性是一个比较致命的问题——很多氨基酸位置一旦发生变化,就会直接导致整体结构的坍塌。

 

更加近期的从头设计方法采用了一种在AI绘画、AI图片生成中所用的模型——扩散模型(diffusion models,图7)。当今扩散模型风靡世界,展现出了强大的应用潜力,也因其版权问题引起了多方争议。研究人员在给定的蛋白质结构图像中添加连续的“噪声”部分,随后根据这些添加了噪音的图像去训练神经网络,令其还原原结构。最终训练得到的AI可以从一张充满噪音的图像中,通过去噪音的方法逐渐还原出一个完整的蛋白分子结构。这种方法的代表,RFdiffusion,能够从头设计蛋白质单体、多分子对称复合物、以及蛋白质结合物,并已经通过了实验验证。扩散模型具有较好的泛用性,可被用在领域内的多个方向上。


图7:蛋白质设计中的扩散模型(diffusion models)


当今结构与序列从头生成的前沿领域



如今,蛋白质从头生成领域对设计方法提出了更高的要求。其中有两点是最为重要的:对蛋白三维结构的几何细节控制及家族生成;“蛋白分子机器”的复杂形状和蓝图构成。

 

① 蛋白结构的几何细节控制:

显然,自然界的蛋白质并非是互相独立的。在结构层面上,相似的蛋白质通常组成家族;一个家族内部的蛋白质共享相似的拓扑结构,但在元件的几何细节上有所不同,所执行的功能也不尽相同。在这里,“几何细节”(geometry)一般指一个确定拓扑蓝图内的二级结构元件的细节——长度、大小、方向(图8)。现有的结构生成策略大多是“粗粒度”(course-grained)的,当我们要求其对给定的拓扑结构生成细节上不同的多种版本的结果时,它只能生成一堆彼此之间几乎没有区别的模型(仅1-2 Å [RMSD])。这无法满足工程学对“调适性”(tunable)的要求。人们已经研发出了一些“细粒度”(fine-grained)的方法,来系统性地对蛋白质的几何特征进行采样,比如对某种分子结合口袋部分的几何结构细节进行细微而重要的调整。

    

由于进化变异的很大一部分涉及蛋白质中「螺旋」元件定位的多样性,因此环-螺旋-环组合取样(LUCS)方法可以通过系统地改变螺旋的位置、方向和长度,生成具有可调几何结构的蛋白家族。几个实验测定的结构表明,在这种方法下从头设计的蛋白质具有相同的折叠拓扑结构,但在几何形状上有很大的差异;而且尽管他们有很大的几何差异,却在每种情况下都与拓扑“蓝图”有极好的吻合性。这就允许了相同拓扑结构下的一系列“功能序列”和蛋白质家族的产生。


图8: 通过对同一个拓扑结构下各个元件的系统性细调,可以生成一系列不同结构和功能的蛋白,形成一个蛋白“家族”



② “蛋白分子机器”的从头设计

在所有具备特定功能的蛋白设计中,分子机器复合物毫无疑问是最令人激动的一环。从线粒体中提供能量的F型质子泵,到细胞内运载囊泡的动力蛋白,再到细菌的鞭毛基体马达,天然蛋白分子机器可谓是复杂生命过程得以完成的最大功臣。在蛋白设计领域,人们已经可以通过融合螺旋肽段和组装蛋白单体形成较大的蛋白复合体,为设计具有任意形状的更复杂结构开辟了潜在的途径。

 

例如,从头设计出来的蛋白质可作为分子机器和发动机(如转子和轴)的部件。最近一个有趣的例子是,设计多种基于合成蛋白质的转子和轴部件,并将其组装成蛋白质纳米机械。在这一领域还有许多挑战有待解决,例如通过使用化学燃料进行能量转换来驱动旋转。基于人工智能的方法的进一步发展可能允许设计出更加复杂的蛋白质形状和生物学功能,然后对所需的蛋白质形状进行定制优化。此外,在这些大型组件的设计过程中,还可以考虑模块化(modularity)的工程原理,使它们可以由即插即用的部件组成。


功能性蛋白质:

小分子结合和蛋白质互作功能的从头设计



当我们讨论『功能』的时候,我们在讨论什么?一般对于蛋白质的功能性研究会首先将“功能”定义为某种具体要求。传统的定义将蛋白质的功能看作是特定位置(活性中心)的特定原子三维排布方式。早期较为成功的例子一般是这样:先在计算机中从头设计一个理论上具备功能的活性中心(模体,motif),或者直接从自然功能性蛋白质活性中心上“复制”下来一个活性中心;然后,将该活性中心“移植”到一个自然来源的蛋白质“脚手架”上(图9,上)。这种“移花接木”的方法略显粗暴,并带来了许多问题:第一,为保证结构稳定性,人们无法大幅调整自然来源的、作为“基座”的蛋白质脚手架结构,导致可适配的基座类型受到了很大限制,而活性位点往往无法被精确移植上去,最终表现为活性丧失。第二,很多天然蛋白质脚手架本身就只能保持脆弱的热平衡,一旦植入活性位点可能会导致结构坍缩。第三,一些蛋白质的活性中心可能由3-4个以上的氨基酸残基组成,这种较大的活性中心通常无法被合适地植入任何一个已知的天然蛋白结构内部。

 

图9: 传统的基于“移植蛋白质活性中心”思路的功能设计原理(上);能够用于蛋白质功能设计的AI模型(下)


前两个问题可以通过从头生成大量蛋白“基座”并组成脚手架库来成功解决。从头设计的蛋白质数量丰富,工程性强,往往在热力学上极其稳定,而且可满足诸多细节上的灵活调试,是天然脚手架的有效替代品。但是,第三个问题仍然存在:一旦发现人工设计的脚手架库中还是无法找到任何一种可用的、适配当前活性位点的脚手架,事情就会变得更加麻烦。此时除了再去生成更多脚手架以尝试配对,还可以考虑一种更为直接的办法:如何从当前的活性中心出发“扩展生成”一个完整的蛋白。

 

基于深度学习的AI方法,如“幻觉”hallucination和“扩散”diffusion,在理论上可以做到这一点(图9,下);但关键在于其生成的三维结构是否真正具备对应的氨基酸序列(可设计性),还有其提供的非共价相互作用关系在维持活性中心结构方面是否足够强大。这些方法不仅需要合适的评估手段,还需要结构解析实验(如冷冻电镜等)为其提供实证数据。

 

最后,基于人工智能的方法原则上也应适用于整个蛋白质功能从头设计的第一步:定义“功能”的具体要求。分子表面相互作用指纹图谱(MaSIF)方法就是一个例子:它能够捕捉蛋白质靶标上合适相互作用界面的 "化学指纹",通过计算将其与互补表面匹配,再通过添加脚手架的方法将互补面支撑起来,生成新的目标蛋白结合体(图10)。


图10: 指纹法。通过MaSIF深度学习方法预测目标位点,然后从超过4 亿个斑块库中识别互补指纹。将匹配的互补片构建成新蛋白质并进行优化


蛋白-蛋白相互作用的从头设计是功能设计中一个非常重要的领域,在抗体、靶蛋白以及细胞信号传导等多个方面都有重要意义。为了能够从头设计具备互作功能的蛋白分子,人们最初试图在两个天然蛋白质之间选择一个相互作用界面,并使用计算方法改造这个界面,最终使得相互作用能够发生。其中一个关键的发展是“热点定向”设计(hotspot-directed,图11)。在这种方法中,研究人员首先通过计算物理学方法确定一些彼此互相分离的氨基酸侧链与感兴趣的目标表面对接,由这些“热点”构成理想表面中的相互作用。然后,再将这些氨基酸侧链整合到一个较大的“脚手架”蛋白骨架中,设计出完整的互作蛋白。然而,这种方法在成功率上有些不尽人意。一项大型研究表明,能达到微摩尔级别亲和力的成功结果在所有生成物中占比不到1%;而想要达到纳摩尔以下的高亲和力仍需人工筛选。与之相比,目前领域内的一些AI方法,即“扩散模型”diffusion和MaSIF,带来了更高的成功率。MaSIF甚至能够在不给定互作氨基酸成分的基础上,自行识别出较好的潜在互作表面。


图11: 设计蛋白间相互作用的传统“热点定向”方法(上);设计蛋白间相互作用的AI“扩散模型”方法(下)


尽管蛋白互作设计取得了重大进展,但并非所有难题都能迎刃而解。剩余的主要困难包括为“高度可变”或“极性极强”的目标区域设计蛋白质互作物。如果一个区域的结构构象本身可变,或有大量的氢键供体/受体,对蛋白互作设计来说都是很大的困难。目前已经设计的蛋白互作中,螺旋-螺旋相互作用面所占比例较高。这是由于螺旋结构具备规则的几何形状、通用的设计规则以及内部已经满足的氢键供-受体基团【编者注:未得到满足的氢键供体或受体会使蛋白质的结构稳定性下降】,因此更易于设计。

 

除了蛋白-蛋白互作之外,还有蛋白-小分子识别功能的从头设计。这是许多蛋白质实现功能的关键,包括催化和信号传递,但此类设计则仍然是领域内的一大难题,特别是一些高极性或柔性小分子目标,因为我们通常很难以高精度对结合位点的结构进行优化。总体而言,对小分子结合的尝试所实现的亲和力通常停留在微摩尔或高纳摩尔级。不过,这些方法为设计小分子诱导的组装体以控制细胞内外的信号传导过程提供了一些机会。

 

小分子-蛋白互作领域也提出了几种深度学习方法。迄今为止,许多研究报告了一些计算上的(in silico)进展。最近,RFdiffusion 的全原子版本 RFdiffusionAA已被应用于设计与治疗性药物地高辛(digoxigenin,心血管药物)、酶辅助因子血红素以及其他小分子结合的蛋白质。尽管这些办法的成功率较低(地高辛:3/4400),但“扩散”方法只需定义目标,无需预先生成结合图案,就能从小分子“扩散”出来一个能够与之结合的蛋白结构,实现与小分子在几何形状上的高度互补,因此在原理上更为先进。在这一方面,未来需要更多的冷冻电镜结构解析实验来确定从头设计的蛋白结合小分子的『预测结构』与其『真实结构』之间的一致性。

 

在综述中,作者还介绍了对蛋白质结构灵活性的设计、对可转换构象的蛋白质的设计(如酶的别构效应),以及对细胞内真实蛋白质功能乃至细胞内信号传递通路的从头设计。这一部分(图12)囊括了一些经典的生物工程学设计思路,如分子探测器(sensors)、多种蛋白分子行为(协同作用,rachet;特定浓度监测,bandpass filter)、输入输出行为(LOCKR),以及由这些行为组合而成的复杂逻辑门(logic)。这些部分建立在前述种种蛋白结构设计、蛋白功能设计的基础上,大多离完全实现尚有距离,但也取得了一定进展。显然,AI在这一方面也将提供较大助力。限于篇幅原因,在此不再赘述。


图12: 蛋白质从头设计的最终目标,实现从头搭建的细胞内蛋白质功能系统


总的来说,AI方法的到来使通过计算方法从头设计蛋白质的研究翻开了新的篇章。尽管目前AI所实现的设计目标也相对简单,但它们已经展现出了较简单的过程和较高的成功率。多种用途的蛋白质、以及大的多蛋白复合物已经能够被以较成熟的设计方法建造出来,并拥有较强的工程性和稳定性;根据特定位点来从头设计能够与之结合的蛋白质的技术也逐渐成熟。这些蛋白有着非常令人兴奋的应用前景,如疫苗的制造和创新药物的研发,还可以用于对细胞生命过程的探索。与小分子的结合、需要蛋白质进行构象变化甚至是别构效应的高级功能、设计系统与细胞生命进行交互,还有一些更加前沿的领域如超敏感蛋白分子开关,都是一些尚未解决但已见曙光的问题。

 

正如作者所言,“深度学习的进展将会要求大量充足的(实验)信息数据,以便准确地设计这些(更加复杂的蛋白功能)。”随着蛋白质从头设计的能力越来越强大、设计的目标越来越精确、越来越复杂,传统的X射线晶体学等方法将不足以应对大规模的、对较大复合物的蛋白质结构解析,也无法胜任对于蛋白质动态结构的捕捉和判断。de novo蛋白质设计的未来发展,对冷冻电镜快速、准确而善于处理蛋白复合物的能力提出了强烈需求。目前,中科微末团队在生物大分子三维结构解析方面技术成熟、经验丰富,能够在原子级分辨率解析多种生物大分子材料的三维结构。我们致力于为药企和高校医院科研工作者提供一站式、自动化、原子级分辨率的结构解析服务,助力创新药物研发和科研成果转化,帮助科研人员实现“原子结构自由”。




微末生物

Nanomega BioAI

请关注微末生物

期待与您交流

内容中包含的图片若涉及版权问题,请及时与我们联系删除