点击蓝字 关注我们

微末生物

Nanomega BioAI

蛋白质支持是生命的物质基础,它们可塑性的多种三维形态(即多态性)是维持正常生理功能的关键。长期以来,确定蛋白质结构需要复杂的实验操作,严重制约相关研究。


2020年,人工智能算法AlphaFold2基于序列信息实现了蛋白单一形态的高精度预测,被誉为“结构生物学的颠覆性成果”。然而,对于蛋白质结构的预测并不能就此止步,因为大多数蛋白质存在多种形态,而理解多态性机制才是揭开生命奥秘的下一步旅程。


近期,《自然》杂志上发表了题为“Predicting multiple conformations via sequence clustering and AlphaFold2”的论文中提出一种可以高效预测蛋白质多形态的新的算法AF-Cluster 正在尝试突破预测蛋白质的多态性难题,让我们来一起一探究竟吧。


蛋白质多态性:生命的灵动之源



蛋白质是细胞中最重要的功能分子,可参与构建细胞骨架、催化反应、传递信号、细胞运动等几乎全部生命活动。很多重要的疾病如癌症心脏病也起源于蛋白质功能的细微失调。


为什么一个由氨基酸组成的简单线性链条会有如此惊人的功能?那是因为蛋白质会折叠形成球形或纤维丝状的复杂三维结构。这种结构空间决定了蛋白质与其他分子进行定点识别和交互作用的模式,才能正确发挥生物学功能。


更神奇的是,当细胞内外条件变化时,很多蛋白质可以在两种或更多形态间转换,这种“多态性”让生命拥有了妙不可言的柔韧适应性。比如葡萄糖激酶负责监测体内葡萄糖:当浓度过高时会改变结构,抑制糖原合成防止超量储存;当葡萄糖不足时又会激活糖原分解。


然而这种对复杂动态环境的适应性,也增加了引发疾病的模式。事实上,很多疾病都与蛋白质多态失衡相关。激素、神经递质类药物治疗的机制也常常是通过调节某些受体或酶的形态比例从而起到治疗效果。因此,揭示蛋白质多态性形成机制,不仅有助于理解生物系统精妙的调控方式,也是药物研发的重要课题。然而多年来,难以“看清”这些细微差异的三维结构,这成为限制相关研究的主要瓶颈。


AlphaFold2单一状态预测的成功



先前科学家们最先通过X射线晶体学实验获得蛋白质结构图像。但这类方法操作复杂,需要通过基因工程获得质量高的蛋白样本并且结晶,整个过程耗时长、难度大,这限制了结构解析的数量。尽管2013年冷冻电镜技术的异军突起,使得获取蛋白质结构不必大费周折地获取高纯度的蛋白晶体,但是仅靠实验手段解析蛋白结构,对于生命体中海量的蛋白质而言仍是杯水车薪。


多年来很多团队尝试仅依靠氨基酸序列,通过比较同源蛋白质的共同进化规律反推三维结构,但成果十分有限。2020年,DeepMind团队公布的AlphaFold2算法,则基于深度学习将这一梦想变为现实:它直接从蛋白序列进行结构预测,在蛋白质单体预测方面与实验方法获得的结果高度一致。这意味着生命语言解码的大门终于打开:科学家们可以仅通过序列就获得任何蛋白质的高分辨结构,并借此推导功能并指导相关实验,这必将加速生命科学研究一个量级。然而,由于AlphaFold2只能预测蛋白的单一静态结构,要想真正读懂生命这本书,科学家们还需要一个识别多态语言的解码器。


AlphaFold2多态预测的挑战



AlphaFold2高准确预测的理论依托,在于发掘同源蛋白序列中代表空间距离约束的共同进化规律。简单说,哪些位点的突变会同时固定,说明它们之间在三维结构上很近很近。

 

那么对于可以转换多个三维状态的蛋白质,在不同形态这些约束就会出现冲突:这会严重干扰AlphaFold形态预测,导致信号被掩盖而无法学习。举个简单例子,Peter有两个朋友圈子:圈子A里他跟John和Mary经常在一起,到了圈子B他可能就跟Tom和Lily一起玩。如果一开始只看到Peter一起跟John Mary玩耍,就有可能会误以为Tom与 Lily是外人;这里不同形态的蛋白质就是身怀绝技的Peter,而那些经常共变的位点则分别反映了不同朋友圈内部的连接。每次都把所有蛋白质的序列都混在一起作为数据输入,系统就会很容易把不同“圈子”里的连接信息混在一起,这样AlphaFold就失去了分辨不同形态的能力,最终导致只能预测其中信息最完整的一个状态。


面对这个问题,研究者尝试提出了各种模型改进方案。最直接的一个思路,是直接将代表不同状态的序列小组分开地输入给AlphaFold。但是这样会减少输入信息量,对状态转换关键位点的预测准确性难以保证。因此,在没有事先知识的情况下预测蛋白质多态,仍然是整个蛋白质预测领域的巨大挑战。


AlphaFold2实现多态性预测



为了解决AlphaFold2在多态性预测上的困难,该篇发表于《自然》的研究提出了一种新的输入处理方法AF-Cluster。简单来说,首先利用序列搜索数据库为目标蛋白生成全面的多序列比对,用以表示同源蛋白质家族的进化信息。接下来使用一种称为DBSCAN的聚类算法,根据进化距离将这些序列划分为多个子类。最后将不同的类别分别作为输入,送入AlphaFold的预测流程,就可以获得目标蛋白多种形态模型的集合。


使用DBSCAN的原因在于,它不需要事先人为指定分成几类,而是通过密度聚类自动发现类别数目。这种聚类思想恰恰契合了同源蛋白族群中用于区分不同功能形态的微小进化差异。将代表不同状态的序列分开后单独输入给AlphaFold,就不会出现不同形态的信息被淹没的问题,从而实现对各自形态的精确建模。现在,让我们来看AF-Cluster在几个典型的蛋白多态转变的案例上是如何展现其强大魔力的。


KaiB: 昼夜节律的分子切换开关



图1 AF-Cluster实现KaiB蛋白双态预测:a&b: KaiB蛋白的两种已知状态的晶体结构:a为ground状态(灰色),b为fold-switched(FS)状态(彩色)。两个状态的前50个氨基酸相同(灰色),后半部分发生了构象转换(彩色);c 输入序列的选择对预测结果有很大影响:使用默认参数的AlphaFold2只预测出了FS状态,而使用最相似序列输入则预测出ground 状态;d 概述AF-Cluster方法流程,左侧对多序列比对进行聚类,右侧不同聚类作为输入预测出目标蛋白的多种构象;e AF-Cluster预测出的ground状态(上)和FS状态(下)模型中,置信度最高的前5个。颜色代表预测准确度;f AF-Cluster预测的模型相对于ground状态和FS状态的 Root Mean Square Deviation (RMSD),最高置信度区域接近相应的实验结构;相对应的采取MSA取样的预测结果仅对FS状态预测时准确。


KaiB蛋白存在于蓝细菌中,它在白天采用ground状态,而到了晚上则通过激活转变为fold-switched(FS)状态,从而像分子开关一样参与驱动一个24小时的昼夜节律。最初,AlphaFold默认只预测了它的FS状态;而使用AF-Cluster进行聚类输入后,结果立刻呈现了双重状态:在预测出ground状态的同时,还使得两种形态的预测准确度指标——pLDDT值都得到大幅提升。进一步地,研究者通过实验确证,预测ground状态的模型距离真实结构小于3 Å。


真核生物转录因子RfaH CTD域的α-β转换



图2 AF-Cluster实现RfaH转录因子的双态预测


下面我们再来看一个典型的多态蛋白:真核生物转录因子RfaH。它CTD域可以在α螺旋和β滑顺这两种截然不同状态之间转换,从而动态调控基因表达。使用完整的多序列比对,AlphaFold仅预测了其中一种状态。而AF-Cluster模型则可以同时产生两种形态。并且可以清楚的看到这两种状态预测准确度指标都得到显著提高,再一次证实了AF-Cluster的独特优势。


生命语言未完待读,蛋白科学任重道远



AF-Cluster模型的提出,一定成度地解决了蛋白质多态性的预测难题,打开了结构生物学研究的新篇章。然而AF-Cluster模型仍存在一些局限性:

 

1. AF-Cluster的抽样并不能准确再现不同形态的热力学平衡分布。也就是样本数量不能定量反映体系中的形态比例。这对精确计算构象间转换自由能是个挑战;

2. 该方法还无法预测一些明确的构象转换激发模式,比如pH或氧化环境变化。确定这种外界“开关”本身也非常困难;

3. 对于一些多聚体间的转换,或者不同亚基错配组装的形态,目前准确预测也比较困难。

 

对此,我们不能一味苛求一蹴而就,蛋白质的结构多态性仍蕴藏着很深的奥秘。我们可以期待在这个基础上,新的生物物理理论、计算方法与实验技术能相互应和、水乳交融,蛋白科学的发展才能如虎添翼,真正完全解读生命语言。当然这只是一个开端,想要从计算机建模准确预测多态平衡状态,还有很长的路要走。期待在这个基础上,新的生物物理理论、计算方法与实验技术能相互应和、水乳交融,蛋白科学的发展才能如虎添翼,真正完全解读生命语言。


中科微末作为深耕于结构生物学和AI领域的企业,已充分认识到提供优质结构解析服务对于验证AI模型的重要意义。中科微末依托自主研发的冷冻电镜技术,专注为生物医药企业提供结构生物学研究服务,实现目标蛋白原子级高分辨率的结构解析。团队成员累积发表400+顶级SCI期刊论文,团队手握多项专利软著,在冷冻电镜技术工作流每个环节累积了大量独家算法和专利,可以提供“高难度结构有解决方案,低难度结构更迅速价格更便宜”的技术服务。展望未来,中科微末将继续致力于冷冻电子显微技术的研发和创新,持续推出更多切合客户需求的结构解析解决方案。




微末生物

Nanomega BioAI

请关注微末生物

期待与您交流