点击蓝字 关注我们
微末生物
Nanomega BioAI
在生物工程领域,人们已经通过克隆、重组和定向进化等多种方法,组合、编辑和改造了数以百计的蛋白分子,将天然的蛋白产物变为了工业机器手中可以量产、迭代和质控的“机械工具”。然而,从原本服务于特定生物学过程的功能性分子,到能够满足人类无穷想象与需求的“集成式工具箱”,还存在着相当一段距离。对人类的现实需求来说,天然分子由于具备固有的结构和功能局限性,所覆盖的功能多样性较为有限;受限于人们对天然分子结构和功能的理解不足,人们无法随心所欲地对其进行调试和控制;而定向进化方法,尽管能够在一定范围内对蛋白质进行改造和改进,也常常在创新功能领域受到掣肘。
基于这种困境,人们曾经尝试使用生物物理学、数字生物学的计算方法,依靠工程设计理念对蛋白骨架及其功能进行“从头设计”,来达到“定制”蛋白分子的终极目标。在这一方面进行的研究,尽管面临着重重困难,也取得了许多显著的进展,并构建起了蛋白质从头设计(de novo)这一领域的基本原理和研究范式。
现在,基于大量序列和结构数据集训练的深度学习与人工智能(AI)方法为科研人员从头“编写”,或者说创造具有全新形状和分子功能的蛋白质提供了强大的助力。这种“从头开始”的、“先验”(in priori)的方法允许人们基于工程学理念“凭空建造”,获取人工定义的蛋白质结构、功能甚至是大分子系统,而无需像传统的生物工程那样受限于自然界已有的蛋白种类。总地来说,AI在很大程度上提升了蛋白质从头设计方法的成功率,并且为这一领域中的许多关键问题,如结构细节的精确调整、与小分子结构的精确互补等,提供了有效的解决方案。
这篇最近发表于Cell杂志的综述De novo protein design—From new structures to programmable functions详细地介绍了蛋白质从头设计领域的科学理念、重要进展、以及AI时代下的全新变革。
图1:蛋白质从头设计能够发掘自然界没有出现过的新功能,并且可以引入工程理念,如可量化细节之间的可调性(tunable),对多种输入做出反应的可控性(controllable),以及允许组合不同成分的模块性(modular)
总论:
蛋白质从头设计在人工智能后时代的思想变革和基本问题
或许你还记得轰动一时的AlphaFold2;这是通过深度学习提高蛋白质结构预测准确性的一个经典范例。在这个例子中,AlphaFold能够根据给定的氨基酸序列(一维结构),以相当高的准确率预测其折叠后的三级结构,产出了大量能够与实际结果相媲美的高精度预测结果。而与“蛋白质结构预测”恰好相反地,从一个给定的结构模型出发,找出一条能够折叠形成该三维结构的特定序列(来让人们合成)的过程,则被称为蛋白质设计。从结构预测中迁移过来的深度学习方法正在促使从头设计领域中的一些概念发生改变。
经典的蛋白质设计方法首先设定详细的“分子骨架”结构,然后找到与该结构相一致的序列;而到了设计特定功能的环节,需要定义活性位点的结构(通常是关键催化或结合残基的相对原子定位),并将其内置到设计的蛋白质“支架”中。这个内置过程为功能位点带来了极大的脆弱性——所设计的蛋白质需要非常精确地满足理论上功能位点所需要的结构,因为甚至是0.1nm的结构偏移都将导致功能的丧失。因此,此前大多数的蛋白质设计研究,实际上就是在探讨如何生成一个与理论结构精确相符的蛋白分子。
相比之下,深度学习的生成方法改变了这一切:它提供了同时设计一个蛋白质的结构、序列和功能的机会。基于序列、结构、功能密切相关的思想,将这三者同时生成,在概念上似乎达成了一个关键的飞跃。(至于具体如何做到,请看下篇推送~)
在蛋白质设计的前沿领域,我们可以问出一连串难度递增的问题(图2):
图2: 蛋白质设计领域的重大问题。从1到4,给定的实际信息越来越少,难度也越来越大
① 如何设计一个具有可折叠的、拥有全新结构的蛋白分子?
(1)如果给定一个描述了整个蛋白质拓扑结构的蓝图(确定的螺旋、折叠、环结构的数量及其相对位置关系),我们能否实际生成一系列蛋白,它们都与蓝图相符,但拥有着不同的几何细节,比如每个螺旋的长短、折叠的方向、环的长度、实际空间关系?
(2)如果不给定蓝图,计算机是否能自行生成多种具有全新折叠模式的蛋白?
② 如何围绕蛋白质功能位点上最重要的几个原子的相对位置,在不提供其他辅助信息的情况下,构建一个完整的蛋白质?
③ 如果我们只有一个想要设计的功能,能否要求深度学习模型同时生成一个完整的有功能蛋白(包括功能位点,和一个包含该功能位点的完整蛋白质序列和结构模型)?
(1)这一功能是否可以是与其他蛋白质发生相互作用?
(2)这一功能是否可以是和某种小分子发生相互作用?
④ 甚至于,我们能否简单地提出一个功能,然后直接要求计算机设计出一个功能符合要求的蛋白质?
前两个问题的答案在原理上已经确定;能够解决第三个问题的方法正在开发中。在AI加持下,围绕着这些问题的更多应用指日可待。然而,较大的进步并不意味着大部分问题已经得到解决。在蛋白质设计过程中的准确性(accuracy)和精密性(precision)、对蛋白质动力学和构象图景的考虑、以及蛋白质设计的规模等关键问题长期存在,并且显得越发重要。
从单个蛋白分子的全新结构生成,到多蛋白分子复合物的从头设计,再到功能性蛋白分子的设计和最终细胞信号系统的从头构建,这篇综述着重介绍了近5-6年来蛋白质设计领域的概念革新以及利用人工智能方法取得的重大进步。
前景与机遇:
蛋白质设计领域对结构解析需求较大
从更加宏观的角度上看,蛋白质设计领域将在深度学习方法的帮助下解决许多关键的节点性问题,并很有可能在抗体、蛋白配体、小分子配体生成方面逐渐成为重要力量。“以较高的成功率和普适性从头设计蛋白质”的分子工程理念,将为生物工程领域乃至医药研发产业的新时代揭开序幕。
AI降临之后,等待着蛋白质设计这一生物工程学前沿领域的,将是一片充满机遇与挑战的开阔未来;与此同时,和蛋白质设计领域的飞跃一并到来的,是对计算机和人工设计结果进行实验验证的海量刚需。
以文中提到的语言模型,如ProGene为例,虽然有生物化学的实验数据为其生成的蛋白质提供实证性数据,却缺乏对产品三维结构的直接实验解析;正因如此,我们还暂时不能确定它们否确实具备计算结果中的“新型结构”。而这实际上就恰恰是冷冻电镜及其他结构解析方法的“用武之地”。事实上,任何“从头设计”出来的蛋白质及其系统都需要经过三维结构的实际解析;只有得到“眼见为实”的数据反馈和结构模型,才能真正算作成功。
作者在文中表示:“迄今为止,由这些方法生成的功能性蛋白很少得到高分辨率实验结构的验证;因此,需要更多数据来系统地评估所设计的功能位点几何结构的准确性。”这就带来了对冷冻电镜结构解析服务的重大需求。目前,中科微末团队在生物大分子三维结构解析方面技术成熟、经验丰富,能够在原子级分辨率解析多种生物大分子材料的三维结构。我们致力于为药企和高校医院科研工作者提供一站式、自动化、原子级分辨率的结构解析服务,助力创新药物研发和科研成果转化,帮助科研人员实现“原子结构自由”。
(*对这篇文章具体内容的高质量详细解读,请关注中科微末公众号,下篇为您推送~)
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢