关于合成生物学的探讨中,有个问题一直处于模糊状态:人工智能的切入点到底在哪?
在传统工业端,人工智能可以依托现有的工业路径循序渐进:AI+技术可以将生产流程优化到极致,AI+平台则致力于将企业管理效率推到极致。
然而合成生物学本身就是一门前沿学科,商业路径仍在早期探索,市场上仍缺乏一套可复制的工业化模板,没有作业可以抄。
合成生物学实在是一块大蛋糕。根据nova one advisor最新数据,2023 年全球合成生物学市场规模为 140.9 亿美元,预计到 2033 年将达到约 801.7 亿美元,在 2024 年至 2033 年的预测期内以 18.99% 的复合年增长率增长。
![](https://simg.baai.ac.cn/hub-detail/f5f6017aaed973d56b2010fafc43d22d1714315238686.webp)
机遇在前,人工智能的利剑握在手中,却找不到合适的切入点,这种疑问把AI在合成生物领域应用技术创新困在了原地。
从概念上说,合成生物学的研究,本质上是把生物学和工程学相结合来设计和创建具有新颖功能的生物系统。
这套生物系统,我们运用工程学的概念推导,必须经由功能各异、形式多样并且能够良好实现预期功能的生物元件组成。
常见的生物元件包括催化酶、转录因子、转运蛋白、蛋白支架等,看似迥异却有一个共性。
这些功能元件都是蛋白质。
细胞里中的DNA和RNA记录了我们的遗传信息,但真正在细胞里面执行功能的是蛋白质。
如何执行功能?蛋白质在细胞里会折叠成固定的三维构型,这个三维结构决定了它的功能。
研究蛋白质的三维结构的这个过程,被称为“蛋白质结构预测”。
解构蛋白质就像玩折纸游戏,虽然科学界对蛋白质的分子式已经很了解,但预测这些组成蛋白质的原子最后会形成怎么样的构型仍是个很困难的问题。
在过去 60 多年的历史中,科学界最开始主要利用名为“合理设计”的方法来解析蛋白质。
这种方法需要先根据蛋白质实际3D结构对蛋白质进行建模,再识别出可能影响蛋白质功能的氨基酸,解析水平严重受限于相对稀缺而难于得到的可分辨3D蛋白质结构。
为了获得更多可分辨的3D蛋白质结构,蛋白质结构生物学应运而生。
1959 年,佩鲁茨和肯德鲁对血红蛋白和肌红蛋白进行结构分析,解决了三维空间结构,并因此获得 1962 年诺贝尔化学奖。
之后豪普特曼和卡尔勒建立起应用 X 射线分析的以直接法测定晶体结构的纯数学理论,凭借在晶体研究中划时代的意义,获得1985年的诺贝尔化学奖。
下一程技术创新足足等到了2017 年,亨德森、雅克和约阿希姆三位科学家发明了冷冻电镜技术,并被授予诺贝尔化学奖。
![](https://simg.baai.ac.cn/hub-detail/54529be942e2c45518523a0f0903f22a1714315238686.webp)
在这长达半个多世纪的时间里,传统方法之下的蛋白质合成领域进展非常缓慢,仅解析出约15万个蛋白质,只覆盖了人类蛋白质序列中17%的氨基酸残基。
并且传统方法下的科研人员需要使用实验仪器亲自测量蛋白质的三维结构,耗费了大量的时间和成本,甚至还不一定准确。
![](https://simg.baai.ac.cn/hub-detail/7729d359994597036f7748377676b7171714315238686.webp)
后AlphaFold2时代 颠覆了什么?
课题没有变,那么以AlphaFold2为代表的人工智能方法,是如何通过计算技术把蛋白质的三维结构给算出来的?
2016年,被誉为“AI预测蛋白质结构第一人”的许锦波博士在CASP12(“蛋白质结构预测奥运会”)首次展示了第一代人工智能方法RaptorX。
![](https://simg.baai.ac.cn/hub-detail/7a7f146a408256570357886ff5fafced1714315238686.webp)
成功将残差网络应用于蛋白质残基接触图的预测中,人类对蛋白质结构的预测精度被大幅提升。
后来领导DeepMind团队,设计了AlphaFold人工智能系统的John Jumper博士当时就坐在台下,这位芝加哥大学生物物理系的博士后,在听完许锦波的报告后,全力转向深度学习方法,并在两个月后加入Deepmind。
而2018年,Deepmind带着AlphaFold首次参赛CASP13,并在 98 名参赛者中名列榜首,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。
“这是人工智能对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一”生物物理学家、西湖大学校长施一公对AlphaFold给予了高度评价。
蛋白质预测真正火出圈在2020年,Deepmind升级了AlphaFold2,并在CASP14(“蛋白质结构预测奥运会”)中遥遥领先。
![](https://simg.baai.ac.cn/hub-detail/ec3fbcf5257e6500df52e50b549241261714315238687.webp)
AlphaFold2团队颠覆性地提出使用注意力机制对目标蛋白进行预测,对人类蛋白质组58%的氨基酸的结构位置实现了可信预测。
这一成功让物理的trRosetta结构预测模型时代成为历史。
AlphaFold2能直接由AI幻觉(AI Hallucinations)产生骨架和相应的序列,随后使用蛋白质设计工具(如ProteinMPNN),就能很快地重新设计产生幻觉的骨干序列。
目前AlphaFold2已经预测出了约20000种人类基因组蛋白质,覆盖几乎整个人类蛋白质组(98.5%的人类蛋白)。
一石激起千层浪,后AlphaFold2时代浪潮席卷而来,蛋白质结构领域多样化的AI探索如泉水般涌现。
同年Bruno E. Correia团队基于并行约束逻辑,编程出蛋白质拓扑预测模型TopoBuilder,能够从二级结构分配和拓扑折叠规则中预测蛋白质的α/β-片层和β-片层拓扑
另一方面在商业市场,全球第一批AI+蛋白质企业登上历史舞台。
包括推出蛋白质预测和发现的大语言模型ESM-2的Meta AI公司、推出蛋白质预测机器学习模型UniRep的Nabla Bio 公司等。
![](https://simg.baai.ac.cn/hub-detail/21b9dc661e868b188a3347a64478c4991714315238687.webp)
AI帮助人类破译了“蛋白质密码”,解答困扰生物学界的世纪难题被解开,下一步,人类想以自己的智慧设计出大自然中不曾存在,具有特殊功能的蛋白质。
并期待它具有诊断、治疗、乃至治愈疾病的潜力。
![](https://simg.baai.ac.cn/hub-detail/bf48c21c6b6c8c5a5923fb2b8fba08ab1714315238687.webp)
该序列与任何已知蛋白质序列的相似度非常低,但设计效率太低。
![](https://simg.baai.ac.cn/hub-detail/1fda099bfe0ea2519c7ad9d58a80b0e91714315238687.webp)
![](https://simg.baai.ac.cn/hub-detail/a371fa7a90f904511db5210043912dc71714315238687.webp)
图神经网络(Graph Neural Networks)的应用也极大提升了模型的设计精确度。
AI蛋白质领域明星企业Generate Biomedicines开源的生成式人工智能模型Chroma,就建立在扩散模型和图神经网络的框架上,能够从头生成高质量、多样化和创新的蛋白质结构。
在相关论文中研究团队使用Chroma生成了310个自然界中不存在的蛋白质,并通过实验验证了这些蛋白质可以表达、折叠,并具有良好的生物物理特性。
利用人工智能从头设计蛋白质模型的工具诞生,让工业界按需设计生物分子成为可能,为人类带来变革性疫苗和药物开发的新时代。
蛋白分子机器 回归合成生物
了解到AI+合成生物学的切入点“蛋白质工具”的历史变迁与技术前沿,我们将视野收归合成生物学。
近年来,以 AI 为核心的蛋白质设计已经从技术概念过渡到价值验证阶段。
在实际的生物学和工程学相结合的生物系统中,我们最主要的目标在于,能不能通过AI+蛋白质结构学工具,按需优化现有的蛋白质或者定制设计蛋白质。
比如对特定抗体进行优化,使得它能够跟抗原结合更好;或者说能不能设计一个自然界不存在的蛋白,用它来制药或用于其他目的;或者能不能把某一个生物酶优化得更好?
未来的合成生物学方向,必然走向对工程原理的模块化管理,需要能设计具有任意形状的复杂结构,从而实现即插即用,类似于工业流水线。
这意味着其中的必要元件——设计出的蛋白质,能根据需要调整其生化参数,响应内外刺激,并且能够与其他功能模块组合,形成复杂的“蛋白分子机器”。
无论是抗体药物研发还是合成生物学的酶工程方向,蛋白分子机器的构建是合成生物学从实验室走向工厂,实现规模化生产的必然要求,其中人工智能是必不可少的助推力。
毕竟,蛋白质是人类合成万物,重塑物质世界的基石。
相信不久的将来,我们就能见证人类创造出具有可调性、可控性和模块化的蛋白质,并勇敢驶向合成生物学的星辰大海。
![](https://simg.baai.ac.cn/hub-detail/d814bfcebf7c4264c664c11b5903d13f1714315238688.webp)
![](https://simg.baai.ac.cn/hub-detail/9193c409f1880d8ec18ae8443368e4081714315238688.webp)
![](https://simg.baai.ac.cn/hub-detail/80ad53e90796a435a56bf750bad9e46c1714315238688.webp)
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢