DRUGAI
今天为大家介绍的是来自上海科技大学的刘一凡教授、李健教授与凌盛杰教授团队发表的一篇论文。无细胞基因表达(CFE)系统通过使用粗制细胞提取物实现转录和翻译,无需维持活细胞,为合成生物学提供了一个多功能平台。但由于需要大量额外组分来维持生物催化效率,这类系统受到组分繁琐、成本高和产量有限的制约。本研究提出了DropAI,这是一种基于液滴的、由AI驱动的筛选策略,旨在高通量且经济高效地优化CFE系统。DropAI利用微流控技术生成微微升反应器,并使用荧光编码系统来处理和筛选大量化学组合。液滴内筛选与计算机优化相结合,实验结果用于训练机器学习模型,以评估各组分的贡献并预测高产量组合。通过应用DropAI,研究团队显著简化了大肠杆菌CFE系统的组成,使超折叠绿色荧光蛋白(sfGFP)的单位成本降低了4倍。这个优化配方在12种不同蛋白质上得到进一步验证。值得注意的是,通过迁移学习,该大肠杆菌模型成功应用于枯草芽孢杆菌系统,预测产量提高了一倍。除CFE外,DropAI为生化系统的组合筛选和优化提供了一个高通量且可扩展的解决方案。

无细胞基因表达(CFE)系统是一项重要的生物技术,但其优化过程一直面临着配方复杂、成本高昂等挑战。传统优化方法需要筛选数千种组合,仅考虑5种能量来源分子和10种转录-翻译因子就需要评估5120种组合,这在实验室操作中几乎无法实现。针对这一难题,研究人员开发了DropAI系统,这是一种结合人工智能的高通量筛选技术。如图1所示,该系统包含三个创新性设计:

图 1
图1a展示了系统的核心工作原理:利用微流控技术将一个主液滴与四个辅助液滴精确合并。每个辅助液滴都携带特定的荧光标记,通过荧光强度编码系统(FluoreCode)可以追踪和识别不同的组分组合。这种设计使系统每小时能产生约100万个实验组合,而仅消耗12.5微升试剂就能完成50,000个液滴的筛选。图1b说明了人工智能优化流程,系统将液滴实验数据输入机器学习模型,分析各组分对产量的影响。图1c展示了预测验证环节,模型预测的最优组合通过实验验证。
研究团队首先在大肠杆菌CFE系统上应用DropAI,筛选了12种添加剂的组合,最终优化后的配方使超折叠绿色荧光蛋白的单位成本降低2.1倍,产量提高1.9倍。该配方在12种不同蛋白质的表达中取得良好效果。通过迁移学习,该模型还成功应用于枯草芽孢杆菌CFE系统的优化。
DropAI精密的微流控技术与其创新的荧光编码方案

图 2
如图2所示,系统通过微流控装置实现高效的液滴组装:每秒可以生成300个组合单元,每个单元由一个较大的主液滴(直径约人类头发丝的七分之一)和三个较小的辅助液滴(直径约主液滴一半)精确组合而成。这些液滴通过特殊设计的微型齿状结构实现精确合并,操作成功率高达90%。每个液滴都带有独特的荧光标记,通过不同的荧光颜色和强度组合,系统能够追踪和识别超过6,500种不同的组分组合,准确率达到99.5%。

图 3
图3展示了系统的可靠性验证过程。研究人员首先确认了在这些微型反应器中可以成功表达荧光蛋白。不过,初期实验中发现液滴容易破裂。通过添加两种特殊的聚合物(P-188和PEG-6000),成功解决了稳定性问题。为了验证系统的精确性,研究人员测试了不同浓度镁离子对蛋白表达的影响。结果显示,当镁离子浓度为12mM时,蛋白表达量达到最高,这一结果与传统试管实验完全一致,证实了DropAI系统的可靠性。这些验证实验证明,DropAI不仅能大规模并行处理成千上万个实验组合,而且保证了实验结果的准确性和可重复性,为CFE系统的优化提供了高效可靠的技术平台。
基于大肠杆菌的CFE的组合筛选
研究团队选择在广泛使用的大肠杆菌CFE系统上验证DropAI的优化能力。他们的目标是通过识别关键成分来简化系统配方,同时提高蛋白质表达产量。如图3d-f所示,优化过程分为两个阶段。第一阶段筛选了12种常用成分,这些成分可分为两类:7种用于维持转录和翻译的添加剂,以及5种为系统提供能量的物质。研究人员使用三种不同的荧光标记来追踪这些成分的组合,并通过测量绿色荧光蛋白的表达量来评估每种组合的效果。
如图3g-i所示,系统总共收集了超过3万个微型反应器的数据,这些数据被输入一个特别设计的人工智能模型进行分析。模型的预测准确率达到94%,这说明它能可靠地预测不同成分组合的效果。分析结果揭示了两个重要发现:首先,在所有添加剂中,精胺和叶酸是最关键的,仅这两种物质就能提高蛋白质产量10%以上;其次,在能量供应物中,经过磷酸化修饰的物质(如磷酸烯醇式丙酮酸PEP等)比未经修饰的物质(如葡萄糖)效果更好,这与生物体内的能量代谢规律相符。这些发现帮助研究人员将原本复杂的配方简化为仅包含几种关键成分的精简版本,不仅降低了成本,还保持了良好的蛋白质表达效率。这一优化策略为提高CFE系统的实用性提供了重要参考。
对于简单CFE配方的浓度优化

图 4
在确定了关键成分后,研究团队开展了第二阶段的精确优化工作,主要针对三种关键成分(PEP、精胺和叶酸)的最佳浓度进行筛选。如图4所示,研究人员设计了125种不同的浓度组合,并通过荧光标记系统追踪每种组合。系统总共收集了近5万个微型反应器的数据。考虑到这一阶段需要处理连续的浓度数据,团队选用了更适合处理这类问题的XGBoost机器学习模型。该模型在测试数据上的预测准确率高达99%。优化后的最佳配方不仅将蛋白质产量提高了近一倍(从0.71提升到1.38毫克/毫升),更重要的是将生产成本降低了一半多。这意味着生产每毫克蛋白质的成本从2.63美元降到了0.72美元,极大地提高了生产效率。
为了验证这一配方的通用性,研究人员测试了12种不同大小的蛋白质,从较小的27千道尔顿到较大的370千道尔顿都有涉及。结果显示,大多数蛋白质的表达水平都得到了维持或提高,其中TxtE蛋白的表达量甚至提高了4.5倍。虽然个别蛋白质的表达量略有下降,但通过与荧光蛋白融合的方式可以改善其表达。这些结果表明,DropAI系统不仅能够快速优化CFE配方,还能显著降低成本,为蛋白质的规模化生产提供了更经济高效的解决方案。这对于生物制药、化学品生产等领域具有重要的实际应用价值。
通过迁移学习优化基于枯草芽孢杆菌的CFE
研究团队进一步探索了如何将优化经验快速迁移到新的细胞系统中。他们选择了枯草芽孢杆菌作为测试对象,这种细菌在工业蛋白质生产中应用广泛。研究采用了“迁移学习”的方法,这就像是把在一个领域积累的经验智慧转移到新领域一样。具体来说,就是将之前在大肠杆菌系统中训练好的模型作为基础,仅通过少量新实验数据就能适应新的细胞系统。

图 5
如图5所示,这种方法展现出显著优势:传统方法需要至少75组实验数据才能建立可靠的预测模型,而使用迁移学习只需要27-36组数据就能达到同样的效果,大大减少了实验工作量。在36组实验数据的情况下,模型预测准确率就达到了99%。基于这个模型,研究人员预测并验证了最优配方:使用5mM精胺、100μM叶酸和35mM PEP的组合,使蛋白质产量提高了一倍。更重要的是,这个配方在生产抗菌肽等其他蛋白质时也表现出色。这项研究证明,通过迁移学习,可以快速将一个系统的优化经验应用到其他系统中,大大提高研发效率。这种方法不仅适用于基因表达系统,还可能帮助优化其他生物化学过程,为生物制造领域提供更高效的研发途径。
讨论
研究团队开发的DropAI系统成功优化了无细胞基因表达(CFE)系统,通过去除5种非必需添加剂,在保持或提高蛋白质表达水平的同时显著降低了成本。该系统采用微流控技术,仅消耗100微升试剂就能完成10万个独立筛选反应,整个操作时间约4小时。相比之下,传统高通量筛选平台需要消耗超过1升试剂,且操作时间长达数天。DropAI系统不仅能通过迁移学习将优化经验快速应用到其他细胞系统,还可扩展应用于药物筛选、化学工艺优化和催化剂发现等领域。虽然目前该系统仍存在需要荧光报告和染料标记等限制,但其独特的可扩展性和兼容性为合成生物学研究提供了强大的工具。
编译|于洲
审稿|王梓旭
参考资料
Zhu J, Meng Y, Gao W, et al. AI-driven high-throughput droplet screening of cell-free gene expression[J]. Nature Communications, 2025, 16(1): 2720.
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢