Nat. Chem. Biol. | AI 赋能的设计策略加速 mRNA 疗法研发

DRUGONE

mRNA 已成为重要的治疗性分子类别。近期，一项由人工智能（AI）驱动的框架被提出，可设计具有更高稳定性和更强翻译效率的 mRNA 序列。该方法被称为 “RNA 生成模型”（GEMORNA），有望帮助研究人员设计更有效的基于 mRNA 的治疗方案。

mRNA 疫苗在控制新冠疫情中取得了显著成功。除了疫苗外，mRNA 对癌症免疫治疗、蛋白替代疗法以及基因编辑等领域也具有巨大潜力。要使基于 mRNA 的治疗发挥疗效，必须实现强劲且持久的蛋白表达。mRNA 的序列，包括编码序列（CDS）和非翻译区（UTR），是改善蛋白产量的重要调控元件。然而，由于遗传密码子冗余及 mRNA 本身的长度潜力，可能的序列组合数量呈天文数量级。例如，编码 SARS-CoV-2 刺突蛋白的候选 mRNA 序列数量巨大，且不同特征之间存在复杂的相互依赖性，使优化任务更具挑战性。

此前的策略尝试通过调整核苷酸使用、密码子使用或 CDS 来提高 mRNA 翻译效率，但这些方法往往只对局部序列进行优化，难以覆盖长基因序列。一种名为 LinearDesign 的 AI 算法可通过优化密码子使用和稳定性快速设计 mRNA，但其仅优化未经修饰的 CDS 区域，并未整合 UTR，而 UTR 在 mRNA 稳定性和翻译效率中具有重要调控作用。因此，迫切需要一种能够系统性地整合 CDS 和 UTR 的方法，以生成更优的 mRNA 序列。

为解决这一问题，研究人员构建了一个由生成式 AI 驱动的框架——GEMORNA，用于直接生成线性和环状 mRNA（circRNA）序列。GEMORNA 能够同时处理 CDS 和 UTR 的多维特征，直接输出优化后的 mRNA 序列。

研究人员首先构建用于生成 CDS 的模型。在简要流程中，模型通过编码器读取蛋白信息作为“源语言”，再由解码器“翻译”为 mRNA CDS 序列。在训练过程中，自然 CDS 序列被拆分并输入解码器，解码器输出密码子概率分布。模型比较输入与输出的差异，并利用这一反馈不断优化。在推理阶段，模型可使用解码策略自主生成序列。值得注意的是，尽管模型基于天然序列训练，GEMORNA 能生成超越天然模式的优化 CDS。多个 CDS 特征（如密码子使用、GC 含量、稀有密码子比例、二级结构）均可在模型中被纳入并优化。GEMORNA 设计的 CDS 在这些维度上均超越天然序列及其他算法优化结果，并且在综合评估中更偏向哺乳动物常用密码子。

在细胞实验中，GEMORNA 为萤火虫荧光素酶（Fluc2P）生成的 CDS 显著提升了蛋白活性，其表达量比其他算法设计的 CDS 高 20 倍，比商业载体的 CDS 高 4.8 倍。

在 CDS 之外，研究人员开发了 GEMORNA-UTR 模型，利用堆叠的 Transformer 解码器进行 UTR 的从头生成。与 CDS 的编码器–解码器结构不同，UTR 模型采用仅包含解码器的结构，使其能在无源序列的条件下从头生成 5′ 和 3′ UTR。该模型先在天然 UTR 上进行预训练，以学习隐含的序列规则，随后再用高翻译效率的 UTR 进行微调。最终生成的新 UTR 对可使 Fluc 活性较某已批准疫苗的 UTR 提升最高达 7 倍。

在构建出成熟模型后，研究人员进一步应用 GEMORNA 设计用于功能蛋白表达的线性与环状 RNA。在设计 COVID-19 mRNA 疫苗时，研究人员采用两步法：先优化 CDS，再与 UTR 组合。优化后的 CDS 与 UTR 组合在多个时间点诱导的抗体滴度约为其他算法设计的 mRNA 或某已上市疫苗的两倍。GEMORNA 也可在一步中同时生成 CDS 与 UTR。

研究人员还利用 GEMORNA 开发 circRNA。在人体促红素（EPO）实验中，三个 GEMORNA 设计的 circRNA 在体内均表现出显著高的 EPO 表达，其中最优的 circRNA 在 24 小时时表达水平为此前优化 circRNA 的 121 倍。

最后，研究人员将 GEMORNA 应用于构建靶向 CD19 的 CAR-T 细胞疗法。在人初级 T 细胞中，GEMORNA 设计的 circRNA 的基因表达量分别较密码子优化的 circRNA 和某专利 circRNA 提高 28 倍和 5.6 倍。此外，GEMORNA circRNA 处理的 T 细胞在 120 小时后仍有 50% 为 CD19 CAR 阳性，而对照组则不足 72 小时。功能评价显示，这些 circRNA 可使 CAR-T 细胞几乎完全清除 NALM-6 白血病细胞。

这一基于深度学习的 GEMORNA 模型展示了在生成具有高翻译效率与稳定性的 mRNA 分子方面的重要突破，使 mRNA 疫苗与治疗性 RNA 的多维优化成为可能。然而，与其他 AI 模型类似，GEMORNA 需要大量高质量训练数据才能获得优异表现，其生成过程也如“黑箱”，并未揭示具体机制。在未来，随着机制研究工具的发展（如转录组学、蛋白质组学），研究人员可能逐步解析这些生成式模型背后的翻译调控路径。同时，规模更大、来源更广且高可靠的数据集将对进一步提升 AI 训练质量至关重要。

此外，AI 还能推动构建新型平台，在疾病组织或细胞中实现具有选择性的 mRNA 表达。同时，除了优化 mRNA 本身外，针对特定细胞类型、器官或疾病设计高效且选择性的递送系统（如脂质纳米颗粒）也将成为降低副作用、提高疗效的重要方向。

总体而言，这项工作展示了 AI 在加速 mRNA 治疗性分子开发中的巨大潜力，并将惠及广泛的生物医学应用。

整理 | DrugOne团队

参考资料

Liu, Z., Dong, Y. AI-powered design accelerates the development of mRNA therapeutics. Nat Chem Biol (2025).
https://doi.org/10.1038/s41589-025-02074-0
He Zhang et al. ,Deep generative models design mRNA sequences with enhanced translational capacity and stability.Science390,eadr8470(2025).
DOI:10.1126/science.adr8470

内容为【DrugOne】公众号原创｜转载请注明来源

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Nat. Chem. Biol. | AI 赋能的设计策略加速 mRNA 疗法研发

评论列表

评论