DRUGONE

mRNA 已成为重要的治疗性分子类别。近期,一项由人工智能(AI)驱动的框架被提出,可设计具有更高稳定性和更强翻译效率的 mRNA 序列。该方法被称为 “RNA 生成模型”(GEMORNA),有望帮助研究人员设计更有效的基于 mRNA 的治疗方案。

mRNA 疫苗在控制新冠疫情中取得了显著成功。除了疫苗外,mRNA 对癌症免疫治疗、蛋白替代疗法以及基因编辑等领域也具有巨大潜力。要使基于 mRNA 的治疗发挥疗效,必须实现强劲且持久的蛋白表达。mRNA 的序列,包括编码序列(CDS)和非翻译区(UTR),是改善蛋白产量的重要调控元件。然而,由于遗传密码子冗余及 mRNA 本身的长度潜力,可能的序列组合数量呈天文数量级。例如,编码 SARS-CoV-2 刺突蛋白的候选 mRNA 序列数量巨大,且不同特征之间存在复杂的相互依赖性,使优化任务更具挑战性。


此前的策略尝试通过调整核苷酸使用、密码子使用或 CDS 来提高 mRNA 翻译效率,但这些方法往往只对局部序列进行优化,难以覆盖长基因序列。一种名为 LinearDesign 的 AI 算法可通过优化密码子使用和稳定性快速设计 mRNA,但其仅优化未经修饰的 CDS 区域,并未整合 UTR,而 UTR 在 mRNA 稳定性和翻译效率中具有重要调控作用。因此,迫切需要一种能够系统性地整合 CDS 和 UTR 的方法,以生成更优的 mRNA 序列。


为解决这一问题,研究人员构建了一个由生成式 AI 驱动的框架——GEMORNA,用于直接生成线性和环状 mRNA(circRNA)序列。GEMORNA 能够同时处理 CDS 和 UTR 的多维特征,直接输出优化后的 mRNA 序列。

研究人员首先构建用于生成 CDS 的模型。在简要流程中,模型通过编码器读取蛋白信息作为“源语言”,再由解码器“翻译”为 mRNA CDS 序列。在训练过程中,自然 CDS 序列被拆分并输入解码器,解码器输出密码子概率分布。模型比较输入与输出的差异,并利用这一反馈不断优化。在推理阶段,模型可使用解码策略自主生成序列。值得注意的是,尽管模型基于天然序列训练,GEMORNA 能生成超越天然模式的优化 CDS。多个 CDS 特征(如密码子使用、GC 含量、稀有密码子比例、二级结构)均可在模型中被纳入并优化。GEMORNA 设计的 CDS 在这些维度上均超越天然序列及其他算法优化结果,并且在综合评估中更偏向哺乳动物常用密码子。


在细胞实验中,GEMORNA 为萤火虫荧光素酶(Fluc2P)生成的 CDS 显著提升了蛋白活性,其表达量比其他算法设计的 CDS 高 20 倍,比商业载体的 CDS 高 4.8 倍。


在 CDS 之外,研究人员开发了 GEMORNA-UTR 模型,利用堆叠的 Transformer 解码器进行 UTR 的从头生成。与 CDS 的编码器–解码器结构不同,UTR 模型采用仅包含解码器的结构,使其能在无源序列的条件下从头生成 5′ 和 3′ UTR。该模型先在天然 UTR 上进行预训练,以学习隐含的序列规则,随后再用高翻译效率的 UTR 进行微调。最终生成的新 UTR 对可使 Fluc 活性较某已批准疫苗的 UTR 提升最高达 7 倍。


在构建出成熟模型后,研究人员进一步应用 GEMORNA 设计用于功能蛋白表达的线性与环状 RNA。在设计 COVID-19 mRNA 疫苗时,研究人员采用两步法:先优化 CDS,再与 UTR 组合。优化后的 CDS 与 UTR 组合在多个时间点诱导的抗体滴度约为其他算法设计的 mRNA 或某已上市疫苗的两倍。GEMORNA 也可在一步中同时生成 CDS 与 UTR。


研究人员还利用 GEMORNA 开发 circRNA。在人体促红素(EPO)实验中,三个 GEMORNA 设计的 circRNA 在体内均表现出显著高的 EPO 表达,其中最优的 circRNA 在 24 小时时表达水平为此前优化 circRNA 的 121 倍。


最后,研究人员将 GEMORNA 应用于构建靶向 CD19 的 CAR-T 细胞疗法。在人初级 T 细胞中,GEMORNA 设计的 circRNA 的基因表达量分别较密码子优化的 circRNA 和某专利 circRNA 提高 28 倍和 5.6 倍。此外,GEMORNA circRNA 处理的 T 细胞在 120 小时后仍有 50% 为 CD19 CAR 阳性,而对照组则不足 72 小时。功能评价显示,这些 circRNA 可使 CAR-T 细胞几乎完全清除 NALM-6 白血病细胞。


这一基于深度学习的 GEMORNA 模型展示了在生成具有高翻译效率与稳定性的 mRNA 分子方面的重要突破,使 mRNA 疫苗与治疗性 RNA 的多维优化成为可能。然而,与其他 AI 模型类似,GEMORNA 需要大量高质量训练数据才能获得优异表现,其生成过程也如“黑箱”,并未揭示具体机制。在未来,随着机制研究工具的发展(如转录组学、蛋白质组学),研究人员可能逐步解析这些生成式模型背后的翻译调控路径。同时,规模更大、来源更广且高可靠的数据集将对进一步提升 AI 训练质量至关重要。


此外,AI 还能推动构建新型平台,在疾病组织或细胞中实现具有选择性的 mRNA 表达。同时,除了优化 mRNA 本身外,针对特定细胞类型、器官或疾病设计高效且选择性的递送系统(如脂质纳米颗粒)也将成为降低副作用、提高疗效的重要方向。


总体而言,这项工作展示了 AI 在加速 mRNA 治疗性分子开发中的巨大潜力,并将惠及广泛的生物医学应用。

整理 | DrugOne团队


参考资料


  • Liu, Z., Dong, Y. AI-powered design accelerates the development of mRNA therapeutics. Nat Chem Biol (2025). 

    https://doi.org/10.1038/s41589-025-02074-0

  • He Zhang et al. ,Deep generative models design mRNA sequences with enhanced translational capacity and stability.Science390,eadr8470(2025).

    DOI:10.1126/science.adr8470

内容为【DrugOne】公众号原创转载请注明来源

内容中包含的图片若涉及版权问题,请及时与我们联系删除