DRUGONE
细胞游离 RNA(cfRNA)在无创疾病检测中具有潜力,但受限于数据稀疏、样本复杂性和样本量不足。研究人员提出 Exai-1——一种融合 RNA 序列嵌入与 cfRNA 表达的多模态 Transformer 基础模型,可学习循环 RNA 的生物学结构。Exai-1 预训练于来自 8,339 个样本的 3060 亿 tokens,通过整合序列与表达信息,提高信号质量、降低技术噪声,并可生成高保真 cfRNA 合成谱,用于增强疾病检测。自注意力与变分推断机制能够保持生物学上下文关系,并支持跨生物流体(血清/血浆)迁移与检验兼容性。通过结合序列驱动嵌入与 cfRNA 表达模式,Exai-1 为下一代液体活检提供可扩展的迁移学习基础。

液体活检技术近年来快速发展,可通过检测循环 DNA、循环肿瘤细胞和 cfRNA 来实现更早、更精准的肿瘤识别。研究人员此前发现一类新型小 RNA(oncRNA),在癌细胞中高度表达并被主动分泌到血液循环中,可用于早期诊断与治疗监测。然而,在小体积血样中检测这些稀有分子十分困难。
cfRNA 的序列特征、结构特性和组织特异性表达使其呈现互相关联的模式,而非孤立存在。这种复杂模式非常适合人工智能模型进行概率式建模。随着自动化 cfRNA 测序体系的发展,研究人员得以构建一个大型训练集,使得构建基于 Transformer 的多模态基础模型成为可能。
方法
研究人员构建了 Exai-1:
使用 7,349 个高变异度的 cfRNA 特征(含 miRNA、tRNA、snoRNA、yRNA 与代表性 oncRNA)。
引入来自 RNA-FM 的序列嵌入,以 32 维主成分初始化特征空间。
模型结构包括:序列 × 表达的联合嵌入、自注意力变分编码器、用于重建的解码器,以及用于癌症检测、组织来源、采样类型等的任务 token。
训练策略结合遮盖重建、变分学习、三元组对比学习与多任务目标,以在降低噪声同时保留关键生物信号。

图1 | Exai-1 的特征选择、数据构成与模型架构
结果
Exai-1 能高保真重建与去噪 cfRNA 数据
研究人员在遮盖测试中验证 Exai-1 的重建能力:
基线方法仅达到 R²≈0.57;
Exai-1 可达 R²≈0.89,显著提升重建准确性;
在加入模拟噪声后,Exai-1 的重建仍高度稳定,而传统图论去噪工具在高噪声下性能下降。
说明该模型能够在噪声较大的液体活检环境中稳定恢复生物学结构。

图2 | cfRNA 重建与去噪性能
Exai-1 可生成合成 cfRNA 以增强癌症检测
研究人员利用 Exai-1 重建与生成的 cfRNA 合成谱扩增小样本训练集:
在样本数仅 50–400 的情况下,加入 Exai-1 合成数据可显著提升分类性能;
在 Exai-1 潜在空间中增广训练集,性能进一步提升;
在稀有癌症(如卵巢癌,仅 48 个样本)中,AUC 提高约 0.1,合成数据继续带来额外增益。

图3 | 合成 cfRNA 增强癌症检测性能
Exai-1 的特征与样本嵌入捕捉关键生物与技术因素
研究人员发现:
不同 cfRNA 表达簇在 Exai-1 的嵌入维度中呈显著富集,表明模型学习到共表达结构;
许多对癌症预测贡献较高的 cfRNA(如 oncRNA)与细胞周期、凋亡、迁移等通路相关;
UMAP 可视化显示模型嵌入区分癌症 vs 对照,同时还能识别不同检测批次与生物流体类型。
同时,Exai-1 在解决批次效应方面优于 PCA、Harmony、Scanorama、scVI、scANVI 等方法,实现更好的生物学保真度与技术噪声去除。

图4 | 嵌入空间中的生物与技术因素表征
Exai-1 实现血清与血浆之间的泛化能力
传统模型在血浆上训练后难以泛化到血清(AUC 从 0.74 → 0.56)。
而使用 Exai-1 学到的潜在空间:
在血浆与血清上均维持稳定性能(AUC≈0.74);
显著减少因生物流体差异导致的分布偏移。
这为液体活检的跨平台与跨样本兼容奠定基础。

图5 | 血浆→血清跨来源泛化能力
讨论
Exai-1 是一个专为 cfRNA 构建的多模态生成式基础模型,可在大规模 cfRNA 数据(>13,000 样本)上学习序列结构、表达关系、技术变异与生物学信号。其创新包括:
序列 × 表达的多模态嵌入;
自注意力 + 变分架构;
可学习上下文信息的任务 token;
支持去噪、重建、合成数据生成;
具有强泛化能力的潜在空间。
与以往任务特定模型相比,Exai-1 的基础模型属性使其更适用于稀有癌症、跨样本来源、跨实验流程等复杂情境。未来研究可进一步扩大训练数据、引入更多模态、多任务适配等,以推动 Exai-1 成为液体活检领域的通用基础模型平台。
整理 | DrugOne团队
参考资料
Karimzadeh, M., Sababi, A.M., Momen-Roknabadi, A. et al. A multimodal cell-free RNA language model for liquid biopsy applications. Nat Mach Intell (2025).
https://doi.org/10.1038/s42256-025-01148-x

内容为【DrugOne】公众号原创|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢