Nat. Mach. Intell. | 湖南大学计算机学院曾湘祥、隆平学院于峰、生物学院罗宵团队提出DNA基础大模型

如果把DNA简单看成一串由A、T、C、G组成的“文字”，模型确实可以读出不少调控信号。但DNA真正的形态并不是单行文本，而是两条方向相反、彼此互补、动态协同的双链结构。

这也带来一个关键问题：DNA基础模型能不能不只是“读序列”，而是进一步理解正向链和反向互补链之间的关系？

近日，湖南大学计算机学院曾湘祥教授团队、隆平农学院于峰教授、生物学院罗宵教授等合作团队在Nature Machine Intelligence期刊上提出DNA基础大模型CrossDNA。论文题为Explicit Dynamic Cross-Strand Interactions for DNA Sequence Language Modeling。这项工作围绕DNA双链之间的信息交互，提出了一种显式、动态的序列建模框架，试图让语言模型更贴近DNA分子本身的结构和功能逻辑。

图 1: CrossDNA整体工作流与双分支架构示意图。

从单链序列到双链动态交互

DNA序列语言建模旨在通过学习基因组序列表示，服务于功能元件注释、调控机制解析、非编码变异解释和长程基因组预测等任务。现有方法大多从单链序列建模出发，将DNA序列视为类似自然语言中的单向或双向文本序列，并通过反向互补数据增强、参数共享或等变结构等静态约束策略，使模型获得一定的反向互补一致性和通用序列表征能力。

然而，DNA在真实生物系统中并不是孤立的单链文本，而是由两条链共同构成的双螺旋结构。两条链之间不仅存在物理耦合，也在转录调控、功能元件识别和变异效应传递等过程中表现出潜在的功能协同与信息关联。

相比于DNA单链建模，双链建模更强调在序列学习过程中显式刻画正向链与反向互补链之间的上下文交互与动态信息传递。这对于提升模型对基因组结构与功能关系的理解能力具有重要意义。

CrossDNA关注的正是这一问题：让模型在表示学习阶段显式理解两条链之间的协同关系，而不是只在输入前或输出后补偿正反链差异。

Cross-view、TokenBridge与自蒸馏

CrossDNA采用双分支语言模型结构。两个分支结构相同，但参数不共享，分别处理同一基因组区域的正向链和反向互补链。训练时，Cross-view机制会把双链相邻片段交替送入两个分支，让每个分支都能在不同训练步中看到正向视图和反向互补视图。

图 2: Cross-view下的数据预训练过程。

可以把这个过程理解为：模型不再只盯着DNA的一面看，而是在训练中不断切换观察角度，学习两条链在同一基因组位置上的对应关系。

在每个分支内部，CrossDNA使用Comba-SWA结构建模局部模式和长程依赖。随后，模型把两条链的特征重新对齐到统一的正向坐标系，并通过轻量级 TokenBridge模块在碱基标记层面进行跨链信息交换。最后，门控融合模块把两条链的信息整合成下游任务可用的序列表征。

为避免交替输入造成表示不连续，CrossDNA还引入基于指数滑动平均教师模型的自蒸馏机制，对两个学生分支施加语义一致性约束。这样做的目的，是让模型在不同链方向之间保持更稳定的表示，而不是只记住某一个输入方向。

基准任务：调控元件分类表现

论文首先在基因组基准测试 (Genomic Benchmark) 的八项调控元件分类任务上评估CrossDNA。在参数规模匹配的设置下，408K参数版本的CrossDNA取得平均准确率 88.2%，并在小鼠增强子、编码区与基因间区识别、人类调控序列、人类开放染色质区域、人类非TATA启动子等5项任务中排名第一。

这一结果的意义在于：CrossDNA并不是靠单纯堆大参数取胜。在紧凑参数规模下，显式双链建模已经带来了可观察的性能收益。论文还报告，在同一组任务上，408K参数CrossDNA的平均准确率高于若干参数规模更大的DNA基础模型。

这提示一个值得关注的方向：对于DNA序列建模，模型是否理解生物结构先验，可能和模型有多大一样重要。

图 3: 不同DNA语言模型在小参数上的架构性能优势比较。

Nucleotide Transformer benchmark 评估

对DNA模型来说，方向一致性是一个基础但关键的问题。同一段DNA和它的反向互补序列，本质上指向同一个基因组位置。如果模型在两个方向上给出明显不同的判断，就可能影响全基因组扫描、调控元件识别和变异效应预测的可靠性。

论文在核苷酸转换器任务集中分别评估正向链和反向互补链。CrossDNA在36个相关下游任务评估中有33项达到第一或第二，并在增强子、启动子、剪接位点和组蛋白标记等任务上保持较好的方向一致性。

论文报告，CrossDNA在代表性任务上的正反链分数差异通常低于0.015，最大不超过0.042。这个结果支持论文的核心判断：显式跨链建模有助于降低序列方向带来的预测波动。

表 1: 不同DNA基础模型在Nucleotide Transformer benchmark上的性能比较。

预测、泛化性能对比和长距离任务测评

CrossDNA在人类K562细胞系，小鼠，果蝇的enhancer功能元件独立数据集上展现了具有竞争力的泛化性能优势（图4 b,c,d,e,g,h）。在任务比较困难的小鼠数据集上（图4 g,h）CrossDNA通过在小鼠基因组上的持续预训练后保持领先优势。此外，CrossDNA对于发现新的enhancer功能序列元件有很高的置信度预测得分 (图4 f)。

同时文中也检验了CrossDNA在长程任务上的性能，在eQTL任务中能达到领先或者持平先进方法的预测性能（图4 i），在预测增强子-靶基因交互作用中Cross-View机制提供了独特的双链视角上下文信息，使得在交叉验证过程中正样本预测得分大于单链视角下的正样本得分。

这一系列的下游实验说明CrossDNA在泛化性能、功能元件候选以及长距离的预测任务都展现出具有竞争力的优势。

图 4: CrossDNA在泛化任务、预测任务、长程任务上的表现。

表征质量：zero-shot embedding评估

除了监督微调，论文还评估了CrossDNA作为通用序列表征模型的能力。研究者在42个真实世界序列分类任务上提取零样本嵌入表示，再使用随机森林分类器进行评估。

结果显示，CrossDNA相对于JanusDNA、DNABERT-2、Grover、NTv2、Caduceus-PH和HyenaDNA等模型均取得正向差异。相对于JanusDNA，CrossDNA的提升幅度较小但较稳定；相对于HyenaDNA和Caduceus-PH，提升更明显。

这表明CrossDNA与其他先进的DNA基础模型相对比在序列级别的特征嵌入上的表现出较高的特征质量。这表明CrossDNA能够进行可靠的功能元件分类分析。

图 5: zero-shot embedding性能比较。

生物解释：motif、非编码变异与候选增强子

一个好的DNA基础模型，不能只给出分数，还需要帮助研究者理解哪些序列片段在起作用。论文因此进一步从生物解释角度分析CrossDNA。

通过计算机模拟突变分析，模型识别出的高贡献区域能够对应到已知转录因子结合基序，例如DREAM合成增强子中的NKX2-8和FOSL1信号(图6 a)。这说明CrossDNA的预测并非完全依赖表面序列偏差，而是能够捕捉到与调控功能相关的序列模式。

在疾病相关变异分析中，论文重点讨论冠心病相关变异rs113716316。CrossDNA将其优先定位到潜在心脏增强子，并关联到 FGR基因调控（图6 c,d,e,f）。模型结果提示，该变异可能涉及RUNX相关抑制信号减弱与AP-1相关活化信号增强，为非编码变异影响疾病风险提供了一个候选调控解释。

此外，研究团队使用CrossDNA扫描K562细胞未注释区域，识别出 748个高置信候选增强子。这些候选区域富集SMAD3、TAL1/SCL、ERG等造血调控相关基序，并在从头基序发现分析中恢复出MYB家族和E2F家族等已知调控模式（图6 g,h）。

图 6: CrossDNA可解释性分析。

局限与展望

论文也明确指出，CrossDNA仍有进一步改进空间。其早期预训练主要基于人类参考基因组，对个体水平基因表达差异的预测仍然有限。未来如果能够引入群体遗传变异、多物种基因组和更丰富的调控背景，可能进一步提升模型对复杂遗传调控现象的刻画能力。

总体来看，CrossDNA的意义不只在于性能提升，更在于提出了一种更贴近DNA分子结构的建模思路：将DNA基础模型从单链序列建模推进到显式、动态的双链交互建模。它没有简单地把 DNA 模型做得更大，而是把一个生物学事实放回模型中心：DNA 的信息来自双链结构，也来自两条链之间的对应、互补与约束。

从这个意义上说，CrossDNA 不只是一个新模型，更像是一个方向信号：下一代基因组基础模型，可能不只靠规模取胜，而要更认真地把生命分子的结构规律写进语言模型里。

参考资料

Yang, C., Liu, Y., Ling, L. et al. Explicit Dynamic Cross-Strand Interactions for DNA Sequence Language Modeling. Nat Mach Intell (2026).

https://www.nature.com/articles/s42256-026-01249-1

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Nat. Mach. Intell. | 湖南大学计算机学院曾湘祥、隆平学院于峰、生物学院罗宵团队提出DNA基础大模型

评论列表

评论