- 简介大规模序列建模已经引发了快速的进展,现在已经扩展到了生物学和基因组学领域。然而,建模基因组序列也带来了挑战,如需要建模长程标记之间的相互作用、基因组上下游区域的影响以及DNA的反向互补性(RC)。在这里,我们提出了一种受这些挑战启发的架构,它基于长程Mamba块,并将其扩展为支持双向性的BiMamba组件和支持RC等变性的MambaDNA块。我们使用MambaDNA作为Caduceus的基础,这是第一个RC等变性双向长程DNA语言模型系列,我们引入了预训练和微调策略,产生了Caduceus DNA基础模型。Caduceus在下游基准测试中优于以前的长程模型;在一个具有挑战性的长程变异效应预测任务中,Caduceus的性能超过了不利用双向性或等变性的10倍大的模型。
- 图表
- 解决问题本文旨在解决建模基因组序列时面临的挑战,如需要建模长程令牌交互、基因组上下游区域的影响以及DNA的反向互补性等问题。同时,本文也旨在验证将这些挑战作为动机的架构是否能够提高模型性能。
- 关键思路本文提出了一种基于长程Mamba块的架构,将其扩展为支持双向性的BiMamba组件和支持反向互补性的MambaDNA块。作者使用MambaDNA作为Caduceus的基础,这是第一个支持反向互补性、双向长程DNA语言模型的系列。作者还介绍了预训练和微调策略,以产生Caduceus DNA基础模型。
- 其它亮点本文提出的Caduceus模型在下游基准测试中优于先前的长程模型;在具有挑战性的长程变异影响预测任务中,Caduceus超过了不利用双向性或等变性的10倍更大的模型的性能。实验使用的数据集和开源代码也值得关注。
- 最近在这个领域中,还有一些相关的研究。例如,《Long-range genomic interactions at the enhancer-promoter interface》、《Deep learning for regulatory genomics》等。
沙发等你来抢
去评论
评论
沙发等你来抢