Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

2024年03月05日
  • 简介
    大规模序列建模已经引发了快速的进展,现在已经扩展到了生物学和基因组学领域。然而,建模基因组序列也带来了挑战,如需要建模长程标记之间的相互作用、基因组上下游区域的影响以及DNA的反向互补性(RC)。在这里,我们提出了一种受这些挑战启发的架构,它基于长程Mamba块,并将其扩展为支持双向性的BiMamba组件和支持RC等变性的MambaDNA块。我们使用MambaDNA作为Caduceus的基础,这是第一个RC等变性双向长程DNA语言模型系列,我们引入了预训练和微调策略,产生了Caduceus DNA基础模型。Caduceus在下游基准测试中优于以前的长程模型;在一个具有挑战性的长程变异效应预测任务中,Caduceus的性能超过了不利用双向性或等变性的10倍大的模型。
  • 图表
  • 解决问题
    本文旨在解决建模基因组序列时面临的挑战,如需要建模长程令牌交互、基因组上下游区域的影响以及DNA的反向互补性等问题。同时,本文也旨在验证将这些挑战作为动机的架构是否能够提高模型性能。
  • 关键思路
    本文提出了一种基于长程Mamba块的架构,将其扩展为支持双向性的BiMamba组件和支持反向互补性的MambaDNA块。作者使用MambaDNA作为Caduceus的基础,这是第一个支持反向互补性、双向长程DNA语言模型的系列。作者还介绍了预训练和微调策略,以产生Caduceus DNA基础模型。
  • 其它亮点
    本文提出的Caduceus模型在下游基准测试中优于先前的长程模型;在具有挑战性的长程变异影响预测任务中,Caduceus超过了不利用双向性或等变性的10倍更大的模型的性能。实验使用的数据集和开源代码也值得关注。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,《Long-range genomic interactions at the enhancer-promoter interface》、《Deep learning for regulatory genomics》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论