Gated Delta Networks: Improving Mamba2 with Delta Rule

2024年12月09日
  • 简介
    线性变压器作为标准变压器的有效替代品,已经引起了人们的关注,但在检索和长上下文任务中的表现一直有限。为了解决这些局限性,近期的研究探索了两种不同的机制:用于自适应内存控制的门控机制和用于精确内存修改的增量更新规则。我们观察到这两种机制是互补的:门控机制能够快速擦除内存,而增量规则则有助于实现目标更新。基于这一见解,我们引入了门控增量规则,并开发了一种适用于现代硬件的并行训练算法。我们提出的架构——门控增量网络(Gated DeltaNet)在多个基准测试中,包括语言建模、常识推理、上下文检索、长度外推和长上下文理解,始终超越现有的模型如Mamba2和DeltaNet。为进一步提升性能,我们开发了混合架构,将门控增量网络层与滑动窗口注意力或Mamba2层结合,实现了更高的训练效率和更优的任务表现。
  • 图表
  • 解决问题
    该论文试图解决线性Transformer在检索和长上下文任务中的性能限制问题。这是一个现有问题,但通过引入新的机制来改善这些局限性。
  • 关键思路
    论文的关键思路是结合门控机制和delta更新规则,以实现快速记忆擦除和精确的记忆修改。这种组合通过Gated DeltaNet架构得以实现,并通过并行训练算法优化了现代硬件上的训练效率。
  • 其它亮点
    论文设计了多个实验,包括语言建模、常识推理、上下文检索、长度外推和长上下文理解等任务,验证了Gated DeltaNet在这些任务上的优越性能。此外,还提出了混合架构,结合滑动窗口注意力或Mamba2层,进一步提高了性能和训练效率。论文提供了开源代码,便于复现和进一步研究。
  • 相关研究
    近期在这个领域中,相关的研究包括:1.《Linear Transformers Are Secretly RNNs》;2.《Mamba2: Efficient and Accurate Long-Context Models》;3.《DeltaNet: A Simple and Effective Approach for Long-Range Dependencies》。这些研究都在探索如何提高Transformer模型在长上下文任务中的性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论