It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

2025年04月17日
  • 简介
    设计高效且有效的架构骨干一直是提升基础模型能力的研究核心。受人类认知现象中注意偏向(即优先关注某些事件或刺激的自然倾向)的启发,我们重新定义了神经架构的概念,包括 Transformer、Titans 和现代线性循环神经网络,将它们视为关联记忆模块。这些模块通过内部目标(称为注意偏向)学习键值对的映射。令人惊讶的是,我们发现大多数现有的序列模型要么采用(1)点积相似度,要么使用(2)L2 回归目标作为其注意偏向。超越这些目标,我们提出了一组替代的注意偏向配置及其有效的近似方法,以稳定训练过程。随后,我们将现代深度学习架构中的遗忘机制重新解释为一种保留正则化形式,并为此类序列模型提供了一套新颖的遗忘门设计。基于这些洞见,我们提出了 MIRAS,这是一个通用框架,用于根据以下四个选择设计深度学习架构:(i)关联记忆架构,(ii)注意偏向目标,(iii)保留门,以及(iv)记忆学习算法。我们还介绍了三种新型序列模型——Moneta、Yaad 和 Memora,它们在保持快速并行化训练的同时,超越了现有线性 RNN 的能力。我们的实验表明,MIRAS 中的不同设计选择会产生具有不同优势的模型。例如,某些 MIRAS 实例在语言建模、常识推理和高记忆需求任务等特定任务中表现出色,甚至优于 Transformer 和其他现代线性循环模型。
  • 作者讲解·3
  • 图表
  • 解决问题
    论文试图解决如何设计更高效和有效的神经网络架构以增强基础模型的能力,特别是针对序列建模任务。这是一个长期存在的问题,但本文通过重新定义注意力机制和记忆模块提供了新的视角。
  • 关键思路
    关键思路是将神经架构(如Transformer、线性RNN等)视为关联记忆模块,并引入“注意力偏置”作为内部目标函数。相比传统方法(如点积相似性和L2回归),本文提出了一系列替代的注意力偏置配置及其稳定训练的近似方法,并重新解释了遗忘机制为一种保留正则化形式,从而提出了Miras框架。该框架允许灵活设计新模型,例如Moneta、Yaad和Memora,这些模型在语言建模等任务中表现出色。
  • 其它亮点
    论文通过实验验证了不同设计选择对模型性能的影响,展示了Miras框架的灵活性和潜力。实验涵盖了语言建模、常识推理和高召回需求的任务,并证明某些实例优于Transformer和其他现代线性RNN。此外,论文提供了新颖的遗忘门设计和替代注意力偏置目标的理论支持。虽然未提及代码开源,但其理论框架值得进一步探索,尤其是在结合更多任务特定优化时。
  • 相关研究
    最近相关研究包括:1) Transformer架构的改进(如Performer、Linformer);2) 线性RNN的扩展(如Shalabi等人提出的深度线性RNN);3) 关于注意力机制的理论分析(如Vaswani等人对自注意力的研究)。其他值得注意的工作包括《Long-Range Arena: A Benchmark for Efficient Transformers》和《Reformer: The Efficient Transformer》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问