Attention Is Not What You Need

2025年12月22日
  • 简介
    我们重新审视序列建模中的一个基本问题:显式的自注意力机制是否确实是实现强大性能和推理能力所必需的?我们认为,标准的多头注意力机制最好被理解为一种张量提升(tensor lifting)形式:隐藏向量被映射到成对交互的高维空间中,学习过程则通过梯度下降对该提升后的张量施加约束。这一机制虽然表达能力极强,但在数学上却不够透明,因为经过多层堆叠后,模型很难再用少量显式不变量来描述。 为了探索另一种可能,我们提出了一种基于格拉斯曼流形(Grassmann flows)的无注意力架构。我们的因果格拉斯曼层(Causal Grassmann layer)并不构造 L×L 的注意力矩阵,而是(i)线性地压缩令牌状态,(ii)通过普吕克坐标(Plücker coordinates)将局部令牌对编码为格拉斯曼流形上的二维子空间,(iii)再通过门控混合机制将这些几何特征融合回隐藏状态中。因此,信息通过在多尺度局部窗口上对低秩子空间进行可控变形而传播,其核心计算发生在有限维流形上,而非无结构的张量空间中。 在 Wikitext-2 语言建模基准测试中,仅基于格拉斯曼机制、参数量在1300万至1800万之间的模型,其验证困惑度(perplexity)与同等规模的Transformer模型相比,差距约为10%至15%。在 SNLI 自然语言推断任务中,将格拉斯曼-普吕克模块作为 DistilBERT 的顶层分类头时,其表现略优于标准的Transformer分类头,最佳验证准确率和测试准确率分别为 0.8550 和 0.8538,而后者为 0.8545 和 0.8511。我们分析了格拉斯曼混合的复杂度,证明其在固定秩的情况下具有关于序列长度的线性缩放特性,并认为这类基于流形的设计为从几何和不变性角度理解神经网络推理过程提供了更结构化的路径。
  • 作者讲解
  • 图表
  • 解决问题
    论文探讨了一个基本问题:在序列建模中,显式的自注意力机制是否真正必要以实现强大的性能和推理能力。这个问题虽然不是全新的,但重新审视注意力机制的本质并探索其替代方案具有重要意义,尤其是在追求更高效、可解释性更强的模型结构背景下。
  • 关键思路
    提出了一种无需注意力机制的新架构——基于格拉斯曼流(Grassmann flows)的因果格拉斯曼层。该方法将词元对编码为格拉斯曼流形上的二维子空间(通过普吕克坐标),并通过门控混合将几何特征融合回隐藏状态。核心思想是用低秩子空间的受控变形来传播信息,使计算发生在有限维流形上,而非无结构的张量空间,从而提供更结构化、几何化的推理路径。相比传统的多头注意力机制,这是一种从几何与不变性角度重新建模序列依赖的新范式。
  • 其它亮点
    在Wikitext-2语言建模任务上,仅含1300万到1800万参数的纯格拉斯曼模型,其困惑度表现达到同规模Transformer的85%-90%;在SNLI自然语言推断任务中,使用DistilBERT作为骨干并在顶部添加格拉斯曼-普吕克头的模型,取得了0.8550(验证)和0.8538(测试)的准确率,略优于标准Transformer头。实验设计体现了对小规模高效模型的关注,复杂度分析显示在固定秩下对序列长度呈线性扩展。目前未提及代码开源,值得进一步研究的方向包括如何扩展到更大模型、引入更多微分几何先验以及与其他结构化归纳偏置结合。
  • 相关研究
    1. 'What Can Neural Networks Reason About?' by Xu et al. 2. 'On the Expressive Power of Self-Attention Matrices' by Cordonnier et al. 3. 'Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention' by Perrone et al. 4. 'Lie Accessor: A Hierarchical Framework for Relation-Aware Representations' by Wang et al. 5. 'Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges' by Bronstein et al.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问