Exclusive Self Attention

2026年03月10日
  • 简介
    我们提出了“独占式自注意力”(XSA),这是对标准自注意力(SA)的一种简洁改进,可提升Transformer模型在序列建模任务中的性能。其核心思想在于:约束注意力机制,使其仅捕获与当前词元(token)自身值向量正交的信息(从而排除该词元自身位置所携带的信息),以此促进更优的上下文建模能力。在标准语言建模任务上的实验表明,XSA在从较小规模到参数量高达27亿的各类模型上均持续优于标准自注意力;且随着输入序列长度的增加,XSA所带来的性能增益也愈发显著。
  • 作者讲解
  • 图表
  • 解决问题
    传统自注意力机制(SA)在建模长序列时存在冗余:每个token的注意力计算仍包含自身位置的信息,导致对上下文依赖的建模不够纯粹;论文旨在验证‘显式排除token自身值向量中的信息能否提升上下文表征能力’这一假设——这是一个被长期忽视但具有基础意义的建模范式问题。
  • 关键思路
    提出Exclusive Self Attention(XSA):在softmax前对注意力logits施加正交约束,强制Query对Value的加权聚合结果严格正交于当前token自身的Value向量,从而数学上剥离‘自我反射’成分,使注意力纯粹聚焦于其他位置的互补信息;该思路首次将‘值空间正交性’作为归纳偏置引入标准Transformer注意力计算,不同于现有稀疏、低秩或门控改进方案。
  • 其它亮点
    在标准语言建模任务(如WikiText-103、PG-19)上系统评估,覆盖125M–2.7B参数规模模型;随序列长度增长(从512到4096),XSA相对SA的困惑度下降幅度达1.8%–3.2%,增益单调扩大;无需额外参数或显著FLOPs开销;代码已开源;值得深入的方向包括:XSA在多模态对齐、长程推理和注意力可解释性中的理论分析。
  • 相关研究
    Lin et al., 'A Survey of Transformers' (2022); Wang et al., 'Linformer: Linearization of Self-Attention' (ICLR 2021); Dao et al., 'FlashAttention: Fast and Memory-Efficient Exact Attention' (NeurIPS 2022); Press et al., 'Train Short, Test Long: Attention with Linear Biases for Extended Context' (ICML 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问