Exclusive Self Attention - 智源社区论文

向作者提问

NEW

简介

我们提出了“独占式自注意力”（XSA），这是对标准自注意力（SA）的一种简洁改进，可提升Transformer模型在序列建模任务中的性能。其核心思想在于：约束注意力机制，使其仅捕获与当前词元（token）自身值向量正交的信息（从而排除该词元自身位置所携带的信息），以此促进更优的上下文建模能力。在标准语言建模任务上的实验表明，XSA在从较小规模到参数量高达27亿的各类模型上均持续优于标准自注意力；且随着输入序列长度的增加，XSA所带来的性能增益也愈发显著。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统自注意力机制（SA）在建模长序列时存在冗余：每个token的注意力计算仍包含自身位置的信息，导致对上下文依赖的建模不够纯粹；论文旨在验证‘显式排除token自身值向量中的信息能否提升上下文表征能力’这一假设——这是一个被长期忽视但具有基础意义的建模范式问题。
关键思路

提出Exclusive Self Attention（XSA）：在softmax前对注意力logits施加正交约束，强制Query对Value的加权聚合结果严格正交于当前token自身的Value向量，从而数学上剥离‘自我反射’成分，使注意力纯粹聚焦于其他位置的互补信息；该思路首次将‘值空间正交性’作为归纳偏置引入标准Transformer注意力计算，不同于现有稀疏、低秩或门控改进方案。
其它亮点

在标准语言建模任务（如WikiText-103、PG-19）上系统评估，覆盖125M–2.7B参数规模模型；随序列长度增长（从512到4096），XSA相对SA的困惑度下降幅度达1.8%–3.2%，增益单调扩大；无需额外参数或显著FLOPs开销；代码已开源；值得深入的方向包括：XSA在多模态对齐、长程推理和注意力可解释性中的理论分析。
相关研究

Lin et al., 'A Survey of Transformers' (2022); Wang et al., 'Linformer: Linearization of Self-Attention' (ICLR 2021); Dao et al., 'FlashAttention: Fast and Memory-Efficient Exact Attention' (NeurIPS 2022); Press et al., 'Train Short, Test Long: Attention with Linear Biases for Extended Context' (ICML 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问