Screening Is Enough

2026年04月01日
  • 简介
    标准 Softmax 注意力机制的一个核心局限在于:它无法定义查询与键之间的**绝对相关性**概念——其注意力权重是通过对所有键的相对得分进行归一化,将一个固定的单位质量重新分配到全部键上而得到的。因此,相关性仅相对于其他竞争性键来定义,而无法显式地拒绝无关键。为此,我们提出了一种名为 **Multiscreen** 的语言模型架构,其核心是一种称为“筛选”(screening)的新机制,该机制能够实现查询与键之间的**绝对相关性判断**。与在全部键之间重新分配注意力不同,“筛选”机制会对每个键独立地与一个显式设定的相关性阈值进行比对:低于阈值的无关键被直接丢弃,仅对剩余的、通过筛选的键进行聚合,从而彻底消除了键之间的全局竞争关系。大量实验表明,Multiscreen 在验证损失(validation loss)方面与基线 Transformer 模型相当,但参数量减少约 40%;支持在显著更高的学习率下实现稳定优化;在长上下文困惑度(long-context perplexity)任务中仍保持强劲性能;即使在远超训练上下文长度的场景下进行检索,其性能也几乎未出现下降;此外,在 100K 上下文长度条件下,推理延迟最高可降低至原来的 1/3.2(即提速达 3.2 倍)。
  • 作者讲解
  • 图表
  • 解决问题
    标准softmax注意力机制无法定义查询-键之间的绝对相关性,只能通过相对得分分配注意力权重,导致无关键无法被显式拒绝,存在全局竞争问题,限制了长上下文建模效率与可解释性。这是一个对注意力基础机制本质局限性的新认识和系统性挑战。
  • 关键思路
    提出‘筛选(screening)’机制——为每个键独立评估其与查询的匹配度,并与可学习阈值比较,仅保留显著相关的键进行聚合;摒弃全局softmax归一化,实现绝对相关性判断。Multiscreen架构将该机制嵌入语言模型主干,解耦相关性判定与信息聚合,消除键间强制竞争。
  • 其它亮点
    在同等验证损失下参数减少40%;支持高达3×学习率的稳定训练;在100K长度上下文上推理延迟降低3.2×;长上下文困惑度与检索泛化性(远超训练长度)显著优于Transformer;实验覆盖标准LM基准(如PG19、BookWiki)、长文本评估协议及检索任务;论文未明确提及开源代码,但方法设计轻量、模块化,易于复现;值得深入的方向包括:阈值的动态自适应机制、screening与稀疏注意力的理论联系、以及在多模态对齐中的迁移应用。
  • 相关研究
    Performer (Choromanski et al., 2021); Linformer (Wang et al., 2021); FlashAttention (Dao et al., 2022); RETRO (Borgeaud et al., 2022); S4 / Mamba (Gu & Dao, 2023); Vision Transformer with Gating (Rao et al., 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问