Screening Is Enough - 智源社区论文

向作者提问

NEW

简介

标准 Softmax 注意力机制的一个核心局限在于：它无法定义查询与键之间的**绝对相关性**概念——其注意力权重是通过对所有键的相对得分进行归一化，将一个固定的单位质量重新分配到全部键上而得到的。因此，相关性仅相对于其他竞争性键来定义，而无法显式地拒绝无关键。为此，我们提出了一种名为 **Multiscreen** 的语言模型架构，其核心是一种称为“筛选”（screening）的新机制，该机制能够实现查询与键之间的**绝对相关性判断**。与在全部键之间重新分配注意力不同，“筛选”机制会对每个键独立地与一个显式设定的相关性阈值进行比对：低于阈值的无关键被直接丢弃，仅对剩余的、通过筛选的键进行聚合，从而彻底消除了键之间的全局竞争关系。大量实验表明，Multiscreen 在验证损失（validation loss）方面与基线 Transformer 模型相当，但参数量减少约 40%；支持在显著更高的学习率下实现稳定优化；在长上下文困惑度（long-context perplexity）任务中仍保持强劲性能；即使在远超训练上下文长度的场景下进行检索，其性能也几乎未出现下降；此外，在 100K 上下文长度条件下，推理延迟最高可降低至原来的 1/3.2（即提速达 3.2 倍）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

标准softmax注意力机制无法定义查询-键之间的绝对相关性，只能通过相对得分分配注意力权重，导致无关键无法被显式拒绝，存在全局竞争问题，限制了长上下文建模效率与可解释性。这是一个对注意力基础机制本质局限性的新认识和系统性挑战。
关键思路

提出‘筛选（screening）’机制——为每个键独立评估其与查询的匹配度，并与可学习阈值比较，仅保留显著相关的键进行聚合；摒弃全局softmax归一化，实现绝对相关性判断。Multiscreen架构将该机制嵌入语言模型主干，解耦相关性判定与信息聚合，消除键间强制竞争。
其它亮点

在同等验证损失下参数减少40%；支持高达3×学习率的稳定训练；在100K长度上下文上推理延迟降低3.2×；长上下文困惑度与检索泛化性（远超训练长度）显著优于Transformer；实验覆盖标准LM基准（如PG19、BookWiki）、长文本评估协议及检索任务；论文未明确提及开源代码，但方法设计轻量、模块化，易于复现；值得深入的方向包括：阈值的动态自适应机制、screening与稀疏注意力的理论联系、以及在多模态对齐中的迁移应用。
相关研究

Performer (Choromanski et al., 2021); Linformer (Wang et al., 2021); FlashAttention (Dao et al., 2022); RETRO (Borgeaud et al., 2022); S4 / Mamba (Gu & Dao, 2023); Vision Transformer with Gating (Rao et al., 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问