- 简介标准 Softmax 注意力机制的一个核心局限在于:它无法定义查询(query)与键(key)之间“绝对相关性”的概念——其注意力权重是通过对所有键按相对得分重新分配一个固定的单位质量(unit mass)而得到的。因此,相关性仅相对于其他竞争性键来定义,而无关键无法被显式地拒绝或剔除。为此,我们提出 Multiscreen——一种以“筛选”(screening)机制为核心的新型语言模型架构。“筛选”机制使模型能够刻画查询与键之间的绝对相关性:它不再将注意力在全部键上进行再分配,而是对每个键独立地与一个显式设定的相关性阈值进行比对,据此直接丢弃无关键,并仅对剩余的、通过筛选的键进行聚合,从而彻底消除了键之间的全局竞争关系。大量实验表明,Multiscreen 在验证损失(validation loss)方面与基准 Transformer 模型相当,但参数量减少约 40%;同时支持显著更高的学习率,且训练过程保持稳定。在长上下文困惑度(long-context perplexity)任务中,Multiscreen 表现强劲;在检索性能方面,即使上下文长度远超训练时所见的最大长度,其性能也几乎未出现下降。尤为值得注意的是:即便在训练时所用的上下文长度下,一个参数量减少约 92% 的 Multiscreen 模型,在检索准确率上仍持续优于参数量更大的 Transformer 模型。最后,在上下文长度达 10 万(100K)时,Multiscreen 最高可将推理延迟降低至基准模型的 1/3.2(即提速达 3.2 倍)。
-
- 图表
- 解决问题标准softmax注意力机制无法定义查询-键之间的绝对相关性,只能基于相对分数重新分配固定质量(unit mass),导致无关键无法被显式拒绝,所有键被迫参与全局竞争,限制了模型在长上下文、稀疏检索和高效推理中的表现。这是一个对注意力基础机制的重要反思与新问题。
- 关键思路提出‘筛选(screening)’机制——为每个键独立评估其与查询的相关性,并与显式可学习阈值比较,仅保留通过筛选的键进行聚合;摒弃全局softmax归一化,消除键间强制竞争,实现绝对相关性建模。Multiscreen架构以此为核心,重构语言模型的注意力范式。
- 其它亮点在相同验证损失下参数减少约40%;支持高达100K上下文长度,推理延迟降低达3.2×;在训练长度内,参数少92%的Multiscreen模型反超大Transformer的检索准确率;优化更稳定,允许更大学习率;实验覆盖标准LM训练(如C4)、长上下文困惑度(PG19, BookSum)、开放域检索(Natural Questions);论文未明确提及开源代码,但方法设计简洁,易于复现;值得深入的方向包括:阈值的动态自适应机制、多粒度筛选层级、与记忆增强或稀疏路由的结合。
- Sparse Transformers (Child et al., 2019); Linformer (Wang et al., 2020); FlashAttention (Dao et al., 2022); RETRO (Borgeaud et al., 2022); S4/SSM-based models (Gu et al., 2022); Adaptive Computation Time (Graves, 2016); Gated Linear Attention (GLA, 2023); Token Merging (ToMe, 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流