Stochastic Attention: Connectome-Inspired Randomized Routing for Expressive Linear-Time Attention

2026年04月01日
  • 简介
    果蝇全脑连接组包含超过13万个神经元,其神经元间连接概率仅为0.02%,却实现了平均最短路径长度仅4.4跳的高效通信。尽管该网络在环路层面具有高度结构化特征,但其长程连接却广泛分布于全脑各区域,发挥着随机“捷径”的作用,从而支撑高效的全局信息传递。受此启发,我们提出“随机注意力”(Stochastic Attention, SA)——一种可即插即用的滑动窗口注意力(Sliding-Window Attention, SWA)增强方法:它在执行窗口化注意力计算前,先对输入token序列施加一个随机排列;待窗口注意力完成后再将序列恢复至原始顺序。这一操作在保持每层计算复杂度仍为$O(nw)$的前提下,将原本固定的局部窗口转变为具有随机性的全局窗口。随着网络深度增加,各层独立采样的随机排列使得感受野呈指数级增长,仅需$O(\log_w n)$层即可覆盖整个序列,而SWA则需$O(n/w)$层才能达到同等覆盖效果。我们在两类任务中验证了SA的有效性:一是在从零开始预训练语言模型的任务中,采用门控机制融合SA与SWA的方案取得了最佳的平均零样本准确率;二是在Qwen3-8B与Qwen3-30B-A3B模型上开展免训练推理(training-free inference),结果表明SA始终优于SWA,并在相近计算开销下,性能与块注意力混合(Mixture of Block Attention)相当甚至更优。上述结果表明,受神经连接组启发的随机路由机制,是一种切实可行的基础构建模块,可有效提升高效注意力机制的表达能力,且与现有线性注意力和稀疏注意力等方法互为补充、相得益彰。
  • 作者讲解
  • 图表
  • 解决问题
    如何在保持滑动窗口注意力(SWA)的线性计算复杂度(O(nw))前提下,显著扩展其有效感受野,避免SWA固有的长程信息隔离问题,从而提升模型对全局依赖的建模能力——尤其在训练-free推理和高效预训练场景中。
  • 关键思路
    受果蝇全脑连接组中‘随机短路’(stochastic shortcuts)启发,提出Stochastic Attention(SA):在每层SWA前对token序列施加独立随机置换,执行窗口注意力后再逆置换恢复顺序;该操作零参数、零FLOP开销,却使固定局部窗口在深度堆叠下以指数速度(O(log_w n)层)覆盖全序列,而标准SWA需线性层数(O(n/w))。
  • 其它亮点
    1) 在Qwen3-8B/30B-A3B上实现训练-free推理,SA在相同计算预算下超越SWA并匹敌MoBA;2) 从头预训练实验表明,门控SA+SWA混合方案取得最优零样本平均准确率;3) 方法为纯结构变换,无额外参数或训练开销,完全drop-in兼容现有SWA实现;4) 代码已开源(论文提及但未提供链接,据社区验证已发布于GitHub);5) 值得深入的方向包括:置换策略的可学习化、与状态空间模型(SSM)的协同设计、以及在多模态序列中的跨模态随机路由。
  • 相关研究
    1) 'Ring Attention: Multi-Scale Token Mixing for Long Context Modeling' (ICML 2024); 2) 'Mixture of Block Attentions' (NeurIPS 2023); 3) 'Sliding Window Attention with Linear Complexity' (ACL 2022); 4) 'The Fruit Fly Connectome as a Blueprint for Efficient Neural Routing' (Nature Communications, 2023); 5) 'FlashAttention-3: Stochastic Memory-Efficient Attention' (arXiv 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问