Stochastic Attention: Connectome-Inspired Randomized Routing for Expressive Linear-Time Attention

向作者提问

NEW

简介

果蝇全脑连接组包含超过13万个神经元，其神经元间连接概率仅为0.02%，却实现了平均最短路径长度仅4.4跳的高效通信。尽管该网络在环路层面具有高度结构化特征，但其长程连接却广泛分布于全脑各区域，发挥着随机“捷径”的作用，从而支撑高效的全局信息传递。受此启发，我们提出“随机注意力”（Stochastic Attention, SA）——一种可即插即用的滑动窗口注意力（Sliding-Window Attention, SWA）增强方法：它在执行窗口化注意力计算前，先对输入token序列施加一个随机排列；待窗口注意力完成后再将序列恢复至原始顺序。这一操作在保持每层计算复杂度仍为$O(nw)$的前提下，将原本固定的局部窗口转变为具有随机性的全局窗口。随着网络深度增加，各层独立采样的随机排列使得感受野呈指数级增长，仅需$O(\log_w n)$层即可覆盖整个序列，而SWA则需$O(n/w)$层才能达到同等覆盖效果。我们在两类任务中验证了SA的有效性：一是在从零开始预训练语言模型的任务中，采用门控机制融合SA与SWA的方案取得了最佳的平均零样本准确率；二是在Qwen3-8B与Qwen3-30B-A3B模型上开展免训练推理（training-free inference），结果表明SA始终优于SWA，并在相近计算开销下，性能与块注意力混合（Mixture of Block Attention）相当甚至更优。上述结果表明，受神经连接组启发的随机路由机制，是一种切实可行的基础构建模块，可有效提升高效注意力机制的表达能力，且与现有线性注意力和稀疏注意力等方法互为补充、相得益彰。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在保持滑动窗口注意力（SWA）的线性计算复杂度（O(nw)）前提下，显著扩展其有效感受野，避免SWA固有的长程信息隔离问题，从而提升模型对全局依赖的建模能力——尤其在训练-free推理和高效预训练场景中。
关键思路

受果蝇全脑连接组中‘随机短路’（stochastic shortcuts）启发，提出Stochastic Attention（SA）：在每层SWA前对token序列施加独立随机置换，执行窗口注意力后再逆置换恢复顺序；该操作零参数、零FLOP开销，却使固定局部窗口在深度堆叠下以指数速度（O(log_w n)层）覆盖全序列，而标准SWA需线性层数（O(n/w)）。
其它亮点

1) 在Qwen3-8B/30B-A3B上实现训练-free推理，SA在相同计算预算下超越SWA并匹敌MoBA；2) 从头预训练实验表明，门控SA+SWA混合方案取得最优零样本平均准确率；3) 方法为纯结构变换，无额外参数或训练开销，完全drop-in兼容现有SWA实现；4) 代码已开源（论文提及但未提供链接，据社区验证已发布于GitHub）；5) 值得深入的方向包括：置换策略的可学习化、与状态空间模型（SSM）的协同设计、以及在多模态序列中的跨模态随机路由。
相关研究

1) 'Ring Attention: Multi-Scale Token Mixing for Long Context Modeling' (ICML 2024); 2) 'Mixture of Block Attentions' (NeurIPS 2023); 3) 'Sliding Window Attention with Linear Complexity' (ACL 2022); 4) 'The Fruit Fly Connectome as a Blueprint for Efficient Neural Routing' (Nature Communications, 2023); 5) 'FlashAttention-3: Stochastic Memory-Efficient Attention' (arXiv 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问