每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
2025年07月14日
扩大语言模型的规模可以释放出令人印象深刻的能力,但随之而来的计算和内存需求也使得训练和部署成本高昂。现有的效率优化方法通常要么专注于参数共享,要么采用自适应计算策略,但如何同时实现这两方面的优势仍然是一个开放问题。我们提出了“递归混合”(Mixture-of-Recursions,MoR)这一统一框架,将两种效率维度融合在一个统一的递归 Transformer 架构中。MoR 在递归步骤中复用一组共享的层级,从而实现参数效率;同时,通过轻量级路由机制,在每个 token 层面实现自适应的“思考”深度,动态地为不同的 token 分配不同的递归深度。这使得 MoR 仅在特定递归深度下仍处于活跃状态的 token 之间集中进行二次复杂度的注意力计算,并通过有选择地缓存这些 token 的键值对,进一步提升内存访问效率。除了这些核心机制之外,我们还提出了一种 KV 共享变体,复用了首次递归中的键值对,专门用于降低预填充阶段的延迟和内存占用。在从 1.35 亿到 17 亿参数的不同模型规模上,MoR 形成了一条新的帕累托前沿:在训练计算量相同甚至模型更小的情况下,MoR 显著降低了验证集困惑度,提升了少样本准确率,并且相比基础版本及其他现有的递归基线模型具有更高的吞吐性能。这些优势表明,MoR 是一条在不带来大模型成本的前提下实现大模型质量的有效路径。
83
热度
PDF
解读