每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
2025年04月24日
稀疏注意力机制为扩展Transformer大语言模型的长上下文能力提供了一种有前景的策略,但其可行性、效率与准确性的权衡,以及系统的扩展性研究仍有待探索。为填补这一空白,我们在不同模型规模、序列长度和稀疏性水平下,对无需训练的稀疏注意力方法进行了细致的比较分析,涉及的任务集合包括多种长序列任务,其中一些是新颖的,依赖自然语言的同时保持可控性和易于评估的特性。基于我们的实验结果,我们报告了一系列关键发现:1) 等量浮点运算(isoFLOPS)分析表明,对于非常长的序列,更大且高度稀疏的模型比更小且密集的模型更具优势。2) 在统计上保证准确率不变的情况下,解码阶段可实现的稀疏性水平高于预填充阶段,并且在解码阶段该水平与模型大小相关。3) 没有一种明确的策略能在所有任务和阶段中表现最佳,不同的场景需要不同的稀疏化单元或预算自适应策略。即使在中等稀疏性水平下,至少在一个任务上往往会显著降低性能,这表明稀疏注意力并非通用解决方案。4) 我们引入并验证了专为稀疏注意力设计的新扩展规律,证明我们的发现很可能超出当前实验范围仍然成立。通过这些洞见,我们展示了稀疏注意力是增强Transformer大语言模型处理更长序列能力的关键工具,但在对性能敏感的应用中,仍需仔细评估其权衡关系。
282
热度
PDF
解读
Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
2025年07月14日
扩大语言模型的规模能够释放出令人印象深刻的能力,但随之而来的计算和内存需求也使得训练和部署成本高昂。现有的效率优化方法通常要么专注于参数共享,要么采用自适应计算策略,但如何同时实现这两方面的效率仍是一个未解的问题。我们提出了“递归混合”(Mixture-of-Recursions,MoR)这一统一框架,将参数共享与自适应计算两个效率维度融合在一个统一的递归Transformer结构中。MoR在不同的递归步骤中复用一组共享的层堆栈,从而实现参数效率,同时通过轻量级路由模块,在每个token层面实现自适应的“思考”深度,动态地为不同token分配不同的递归层数。这使得MoR仅在处于特定递归深度的活跃token之间进行二次复杂度的注意力计算,并通过仅缓存这些token的键值对(KV)来进一步提升内存访问效率。除了这些核心机制外,我们还提出了一种KV共享变体,复用首次递归中的键值对,专门用于降低prefill阶段的延迟和内存占用。在从1.35亿到17亿参数的不同模型规模上,MoR构建了一个新的帕累托前沿:在训练计算量相同甚至模型更小的情况下,MoR显著降低了验证集困惑度,提升了少样本准确率,同时相比普通模型和现有的递归基线模型,实现了更高的吞吐量。这些优势表明,MoR为在不承担大规模模型成本的前提下实现大模型质量提供了一条有效的路径。
271
热度
PDF
解读