Kinetics: Rethinking Test-Time Scaling Laws

2025年06月05日
  • 简介
    我们从实际效率的角度重新审视了测试阶段的扩展规律,发现较小模型的有效性被显著高估。以往的研究基于计算最优性,忽略了推理阶段策略(例如 Best-of-$N$、长链推理)引入的关键内存访问瓶颈。我们的整体分析涵盖了从 0.6B 到 32B 参数的模型,并揭示了一条新的“动力学扩展定律”,该定律通过结合计算和内存访问成本,为资源分配提供了更好的指导。动力学扩展定律表明,在测试阶段,计算资源用于超过某个阈值的较大模型比用于小模型更有效。其主要原因在于,测试阶段中,注意力机制的成本而非参数数量成为了主导因素。 受此启发,我们提出了一种以稀疏注意力为中心的新扩展范式,该范式降低了每 token 的计算成本,同时在相同资源预算下支持更长的生成序列和更多的并行样本。实证结果表明,稀疏注意力模型在低资源条件下比密集注意力模型高出超过 60 分,在高资源条件下仍能高出超过 5 分,特别是在 AIME 问题解决准确性评估中表现突出,包括对最新 MoE 模型的评测。这些结果表明,随着更多计算资源的投入,稀疏注意力变得愈发重要,是充分释放测试阶段扩展潜力的关键所在。与训练不同的是,在测试阶段,准确率作为计算量的函数尚未饱和,并且通过增加生成长度可以持续改进。代码已开源,可访问 https://github.com/Infini-AI-Lab/Kinetics。
  • 图表
  • 解决问题
    论文试图解决的问题是,如何从实际效率的角度重新评估测试时(Test-Time Scaling, TTS)的计算资源分配策略。具体来说,它探讨了在有限资源下,是否可以通过更合理的计算和内存访问成本分配来提升小模型和大模型的表现,尤其是在涉及长推理链(CoT)或多次采样(Best-of-N)等策略时。
  • 关键思路
    关键思路是提出了‘Kinetics Scaling Law’,该定律不仅考虑了计算成本,还结合了内存访问成本,揭示了测试时计算资源用于较大模型比用于较小模型更有效。此外,论文提出了一种基于稀疏注意力的新范式,以降低每token的成本并支持更长生成和更多并行样本。这与传统仅关注参数量或FLOPs的研究不同,强调了注意力机制作为主导成本因素的重要性。
  • 其它亮点
    1. 实验覆盖了从0.6B到32B参数的模型范围,验证了Kinetics Scaling Law的有效性;2. 在低资源场景下,稀疏注意力模型相比密集模型有超过60点的性能提升,在高资源场景下也有显著优势(超过5点);3. 使用AIME问题求解数据集进行评估,并对比了最先进的MoE模型;4. 开源代码已发布在https://github.com/Infini-AI-Lab/Kinetics,便于后续研究者复现结果;5. 提出稀疏注意力在未来可能成为实现测试时高效扩展的核心技术。
  • 相关研究
    相关研究包括:1. 「Compute-Optimal Scaling Laws」系列工作,主要关注训练时的计算最优性;2. 「Sparse Transformers」,首次引入稀疏注意力机制以减少计算开销;3. 「Mixture of Experts (MoE) Models」,探索参数高效扩展;4. 「Chain-of-Thought Reasoning in LLMs」,研究长推理链对性能的影响;5. 「Memory Bottlenecks in Inference」,分析推理过程中内存访问瓶颈的作用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论