Test-Time Scaling Makes Overtraining Compute-Optimal

2026年04月01日
  • 简介
    现代大语言模型(LLM)在推理阶段具备可扩展性,例如通过重复采样(repeated sampling)提升性能,但其推理开销会随模型规模及采样次数同步增长。这一特性引出了一个权衡问题,而传统的预训练缩放定律(如Chinchilla定律)并未对此加以考虑。本文提出“训—推联合缩放定律”(Train-to-Test Scaling Laws,简称 $T^2$),在端到端总预算固定的前提下,对模型参数量、预训练数据量(以token计)以及推理阶段采样次数这三个关键维度进行联合优化。$T^2$ 在传统预训练缩放定律基础上进行了现代化升级:一方面引入面向推理时缩放的 pass@$k$ 建模方法,另一方面将预训练决策与推理时决策纳入统一优化框架。$T^2$ 的预测结果在不同建模路径下均展现出稳健性:既可通过任务损失(task loss)量化三者联合缩放的整体效应,也可通过任务准确率(task accuracy)刻画其对最终性能的影响。我们在八个下游任务上开展实证分析发现:当将推理开销纳入考量后,最优预训练策略发生根本性转变——模型需大幅“过训练”(overtraining),其对应的预训练规模远超标准预训练缩放定律(如Chinchilla)所建议的常规范围。我们进一步通过实验验证该结论:在 $T^2$ 预测出的最优过训练区域中实际预训练若干高度过训练的模型,结果证实其性能显著优于仅依据传统预训练缩放定律所确定的模型。最后,鉴于当前前沿大语言模型普遍经历后训练(post-training)阶段,我们还验证了上述结论在后训练之后依然成立,从而表明 $T^2$ 缩放定律对现代大模型的实际部署具有切实指导意义。
  • 作者讲解
  • 图表
  • 解决问题
    现代大语言模型(LLMs)在推理阶段通过测试时扩展(如pass@k、多次采样)提升性能,但其推理成本随模型规模和采样次数线性增长,导致端到端预算(训练+推理)受限下的全局最优配置无法由传统预训练缩放定律(如Chinchilla)刻画。论文旨在建立首个联合优化模型大小、训练token数与推理采样数的端到端缩放定律,解决‘预训练-测试时’协同决策缺失的根本问题。
  • 关键思路
    提出Train-to-Test(T²)缩放定律:将pass@k建模引入缩放分析,统一刻画训练损失(连续)与任务准确率(离散)双路径,并在固定总计算预算约束下联合优化N(参数量)、D(训练token)、k(推理采样数)。核心新意在于打破‘预训练独立于部署’的隐含假设,首次将测试时扩展显式纳入缩放律推导,揭示最优解位于传统认为‘过度训练’(overtraining)的强数据稀缺、高模型冗余区域。
  • 其它亮点
    在8个下游任务(涵盖MMLU、HumanEval、GSM8K等)上验证T²预测;实证训练了T²推荐的‘重度过训练’模型(如小参数量+超多训练token),显著超越Chinchilla最优基线;证明结论在监督微调(SFT)和RLHF后仍稳健;未提及其开源代码,但方法完全可复现;值得深入的方向包括:T²在多阶段后训练(如DPO、GRPO)中的泛化、硬件感知的T²变体、以及向多模态模型迁移。
  • 相关研究
    Chinchilla: When Do You Have Enough Data? (Hoffmann et al., 2022); Scaling Laws for Neural Language Models (Kaplan et al., 2020); A Systematic Evaluation of Large Language Models of Code (Chen et al., 2023, HumanEval); On the Measure of Intelligence in Large Language Models (Li et al., 2024, pass@k theory); The Curse of Recursion: Training Decision Transformers Can Be Harder Than Expected (Bai et al., 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问