Test-Time Scaling Makes Overtraining Compute-Optimal

向作者提问

NEW

简介

现代大语言模型（LLM）在推理阶段具备可扩展性，例如通过重复采样（repeated sampling）提升性能，但其推理开销会随模型规模及采样次数同步增长。这一特性引出了一个权衡问题，而传统的预训练缩放定律（如Chinchilla定律）并未对此加以考虑。本文提出“训—推联合缩放定律”（Train-to-Test Scaling Laws，简称 $T^2$），在端到端总预算固定的前提下，对模型参数量、预训练数据量（以token计）以及推理阶段采样次数这三个关键维度进行联合优化。$T^2$ 在传统预训练缩放定律基础上进行了现代化升级：一方面引入面向推理时缩放的 pass@$k$ 建模方法，另一方面将预训练决策与推理时决策纳入统一优化框架。$T^2$ 的预测结果在不同建模路径下均展现出稳健性：既可通过任务损失（task loss）量化三者联合缩放的整体效应，也可通过任务准确率（task accuracy）刻画其对最终性能的影响。我们在八个下游任务上开展实证分析发现：当将推理开销纳入考量后，最优预训练策略发生根本性转变——模型需大幅“过训练”（overtraining），其对应的预训练规模远超标准预训练缩放定律（如Chinchilla）所建议的常规范围。我们进一步通过实验验证该结论：在 $T^2$ 预测出的最优过训练区域中实际预训练若干高度过训练的模型，结果证实其性能显著优于仅依据传统预训练缩放定律所确定的模型。最后，鉴于当前前沿大语言模型普遍经历后训练（post-training）阶段，我们还验证了上述结论在后训练之后依然成立，从而表明 $T^2$ 缩放定律对现代大模型的实际部署具有切实指导意义。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现代大语言模型（LLMs）在推理阶段通过测试时扩展（如pass@k、多次采样）提升性能，但其推理成本随模型规模和采样次数线性增长，导致端到端预算（训练+推理）受限下的全局最优配置无法由传统预训练缩放定律（如Chinchilla）刻画。论文旨在建立首个联合优化模型大小、训练token数与推理采样数的端到端缩放定律，解决‘预训练-测试时’协同决策缺失的根本问题。
关键思路

提出Train-to-Test（T²）缩放定律：将pass@k建模引入缩放分析，统一刻画训练损失（连续）与任务准确率（离散）双路径，并在固定总计算预算约束下联合优化N（参数量）、D（训练token）、k（推理采样数）。核心新意在于打破‘预训练独立于部署’的隐含假设，首次将测试时扩展显式纳入缩放律推导，揭示最优解位于传统认为‘过度训练’（overtraining）的强数据稀缺、高模型冗余区域。
其它亮点

在8个下游任务（涵盖MMLU、HumanEval、GSM8K等）上验证T²预测；实证训练了T²推荐的‘重度过训练’模型（如小参数量+超多训练token），显著超越Chinchilla最优基线；证明结论在监督微调（SFT）和RLHF后仍稳健；未提及其开源代码，但方法完全可复现；值得深入的方向包括：T²在多阶段后训练（如DPO、GRPO）中的泛化、硬件感知的T²变体、以及向多模态模型迁移。
相关研究

Chinchilla: When Do You Have Enough Data? (Hoffmann et al., 2022); Scaling Laws for Neural Language Models (Kaplan et al., 2020); A Systematic Evaluation of Large Language Models of Code (Chen et al., 2023, HumanEval); On the Measure of Intelligence in Large Language Models (Li et al., 2024, pass@k theory); The Curse of Recursion: Training Decision Transformers Can Be Harder Than Expected (Bai et al., 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问