Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

2026年04月24日
  • 简介
    缩放定律被用于规划耗资数百万美元的大规模模型训练实验,但拟合这些缩放定律本身也可能耗费数百万美元。在当今大规模机器学习工作流中,构建一组信息量充足、足以支撑可靠拟合的先导性实验,已不再是一项常规的预处理任务,而演变为一个关键的预算分配难题。本文将缩放定律的拟合问题建模为一种“预算感知型”的序贯实验设计问题:给定一组有限但可执行的实验候选集,其中各项实验的成本各异,目标是选择执行哪些实验,以在高成本的目标区域(如超大模型规模或超长训练步数)上实现最优的外推精度。在此基础上,我们提出了一种“不确定性感知”的方法,能够按序动态分配实验预算,优先投入于对目标区域外推最具价值的实验任务。在涵盖多种典型缩放定律任务的多样化基准测试中,我们的方法始终显著优于经典基于实验设计的基线方法;更值得注意的是,在仅动用约10%总训练预算的前提下,其性能往往已接近于使用全部实验数据进行拟合所达到的水平。我们的开源代码已发布于:https://github.com/PlanarG/active-sl。
  • 作者讲解
  • 图表
  • 解决问题
    在大规模AI模型训练中,拟合缩放定律(scaling laws)本身成本极高,而如何以有限预算选择最具信息量的先导实验(pilot experiments)来准确外推至高成本目标区域(如超大模型或长训练时长),已成为一个关键的预算分配难题,而非传统预处理步骤;这是一个新兴且日益紧迫的资源感知型实验设计问题。
  • 关键思路
    将缩放定律拟合建模为预算感知的序贯实验设计问题,提出一种不确定性感知的主动选择策略:基于当前已运行实验的后验不确定性,动态优先选择对目标外推区域预测方差削减贡献最大的、成本效益最优的下一个实验(考虑异构计算成本),而非均匀采样或启发式固定设计。
  • 其它亮点
    在多样化缩放律基准任务(涵盖语言模型、视觉模型等)上系统评估;相比经典基于设计的方法(如网格搜索、拉丁超立方、最优设计D-optimality),平均仅用10%总训练预算即达到接近全集拟合的外推精度;开源完整代码(https://github.com/PlanarG/active-sl);强调‘成本异构性’与‘目标导向外推’,区别于通用主动学习;值得深入的方向包括:与神经架构搜索联合优化、在线预算重分配机制、理论误差界分析。
  • 相关研究
    Active Learning for Model Selection (ICML 2021); Cost-Aware Active Learning (NeurIPS 2020); Optimal Experimental Design for Neural Scaling Laws (ICLR 2023 Workshop); The Deep Learning Scaling Law (arXiv:2208.07349); Chinchilla's Wild Hunt: Empirical Scaling Laws for Compute-Optimal Training (arXiv:2203.15556)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问