Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

向作者提问

NEW

简介

缩放定律被用于规划耗资数百万美元的大规模模型训练实验，但拟合这些缩放定律本身也可能耗费数百万美元。在当今大规模机器学习工作流中，构建一组信息量充足、足以支撑可靠拟合的先导性实验，已不再是一项常规的预处理任务，而演变为一个关键的预算分配难题。本文将缩放定律的拟合问题建模为一种“预算感知型”的序贯实验设计问题：给定一组有限但可执行的实验候选集，其中各项实验的成本各异，目标是选择执行哪些实验，以在高成本的目标区域（如超大模型规模或超长训练步数）上实现最优的外推精度。在此基础上，我们提出了一种“不确定性感知”的方法，能够按序动态分配实验预算，优先投入于对目标区域外推最具价值的实验任务。在涵盖多种典型缩放定律任务的多样化基准测试中，我们的方法始终显著优于经典基于实验设计的基线方法；更值得注意的是，在仅动用约10%总训练预算的前提下，其性能往往已接近于使用全部实验数据进行拟合所达到的水平。我们的开源代码已发布于：https://github.com/PlanarG/active-sl。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在大规模AI模型训练中，拟合缩放定律（scaling laws）本身成本极高，而如何以有限预算选择最具信息量的先导实验（pilot experiments）来准确外推至高成本目标区域（如超大模型或长训练时长），已成为一个关键的预算分配难题，而非传统预处理步骤；这是一个新兴且日益紧迫的资源感知型实验设计问题。
关键思路

将缩放定律拟合建模为预算感知的序贯实验设计问题，提出一种不确定性感知的主动选择策略：基于当前已运行实验的后验不确定性，动态优先选择对目标外推区域预测方差削减贡献最大的、成本效益最优的下一个实验（考虑异构计算成本），而非均匀采样或启发式固定设计。
其它亮点

在多样化缩放律基准任务（涵盖语言模型、视觉模型等）上系统评估；相比经典基于设计的方法（如网格搜索、拉丁超立方、最优设计D-optimality），平均仅用10%总训练预算即达到接近全集拟合的外推精度；开源完整代码（https://github.com/PlanarG/active-sl）；强调‘成本异构性’与‘目标导向外推’，区别于通用主动学习；值得深入的方向包括：与神经架构搜索联合优化、在线预算重分配机制、理论误差界分析。
相关研究

Active Learning for Model Selection (ICML 2021); Cost-Aware Active Learning (NeurIPS 2020); Optimal Experimental Design for Neural Scaling Laws (ICLR 2023 Workshop); The Deep Learning Scaling Law (arXiv:2208.07349); Chinchilla's Wild Hunt: Empirical Scaling Laws for Compute-Optimal Training (arXiv:2203.15556)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问