Model Merging Scaling Laws in Large Language Models

2025年09月29日
  • 简介
    我们研究了基于交叉熵度量的语言模型融合的经验性缩放规律。尽管模型融合在实践中被广泛使用,但目前仍缺乏一种能够定量预测增加专家数量或扩大模型规模时收益变化的规则。我们发现了一个简洁的幂律关系,将模型规模与专家数量联系起来:随着模型容量的增加,与模型大小相关的性能下限逐渐降低;而融合效果的尾部则明显表现出随着专家数量增多而收益递减的现象。该规律在同领域和跨领域场景中均成立,能够紧密拟合多种架构和方法(如平均法、TA、TIES、DARE)下的实测曲线,并解释了两个稳健的规律:大部分增益在加入少量专家时即已实现,且随着专家数量的增加,性能波动逐渐减小。基于此,我们提出了一个简单的理论,解释了为何增益大致按1/k的比例下降,并将性能下限和融合尾部行为与基础模型的特性以及不同领域间的多样性联系起来。这一规律使得预测性规划成为可能:可以估算达到目标损失所需的专家数量,判断何时应停止添加专家,并在固定预算下权衡是扩展基础模型还是增加专家数量——从而将模型融合从一种启发式做法转变为一种计算高效、可规划的多任务训练替代方案。这提示了一种分布式生成式人工智能的扩展原则:通过组合专业化模型可实现可预测的性能提升,为通往类人水平智能系统提供了一条互补路径。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决语言模型合并(model merging)缺乏定量规律指导的问题,即在合并多个专家模型或扩大模型规模时,无法准确预测性能收益。尽管模型合并被广泛应用于实践,但目前没有可量化的规则来解释随着专家数量增加或模型尺寸增大所带来的回报变化。这个问题在当前研究中尚未被系统地形式化,因此具有新颖性。
  • 关键思路
    提出一个紧凑的幂律公式来描述语言模型合并中的交叉熵下降趋势,该公式统一刻画了模型大小和专家数量对性能的影响:随着模型容量增加,性能下限(floor)降低;而随着专家数量k增加,增益大致按1/k衰减,表现出明显的边际递减效应。这一理论将合并效果与基础模型属性及领域多样性联系起来,使模型合并从经验操作转变为可预测、可规划的过程。相比现有工作,这是首次建立具有广泛适用性的经验定律。
  • 其它亮点
    实验覆盖多种架构和合并方法(如Average、TA、TIES、DARE),验证了该幂律在域内和跨域场景下均能紧密拟合实际损失曲线;揭示了两个稳健规律——大部分增益来自早期加入的少数专家,且合并结果的方差随专家数增加而减小;研究支持基于预算进行模型扩展与专家添加之间的权衡决策;未提及开源代码,但其可复现性强,为后续自动化模型集成与分布式AI设计提供了新方向。
  • 相关研究
    1. Merging Models with Fisher-Weighted Averaging 2. TIES: Merging Multiple Checkpoints for Scalable Ensemble Learning 3. DARE: Model Merging via Adaptive Response Ensemble 4. Task Arithmetic in Multimodal Models 5. Scaling Laws for Neural Language Models (Kaplan et al.) 6. Emergent Abilities of Large Language Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问