Compute Optimal Scaling of Skills: Knowledge vs Reasoning

2025年03月13日
  • 简介
    规模定律是大型语言模型(LLM)开发流程中的关键组成部分,最著名的应用是用于预测训练决策,例如“计算最优”地权衡参数数量和数据集大小,同时近期还涉及越来越多的其他重要决策。在本研究中,我们探讨了计算最优的扩展行为是否可能依赖于技能。具体而言,我们考察了基于知识和推理的技能,例如基于知识的问答和代码生成,并得出肯定的答案:规模定律确实依赖于技能。接下来,为了探究技能依赖型扩展是否是预训练数据组合的产物,我们对不同的数据组合进行了广泛的消融实验,结果表明,即使校正了数据组合的差异,知识和代码在扩展行为上仍表现出根本性的差异。最后,我们通过分析验证集的标准计算最优扩展关系,发现如果验证集定义不当,可能会根据其技能构成的不同,使计算最优的参数数量产生近50%的变化。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图验证计算最优(compute-optimal)的扩展行为是否依赖于模型技能,例如知识问答和代码生成等任务。这是一个新颖的问题,因为以往的研究主要关注整体扩展规律,而较少探讨不同技能下的差异。
  • 关键思路
    论文的关键思路是通过分析不同技能(如知识问答和代码生成)在扩展过程中的表现,揭示扩展定律的技能依赖性。此外,作者进一步研究了预训练数据混合比例对这种现象的影响,并证明即使校正数据混合差异,知识和代码任务仍表现出根本性的扩展行为差异。相比现有研究,这篇论文首次系统地将技能维度引入扩展定律分析中。
  • 其它亮点
    1. 提出了技能依赖性的扩展定律,并通过实验证明了其存在;2. 进行了广泛的预训练数据混合比例实验,以排除数据分布对结果的影响;3. 分析了验证集选择对计算最优参数规模的影响,发现错误配置可能导致参数规模偏差近50%;4. 实验涉及多个数据集,包括知识问答和代码生成相关数据,但未提及开源代码;5. 值得深入研究的方向包括如何优化特定技能的任务扩展策略以及更精细的验证集设计。
  • 相关研究
    近期相关研究包括:1. 'The Scaling Laws of Deep Learning' 探讨了模型参数、数据量与性能之间的关系;2. 'Pretraining Data Matters: A Study on Language Models' 研究了预训练数据组成对模型能力的影响;3. 'On the Expressivity of Foundation Models' 分析了基础模型在不同任务上的表达能力;4. 'Scaling Laws for Code Generation' 专注于代码生成任务的扩展规律。这些研究为本文提供了理论背景和技术支持。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问