- 简介大型语言模型的后训练阶段对于提升指令跟随、推理能力以及与人类偏好的对齐等方面至关重要。然而,这一过程需要大量的高质量数据,并且存在过拟合等风险,同时由于每次基础模型更新后都需要重复进行后训练和评估,因此带来了显著的计算成本。本文提出了一种名为 $Param\Delta$ 的新方法,该方法通过将现有后训练模型的知识迁移到新更新的基础模型上,实现了零额外训练的后训练流程优化。通过计算后训练模型权重 ($\Theta_\text{post}$) 与基础模型权重 ($\Theta_\text{base}$) 之间的差异,并将其加到更新后的基础模型权重 ($\Theta'_\text{base}$) 上,我们定义了 $Param\Delta$ 模型为: $\Theta_{\text{Param}\Delta} = \Theta_\text{post} - \Theta_\text{base} + \Theta'_\text{base}$。令人惊讶的是,这种方法能够使新的基础模型具备后训练的能力,其性能接近直接后训练的结果。我们在 LLama3、Llama3.1、通义千问(Qwen)以及 DeepSeek 压缩模型上进行了分析。结果表明,$Param\Delta$ 模型能够有效复制传统的后训练效果。例如,从 70B 参数的 Llama3-inst、Llama3-base 和 Llama3.1-base 模型中获得的 $Param\Delta$ 模型,在平均性能上达到了 Llama3.1-inst 模型约 95% 的水平。$Param\Delta$ 为开放权重社区中的模型充分利用提供了新的思路,尤其是在基础模型和指令微调模型的检查点 readily available 且频繁更新的情况下,它提供了一个无需额外成本的框架,加速了模型开发的迭代周期。
-
- 图表
- 解决问题该论文试图解决大型语言模型(LLM)后训练阶段的成本问题,包括数据需求、计算资源消耗以及可能的过拟合风险。这是一个现有问题,但通过提出无需额外训练的方法来解决它,具有一定的创新性。
- 关键思路论文的关键思路是引入了$Param\Delta$方法,通过计算已后训练模型与基础模型之间的权重差异,并将这一差异应用到更新后的基础模型上,从而实现零成本的知识迁移。相比传统后训练方法,这种方法避免了重新训练的过程,大幅降低了计算开销和时间成本。
- 其它亮点1. $Param\Delta$在多个模型(如Llama3、Qwen等)上进行了验证,表明其通用性和有效性;2. 实验结果表明,使用该方法生成的新模型性能接近直接后训练模型(约95%);3. 论文强调了对开放权重社区的贡献,为频繁更新的基础模型提供了一种低成本迭代方案;4. 尚未提及是否开源代码,但实验设计详尽,涵盖了多种规模和类型的LLM。
- 相关研究包括:1. LoRA(Low-Rank Adaptation),通过低秩分解优化微调过程;2. P-Tuning系列工作,专注于参数高效微调;3. DPO(Direct Preference Optimization),用于对齐人类偏好的方法;4. 其他知识蒸馏和迁移学习技术,例如DeepSeek-distilled模型的研究。这些方法均旨在降低大模型训练或调整的成本,但$Param\Delta$的独特之处在于完全避免了额外训练。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流