Param$Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

向作者提问

NEW

简介

大型语言模型的后训练阶段对于提升指令跟随、推理能力以及与人类偏好的对齐等方面至关重要。然而，这一过程需要大量的高质量数据，并且存在过拟合等风险，同时由于每次基础模型更新后都需要重复进行后训练和评估，因此带来了显著的计算成本。本文提出了一种名为 $Param\Delta$ 的新方法，该方法通过将现有后训练模型的知识迁移到新更新的基础模型上，实现了零额外训练的后训练流程优化。通过计算后训练模型权重 ($\Theta_\text{post}$) 与基础模型权重 ($\Theta_\text{base}$) 之间的差异，并将其加到更新后的基础模型权重 ($\Theta'_\text{base}$) 上，我们定义了 $Param\Delta$ 模型为： $\Theta_{\text{Param}\Delta} = \Theta_\text{post} - \Theta_\text{base} + \Theta'_\text{base}$。令人惊讶的是，这种方法能够使新的基础模型具备后训练的能力，其性能接近直接后训练的结果。我们在 LLama3、Llama3.1、通义千问（Qwen）以及 DeepSeek 压缩模型上进行了分析。结果表明，$Param\Delta$ 模型能够有效复制传统的后训练效果。例如，从 70B 参数的 Llama3-inst、Llama3-base 和 Llama3.1-base 模型中获得的 $Param\Delta$ 模型，在平均性能上达到了 Llama3.1-inst 模型约 95% 的水平。$Param\Delta$ 为开放权重社区中的模型充分利用提供了新的思路，尤其是在基础模型和指令微调模型的检查点 readily available 且频繁更新的情况下，它提供了一个无需额外成本的框架，加速了模型开发的迭代周期。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决大型语言模型（LLM）后训练阶段的成本问题，包括数据需求、计算资源消耗以及可能的过拟合风险。这是一个现有问题，但通过提出无需额外训练的方法来解决它，具有一定的创新性。
关键思路

论文的关键思路是引入了$Param\Delta$方法，通过计算已后训练模型与基础模型之间的权重差异，并将这一差异应用到更新后的基础模型上，从而实现零成本的知识迁移。相比传统后训练方法，这种方法避免了重新训练的过程，大幅降低了计算开销和时间成本。
其它亮点

1. $Param\Delta$在多个模型（如Llama3、Qwen等）上进行了验证，表明其通用性和有效性；2. 实验结果表明，使用该方法生成的新模型性能接近直接后训练模型（约95%）；3. 论文强调了对开放权重社区的贡献，为频繁更新的基础模型提供了一种低成本迭代方案；4. 尚未提及是否开源代码，但实验设计详尽，涵盖了多种规模和类型的LLM。
相关研究

相关研究包括：1. LoRA（Low-Rank Adaptation），通过低秩分解优化微调过程；2. P-Tuning系列工作，专注于参数高效微调；3. DPO（Direct Preference Optimization），用于对齐人类偏好的方法；4. 其他知识蒸馏和迁移学习技术，例如DeepSeek-distilled模型的研究。这些方法均旨在降低大模型训练或调整的成本，但$Param\Delta$的独特之处在于完全避免了额外训练。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问