- 简介通过预训练数万亿个 token,大型语言模型(LLM)获得了文本生成的能力。然而,为了增强其实用性和减少潜在危害,监督微调(SFT)和对齐技术会依次应用于预训练模型。由于 SFT 和对齐技术在性质和目标函数上的不同,灾难性遗忘成为一个显著问题。为了解决这一问题,我们引入了统一微调(UFT),它通过隐式奖励函数将 SFT 和对齐整合到一个单一的训练阶段中,使用相同的目标和损失函数。实验结果表明,UFT 在仅使用指令调优数据时优于 SFT。此外,当将指令调优数据与对齐数据结合时,UFT 有效防止了这两个阶段之间的灾难性遗忘,并且明显优于依次应用 SFT 和对齐的方法。这一点在 **ifeval** 任务中的指令遵循和 **truthful-qa** 任务中的事实性方面得到了显著改进。所提出的通用微调框架 UFT 建立了一种高效且有效的预训练-UFT 范式,用于 LLM 的训练。
- 图表
- 解决问题该论文试图解决在大规模语言模型(LLM)训练过程中,通过顺序应用监督微调(SFT)和对齐技术导致的灾难性遗忘问题。这是一个在当前深度学习和自然语言处理领域中日益突出的问题。
- 关键思路论文提出了一种名为统一微调(UFT)的方法,该方法将SFT和对齐技术整合到一个单一的训练阶段中,使用相同的客观函数和损失函数,并通过隐式奖励函数来实现。这一方法旨在减少灾难性遗忘,同时提高模型在指令跟随和事实性任务上的表现。
- 其它亮点实验结果显示,UFT在仅使用指令调优数据时就优于传统的SFT方法。当结合指令调优数据和对齐数据时,UFT能够有效防止灾难性遗忘,并在多个评估指标上显著优于顺序应用SFT和对齐的方法。论文使用了ifeval和truthful-qa数据集进行评估,但未提及代码是否开源。未来的工作可以进一步探索UFT在更多任务和数据集上的表现,以及如何优化隐式奖励函数的设计。
- 最近在这个领域中,有几篇相关的研究值得关注: 1. 'Chain of Thought Prompting Elicits Reasoning in Large Language Models' - 探讨了通过链式思维提示来提升LLM的推理能力。 2. 'Training Verifiers to Solve Math Word Problems' - 研究了如何训练验证器来解决数学文字问题,以提高模型的准确性。 3. 'Aligning Text and Code Representations via Pre-training and Fine-tuning' - 提出了通过预训练和微调来对齐文本和代码表示的方法。 4. 'Mitigating Catastrophic Forgetting in Neural Networks' - 深入研究了神经网络中的灾难性遗忘问题及其缓解策略。
沙发等你来抢
去评论
评论
沙发等你来抢