UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function

简介

通过预训练数万亿个 token，大型语言模型（LLM）获得了文本生成的能力。然而，为了增强其实用性和减少潜在危害，监督微调（SFT）和对齐技术会依次应用于预训练模型。由于 SFT 和对齐技术在性质和目标函数上的不同，灾难性遗忘成为一个显著问题。为了解决这一问题，我们引入了统一微调（UFT），它通过隐式奖励函数将 SFT 和对齐整合到一个单一的训练阶段中，使用相同的目标和损失函数。实验结果表明，UFT 在仅使用指令调优数据时优于 SFT。此外，当将指令调优数据与对齐数据结合时，UFT 有效防止了这两个阶段之间的灾难性遗忘，并且明显优于依次应用 SFT 和对齐的方法。这一点在 **ifeval** 任务中的指令遵循和 **truthful-qa** 任务中的事实性方面得到了显著改进。所提出的通用微调框架 UFT 建立了一种高效且有效的预训练-UFT 范式，用于 LLM 的训练。
图表
解决问题

该论文试图解决在大规模语言模型（LLM）训练过程中，通过顺序应用监督微调（SFT）和对齐技术导致的灾难性遗忘问题。这是一个在当前深度学习和自然语言处理领域中日益突出的问题。
关键思路

论文提出了一种名为统一微调（UFT）的方法，该方法将SFT和对齐技术整合到一个单一的训练阶段中，使用相同的客观函数和损失函数，并通过隐式奖励函数来实现。这一方法旨在减少灾难性遗忘，同时提高模型在指令跟随和事实性任务上的表现。
其它亮点

实验结果显示，UFT在仅使用指令调优数据时就优于传统的SFT方法。当结合指令调优数据和对齐数据时，UFT能够有效防止灾难性遗忘，并在多个评估指标上显著优于顺序应用SFT和对齐的方法。论文使用了ifeval和truthful-qa数据集进行评估，但未提及代码是否开源。未来的工作可以进一步探索UFT在更多任务和数据集上的表现，以及如何优化隐式奖励函数的设计。
相关研究

最近在这个领域中，有几篇相关的研究值得关注： 1. 'Chain of Thought Prompting Elicits Reasoning in Large Language Models' - 探讨了通过链式思维提示来提升LLM的推理能力。 2. 'Training Verifiers to Solve Math Word Problems' - 研究了如何训练验证器来解决数学文字问题，以提高模型的准确性。 3. 'Aligning Text and Code Representations via Pre-training and Fine-tuning' - 提出了通过预训练和微调来对齐文本和代码表示的方法。 4. 'Mitigating Catastrophic Forgetting in Neural Networks' - 深入研究了神经网络中的灾难性遗忘问题及其缓解策略。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论