- 简介大型语言模型(LLMs)在各种任务上表现良好,但将它们与人类演示对齐是具有挑战性的。最近,出现了无强化学习(RL)的方法,如直接偏好优化(DPO),提供了更好的稳定性和可扩展性,同时保持相对于基于RL的方法的竞争性能。但是,虽然无RL的方法提供了令人满意的性能,但它们需要大量数据来开发强大的监督微调(SFT)模型,并需要额外的步骤来在偏好数据集上微调此模型,这限制了它们的实用性和可扩展性。在本文中,我们介绍了三重偏好优化(TPO),这是一种新的偏好学习方法,旨在将LLM与三个偏好对齐,而无需单独的SFT步骤,并且使用更少的数据。通过实践实验和理论分析的结合,我们展示了TPO作为单步对齐策略的有效性。具体而言,我们使用TPO直接在UltraFeedback数据集上微调Phi-2(2.7B)和Mistral(7B)模型,相对于通过其他方法(如SFT、DPO、KTO、IPO、CPO和ORPO)对齐的模型,获得了卓越的结果。此外,TPO在没有SFT组件的情况下的表现导致MT-Bench分数显著提高,相对于SFT和DPO分别增加了+1.27和+0.63。此外,TPO在Open LLM Leaderboard基准测试中表现出更高的平均准确性,比DPO和SFT分别高出4.2%和4.97%。我们的代码可在https://github.com/sahsaeedi/triple-preference-optimization上公开获取。
- 图表
- 解决问题论文旨在解决如何将大型语言模型与人类演示相匹配的问题,提出了一种新的偏好学习方法Triple Preference Optimization (TPO)。
- 关键思路TPO是一种单步对齐策略,可以在不需要单独的监督微调步骤和更少的数据的情况下,将LLM与三个偏好对齐。通过实验和理论分析,证明了TPO的有效性。
- 其它亮点论文通过实验展示了TPO相对于其他方法的优越性,包括SFT、DPO、KTO、IPO、CPO和ORPO。此外,TPO在Open LLM Leaderboard基准测试中表现出更高的平均准确率,超过DPO和SFT 4.2%和4.97%。论文提供了开源代码。
- 最近在这个领域中,与本文相关的研究包括Direct Preference Optimization (DPO)、Supervised Fine-Tuned (SFT)等方法。
沙发等你来抢
去评论
评论
沙发等你来抢