- 简介本文提出了一种新的策略,通过使用离线偏好数据模拟在线学习,从而缓解了离线偏好优化中存在的问题。我们的加权偏好优化(WPO)方法通过根据当前策略下的偏好对偏好对进行重新加权,使离线数据更接近在线数据。该方法不仅解决了分布差异问题,还在不增加成本的情况下增强了优化过程。作者在Alpaca Eval 2和MT-bench等指令跟随基准测试上验证了该方法。WPO不仅在Alpaca Eval 2上比直接偏好优化(DPO)提高了高达5.6%的性能,而且在基于Llama-3-8B-Instruct的长度控制胜率方面,以48.6%的成绩击败了GPT-4-turbo,成为排行榜上最强的8B模型。作者将在https://github.com/wzhouad/WPO发布代码和模型。
-
- 图表
- 解决问题解决问题:论文旨在通过RLHF方法解决大型语言模型(LLMs)与人类价值观之间的差距问题,特别是针对离线偏好优化中存在的分布差距问题。
- 关键思路关键思路:论文提出一种名为Weighted Preference Optimization (WPO)的方法,通过重新加权偏好对来模拟在线学习过程,从而缓解离线偏好优化中的分布差距问题。该方法不仅提高了优化过程的效率,还通过适应当前策略下的偏好对数据,更加接近在线数据。
- 其它亮点亮点:论文在Alpaca Eval 2和MT-bench等指令跟随基准测试中验证了WPO方法的有效性。实验结果表明,WPO方法在Alpaca Eval 2上的表现比Direct Preference Optimization (DPO)高出5.6%,在Llama-3-8B-Instruct上表现出色,赢得了48.6%的长度控制胜率,成为排行榜上最强的8B模型。论文还开源了代码和模型。
- 相关研究:最近的相关研究包括《Guiding Language Generation with Explanations》、《Rewarding Impact-Sensitive Actions in Deep Reinforcement Learning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流