WPO: Enhancing RLHF with Weighted Preference Optimization

向作者提问

NEW

简介

本文提出了一种新的策略，通过使用离线偏好数据模拟在线学习，从而缓解了离线偏好优化中存在的问题。我们的加权偏好优化（WPO）方法通过根据当前策略下的偏好对偏好对进行重新加权，使离线数据更接近在线数据。该方法不仅解决了分布差异问题，还在不增加成本的情况下增强了优化过程。作者在Alpaca Eval 2和MT-bench等指令跟随基准测试上验证了该方法。WPO不仅在Alpaca Eval 2上比直接偏好优化（DPO）提高了高达5.6％的性能，而且在基于Llama-3-8B-Instruct的长度控制胜率方面，以48.6％的成绩击败了GPT-4-turbo，成为排行榜上最强的8B模型。作者将在https://github.com/wzhouad/WPO发布代码和模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文旨在通过RLHF方法解决大型语言模型（LLMs）与人类价值观之间的差距问题，特别是针对离线偏好优化中存在的分布差距问题。
关键思路

关键思路：论文提出一种名为Weighted Preference Optimization (WPO)的方法，通过重新加权偏好对来模拟在线学习过程，从而缓解离线偏好优化中的分布差距问题。该方法不仅提高了优化过程的效率，还通过适应当前策略下的偏好对数据，更加接近在线数据。
其它亮点

亮点：论文在Alpaca Eval 2和MT-bench等指令跟随基准测试中验证了WPO方法的有效性。实验结果表明，WPO方法在Alpaca Eval 2上的表现比Direct Preference Optimization (DPO)高出5.6%，在Llama-3-8B-Instruct上表现出色，赢得了48.6%的长度控制胜率，成为排行榜上最强的8B模型。论文还开源了代码和模型。
相关研究

相关研究：最近的相关研究包括《Guiding Language Generation with Explanations》、《Rewarding Impact-Sensitive Actions in Deep Reinforcement Learning》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问