- 简介在线和离线的强化学习人类反馈方法(例如PPO和DPO)在将人工智能与人类偏好对齐方面取得了极大的成功。尽管它们成功了,但现有的方法存在一个根本问题,即它们的最优解高度依赖于任务(即对于分布外(OOD)任务不具有鲁棒性)。在这里,我们通过提出自我改进鲁棒性优化(SRPO)来解决这一挑战,这是一个实用的、数学原理的离线强化学习人类反馈框架,完全具有任务变化的鲁棒性。 SRPO的关键思想是将从人类偏好中学习的问题转化为自我改进过程,这可以在敌对的方式下通过最小-最大目标数学表达。这个优化问题的解决方案与训练任务无关,因此它对任务的变化具有鲁棒性。然后,我们展示了这个目标可以重新表达为一个非敌对的离线损失形式,可以使用标准的监督优化技术进行规模化优化,而不需要奖励模型和在线推断。我们展示了SRPO在AI胜率(WR)方面相对于人类(GOLD)的完成情况的有效性。特别是,当在OOD XSUM数据集上评估SRPO时,在5次自我修订后,它的表现优于著名的DPO,达到90%的胜率。
-
- 图表
- 解决问题论文旨在解决在线和离线RLHF方法在面对不同任务时解决方案高度依赖任务的问题,提出了一种完全具有鲁棒性的离线RLHF框架SRPO。
- 关键思路SRPO将学习人类偏好的问题视为自我改进过程,通过最小最大化目标来联合优化自我改进策略和生成策略,从而实现对任务变化的鲁棒性。
- 其它亮点通过实验表明,SRPO在面对OOD任务时比DPO表现更好,实现了90%的胜率。论文提出的离线RLHF框架不需要奖励模型和在线推断,可以使用标准的监督优化技术进行大规模优化。论文还提供了实验数据集和代码。
- 相关研究包括在线和离线RLHF方法,如PPO和DPO等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流