- 简介在线和离线的强化学习人类反馈方法,如PPO和DPO,已经在将AI与人类偏好对齐方面取得了极大的成功。尽管它们很成功,但现有的方法存在一个根本性问题,即它们的最优解高度依赖于任务(即对于分布外(OOD)任务不具有鲁棒性)。在这里,我们通过提出自我改进鲁棒偏好优化SRPO来解决这一挑战,这是一个实用的、基于数学原理的离线RLHF框架,完全具有对任务变化的鲁棒性。SRPO的关键思想是将从人类偏好中学习的问题视为一个自我改进的过程,可以在对抗性的方式下通过最小-最大目标来数学表达自我改进策略和生成策略的联合优化。这个优化问题的解决方案独立于训练任务,因此它对任务的变化具有鲁棒性。然后,我们展示了这个目标可以通过非对抗性的离线损失形式来重新表达,这可以在规模上使用标准的监督优化技术进行优化,而不需要奖励模型和在线推理。我们展示了SRPO在AI胜率(WR)方面与人类(GOLD)完成相比的有效性。特别是,当SRPO在OOD XSUM数据集上进行评估时,在5次自我修订后,它在90%的WR下明显优于著名的DPO,超出15%。
- 图表
- 解决问题解决问题:论文试图解决什么问题,或者验证什么假设?这是否是一个新问题?
- 关键思路关键思路:论文中解决问题的方案关键思路是什么?相比当前这个领域的研究状况,这篇论文的思路有什么新意?
- 其它亮点其他亮点:论文提出了Self-Improving Robust Preference Optimization SRPO框架,通过自我改进的方式,实现对人类偏好的学习,并且完全能够应对任务变化的鲁棒性。该框架的优化目标可以转化为一个非对抗的离线损失函数,无需奖励模型和在线推理,可以使用标准的监督优化技术进行大规模优化。实验结果表明,SRPO在ODD数据集上的AI胜率高于DPO 15%。
- 相关研究:最近在这个领域中,还有哪些相关的研究被进行?能否列举一些相关研究的论文标题?


提问交流