Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences

2024年03月04日
  • 简介
    本文通过系统比较人类反馈强化学习(RLHF)和直接偏好优化(DPO)两种范式,迈向更深入的理解从人类偏好中学习的方法。我们重点关注对数线性策略参数化和线性奖励函数的类别。为了比较这两种范式,我们首先推导出最小最大统计界限,对由RLHF和DPO引起的次优差距进行比较,假设能够准确解决优化问题的预言机。我们详细讨论了两种范式之间的相对比较,同时考虑样本量、策略和奖励类别维度以及正则化温度。此外,我们将分析扩展到近似优化设置,并为RLHF和DPO推导出指数衰减的收敛速度。接下来,我们分析了当真实奖励无法实现时的情况,并发现,虽然RLHF会产生一个恒定的额外误差,但通过相应地调整温度,DPO仍然保持着渐近衰减的差距。最后,我们将比较扩展到马尔可夫决策过程设置中,并通过精确优化推广了我们的结果。据我们所知,我们是第一个为RLHF和DPO提供这样比较分析的人。
  • 作者讲解
  • 图表
  • 解决问题
    比较强化学习从人类反馈和直接优化偏好两种范式之间的优劣,并提出解决方案。
  • 关键思路
    通过比较强化学习从人类反馈和直接优化偏好两种范式的最小最大统计界限,分析两种方法的优劣,并在近似优化设置下推导出指数衰减的收敛速度。
  • 其它亮点
    实验使用了loglinear策略参数化和线性奖励函数,同时考虑了样本量、策略和奖励类维度以及正则化温度等因素。在无法实现真实奖励的情况下,DPO通过调整温度可以保持渐近下降的差距。在马尔可夫决策过程设置下,推广了精确优化的结果。
  • 相关研究
    最近的相关研究包括“Deep Reinforcement Learning with Feedback-based Exploration”和“Preference-based Reinforcement Learning: A Comprehensive Survey”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问