A Minimaximalist Approach to Reinforcement Learning from Human Feedback

2024年01月08日
  • 简介
    我们提出了“自我对抗偏好优化”(SPO)算法,用于从人类反馈中进行强化学习。我们的方法是极简主义的,因为它不需要训练奖励模型,也不需要不稳定的对抗训练,因此实现起来相对简单。我们的方法是极大主义的,因为它可以证明处理非马尔可夫、不传递和随机偏好,同时对于困扰离线方法的复合误差具有鲁棒性。为了实现前面的优点,我们借鉴了“极小化极大赢家”(MW)的概念,这是社会选择理论文献中的一种偏好聚合概念,将从偏好中学习的过程视为两个策略之间的零和博弈。通过利用这个游戏的对称性,我们证明了,我们可以简单地让单个代理程序自我对抗,而不是使用传统的技术来对抗两个策略来计算MW,从而保持强大的收敛性保证。实际上,这相当于从一个策略中采样多个轨迹,要求评估者或偏好模型进行比较,然后使用胜利的比例作为特定轨迹的奖励。我们证明,在一系列连续控制任务中,我们能够比基于奖励模型的方法更有效地学习,同时保持对不传递和随机偏好的鲁棒性,这在聚合人类判断时经常发生。
  • 图表
  • 解决问题
    论文旨在解决从人类反馈中进行强化学习的问题。作者试图通过建立一个Minimax Winner(MW)的概念来解决非马尔可夫、不可传递和随机偏好的问题。
  • 关键思路
    论文的关键思路是建立Minimax Winner(MW)的概念,将学习从偏好中进行建模的问题转化为两个策略之间的零和博弈。通过利用这个游戏的对称性,论文证明了可以通过让单个代理程序自我对弈来计算MW,而不是传统的对决两个策略。这种方法可以更有效地学习,同时保持对不可传递和随机偏好的鲁棒性。
  • 其它亮点
    论文的亮点包括:1.提出了一个新的算法SPO来解决从人类反馈中进行强化学习的问题;2.通过建立Minimax Winner(MW)的概念,论文可以处理非马尔可夫、不可传递和随机偏好;3.相比于基于奖励模型的方法,SPO可以更有效地学习;4.论文在一系列连续控制任务中进行了实验,并证明了SPO的有效性。
  • 相关研究
    在这个领域,还有一些相关的研究,例如“Deep Reinforcement Learning from Human Preferences”和“Reinforcement Learning from Human Preferences with Anonymous Feedback”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论