- 简介在人类反馈强化学习(RLHF)的背景下,奖励函数通常是通过人类进行成对比较的随机效用模型的最大似然估计来推导的。我们认为,学习奖励函数的问题是偏好聚合问题,主要属于社会选择理论的范畴。从这个角度来看,我们可以通过已有的公理来评估不同的聚合方法,检查这些方法是否符合或不符合众所周知的标准。我们证明了布拉德利-特里-卢斯模型及其广义化方法都未能满足基本公理。因此,我们开发了新的规则来学习具有强公理保证的奖励函数。从社会选择的角度来看,一个关键的创新是我们的问题具有线性结构,这极大地限制了可行规则的空间,并导致了我们所称的线性社会选择的新范式。
- 图表
- 解决问题本论文主要解决的问题是如何从人类反馈中学习奖励函数,通过社会选择理论提出了一种新的线性社会选择范式。
- 关键思路论文提出了一种新的线性社会选择范式,用于从人类反馈中学习奖励函数,通过该方法可以得到强大的公理保证。相比于现有的Bradley-Terry-Luce模型,该方法有更好的表现。
- 其它亮点论文通过实验验证了新方法的有效性,并与现有的Bradley-Terry-Luce模型进行了比较。论文还提供了开源代码,可以用于进一步研究。
- 在相关研究方面,最近也有其他学者在探索如何从人类反馈中学习奖励函数,例如“Learning from Human Preferences via Supervised Learning is Averse to Simple Models and Misleading”和“Preference-Based Policy Learning from Non-Expert Feedback”。
沙发等你来抢
去评论
评论
沙发等你来抢