- 简介“带偏好反馈的土匪模型”为仅允许成对比较而不是直接查询数值的未知目标函数优化提供了强有力的工具。该模型允许将人类反馈纳入在线推断和优化,并已被用于微调大型语言模型的系统中。在简化的线性目标函数或限制实际兴趣的有限小域设置中,该问题已经被很好地理解。接下来,我们考虑无限域和非线性(核化)奖励。在这种情况下,选择一对行动是非常具有挑战性的,并且需要在两个层面上平衡探索和开发:在一对行动内部以及在算法的迭代中。我们提出了MAXMINLCB算法,它将这种权衡模拟为零和斯塔克伯格博弈,并选择信息量大且产生有利奖励的行动对。MAXMINLCB算法始终优于现有算法,并满足任何时候的速率最优遗憾保证。这是由于我们的新型基于偏好的置信序列用于核化逻辑估计量。
- 图表
- 解决问题解决问题:研究如何在无限域和非线性奖励的情况下,使用偏好反馈来优化未知目标函数。
- 关键思路关键思路:提出了一种基于零和Stackelberg博弈的算法MAXMINLCB,平衡了探索和开发,并使用偏好置信序列进行核化逻辑估计。
- 其它亮点亮点:MAXMINLCB算法在实验中表现出了优越性,并满足了任意有效的速率最优遗憾保证。论文使用了新颖的偏好置信序列和核化逻辑估计方法。
- 相关研究:之前的研究主要集中在线性目标函数或有限小域的简化情况下,本文则提出了一种适用于无限域和非线性奖励的算法。
沙发等你来抢
去评论
评论
沙发等你来抢