【标题】Reward Uncertainty for Exploration in Preference-based Reinforcement Learning

【作者团队】Xinran Liang, Katherine Shu, Kimin Lee, Pieter Abbeel

【发表日期】2022.5.24

【论文链接】https://arxiv.org/pdf/2205.12401.pdf

【推荐理由】将复杂的目标传达给强化学习 (RL) 智能体通常需要细致的奖励工程。 基于偏好的 RL 方法能够通过积极地结合人类反馈来学习基于人类偏好的更灵活的奖励模型。然而,在当前基于偏好的 RL 算法中,反馈效率低仍然是一个问题,因为定制人工反馈非常复杂。为了处理这个问题,以前的方法主要集中在改进查询选择和策略初始化上。本文提出了一种专门针对基于偏好的 RL 算法的探索方法。 本文的主要想法是通过基于学习奖励衡量新颖性来设计内在奖励。 具体来说,利用学习奖励模型集合中的分歧。 作者认为,学习奖励模型中的分歧反映了量身定制的人类反馈的不确定性,并且可能对探索有用。 我们的实验表明,学习奖励的不确定性带来的探索奖励提高了基于偏好的 RL 算法在 MetaWorld 基准中任务的反馈和样本效率。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除