Preference-Guided Reinforcement Learning for Efficient Exploration

2024年07月09日
  • 简介
    本文研究了基于偏好的强化学习(PbRL),允许强化学习(RL)代理从人类反馈中学习。当定义细粒度的奖励函数不可行时,这种方法尤其有价值。然而,在长时间和稀疏奖励的难度探索任务中,这种方法效率低下且不切实际。为了解决这个问题,我们引入了LOPE:基于轨迹偏好引导的在线学习框架,它可以提高难度探索任务中的探索效率。我们的想法是LOPE通过将人类反馈视为引导来直接调整在线探索的重点,避免从偏好中学习单独的奖励模型。具体来说,LOPE包括一个两步连续策略优化过程,包括基于信任区域的策略改进和偏好引导步骤。我们将偏好引导重新表述为一种新颖的轨迹状态边缘匹配问题,该问题最小化了首选轨迹和学习策略之间的最大平均差距距离。此外,我们提供了理论分析来表征性能改进的界限并评估了LOPE的有效性。在各种具有挑战性的难度探索环境中进行评估时,LOPE在收敛速度和整体性能方面优于几种最先进的方法。本研究使用的代码可在\url{https://github.com/buaawgj/LOPE}上找到。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决强化学习中的探索效率问题,特别是在长期任务和稀疏奖励任务中。作者提出了一种基于偏好的强化学习框架,通过人类反馈来指导智能体的学习。
  • 关键思路
    LOPE是一种基于偏好的强化学习框架,能够提高探索效率。LOPE通过将人类反馈视为指导,直接调整在线探索的焦点,避免了从偏好中学习独立的奖励模型。
  • 其它亮点
    论文提出了一种新颖的基于轨迹的状态边际匹配方法,用于优化偏好引导步骤。作者进行了理论分析,并在多个具有挑战性的任务中评估了LOPE的性能。此外,作者提供了开源代码。
  • 相关研究
    近年来,基于偏好的强化学习已经成为研究热点。与LOPE类似的方法包括Preference-based Policy Optimization和Preference-based Actor-Critic。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问