- 简介本文研究了基于偏好的强化学习(PbRL),允许强化学习(RL)代理从人类反馈中学习。当定义细粒度的奖励函数不可行时,这种方法尤其有价值。然而,在长时间和稀疏奖励的难度探索任务中,这种方法效率低下且不切实际。为了解决这个问题,我们引入了LOPE:基于轨迹偏好引导的在线学习框架,它可以提高难度探索任务中的探索效率。我们的想法是LOPE通过将人类反馈视为引导来直接调整在线探索的重点,避免从偏好中学习单独的奖励模型。具体来说,LOPE包括一个两步连续策略优化过程,包括基于信任区域的策略改进和偏好引导步骤。我们将偏好引导重新表述为一种新颖的轨迹状态边缘匹配问题,该问题最小化了首选轨迹和学习策略之间的最大平均差距距离。此外,我们提供了理论分析来表征性能改进的界限并评估了LOPE的有效性。在各种具有挑战性的难度探索环境中进行评估时,LOPE在收敛速度和整体性能方面优于几种最先进的方法。本研究使用的代码可在\url{https://github.com/buaawgj/LOPE}上找到。
-
- 图表
- 解决问题本论文旨在解决强化学习中的探索效率问题,特别是在长期任务和稀疏奖励任务中。作者提出了一种基于偏好的强化学习框架,通过人类反馈来指导智能体的学习。
- 关键思路LOPE是一种基于偏好的强化学习框架,能够提高探索效率。LOPE通过将人类反馈视为指导,直接调整在线探索的焦点,避免了从偏好中学习独立的奖励模型。
- 其它亮点论文提出了一种新颖的基于轨迹的状态边际匹配方法,用于优化偏好引导步骤。作者进行了理论分析,并在多个具有挑战性的任务中评估了LOPE的性能。此外,作者提供了开源代码。
- 近年来,基于偏好的强化学习已经成为研究热点。与LOPE类似的方法包括Preference-based Policy Optimization和Preference-based Actor-Critic。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流