Preference-Guided Reinforcement Learning for Efficient Exploration

简介

本文研究了基于偏好的强化学习（PbRL），允许强化学习（RL）代理从人类反馈中学习。当定义细粒度的奖励函数不可行时，这种方法尤其有价值。然而，在长时间和稀疏奖励的难度探索任务中，这种方法效率低下且不切实际。为了解决这个问题，我们引入了LOPE：基于轨迹偏好引导的在线学习框架，它可以提高难度探索任务中的探索效率。我们的想法是LOPE通过将人类反馈视为引导来直接调整在线探索的重点，避免从偏好中学习单独的奖励模型。具体来说，LOPE包括一个两步连续策略优化过程，包括基于信任区域的策略改进和偏好引导步骤。我们将偏好引导重新表述为一种新颖的轨迹状态边缘匹配问题，该问题最小化了首选轨迹和学习策略之间的最大平均差距距离。此外，我们提供了理论分析来表征性能改进的界限并评估了LOPE的有效性。在各种具有挑战性的难度探索环境中进行评估时，LOPE在收敛速度和整体性能方面优于几种最先进的方法。本研究使用的代码可在\url{https://github.com/buaawgj/LOPE}上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决强化学习中的探索效率问题，特别是在长期任务和稀疏奖励任务中。作者提出了一种基于偏好的强化学习框架，通过人类反馈来指导智能体的学习。
关键思路

LOPE是一种基于偏好的强化学习框架，能够提高探索效率。LOPE通过将人类反馈视为指导，直接调整在线探索的焦点，避免了从偏好中学习独立的奖励模型。
其它亮点

论文提出了一种新颖的基于轨迹的状态边际匹配方法，用于优化偏好引导步骤。作者进行了理论分析，并在多个具有挑战性的任务中评估了LOPE的性能。此外，作者提供了开源代码。
相关研究

近年来，基于偏好的强化学习已经成为研究热点。与LOPE类似的方法包括Preference-based Policy Optimization和Preference-based Actor-Critic。

Preference-Guided Reinforcement Learning for Efficient Exploration

提问交流

提问交流