In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning

Proceedings of the 39th AAAI Conference on Artificial Intelligence (AAAI2025)
2024年12月12日
  • 简介
    离线基于偏好的强化学习(PbRL)通常分为两个阶段:首先,利用人类偏好来学习奖励模型,并为无奖励的离线数据集标注奖励;其次,通过优化所学奖励来进行离线强化学习以学习策略。然而,从轨迹级别的偏好反馈中准确建模逐步奖励存在固有的挑战。引入的奖励偏差,特别是对预测奖励的高估,会导致乐观的轨迹拼接,从而削弱离线强化学习阶段中至关重要的悲观机制。为了解决这一挑战,我们提出了用于离线PbRL的“数据集中轨迹回报正则化”(DTR),该方法利用条件序列建模来减轻在奖励偏差下学习不准确的轨迹拼接的风险。具体而言,DTR采用决策转换器和时差学习(TD-Learning)来平衡保持对行为策略的高度忠实与根据高奖励标签选择最优动作之间的关系。此外,我们引入了一种集成归一化技术,可以有效整合多个奖励模型,在奖励区分度和准确性之间取得平衡。在各种基准上的实证评估表明,DTR优于其他最先进的基线方法。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决离线偏好强化学习(PbRL)中,由于使用轨迹级别的偏好反馈来建模逐步奖励时引入的奖励偏差问题。这种偏差导致了乐观的轨迹拼接,从而削弱了离线强化学习阶段所需的悲观机制。这是一个在现有研究中已知但尚未得到充分解决的问题。
  • 关键思路
    关键思路是引入了一种称为In-Dataset Trajectory Return Regularization (DTR) 的方法,通过条件序列建模来减少因奖励偏差而学习到不准确的轨迹拼接的风险。DTR结合了Decision Transformer和TD-Learning,以平衡对行为策略的忠实度与根据高奖励标签选择最优动作的需求。此外,还引入了一种集成归一化技术,用于整合多个奖励模型,平衡奖励区分度和准确性之间的权衡。这一思路为解决奖励偏差提供了新的视角,并且改进了现有的离线PbRL框架。
  • 其它亮点
    论文的亮点包括:1) 提出了DTR方法,有效解决了离线PbRL中的奖励偏差问题;2) 使用了Decision Transformer和TD-Learning相结合的方法,确保了方法的有效性和创新性;3) 引入了集成归一化技术,提高了奖励模型的稳定性和准确性;4) 在多个基准数据集上进行了实证评估,证明了DTR相比其他先进基线方法的优越性;5) 提供了开源代码,便于后续研究者进行复现和进一步研究。
  • 相关研究
    最近在这个领域内,还有其他相关的研究,例如:1) 'Preference-based Reinforcement Learning: A Modular Approach' 探讨了模块化的方法来进行基于偏好的强化学习;2) 'Offline RL with Preference-based Reward Models' 研究了如何利用偏好模型进行离线强化学习;3) 'Deep Reinforcement Learning from Human Preferences' 深入研究了从人类偏好中学习深度强化学习模型的方法。这些研究共同推动了离线PbRL的发展,但DTR提出了新的解决方案,特别是在处理奖励偏差方面。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问