GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning

2024年05月27日
  • 简介
    离线强化学习(Offline RL)面临的挑战是从静态数据集中学习有效的决策策略,而无需进行任何在线交互。数据增强技术,如噪声注入和数据合成,旨在通过平滑学习的状态-动作区域来改善Q函数逼近。然而,这些方法通常无法直接提高离线数据集的质量,导致结果次优。为此,我们介绍了一种新颖的生成数据增强方法——Generative Trajectory Augmentation(GTA),旨在通过增强轨迹的高奖励性和动态合理性来丰富离线数据。GTA在数据增强框架内应用扩散模型。GTA部分地给原始轨迹添加噪声,然后通过放大回报值进行无分类器引导的去噪处理。我们的结果表明,作为一种通用的数据增强策略,GTA提高了广泛使用的离线RL算法在密集和稀疏奖励设置下的性能。此外,我们对GTA增强的数据进行了质量分析,并证明了GTA提高了数据的质量。我们的代码可在https://github.com/Jaewoopudding/GTA找到。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决离线强化学习(Offline RL)中数据不足的问题,提出了一种新的数据增强方法——GTA,旨在通过增强轨迹的奖励和动态可信度来丰富离线数据集。
  • 关键思路
    GTA是一种基于扩散模型的生成式数据增强方法,通过在原始轨迹上加入噪声,再通过放大回报值的条件引导进行去噪,从而提高数据集的质量。相较于现有的数据增强方法,GTA在离线RL领域中提出了新的思路。
  • 其它亮点
    论文通过实验验证了GTA方法在稠密和稀疏奖励设置下提高离线RL算法性能的有效性,并对GTA增强后的数据进行了质量分析,证明GTA方法能够提高数据集的质量。论文提供了开源代码。
  • 相关研究
    在近期的研究中,也有其他学者探索了离线RL数据增强的方法。例如,论文中提到的数据合成和噪声注入方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问