Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL

2024年06月08日
  • 简介
    虽然使用Transformer架构进行条件序列建模在处理离线强化学习任务方面表现出了有效性,但是它在处理超出分布范围的状态和动作时仍然存在困难。现有的工作尝试通过使用学习策略的数据增强或使用基于价值的强化学习算法添加额外的约束来解决这个问题。然而,这些研究仍然无法克服以下挑战:(1)未充分利用历史时间步之间的时间信息,(2)忽视状态、动作和返回点(RTG)之间的局部内部关系,(3)过度拟合带有噪声标签的次优轨迹。为了解决这些挑战,我们提出了Decision Mamba(DM),一种新颖的多粒度状态空间模型(SSM)和自适应策略学习策略。DM通过使用mamba架构明确地对历史隐藏状态进行建模以提取时间信息。为了捕捉状态-动作-RTG三元组之间的关系,设计了一种细粒度SSM模块,并将其集成到mamba的原始粗粒度SSM中,从而得到了专门用于离线强化学习的新型mamba架构。最后,为了缓解噪声轨迹上的过度拟合问题,提出了一种自适应策略,通过使用渐进正则化来使策略进化,以优化次优动作,从而提高其对嘈杂演示的鲁棒性。在各种任务上的大量实验证明,DM明显优于其他基线。
  • 作者讲解
  • 图表
  • 解决问题
    解决离线强化学习中处理分布外状态和动作的问题,同时解决历史时间信息、局部状态关系和过拟合等挑战。
  • 关键思路
    提出了Decision Mamba(DM),一种新的多粒度状态空间模型(SSM)和自我进化策略,可以显式地模拟历史隐藏状态,提取时间信息,并设计了细粒度SSM模块来捕获状态-动作-RTG三元组之间的关系,从而提高离线RL的性能。
  • 其它亮点
    DM在各种任务中表现出比其他基线方法更好的性能。论文提供了实验细节和数据集信息,并开源了代码。值得进一步研究的工作包括如何在实践中应用DM以及如何将其扩展到其他领域。
  • 相关研究
    已有的工作尝试通过学习策略的数据增强或使用基于价值的RL算法添加额外的约束来解决这个问题。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问