Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning

2024年06月04日
  • 简介
    顺序建模在离线强化学习中展现出了卓越的能力,其中决策变压器(DT)是最显著的代表之一,取得了显著的成功。然而,RL轨迹具有与传统序列(如文本或音频)不同的独特属性:(1)局部相关性,即根据马尔科夫决策过程(MDP),RL中的下一个状态在理论上仅由当前状态和动作决定,(2)全局相关性,即由于轨迹的时间连续性,每个步骤的特征与长期历史信息相关。在本文中,我们提出了一种新的动作序列预测器,名为Mamba决策制定者(MambaDM),其中Mamba预计将成为序列建模范例的有希望的替代方案,因为它有效地建模了多尺度依赖关系。特别地,我们引入了一个新的混合器模块,能够熟练地提取和整合输入序列的全局和局部特征,有效地捕捉RL数据集中的相互关系。广泛的实验表明,MambaDM在Atari和OpenAI Gym数据集中实现了最先进的性能。此外,我们在经验上研究了MambaDM的扩展规律,发现增加模型大小并不会带来性能改进,但将MambaDM的数据集量扩大2倍可以在Atari数据集上获得高达33.7%的得分提高。本文深入探讨了MambaDM在RL领域的序列建模能力,为未来健壮高效的决策系统的进一步发展铺平了道路。我们的代码将在https://github.com/AndyCao1125/MambaDM上提供。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决强化学习(RL)中序列建模的挑战,尤其是如何同时捕捉局部相关性和全局相关性,以提高决策系统的效率和鲁棒性。
  • 关键思路
    MambaDM是一种新的序列建模方法,使用了一种称为混合器模块的新型结构,可以有效地提取和整合输入序列的全局和局部特征,从而更好地捕捉RL数据集中的相互关系。
  • 其它亮点
    论文使用Atari和OpenAI Gym数据集进行了广泛的实验,证明了MambaDM在RL领域中具有卓越的性能。此外,作者还通过实验证明,增加模型大小并不能带来性能提升,但将数据集规模扩大2倍可以在Atari数据集上获得高达33.7%的得分提升。作者已经开源了代码。
  • 相关研究
    近期的相关研究包括使用Transformer进行序列建模的研究,以及将深度学习应用于RL领域的研究。例如,Decision Transformer(DT)是一种在离线RL中表现出色的序列建模方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问