Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning

向作者提问

NEW

简介

顺序建模在离线强化学习中展现出了卓越的能力，其中决策变压器（DT）是最显著的代表之一，取得了显著的成功。然而，RL轨迹具有与传统序列（如文本或音频）不同的独特属性：（1）局部相关性，即根据马尔科夫决策过程（MDP），RL中的下一个状态在理论上仅由当前状态和动作决定，（2）全局相关性，即由于轨迹的时间连续性，每个步骤的特征与长期历史信息相关。在本文中，我们提出了一种新的动作序列预测器，名为Mamba决策制定者（MambaDM），其中Mamba预计将成为序列建模范例的有希望的替代方案，因为它有效地建模了多尺度依赖关系。特别地，我们引入了一个新的混合器模块，能够熟练地提取和整合输入序列的全局和局部特征，有效地捕捉RL数据集中的相互关系。广泛的实验表明，MambaDM在Atari和OpenAI Gym数据集中实现了最先进的性能。此外，我们在经验上研究了MambaDM的扩展规律，发现增加模型大小并不会带来性能改进，但将MambaDM的数据集量扩大2倍可以在Atari数据集上获得高达33.7％的得分提高。本文深入探讨了MambaDM在RL领域的序列建模能力，为未来健壮高效的决策系统的进一步发展铺平了道路。我们的代码将在https://github.com/AndyCao1125/MambaDM上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决强化学习（RL）中序列建模的挑战，尤其是如何同时捕捉局部相关性和全局相关性，以提高决策系统的效率和鲁棒性。
关键思路

MambaDM是一种新的序列建模方法，使用了一种称为混合器模块的新型结构，可以有效地提取和整合输入序列的全局和局部特征，从而更好地捕捉RL数据集中的相互关系。
其它亮点

论文使用Atari和OpenAI Gym数据集进行了广泛的实验，证明了MambaDM在RL领域中具有卓越的性能。此外，作者还通过实验证明，增加模型大小并不能带来性能提升，但将数据集规模扩大2倍可以在Atari数据集上获得高达33.7％的得分提升。作者已经开源了代码。
相关研究

近期的相关研究包括使用Transformer进行序列建模的研究，以及将深度学习应用于RL领域的研究。例如，Decision Transformer（DT）是一种在离线RL中表现出色的序列建模方法。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问