- 简介概率状态空间模型(SSM)对于从高维、部分信息中进行强化学习(RL)至关重要,因为它们提供了控制的简洁表示。然而,它们缺乏最近确定性SSM(如S4或Mamba)的计算效率。我们提出了KalMamba,一种有效的架构,用于学习将概率SSM的优点与确定性SSM的可扩展性相结合的RL表示。KalMamba利用Mamba在潜在空间中学习线性高斯SSM的动态参数。在这个潜在空间中的推理相当于标准的卡尔曼滤波和平滑。我们使用类似于Mamba的并行关联扫描实现这些操作,以获得一个基于原则的、高效的、可扩展的概率SSM。我们的实验表明,KalMamba在RL中与最先进的SSM方法竞争,同时显著提高了计算效率,特别是在更长的交互序列上。
-
- 图表
- 解决问题KalMamba论文提出了一种有效的架构,将概率状态空间模型(SSMs)与最近的确定性SSMs相结合,以提高强化学习(RL)中的计算效率。
- 关键思路KalMamba利用Mamba在潜在空间中学习线性高斯SSM的动态参数,利用标准卡尔曼滤波和平滑进行潜在空间中的推断,使用并行联想扫描实现这些操作,从而获得一个基于概率的高效和可扩展的SSM。
- 其它亮点KalMamba在强化学习中与最先进的SSM方法相竞争,同时显着提高了计算效率,特别是在较长的交互序列上。论文使用了多个数据集进行实验,并提供了开源代码。
- 最近在这个领域中,还有一些相关的研究,例如S4和Mamba。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流