Mastering Memory Tasks with World Models

2024年03月07日
  • 简介
    目前基于模型的强化学习 (MBRL) 代理在处理长期依赖方面存在困难。这限制了它们有效解决涉及动作和结果之间存在时间间隔或需要回忆远距离观察来指导当前动作的任务的能力。为了改善时间上的连贯性,我们将一种新的状态空间模型 (SSM) 家族集成到 MBRL 代理的世界模型中,提出了一种新方法,即 Recall to Imagine (R2I)。这种集成旨在增强长期记忆和长期视野的信用分配。通过一系列多样化的示范任务,我们系统地证明了 R2I 不仅在具有挑战性的记忆和信用分配 RL 任务(如 BSuite 和 POPGym)方面建立了新的最先进水平,而且在复杂的记忆领域 Memory Maze 中展示了超人类表现。同时,它在经典 RL 任务(如 Atari 和 DMC)中保持了相当的表现,表明了我们方法的普适性。我们还展示了 R2I 比最先进的 MBRL 方法 DreamerV3 更快,导致更快的墙时收敛。
  • 图表
  • 解决问题
    解决问题:论文试图解决长期依赖问题,提高模型驱动强化学习代理的长期记忆和长期奖励分配能力。
  • 关键思路
    关键思路:论文通过将一种新的状态空间模型集成到模型驱动强化学习代理的世界模型中,提出了一种名为R2I的新方法,旨在增强长期记忆和长期奖励分配能力。
  • 其它亮点
    其他亮点:论文通过一系列任务的实验,系统地证明了R2I在具有挑战性的记忆和奖励分配任务中建立了新的最先进水平,并在复杂的记忆迷宫任务中展示了超人类表现。同时,在经典的强化学习任务中也表现出可比较的性能。论文还展示了R2I比最先进的模型驱动强化学习方法DreamerV3更快。
  • 相关研究
    相关研究:最近的相关研究包括DreamerV3和BSuite。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论