【标题】Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning
【作者团队】Deyao Zhu, Li Erran Li, Mohamed Elhoseiny
【发表日期】2022.6.9
【论文链接】https://arxiv.org/pdf/2206.04384.pdf
【推荐理由】基于模型的强化学习中的世界模型通常会面临不切实际的长期预测问题,由于预测误差随时间步长累积而产生的复合误差。最近在图结构世界模型中的研究通过构建一个图来表示环境来提高长期的推理能力,但它们是在目标条件下设计的,无法在没有外部给定目标状态的传统强化学习环境中引导agent最大化情节回报。为此,本文通过构建基于有向图的马尔可夫决策过程(MDP)来设计离线强化学习中的图结构世界模型,并将奖励分配给每个有向边作为原始连续环境的抽象。由于与原始环境相比,该世界模型具有较小且有限的状态/动作空间,因此易用值迭代来估计图上的状态值并找出最佳未来。该世界模型被称为值记忆图 (VMG),它可以自行提供具有高价值的所需目标。VMG 可用于指导通过监督学习训练的低级目标条件策略,以最大化情节回报。在D4RL 基准的实验表明,VMG 在长期推理能力至关重要的几个任务中优于最先进的方法。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢