【标题】Structured World Belief for Reinforcement Learning in POMDP
【作者】Gautam Singh, Skand Peri, Junghyun Kim, Hyunseok Kim, Sungjin Ahn
【发表日期】2021.7.18
【论文链接】https://arxiv.org/pdf/2107.08577.pdf
【推荐理由】以对象为中心的世界模型提供了场景的结构化表示,可以成为强化学习和规划的重要支柱。然而,由于缺乏信念状态,现有的方法在部分可观察的环境中受到影响。本文提出了结构化世界信念,一种以对象为中心的信念状态学习和推理模型。通过序贯蒙特卡罗(SMC)推断,该信念状态提供了多个以对象为中心的场景假设。为了将SMC粒子的优点与对象表示相结合,本文还提出了一种新的以对象为中心的动力学模型,该模型考虑了对象持久性的诱导偏差。这使跟踪对象状态成为可能,即使对象状态长时间不可见。为了进一步促进在这种情况下的目标跟踪,允许提出的模型灵活地处理图像中的任何空间位置,这在以前的模型中是受到限制的。实验研究证明了以对象为中心的信念为过滤和生成提供了更准确、更稳健的性能。此外,本文还证明了结构化世界信念在提高强化学习、计划和监督推理性能方面的有效性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢