【标题】Successor Feature Landmarks for Long-Horizon Goal-Conditioned Reinforcement Learning

【作者团队】Christopher Hoang, Sungryull Sohn, Jongwook Choi, Wilka Carvalho, Honglak Lee

【发表日期】2021.11.18

【论文链接】https://arxiv.org/pdf/2111.09858.pdf

【推荐理由】在现实世界中动作通常需要智能体了解复杂环境,并应用这种理解来实现广泛的目标。其被称为目标条件强化学习(GCRL)的问题对于长期目标来说尤为具有挑战性。现有的方法通过使用基于图的规划算法来增强目标条件策略来解决此问题。然而,其很难扩展到大型、高维的状态空间,并假设能够访问有效收集训练数据的探索机制。本文引入后续特征标志(SFL)用于探索大型高维环境的框架,以获得能够胜任任何目标的策略。SFL利用后续特征(SF)捕捉过渡动态的能力,通过估计状态新颖性来推动探索,并通过将状态空间抽象为非参数的基于地标的图形来实现高级规划。本文应用SF直接计算地标间遍历的目标条件策略,使用该策略执行计划,在探索的状态空间边缘“前沿”地标。在MiniGrid和ViZDoom上的实验表明,SFL能够有效地探索大型高维状态空间,并在长期GCRL任务上优于最先进的基线。

内容中包含的图片若涉及版权问题,请及时与我们联系删除