中国科学院|强化学习的因果驱动层次结构发现

【标题】Causality-driven Hierarchical Structure Discovery for Reinforcement Learning

【作者团队】Shaohui Peng, Xing Hu, Rui Zhang, Ke Tang, Jiaming Guo, Qi Yi, Ruizhi Chen等

【发表日期】2022.10.13

【论文链接】https://arxiv.org/pdf/2210.06964.pdf

【推荐理由】分层强化学习(HRL)在高质量层次结构(如子目标或选项)的指导下，有效地提高了智能体在稀疏奖励任务中的探索效率。然而，如何自动发现高质量的层次结构仍然是一个巨大的挑战。以往的HRL方法利用随机驱动的探索范式，由于探索效率低，难以发现复杂环境中的层次结构。为了解决这一问题，此文提出了CDHRL，一种因果驱动的层次强化学习框架，利用因果驱动的发现而不是随机驱动的探索，在复杂环境中有效地构建高质量的层次结构。关键见解是，环境变量之间的因果关系自然适合建模可达子目标及其依赖关系，可以完美指导构建高质量的层次结构。在2D-Minecraft和Eden这两个复杂环境中的结果表明，CDHRL使用因果驱动范式显著提高了探索效率。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

中国科学院|强化学习的因果驱动层次结构发现

评论