【标题】Hierarchical Reinforcement Learning under Mixed Observability

【作者团队】Hai Nguyen, Zhihan Yang, Andrea Baisero, Xiao Ma

【发表日期】2022.4.2

【论文链接】https://arxiv.org/pdf/2204.00898.pdf

【推荐理由】混合可观察马尔可夫决策过程 (MOMDP) 框架对许多机器人领域进行建模,其中一些状态变量是完全可观察的,而另一些则不是。 本文确定了一个重要的MOMDP子类,它定义为行为如何影响状态的完全可观察的组件,以及这些行为又如何影响部分可观察的组件和奖励。这种独特的特性允许采用两级分层方法,称之为混合可观测性下的分层强化学习(HILMO),它将部分可观察性限制在顶层,而底层保持完全可观察性,从而实现更高的学习效率。 顶层产生期望的目标,由底层达到,直到任务解决。作者进一步发展了理论保证,以表明方法可以在温和的假设下实现最优和准最优行为。长期连续控制任务的经验结果证明了我们的方法在提高成功率、样本效率方面的有效性。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除