【标题】Outcome-directed Reinforcement Learning by Uncertainty & Temporal Distance-Aware Curriculum Goal Generation

【发表日期】2022.11.11

【论文链接】https://openreview.net/pdf?id=v69itrHLEu

【推荐理由】目前的强化学习(RL)在解决一个具有挑战性的探索问题时经常受到影响,因为在这个问题上很少能看到期望的结果或高回报。即使课程RL,一个通过提出一系列代用任务来解决复杂任务的框架,显示出合理的结果,但由于缺乏一种机制,在没有任何先验领域知识的情况下获得对期望结果状态的校准指导,大多数以前的工作在提出课程方面仍然存在困难。为了缓解这一问题,本文提出了一种不确定性和时间距离感知的课程目标生成方法,该方法通过解决一个双点匹配问题来实现结果导向 RL。它不仅可以为课程提供精准的指导,使其达到预期的结果状态,而且与以前的课程RL方法相比,它还带来了更好的采样效率和几何诊断的课程目标建议能力。本文证明此算法在各种具有挑战性的导航任务和机器人操作任务中以定量和定性的方式明显优于这些先前的方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除