- 简介虽然离线强化学习最近取得了一些进展,但是没有一个统一的算法能够在广泛的任务范围内实现卓越的性能。特别是,离线的价值函数学习在处理稀疏奖励、长时间跨度的任务时存在困难,因为随着任务时间跨度的增加,解决信用分配和外推误差的难度也会增加。另一方面,能够在长时间跨度任务中表现良好的模型是专门设计用于目标条件任务的,这种模型通常在短时间跨度、密集奖励的情况下表现不如价值函数学习方法。为了弥合这个差距,我们提出了一种针对离线强化学习的分层规划算法PlanDQ。PlanDQ在高层级引入了一种基于扩散的规划器,称为D-Conductor,它通过子目标指导低层级策略。在低层级,我们使用了一种基于Q学习的方法,称为Q-Performer,来实现这些子目标。我们的实验结果表明,PlanDQ可以在D4RL连续控制基准任务以及AntMaze、Kitchen和Calvin等长时间跨度任务中实现卓越或具有竞争力的性能。
- 图表
- 解决问题本论文旨在解决离线强化学习中价值函数学习在稀疏奖励、长时间跨度任务中的难点,以及目标条件任务与短时间跨度任务中价值函数学习方法的性能差异问题。
- 关键思路论文提出了一种层次化规划器PlanDQ,将扩散式规划器D-Conductor作为高层规划器,引导低层策略完成子目标,使用基于Q-learning的Q-Performer作为低层策略,实现子目标的完成。
- 其它亮点论文在D4RL连续控制基准任务以及AntMaze、Kitchen、Calvin等长时间跨度任务上,表现出了优越的性能。实验结果表明,PlanDQ可以在离线强化学习中实现优秀的性能。
- 与本论文相关的研究包括:offline RL领域中的其他方法,如BCQ、BEAR、MOReL等;目标条件任务中的方法,如HER、SAC+AE等。
沙发等你来抢
去评论
评论
沙发等你来抢