- 简介离线不完美演示下的模仿学习(IL)由于许多实际领域中专家数据的稀缺性而受到越来越多的关注。在这种情况下的一个基本问题是如何从嘈杂的数据中提取积极的行为。一般来说,当前解决该问题的方法是选择与给定专家演示的状态-动作相似性相似的数据,忽略了从专家行为偏离的(潜在丰富的)多样化状态-动作中的宝贵信息。在本文中,我们引入了一种简单而有效的数据选择方法,该方法基于其结果状态来识别积极行为--这是一种更具信息量的标准,可以明确利用动态信息并有效地提取专家和有益的多样化行为。此外,我们设计了一种轻量级的行为克隆算法,能够正确地利用专家和选择的数据。在实验中,我们在一系列复杂和高维的离线IL基准测试中评估了我们的方法,包括连续控制和基于视觉的任务。结果表明,我们的方法实现了最先进的性能,在20/21个基准测试中优于现有方法,通常提高了2-5倍,同时保持与行为克隆(BC)相当的运行时间。
- 图表
- 解决问题本文试图解决离线不完美演示下的不足问题,即如何从嘈杂的数据中提取出积极行为。
- 关键思路本文提出了一种基于结果状态的简单而有效的数据选择方法,该方法能够明确利用动态信息,并有效地提取专家和有益的多样化行为。
- 其它亮点本文设计了实验来评估方法在一系列复杂和高维的离线IL基准测试中的表现,包括连续控制和基于视觉的任务。结果表明,我们的方法在$ extbf{20/21}$个基准测试中均取得了最先进的性能,通常比现有方法高$ extbf{2-5x}$,同时保持与行为克隆($ exttt{BC}$)相当的运行时间。
- 最近的相关研究包括:Offline Reinforcement Learning with Experience Replay、D4RL、MOReL、等等。
沙发等你来抢
去评论
评论
沙发等你来抢