- 简介离线不完美演示的模仿学习(IL)由于许多实际领域中专家数据的稀缺性而受到越来越多的关注。在这种情况下,一个基本问题是如何从嘈杂的数据中提取出积极的行为。通常,当前解决该问题的方法是基于状态-动作相似性选择数据,忽略了与专家演示不同的(可能丰富的)$\textit{多样化}$状态-动作中的宝贵信息。在本文中,我们介绍了一种简单而有效的数据选择方法,该方法基于其结果状态来识别积极行为--这是一种更具信息量的准则,可以明确利用动态信息并有效地提取专家和有益的多样化行为。此外,我们设计了一种轻量级的行为克隆算法,能够正确利用专家和选择的数据。在实验中,我们在一系列复杂的高维离线IL基准测试中评估了我们的方法,包括连续控制和基于视觉的任务。结果表明,我们的方法在$\textbf{20/21}$个基准测试中实现了最先进的性能,通常比现有方法快$\textbf{2-5x}$,同时保持与行为克隆($\texttt{BC}$)可比的运行时间。
- 图表
- 解决问题论文旨在解决离线不完美演示下的状态行为选择问题,以提取正面行为。这是否是一个新问题?
- 关键思路论文提出了一种基于结果状态的数据选择方法,以更具信息性的标准识别正面行为,从而有效地提取专家和有益的多样化行为。并且设计了一种轻量级的行为克隆算法,能够正确利用专家和选择的数据。
- 其它亮点论文在复杂高维度的离线不完美演示领域中进行了实验,包括连续控制和基于视觉的任务。结果表明,该方法在21个基准测试中有20个超过了现有方法,通常提高了2-5倍,同时保持与行为克隆相当的运行时间。论文还开源了代码。
- 在这个领域中,最近的相关研究包括:1. Off-Policy Deep Reinforcement Learning without Exploration;2. Learning from Demonstrations for Real World Reinforcement Learning;3. Adversarial Imitation Learning from Imperfect Demonstrations。
沙发等你来抢
去评论
评论
沙发等你来抢