How to Leverage Diverse Demonstrations in Offline Imitation Learning

2024年05月24日
  • 简介
    离线不完美演示的模仿学习(IL)由于许多实际领域中专家数据的稀缺性而受到越来越多的关注。在这种情况下,一个基本问题是如何从嘈杂的数据中提取出积极的行为。通常,当前解决该问题的方法是基于状态-动作相似性选择数据,忽略了与专家演示不同的(可能丰富的)$\textit{多样化}$状态-动作中的宝贵信息。在本文中,我们介绍了一种简单而有效的数据选择方法,该方法基于其结果状态来识别积极行为--这是一种更具信息量的准则,可以明确利用动态信息并有效地提取专家和有益的多样化行为。此外,我们设计了一种轻量级的行为克隆算法,能够正确利用专家和选择的数据。在实验中,我们在一系列复杂的高维离线IL基准测试中评估了我们的方法,包括连续控制和基于视觉的任务。结果表明,我们的方法在$\textbf{20/21}$个基准测试中实现了最先进的性能,通常比现有方法快$\textbf{2-5x}$,同时保持与行为克隆($\texttt{BC}$)可比的运行时间。
  • 图表
  • 解决问题
    论文旨在解决离线不完美演示下的状态行为选择问题,以提取正面行为。这是否是一个新问题?
  • 关键思路
    论文提出了一种基于结果状态的数据选择方法,以更具信息性的标准识别正面行为,从而有效地提取专家和有益的多样化行为。并且设计了一种轻量级的行为克隆算法,能够正确利用专家和选择的数据。
  • 其它亮点
    论文在复杂高维度的离线不完美演示领域中进行了实验,包括连续控制和基于视觉的任务。结果表明,该方法在21个基准测试中有20个超过了现有方法,通常提高了2-5倍,同时保持与行为克隆相当的运行时间。论文还开源了代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. Off-Policy Deep Reinforcement Learning without Exploration;2. Learning from Demonstrations for Real World Reinforcement Learning;3. Adversarial Imitation Learning from Imperfect Demonstrations。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论