How to Leverage Diverse Demonstrations in Offline Imitation Learning

简介

离线不完美演示的模仿学习（IL）由于许多实际领域中专家数据的稀缺性而受到越来越多的关注。在这种情况下，一个基本问题是如何从嘈杂的数据中提取出积极的行为。通常，当前解决该问题的方法是基于状态-动作相似性选择数据，忽略了与专家演示不同的（可能丰富的）$\textit{多样化}$状态-动作中的宝贵信息。在本文中，我们介绍了一种简单而有效的数据选择方法，该方法基于其结果状态来识别积极行为--这是一种更具信息量的准则，可以明确利用动态信息并有效地提取专家和有益的多样化行为。此外，我们设计了一种轻量级的行为克隆算法，能够正确利用专家和选择的数据。在实验中，我们在一系列复杂的高维离线IL基准测试中评估了我们的方法，包括连续控制和基于视觉的任务。结果表明，我们的方法在$\textbf{20/21}$个基准测试中实现了最先进的性能，通常比现有方法快$\textbf{2-5x}$，同时保持与行为克隆（$\texttt{BC}$）可比的运行时间。
图表
解决问题

论文旨在解决离线不完美演示下的状态行为选择问题，以提取正面行为。这是否是一个新问题？
关键思路

论文提出了一种基于结果状态的数据选择方法，以更具信息性的标准识别正面行为，从而有效地提取专家和有益的多样化行为。并且设计了一种轻量级的行为克隆算法，能够正确利用专家和选择的数据。
其它亮点

论文在复杂高维度的离线不完美演示领域中进行了实验，包括连续控制和基于视觉的任务。结果表明，该方法在21个基准测试中有20个超过了现有方法，通常提高了2-5倍，同时保持与行为克隆相当的运行时间。论文还开源了代码。
相关研究

在这个领域中，最近的相关研究包括：1. Off-Policy Deep Reinforcement Learning without Exploration；2. Learning from Demonstrations for Real World Reinforcement Learning；3. Adversarial Imitation Learning from Imperfect Demonstrations。

How to Leverage Diverse Demonstrations in Offline Imitation Learning

评论