Offline Imitation Learning with Model-based Reverse Augmentation

2024年06月18日
  • 简介
    在离线模仿学习(IL)中,主要挑战之一是专家观察和代理遇到的实际分布之间的\textit{协变量漂移},因为很难确定代理在专家演示状态分布之外应采取什么行动。最近,无模型解决方案引入了补充数据,并识别出潜在的专家相似样本,以增加学习过程中可靠样本。基于模型的解决方案使用保守性量化构建前向动态模型,然后在专家演示的邻域中生成附加轨迹。然而,这些方法通常在专家支持区域之外过于保守,因为只有在接近专家观察状态的状态下,才能有一个优选行动来实现策略优化。为了鼓励在专家未观察到的状态上进行更多探索,我们提出了一种新颖的基于模型的框架,称为具有自适应反向增强(SRA)的离线模仿学习。具体而言,我们从离线演示中构建一个反向动态模型,可以以自适应方式有效地生成导向专家观察状态的轨迹。然后,我们使用随后的强化学习方法从增强轨迹中学习,并从专家未观察到的状态转移到专家观察到的状态。这个框架不仅探索了专家未观察到的状态,而且指导在这些状态上最大化长期回报,最终实现超越专家数据的泛化。实证结果表明,我们的提议可以有效地缓解协变量漂移,并在离线模仿学习基准测试中实现最先进的性能。项目网站:\url{https://www.lamda.nju.edu.cn/shaojj/KDD24_SRA/}。
  • 图表
  • 解决问题
    解决问题:论文提出了一种名为Self-paced Reverse Augmentation (SRA)的模型,用于解决离线模仿学习中的协变量漂移问题,通过在专家演示数据之外生成新的轨迹,从而促进探索专家未观察到的状态。
  • 关键思路
    关键思路:论文提出了一种逆动力学模型,从离线演示数据中生成轨迹,以引导智能体探索专家未观察到的状态,并使用后续强化学习方法从这些状态中学习。
  • 其它亮点
    亮点:论文提出的SRA模型能够有效地缓解协变量漂移问题,并在离线模仿学习基准测试中实现了最先进的性能。实验结果表明,该模型可以探索专家未观察到的状态,并引导最大化这些状态的长期回报,最终实现了超越专家数据的泛化能力。论文提供了项目网站和开源代码。
  • 相关研究
    相关研究:最近的相关研究包括使用补充数据和识别潜在专家相似样本的模型无关解决方案,以及使用保守性量化构建前向动态模型并在专家演示数据附近生成额外轨迹的模型解决方案。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论