A Bayesian Solution To The Imitation Gap

2024年06月29日
  • 简介
    在许多现实环境中,智能体必须学会在没有奖励信号的情况下在环境中行动,但可以利用一组专家演示。模仿学习(IL)是从这些演示中学习策略的流行框架。然而,在某些情况下,专家和代理之间的可观测性差异会导致模仿差距,使得专家的策略对于代理而言不是最优的,而IL的朴素应用可能会失败。特别地,如果专家观察到马尔可夫状态而代理没有观察到,则专家将不会展示代理所需但专家不具备的信息收集行为。在本文中,我们提出了一个名为“基于贝叶斯的模仿差距”(BIG)的贝叶斯解决方案,首先利用专家演示和指定探索行为成本的先验来推断奖励的后验概率。然后,BIG使用奖励后验来学习一个贝叶斯最优策略。我们的实验表明,与IL不同,BIG允许智能体在测试时探索,同时在不存在这种差距时学习使用专家演示进行最优行为。
  • 图表
  • 解决问题
    本论文旨在解决在没有奖励信号但有专家演示的情况下,智能体必须学习在环境中行动的问题。然而,专家和智能体之间的可观察性差异可能导致模仿差距,从而使得智能体无法有效地从专家演示中学习。
  • 关键思路
    论文提出了一种贝叶斯逆强化学习的解决方案,使用专家演示和先验分布来推断奖励后验概率,并使用该概率来学习贝叶斯最优策略。这种方法允许智能体在存在模仿差距的情况下进行探索,同时在没有模仿差距的情况下仍然能够从专家演示中学习。
  • 其它亮点
    本论文的实验结果表明,相比于传统的模仿学习方法,该方法在存在模仿差距的情况下能够更好地进行探索,同时在没有模仿差距的情况下仍然能够从专家演示中学习。此外,论文还提供了详细的实验设计和数据集信息,并公开了代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. Learning Robust Rewards with Adverserial Inverse Reinforcement Learning;2. Deep Reinforcement Learning from Human Preferences;3. Generative Adversarial Imitation Learning。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论