- 简介在解决现实问题时,人类会隐含地遵守过多且过于复杂而无法完全规定的约束条件。然而,强化学习(RL)代理需要这些约束条件才能在这些情境中学习到正确的最优策略。逆约束强化学习(ICRL)领域处理这个问题,并提供算法来估计离线收集的专家演示中的约束条件。实践者更喜欢在决定使用这些约束条件之前知道估计约束条件的置信度,这使得他们只使用满足所需置信度的约束条件。然而,之前的工作不允许用户提供推断出的约束条件的所需置信度水平。这项工作提供了一种基于原则的ICRL方法,可以采用一组专家演示的置信度水平,并输出至少与真实基础约束条件一样严格的约束条件。此外,与以往的方法不同,该方法允许用户知道专家轨迹数量是否不足以学习具有所需置信度的约束条件,因此可以根据需要收集更多的专家轨迹,以同时学习具有所需置信度和达到所需性能水平的策略。
- 图表
- 解决问题本论文提出了一种逆约束强化学习(ICRL)方法,旨在从离线收集的专家演示中估计约束,并提供一个可靠的置信度度量,以指导实践者使用这些约束。
- 关键思路该方法可以接受一个置信度水平和一组专家演示,并输出一个约束,该约束至少与真实约束一样严格,并具有所需的置信度水平。
- 其它亮点该方法不仅提供了一个可靠的置信度度量,还可以告诉用户是否需要收集更多的专家演示来学习满足所需置信度水平的约束。论文还展示了该方法在不同的环境中的有效性,并提供了开源代码。
- 在ICRL领域,以前的工作主要集中在如何从专家演示中学习约束的问题上,但是缺乏可靠的置信度度量。最近的相关研究包括“基于模型的逆强化学习”和“逆强化学习的贝叶斯方法”。
沙发等你来抢
去评论
评论
沙发等你来抢