- 简介复杂的规划和调度问题长期以来一直使用各种优化或启发式方法来解决。近年来,旨在从专家演示中学习的模仿学习已被提出作为解决这些问题的可行替代方法。一般而言,模仿学习旨在通过观察专家的行为来学习奖励(或偏好)模型或直接行为策略。现有的模仿学习和逆向强化学习工作主要集中在无约束环境下(例如,车辆消耗燃料没有限制)。然而,在许多实际领域中,专家的行为不仅受到奖励(或偏好)的影响,还受到约束的影响。例如,自动驾驶送货车的决策不仅取决于路线偏好/奖励(取决于过去的需求数据),还取决于车辆的燃料和可用时间。在这种问题中,模仿学习是具有挑战性的,因为决策不仅受奖励模型的支配,还取决于成本约束模型。在本文中,我们提供了多种方法,通过(a)基于Lagrangian的方法;(b)元梯度来找到期望回报和最小化约束违规之间的良好权衡;以及(c)基于成本违规的交替梯度来匹配存在轨迹成本约束的专家分布。我们通过实验证明,领先的模仿学习方法很差地模仿了受成本约束的行为,而我们基于元梯度的方法实现了最佳性能。
- 图表
- 解决问题解决问题的是如何在有成本约束的情况下进行模仿学习,以更好地匹配专家行为分布。这是一个新问题。
- 关键思路论文提出了三种方法来解决有成本约束的模仿学习问题:基于Lagrangian的方法,基于元梯度的方法和基于成本违规的交替梯度方法。
- 其它亮点实验结果表明,论文提出的基于元梯度的方法在模仿有成本约束的行为方面表现最好。论文还开源了代码。
- 最近的相关研究包括:"Inverse Reinforcement Learning with Cost Constraints"和"Imitation Learning with Concurrent Cost Constraints"。
沙发等你来抢
去评论
评论
沙发等你来抢