【作者团队】Sandy Huang, Abbas Abdolmaleki, Giulia Vezzani
【论文链接】https://openreview.net/pdf?id=YeJaZBXlhPX
【推荐理由】许多现实世界的问题,尤其是机器人技术,要求强化学习 (RL)智能体学习的策略不仅要使环境回报最大化,还要满足约束条件。本文提出了一个解决此类问题的高级框架,该框架将环境奖励和成本视为单独的目标,并了解策略应该优化哪些目标才能满足约束条件。本文称之为并行学习偏好和策略(LP3)。通过对如何学习偏好以及如何优化给定偏好的策略做出不同的选择,本文可以获得现有的方法(例如,Lagrangian relaxation)并推导出具有更好性能的新方法。其中之一是学习一组满足约束的策略算法,在事先不知道确切的约束时非常有用。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢