【标题】Option compatible reward inverse reinforcement learning
【作者团队】Rakhoon Hwang, Hanjin Lee, Hyung Ju Hwang
【发表日期】2022.1.24
【论文链接】https://www.sciencedirect.com/science/article/pii/S0167865522000241#!
【推荐理由】复杂环境下的强化学习是一个具有挑战性的问题。特别是,强化学习算法的成功取决于精心设计的奖励函数。逆强化学习 (IRL) 解决了从专家演示中恢复奖励函数的问题。本文解决了选项框架内的分层逆强化学习问题,从而使得能够利用专家演示的内在动机。参数化选项的梯度方法用于推导出 Q 特征空间的定义方程,从而得到奖励特征空间。使用期权参数的二阶最优条件,选择最优奖励函数。离散域和连续域的实验结果证实,本文恢复的奖励使用时间抽象提供了 IRL 问题的解决方案,这反过来又有效地加速了迁移学习任务,并且此方法对专家演示中包含的噪声具有鲁棒性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢