【标题】A Behavior Fusion Method Based on Inverse Reinforcement Learning

【作者团队】Haobin Shi, Jingchen Li, Shicong Chen, Kao-Shing Hwang

【发表日期】2022.7.20

【论文链接】https://www.sciencedirect.com/sdfe/reader/pii/S0020025522007897/pdf

【推荐理由】逆强化学习(IRL)通常用于深度强化学习系统中,难以用手动奖励函数设计的任务。如果任务过于复杂,人工获得的专家样本轨迹往往会有不同的偏好,导致学习到的奖励函数的方差比较大。为此,本研究提出了一种基于对抗性 IRL 的行为融合方法。本文根据不同的偏好将复杂的任务分解为几个简单的子任务。将任务解耦后,利用 IRL 和生成对抗网络(GAN)之间的内在关系:判别器网络适合奖励函数,生成器网络适合策略,分别学习奖励函数和策略。而且,本文通过使用多个鉴别器来对应每个子任务来改进对抗性 IRL 模型,并为整个结构提供更有效的更新。这项工作中的行为融合对不同子任务中的奖励函数起到了加权网络的作用。本文所提出的方法使用基线方法在 Atari 耐力赛赛车游戏上进行了评估,实验结果表明,此方法可以在复杂的任务中学习更高级的策略,训练过程更稳定。