【标题】Offline Reinforcement Learning with Representations for Actions
【作者团队】Xingzhou Lou, Qiyue Yin, Junge Zhang, Chao Yu, Zhaofeng He, Nengjie Cheng, Kaiqi Huang
【发表日期】2022.8.11
【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522009033#!
【推荐理由】普遍应用的离线强化学习(RL)方法将策略限制在离线数据集支持的区域内,以避免分布偏移问题。但是这些方法忽略了数据集分布之外的潜在高回报行为。为了解决这个问题,本文提出了一种新方法,该方法从离线数据集推广到分布外(OOD)动作。具体来说,本文设计了一种新颖的动作嵌入模型来帮助推断动作的效果。结果表明,此价值函数在动作空间上达到了更好的泛化,并进一步缓解了高估 OOD 动作引起的分布偏移。从理论上讲,本文对价值函数在动作空间上的泛化能力的改进给出了信息论的解释。在 D4RL 上的实验表明,与以前的离线 RL 方法相比,本文的模型提高了性能,尤其是当离线数据集的体验良好时。本文进行了进一步的研究并验证了价值函数对 OOD 动作的泛化得到了改进,这增强了本文提出的动作嵌入模型的有效性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢