【标题】Sampling diversity driven exploration with state difference guidance
【作者团队】Jiayi Lu, Shuai Han, Shuai Lü, Meng Kang, Junwei Zhang
【发表日期】2022.5.6
【论文链接】https://www.sciencedirect.com/science/article/pii/S0957417422007588
【推荐理由】探索是深度强化学习的关键问题之一,尤其是在具有稀疏或欺骗性奖励的环境中。基于内在奖励的探索可以处理这些环境。然而,这些方法不能同时考虑全局交互动态和局部环境变化。本文提出了一种新的离线策略学习的内在奖励,它不仅鼓励智能体采取从全局角度未完全学习的动作,而且还指示智能体从局部角度触发环境的显著变化。同时,本文提出了double-actors-double-critics的框架,将内在奖励与外在奖励结合起来,以避免以前方法中内在和外在奖励的不恰当组合。该框架可以应用于基于actor-critic方法的离线学习算法。实验结果表明,本文方法可以在具有密集、欺骗和稀疏奖励的环境中进行有效的探索。此外,本文还通过对比实验验证了此网络框架的优越性和合理性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢