本次分享我们将介绍三篇来自 ICLR2022 和 AAAI2022 的强化学习相关论文。第一篇文章提出了一种基于图的面向目标的强化学习新方法;第二和第三篇文章聚焦于无监督强化学习,阐述了基于互信息的无监督学习的作用,并进一步提出了基于 Wasserstein 距离的无监督强化学习方法。

  • 面向目标强化学习的图增强探索 (Graph-Enhanced Exploration for Goal-oriented Reinforcement Learning)

论文地址:https://openreview.net/forum?id=rlYiXFdSy70

论文提出了一种面向目标强化学习 (GoRL) 的新方法。该方法根据智能体的行动轨迹构建状态-转移图 (state-transition graph) 并使用状态-转移图来指导探索。与之前的方法相比,这项工作在如何选择子目标和如何从经验回放区中采样方面进行了创新。实验证明,文章所提出的方法在许多环境中优于基线方法。

  • 无监督强化学习的信息几何 (The Information Geometry of Unsupervised Reinforcement Learning)

论文地址:https://openreview.net/forum?id=3wU2UX0voE

论文对强化学习中的无监督技能学习 (unsupervised skill discovery) 进行了深入研究。作者利用高维空间的信息几何学分析了这些学习算法。具体而言,作者将所有可能的状态分布视为概率单纯形上的凸多面体,而所有奖励最大化策略都位于该多面体的顶点;最大化互信息对应于解决单纯形上的分配问题。在合理的假设下,文章证明这些算法不能学习对所有奖励函数都最优的技能,但可以为在线学习方法提供良好的初始化。

  • Wasserstein 无监督强化学习 (Wasserstein Unsupervised Reinforcement Learning)

论文地址:https://arxiv.org/abs/2110.07940

论文针对“传统的基于互信息最大化的无监督强化学习不能充分探索状态空间的问题”提出了改进方法。具体而言,作者提出采用 Wasserstein 距离作为目标函数,直接最大化不同策略诱导的状态分布的距离。文章还克服了同时训练 N 个策略并将整体奖励分摊到每个步骤的困难。实验证明,Wasserstein 无监督强化学习可以充分探索状态空间,并且通过分层学习将预训练的得到策略应用于下游任务。

内容中包含的图片若涉及版权问题,请及时与我们联系删除