【标题】Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning Environments

【作者团队】Ryan Sullivan, J. K. Terry, Benjamin Black

【发表日期】2022.9.21

【论文链接】https://arxiv.org/pdf/2205.07015.pdf

【推荐理由】可视化优化景观已经在数值优化方面产生了许多基本见解,并对优化技术进行了新的改进。然而,对于强化学习优化的目标(“奖励表面”)的可视化仅在少数狭义环境中产生。这项工作首次介绍了27个最广泛使用的强化学习环境的奖励表面和相关的可视化。本文还探索了政策梯度方向上的奖励表面,并首次表明许多流行的强化学习环境经常出现“悬崖”(预期回报中突然下降)。作者证明,A2C经常将这些悬崖“脱落”到参数空间的低奖励区域,而PPO则会避开它们,这证实了一种普遍的直觉,即PPO比以前的方法具有更好的性能。作者还引入了一个高度可扩展的库,该库使研究人员将来可以轻松地生成这些可视化。本文的发现提供了新的直觉,以解释现代RL方法的成功和失败,其可视化构成了以新颖方式具体描述了强化学习智能体的几种失败模式。