【标题】Unified Policy Optimization for Continuous-action Reinforcement Learning in Non-stationary Tasks and Games

【作者团队】Rong-Jun Qin, Fan-Ming Luo, Hong Qian

【发表日期】2022.8.19

【论文链接】https://arxiv.org/pdf/2208.09452.pdf

【推荐理由】本文讨论了非平稳环境和具有连续动作的游戏中的策略学习。 受遵循正则化领导(FTRL)和镜像下降(MD)更新思想的启发,本文提出了一种用于连续动作任务的无遗憾式强化学习算法PORL,而不是经典的奖励最大化机制。 本文证明了 PORL 具有最后迭代收敛保证,这对于对抗和合作游戏很重要。 实证研究表明,在 MuJoCo 运动控制任务等静止环境中,PORL 的性能与软演员评论 (SAC) 算法相同,甚至更好; 在包括动态环境、对抗性训练和竞争性游戏在内的非平稳环境中,PORL 在更好的最终策略性能和更稳定的训练过程方面都优于 SAC。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除