Generalizing soft actor-critic algorithms to discrete action spaces

2024年07月08日
  • 简介
    ATARI是一套视频游戏,被强化学习(RL)研究人员用来测试学习算法的有效性。智能体仅接收原始像素和游戏得分,学会了开发复杂的策略,甚至可以与专业的人类游戏测试员相媲美。理想情况下,我们希望智能体与环境的交互次数尽可能少。以前用于这项任务的竞争无模型算法使用基于价值的Rainbow算法,没有任何策略头。在本文中,我们通过提出实用的离散变体软演员-评论家(SAC)算法,改变了这种情况。新变体使用策略头在离散域中进行离线学习。将其并入先进的Rainbow变体,即“更大,更好,更快”的(BBF),得到的SAC-BBF将前沿四分位数(IQM)从1.045提高到1.088,仅使用重放比(RR)2即可实现这些结果。通过使用更低的RR 2,SAC-BBF的训练时间严格为BBF使用RR 8实现IQM 1.045所需时间的三分之一。由于IQM值大于1表示超人类表现,SAC-BBF也是唯一一个只使用RR 2就具有超人类水平的无模型算法。代码公开在GitHub上,网址为https://github.com/lezhang-thu/bigger-better-faster-SAC。
  • 图表
  • 解决问题
    本论文旨在解决ATARI游戏中强化学习算法的有效性问题,提出一种新的算法来实现超人级别的游戏水平。
  • 关键思路
    论文提出了一种基于软Actor-Critic算法的离散变体,将其与Rainbow算法相结合,实现了离线学习和离散领域的策略头,从而显著提高了算法的性能。
  • 其它亮点
    实验结果表明,SAC-BBF算法在只使用RR 2的情况下,将ATARI游戏的IQM从1.045提高到1.088,达到了超人级别的游戏水平。此外,该算法的训练时间仅为BBF算法的三分之一,并且代码已在GitHub上公开发布。
  • 相关研究
    最近在这个领域中的相关研究包括:基于价值的Rainbow算法,以及其他一些基于Actor-Critic算法的变体,如DDPG和TD3。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论