【标题】DeepMind实现Atari超人类基线200倍智能体

【作者团队】Steven Kapturowski, Víctor Campos, Ray Jiang, Nemanja Rakićević, Hado van Hasselt

【发表日期】2022.9.15

【论文链接】https://arxiv.org/pdf/2209.07550.pdf

【推荐理由】Atari 游戏一直是强化学习 (RL) 的长期基准, 提出这个基准是为了测试 RL 算法的一般能力。2020年,DeepMind 提出 Agent57,这是首个在所有 57 款 Atari 游戏上都超过标准人类基准测试的深度强化学习智能体。但是此结果是以牺牲数据效率为代价,需要近800亿帧的经验训练才能实现。两年后的现在,DeepMind 在Agent57基础上进行超级升级,实现超越人类基线所需的经验减少 200 倍的新型智能体-MEME。研究人员调查了在减少数据机制时遇到的一系列不稳定性和瓶颈,并提出有效的解决方案来构建更强大和更高效的智能体。并且还通过 Muesli 和 MuZero 等高性能方法展示了具有竞争力的性能。研究人员表示新方法的四个关键组成部分是(1)一种近似信任区域方法,它能够从在线网络稳定地引导;(2)一种用于损失和优先级的归一化方案,它在学习一组具有广泛规模的价值函数时提高了鲁棒性; (3) 采用 NFNets 技术的改进架构,以便在不需要归一化层的情况下利用更深的网络; (4) 一种策略提炼方法,用于消除瞬时贪婪策略超时。