Bigger, Better, Faster: Human-level Atari with human-level efficiency

Max Schwarzer, Johan Obando-Ceron, Aaron Courville, Marc Bellemare, Rishabh Agarwal, Pablo Samuel Castro
[Google DeepMind]

更大、更好、更快:具有人类水平效率的人类水平Atari游戏

  • 动机:实现在Atari 100K基准测试中超越人类水平的性能,同时提高计算效率和样本利用率。
  • 方法:介绍了一种基于价值估计的强化学习智能体(BBF),通过扩展用于价值估计的神经网络和其他设计选择,在样本高效的情况下实现了这种扩展。论文对这些设计选择进行了广泛分析,并为未来的工作提供了洞察和指导。
  • 优势:BBF算法能以超级计算效率实现超越人类水平的性能,并更好地处理网络规模和重播比率的扩展,这对于网络表达能力和学习效率至关重要。


介绍了一种名为BBF的强化学习智能体,通过网络扩展和设计选择的方法,在Atari 100K基准测试中实现了超越人类水平的性能,并提供了样本高效的解决方案,推动深度强化学习的样本效率前沿。

https://arxiv.org/abs/2305.19452 


图片
图片
图片