【作者团队】Johan S. Obando-Ceron, Pablo Samuel Castro
【论文链接】https://arxiv.org/pdf/2011.14826.pdf
【推荐理由】自从DQN引入以来,绝大多数强化学习研究都集中在使用深度神经网络作为函数逼近器的强化学习上。通常会在现已成为标准的一组环境中评估新方法,例如Atari 2600游戏。虽然这些基准有助于标准化评估,但不幸的是,它们的计算成本会扩大具有充足计算资源访问权限的人和没有足够访问计算资源的人之间的差距。在这项工作中,尽管社区强调大型环境,但传统的小型环境仍然可以产生有价值的科学见解,并且可以帮助减少贫困社区的进入障碍。 本文凭经验重新审视了介绍 Rainbow 算法的论文(Hessel 等人,2018 年),并对 Rainbow 使用的算法提出了一些新见解。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢