Simplifying Deep Temporal Difference Learning

2024年07月05日
  • 简介
    本文探讨了如何加速和简化TD算法的训练过程,同时保持其稳定性,尤其是在使用离线数据的TD算法(如Q-learning)或非线性函数逼近(如深度神经网络)时需要解决的问题。研究发现,通过使用类似LayerNorm的正则化技术,可以在不需要目标网络的情况下,实现收敛的TD算法,即使使用离线数据。在经验上,作者发现,使用向量化环境进行在线并行采样可以稳定训练,而不需要回放缓冲区。基于这些发现,作者提出了PQN算法,这是一种简化的深度在线Q-learning算法,与Rainbow在Atari、R2D2在Hanabi、QMix在Smax和PPO-RNN在Craftax等更复杂的方法相比,PQN表现出了竞争力,并且可以比传统的DQN快50倍,同时不会牺牲样本效率。在PPO已成为RL算法的首选时代,PQN重新确立了Q-learning作为一种可行的替代方案。作者已经将代码发布在https://github.com/mttga/purejaxql上。
  • 图表
  • 解决问题
    本文旨在研究如何加速和简化TD算法的训练过程,同时保持其稳定性。主要针对Q-learning和深度神经网络等算法需要的replay buffer和target networks进行改进,以提高训练效率。
  • 关键思路
    通过引入正则化技术LayerNorm,可以不需要target networks就可以实现收敛的TD算法,即PQN算法。同时,使用在线并行采样的向量化环境可以在不需要replay buffer的情况下稳定训练。
  • 其它亮点
    PQN算法在Atari、Hanabi、Smax和Craftax等数据集上与Rainbow、R2D2、QMix和PPO-RNN等复杂算法相比具有竞争力,并且可以比传统的DQN算法快50倍,而不会牺牲样本效率。该算法的代码已经开源。
  • 相关研究
    最近的相关研究包括PPO等算法,但是本文重新将Q-learning算法作为一种可行的选择。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论