Simplifying Deep Temporal Difference Learning

简介

本文探讨了如何加速和简化TD算法的训练过程，同时保持其稳定性，尤其是在使用离线数据的TD算法（如Q-learning）或非线性函数逼近（如深度神经网络）时需要解决的问题。研究发现，通过使用类似LayerNorm的正则化技术，可以在不需要目标网络的情况下，实现收敛的TD算法，即使使用离线数据。在经验上，作者发现，使用向量化环境进行在线并行采样可以稳定训练，而不需要回放缓冲区。基于这些发现，作者提出了PQN算法，这是一种简化的深度在线Q-learning算法，与Rainbow在Atari、R2D2在Hanabi、QMix在Smax和PPO-RNN在Craftax等更复杂的方法相比，PQN表现出了竞争力，并且可以比传统的DQN快50倍，同时不会牺牲样本效率。在PPO已成为RL算法的首选时代，PQN重新确立了Q-learning作为一种可行的替代方案。作者已经将代码发布在https://github.com/mttga/purejaxql上。
图表
解决问题

本文旨在研究如何加速和简化TD算法的训练过程，同时保持其稳定性。主要针对Q-learning和深度神经网络等算法需要的replay buffer和target networks进行改进，以提高训练效率。
关键思路

通过引入正则化技术LayerNorm，可以不需要target networks就可以实现收敛的TD算法，即PQN算法。同时，使用在线并行采样的向量化环境可以在不需要replay buffer的情况下稳定训练。
其它亮点

PQN算法在Atari、Hanabi、Smax和Craftax等数据集上与Rainbow、R2D2、QMix和PPO-RNN等复杂算法相比具有竞争力，并且可以比传统的DQN算法快50倍，而不会牺牲样本效率。该算法的代码已经开源。
相关研究

最近的相关研究包括PPO等算法，但是本文重新将Q-learning算法作为一种可行的选择。

Simplifying Deep Temporal Difference Learning

评论