Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

简介

价值函数是深度强化学习的核心组件。这些函数由神经网络参数化，使用均方误差回归目标进行训练以匹配引导式目标值。然而，将使用回归的基于价值的强化学习方法扩展到大型网络（如高容量变压器）已经被证明是具有挑战性的。这一困难与监督学习形成鲜明对比：通过利用交叉熵分类损失，监督方法已经可靠地扩展到大规模网络。在观察到这种差异后，本文研究了使用分类而不是回归来训练价值函数是否也可以简单地提高深度强化学习的可扩展性。我们证明了使用分类交叉熵训练的价值函数在各种领域中显着提高了性能和可扩展性，包括：使用SoftMoEs在Atari 2600游戏上的单任务强化学习，使用大规模ResNets在Atari上的多任务强化学习，使用Q-transformers进行机器人操作，不使用搜索玩国际象棋，以及使用高容量变压器的语言代理Wordle任务，在这些领域实现了最先进的结果。通过仔细的分析，我们展示了分类交叉熵的好处主要来自于其减少了基于价值的强化学习固有问题，例如嘈杂的目标和非稳态。总的来说，我们认为简单地将价值函数的训练转换为分类交叉熵训练可以在几乎没有成本的情况下显著提高深度强化学习的可扩展性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决使用回归训练价值函数在大型网络中应用于深度强化学习的问题。作者试图通过使用分类交叉熵代替回归来提高深度强化学习的可扩展性。
关键思路

使用分类交叉熵代替回归来训练价值函数，以提高深度强化学习的可扩展性和性能。
其它亮点

论文在多个领域进行了实验，包括Atari游戏、机器人操作、下棋和语言代理任务。使用分类交叉熵训练的价值函数在这些领域中显著提高了性能和可扩展性。作者还分析了分类交叉熵的优点，包括减轻价值基础强化学习中的噪声目标和非稳态性问题。
相关研究

与此论文相关的研究包括使用深度学习进行强化学习、使用神经网络进行价值函数近似等。

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

提问交流

提问交流