Geometry of Neural Reinforcement Learning in Continuous State and Action Spaces

Tiwari, S., Gottesman, O., & Konidaris, G. (2025). Geometry of Neural Reinforcement Learning in Continuous State and Action Spaces. Proceedings of the Thirteenth International Conference on Learning Representations (ICLR 2025)
2025年07月28日
  • 简介
    强化学习(RL)的发展使其在具有连续状态和动作空间的复杂任务中取得了成功。尽管在实践中取得了这些进展,但大多数理论研究仍集中在有限状态和动作空间上。我们建议采用几何视角去理解连续状态和动作空间的理论基础,具体而言,是通过分析局部可达的状态集合来实现这一目标。通过基于半梯度的方法学习到的所有参数化策略构成的集合,在强化学习中会诱导出一个可达状态的集合。我们证明,一个双层神经网络策略在使用actor-critic算法训练时,会在高维的名义状态空间中诱导出一个低维的可达状态流形。我们进一步证明,该流形的维度在一定条件下与动作空间的维度数量级相同。这是首次将状态空间的几何特性与动作空间的维度联系起来的研究结果。我们通过四个MuJoCo环境对该维度上界进行了实证验证,并在一个维度可变的玩具环境中展示了相关结果。此外,我们还通过在策略网络和值函数网络中引入一个局部流形学习层,验证了该理论结果的实用性,表明只需改变神经网络中的一层以学习稀疏表示,即可提升在具有极高自由度的控制环境中的性能表现。
  • 图表
  • 解决问题
    论文试图解决强化学习(RL)中理论与实践之间的脱节问题,特别是在连续状态和动作空间中的几何理解问题。大多数现有的RL理论主要集中在有限状态和动作空间,而现实中的复杂任务往往涉及高维甚至连续空间。这是一个相对较新的问题,尤其在试图用几何方法理解RL的训练动态方面。
  • 关键思路
    论文提出通过几何视角来理解连续状态和动作空间中的策略训练动态。核心思想是:通过两层神经网络策略在actor-critic算法中训练时,所诱导的可达到状态集合实际上构成了一个嵌入在高维状态空间中的低维流形,且其维度与动作空间的维度相关。这是首次将状态空间的几何结构与动作空间的维度联系起来的理论分析。
  • 其它亮点
    1. 理论上证明了策略训练动态诱导出的低维流形状态空间,其维度与动作空间维度成正比。 2. 在四个MuJoCo环境和一个维度可调的玩具环境中验证了该理论结果。 3. 引入了一个局部流形学习层到策略网络和值函数网络中,以提升高自由度控制任务的性能。 4. 实验结果显示通过改变神经网络的一层结构即可显著提升性能,展示了该理论的实际应用价值。 5. 为未来设计更高效的策略表示和网络结构提供了理论依据。
  • 相关研究
    1. 《Deep Reinforcement Learning in Continuous Action Spaces: A Recent Algorithms Overview》 2. 《Geometry of Policy Improvement Paths in Reinforcement Learning》 3. 《Manifold Learning for Representation in Reinforcement Learning》 4. 《Neural Tangent Kernel: Convergence and Generalization in Neural Networks》 5. 《On the Dimensionality of the Policy Space in Continuous Control》
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论