- 简介在本研究中,我们提出了用于目标条件强化学习(GCRL)的双重目标表征方法。双重目标表征通过“从所有其他状态到当前状态的时间距离集合”来刻画一个状态;换句话说,它以某一状态与其他所有状态之间的时间距离关系来编码该状态。这种表征具备若干优良的理论性质:首先,它仅依赖于环境的内在动力学特性,且对原始状态表征具有不变性;其次,它能够提供足以恢复最优目标到达策略的信息,并可有效滤除外部噪声。基于这一思想,我们开发了一种实用的目标表征学习方法,可与任何现有的GCRL算法结合使用。通过对OGBench任务套件进行的多样化实验,我们实证表明,双重目标表征在20项基于状态和像素的任务中,均能持续提升离线模式下的目标到达性能。
-
- 图表
- 解决问题论文试图解决目标条件强化学习(GCRL)中目标表示的有效性和鲁棒性问题,尤其是在存在状态表征冗余和外源噪声的情况下如何学习更具泛化能力的目标表示。该问题在离线设定下尤为关键,传统方法依赖于原始状态表示,容易受到无关信息干扰,因此需要一种对环境动力学本质更敏感且具不变性的目标表示方法。虽然GCRL已有较多研究,但基于状态间时序距离构建内在不变表示的方法相对新颖。
- 关键思路提出“对偶目标表示”(dual goal representation),即用一个状态到所有其他状态的时序距离集合来表征该状态。这种表示仅依赖环境的内在动力学,不依赖原始状态空间的具体形式,具有表征不变性,并能保留恢复最优策略所需的充分信息,同时过滤外源噪声。该思路将状态视为其与其他状态关系的集合,体现了从绝对坐标式表示向相对结构式表示的转变,是GCRL中目标表示设计的新范式。
- 其它亮点作者基于该理论提出了可集成到任意现有GCRL算法中的实用表示学习方法;在OGBench任务套件的20个任务(涵盖状态输入与像素输入)上进行了广泛实验,验证了其在离线设定下的稳定性能提升;实验覆盖多样环境,证明方法的通用性。论文强调理论性质(如充分性与去噪能力),并提供实证支持。若代码已开源将极大促进后续研究,目前未明确提及是否开源。未来方向包括扩展至高维连续动作空间、探索与层次强化学习的结合,以及在线学习场景的应用。
- 1. Temporal Difference Models for Goal-Conditioned Reinforcement Learning 2. Value Iteration Networks 3. State Abstraction in RL via Temporal Contrastive Learning 4. Learning to Reach Goals via Iterated Supervised Learning 5. Goal-Conditioned Reinforcement Learning with Imagined Subgoals 6. Graph-Based Global Reasoning over Task Progress for Sparse Reward Navigation
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流