- 简介探索是智能体在稀疏奖励、长时程任务(尤其是在三维环境中)中学习有效行为的前提条件。基于好奇心的强化学习方法通过引入内在奖励来应对这一挑战,该内在奖励源自智能体对世界所构建的预测模型与真实环境之间的偏差。然而,将这种内在动机成功迁移到复杂、逼真的照片级三维环境中仍十分困难:智能体容易陷入局部循环,且在重新访问先前遗忘的状态时反复获得“新鲜”奖励,从而阻碍真正有效的探索。本文研究表明,此类失败的根本原因在于缺乏空间上的持续性(spatial persistence)以及情节式上下文(episodic context)。我们指出,要实现有效的内在好奇心驱动,必须同时满足两个关键条件:其一,需构建一个具备空间持续性、并能持续在线更新的世界模型;其二,智能体自身须维护一段情节式的轨迹历史,以支撑其主动向新颖区域导航。为实现这一目标,我们采用一种在线三维重建机制作为持久化、可更新的世界模型;同时,将智能体策略参数化为一种以RGB图像序列为输入的序列模型,从而自然地保留情节式上下文信息。该设计不仅显著提升了训练阶段的探索效率,更确保智能体在部署时仅依赖原始RGB帧即可完成自主导航。我们在HM3D数据集上仅通过纯粹的内在好奇心信号进行端到端训练,结果表明,本方法在性能上全面超越了基于强化学习的主动建图基线方法,并能零样本泛化至Gibson数据集及AI生成的虚拟世界。此外,我们提出的端到端策略可高效适配各类下游任务(例如苹果采摘和图像目标导航),其表现亦明显优于从零开始训练的基线方法。相关视频演示请参见:https://recuriosity.github.io/。
-
- 图表
- 解决问题在稀疏奖励、长视野的3D环境(如真实感室内场景)中,智能体难以进行有效探索,易陷入局部循环或重复访问已知但被短期遗忘的状态;现有基于预测误差的内在动机方法因缺乏空间一致性和跨步长的 episodic 记忆而失效。这不是全新问题,但其在 photorealistic 3D 环境中的根本失效机制(空间非持久性 + 无轨迹上下文)此前未被系统识别和建模。
- 关键思路提出 Recuriosity 框架:用在线、轻量级 3D 重建(如 TSDF 或神经辐射场增量更新)构建**空间持久的世界模型**,同时将策略建模为基于 RGB 序列的 transformer-style 序列策略,显式维护** episodic 轨迹历史**以支持长期导航决策;内在奖励仅在新空间区域(由 3D 地图判定)产生,而非仅依赖瞬时预测误差。核心新意在于将‘空间记忆’与‘时序记忆’解耦并协同设计,使好奇心真正指向地理新颖性而非 perceptual novelty。
- 其它亮点在 HM3D 上纯好奇心训练(无外部奖励),零样本泛化至 Gibson 和 AI 生成世界;优于 RL-based 主动建图基线(如 Neural SLAM、CRL);端到端策略支持下游任务快速微调(苹果采摘、图像目标导航),性能超越从头训练基线;开源代码与视频(https://recuriosity.github.io/);实验验证了‘空间持久性’是内在动机落地的关键缺失环节;值得深入:在线 3D 重建的可扩展性、多智能体共享地图、与语言指令对齐的语义好奇心。
- Neural SLAM (Chaplot et al., CoRL 2020); CRL: Curiosity-driven Reinforcement Learning for Navigation (Zhang et al., RSS 2021); EGO-PLANNER (Wang et al., CVPR 2023); RIDE: Rewarding Impact-Driven Exploration (Raileanu & Rocktäschel, ICLR 2022); NGU: Never Give Up (Badia et al., NeurIPS 2020); LEXA: Language-Conditioned Exploration (Goyal et al., ICML 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流