- 简介强化学习(RL)有望为视觉-语言-动作(VLA)模型带来超越模仿学习的能力,但其对海量真实世界交互数据的依赖,阻碍了其在实体机器人上的直接部署。近期研究尝试利用习得的世界模型作为策略优化的仿真环境,然而闭环式“想象 rollout”(即基于模型的自主推演)不可避免地会遭遇幻觉现象与长时序误差累积问题。这类误差不仅损害生成视频的视觉保真度,更关键的是会污染策略优化所依赖的梯度信号,诱使策略去“利用”世界模型的缺陷,而非真正推进任务目标的完成。为此,我们提出 WoVR——一种面向 VLA 模型后训练阶段、基于世界模型且具备可靠性的强化学习框架。WoVR 并不假设世界模型完全可信,而是显式地约束强化学习过程与存在缺陷的“想象动力学”之间的交互方式:首先,通过一个可控的、动作条件化的视频世界模型提升 rollout 的稳定性;其次,采用“关键帧初始化 rollout”(Keyframe-Initialized Rollouts)重构想象交互过程,从而降低有效误差传播深度;最后,借助“世界模型—策略协同演化”(World Model–Policy Co-evolution)机制,持续维持策略与仿真器之间的对齐。在 LIBERO 基准测试及真实机器人操作任务上的大量实验表明,WoVR 能够实现稳定、长时序的想象 rollout,并显著提升策略优化效果:LIBERO 平均任务成功率从 39.95% 提升至 69.2%(+29.3 个百分点),真实机器人操作成功率则从 61.7% 提升至 91.7%(+30.0 个百分点)。这些结果表明,只要对幻觉现象进行显式建模与控制,习得的世界模型便能切实充当强化学习中可用、可靠的仿真环境。
-
- 图表
- 解决问题如何在不依赖海量真实机器人交互的前提下,安全、稳定地利用学习到的世界模型(learned world models)进行强化学习(RL)策略优化,从而提升Vision-Language-Action(VLA)模型在长时序、闭环控制任务中的泛化与部署能力。该问题本质是应对世界模型固有的‘幻觉’与‘误差累积’对RL优化信号的污染——这不是新问题(世界模型误差问题已被广泛认知),但将其系统性建模为RL训练稳定性与对齐性问题,并聚焦于VLA模型的post-training RL优化,具有明确的新颖场景和紧迫工程价值。
- 关键思路WoVR不追求构建完美世界模型,而是从RL训练机制层面主动适应模型不完美:(1)采用可控的、动作条件化的视频世界模型提升 rollout 视觉与动力学一致性;(2)提出Keyframe-Initialized Rollouts(KIR),以真实观测关键帧为起点启动想象 rollout,大幅压缩有效误差传播深度;(3)引入World Model-Policy co-evolution,使策略更新与世界模型微调在统一目标下协同迭代,维持二者语义与行为对齐。核心新意在于将‘世界模型不可靠’这一限制转化为可调控的训练正则化机制,而非试图彻底消除误差。
- 其它亮点在LIBERO(9个长时序、多任务仿真基准)和真实Franka机械臂上完成端到端验证;成功将平均任务成功率分别提升+29.3%(LIBERO)和+30.0%(real robot),证明方法具备强迁移性;所有实验均基于标准VLA backbone(如OpenVLA)进行post-training RL,无需重训基础模型;论文强调工程实用性,方法设计轻量、模块化,未报告开源代码但提供了完整实现细节与超参配置;值得深入的方向包括:KIR在视觉-语言联合关键帧选择中的自适应机制、co-evolution中双目标权衡的自动化调节、以及向开放世界动态场景的扩展。
- World Models as Simulators for Reinforcement Learning (Hafner et al., CoRL 2020); DreamerV3: Mastering Diverse Domains through World Models (Hafner et al., arXiv 2023); Open-VLA: An Open Foundation Model for Visual Language-Action Learning (Zhang et al., CoRL 2024); VIMA: General Robot Manipulation with Multimodal Prompts (Wang et al., NeurIPS 2023); RoboCat: Data-Efficient and Generalizable Robot Learning (Reed et al., Science Robotics 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流