WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

向作者提问

NEW

简介

强化学习（RL）有望为视觉-语言-动作（VLA）模型带来超越模仿学习的能力，但其对海量真实世界交互数据的依赖，阻碍了其在实体机器人上的直接部署。近期研究尝试利用习得的世界模型作为策略优化的仿真环境，然而闭环式“想象 rollout”（即基于模型的自主推演）不可避免地会遭遇幻觉现象与长时序误差累积问题。这类误差不仅损害生成视频的视觉保真度，更关键的是会污染策略优化所依赖的梯度信号，诱使策略去“利用”世界模型的缺陷，而非真正推进任务目标的完成。为此，我们提出 WoVR——一种面向 VLA 模型后训练阶段、基于世界模型且具备可靠性的强化学习框架。WoVR 并不假设世界模型完全可信，而是显式地约束强化学习过程与存在缺陷的“想象动力学”之间的交互方式：首先，通过一个可控的、动作条件化的视频世界模型提升 rollout 的稳定性；其次，采用“关键帧初始化 rollout”（Keyframe-Initialized Rollouts）重构想象交互过程，从而降低有效误差传播深度；最后，借助“世界模型—策略协同演化”（World Model–Policy Co-evolution）机制，持续维持策略与仿真器之间的对齐。在 LIBERO 基准测试及真实机器人操作任务上的大量实验表明，WoVR 能够实现稳定、长时序的想象 rollout，并显著提升策略优化效果：LIBERO 平均任务成功率从 39.95% 提升至 69.2%（+29.3 个百分点），真实机器人操作成功率则从 61.7% 提升至 91.7%（+30.0 个百分点）。这些结果表明，只要对幻觉现象进行显式建模与控制，习得的世界模型便能切实充当强化学习中可用、可靠的仿真环境。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在不依赖海量真实机器人交互的前提下，安全、稳定地利用学习到的世界模型（learned world models）进行强化学习（RL）策略优化，从而提升Vision-Language-Action（VLA）模型在长时序、闭环控制任务中的泛化与部署能力。该问题本质是应对世界模型固有的‘幻觉’与‘误差累积’对RL优化信号的污染——这不是新问题（世界模型误差问题已被广泛认知），但将其系统性建模为RL训练稳定性与对齐性问题，并聚焦于VLA模型的post-training RL优化，具有明确的新颖场景和紧迫工程价值。
关键思路

WoVR不追求构建完美世界模型，而是从RL训练机制层面主动适应模型不完美：（1）采用可控的、动作条件化的视频世界模型提升 rollout 视觉与动力学一致性；（2）提出Keyframe-Initialized Rollouts（KIR），以真实观测关键帧为起点启动想象 rollout，大幅压缩有效误差传播深度；（3）引入World Model-Policy co-evolution，使策略更新与世界模型微调在统一目标下协同迭代，维持二者语义与行为对齐。核心新意在于将‘世界模型不可靠’这一限制转化为可调控的训练正则化机制，而非试图彻底消除误差。
其它亮点

在LIBERO（9个长时序、多任务仿真基准）和真实Franka机械臂上完成端到端验证；成功将平均任务成功率分别提升+29.3%（LIBERO）和+30.0%（real robot），证明方法具备强迁移性；所有实验均基于标准VLA backbone（如OpenVLA）进行post-training RL，无需重训基础模型；论文强调工程实用性，方法设计轻量、模块化，未报告开源代码但提供了完整实现细节与超参配置；值得深入的方向包括：KIR在视觉-语言联合关键帧选择中的自适应机制、co-evolution中双目标权衡的自动化调节、以及向开放世界动态场景的扩展。
相关研究

World Models as Simulators for Reinforcement Learning (Hafner et al., CoRL 2020); DreamerV3: Mastering Diverse Domains through World Models (Hafner et al., arXiv 2023); Open-VLA: An Open Foundation Model for Visual Language-Action Learning (Zhang et al., CoRL 2024); VIMA: General Robot Manipulation with Multimodal Prompts (Wang et al., NeurIPS 2023); RoboCat: Data-Efficient and Generalizable Robot Learning (Reed et al., Science Robotics 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问