World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

2026年02月06日
  • 简介
    近期,机器人世界模型的研究进展借助视频扩散变换器(video diffusion transformers),实现了基于历史状态与动作对未来观测结果的预测。尽管这类模型能够模拟出逼真的视觉效果,但其动作执行精度往往较差,从而制约了其在下游机器人学习任务中的实际应用价值。本文提出一种名为 World-VLA-Loop 的闭环框架,用于联合优化世界模型与视觉–语言–动作(Vision-Language-Action, VLA)策略。我们设计了一种具备状态感知能力的视频世界模型,该模型通过同步预测未来观测结果与奖励信号,充当高保真、可交互的仿真环境。为提升模型可靠性,我们构建了 SANS 数据集——该数据集纳入大量“近成功”轨迹(near-success trajectories),以显著改善世界模型中动作与结果之间的对齐精度。本框架支持在纯虚拟环境中,对 VLA 策略开展强化学习(Reinforcement Learning, RL)的训后优化,全程无需真实物理交互。尤为关键的是,我们的方法构建了一个协同演化的闭环:VLA 策略生成的失败轨迹被持续反馈至世界模型,用以迭代提升其建模精度;而更精准的世界模型又进一步推动后续 RL 优化过程的性能提升。在仿真环境与真实世界任务上的系统性评测表明,该框架仅需极少的真实物理交互,即可显著提升 VLA 策略的整体性能,从而在通用型机器人系统中建立起世界建模与策略学习之间相互促进、共同演进的良性关系。项目主页:https://showlab.github.io/World-VLA-Loop/
  • 作者讲解
  • 图表
  • 解决问题
    现有基于视频扩散Transformer的机器人世界模型虽能生成逼真视觉预测,但动作跟随精度低,导致难以支撑下游机器人强化学习;论文旨在解决世界模型与VLA策略之间动作-结果对齐差、闭环仿真不可靠的核心问题,属于世界模型实用性落地的新挑战。
  • 关键思路
    提出World-VLA-Loop闭环框架:1)设计状态感知视频世界模型,联合预测未来观测与奖励信号,提升动作条件建模 fidelity;2)构建SANS数据集(含近成功轨迹),显式强化动作-结果因果对齐;3)建立世界模型与VLA策略的协同进化闭环——VLA失败rollout反哺世界模型微调,优化后的模型再驱动RL策略在线提升。
  • 其它亮点
    实验覆盖仿真(BridgeData v2, RT-1, ALOHA)与真实机器人(Franka+DexArm)任务;SANS数据集首次系统引入‘near-success’轨迹以缓解稀疏奖励下的动作偏差;完整开源代码、SANS子集及训练/评估pipeline(项目页已公开);关键发现:仅用<50次真实交互即可显著提升VLA零样本泛化;值得深挖方向包括:奖励信号的可解释性建模、SANS的自动合成范式、以及世界模型不确定性量化在闭环RL中的作用。
  • 相关研究
    ‘Robotic Transformer: Efficient Planning in Vision-Language-Action Space’ (CoRL 2022); ‘VoxPoser: Compositional Spatial Reasoning for Vision-Language Navigation’ (ICLR 2024); ‘Diffuser: Trajectory Optimization with Diffusion Models’ (NeurIPS 2023); ‘World Models for Robotics: A Survey’ (arXiv:2309.16987); ‘DreamerV3: Mastering Diverse Domains through World Models’ (ICML 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问