- 简介近期的视频生成模型展现出卓越的能力,能够精准捕捉复杂的物理交互过程及场景随时间的动态演化规律。为充分利用其蕴含的空间—时间先验知识,机器人学领域已有研究尝试将视频模型适配于策略学习任务,但这类方法往往需引入多阶段的后训练流程,并额外设计新的网络结构组件以实现动作生成,从而显著增加了系统复杂度。本文提出“宇宙策略”(Cosmos Policy)——一种简洁高效的方法:仅需在目标机器人平台上采集的演示数据上,对一个大规模预训练视频模型(Cosmos-Predict2)进行单阶段后训练,即可将其直接转化为高性能的机器人策略,且无需对原始模型架构作任何修改。Cosmos Policy 通过学习将机器人动作编码为视频模型潜在扩散过程中的隐式帧(latent frames),从而直接生成动作;该方法充分复用模型已有的预训练先验知识及其核心学习算法,有效建模复杂、多模态的动作分布。此外,Cosmos Policy 还可同步生成未来状态图像与价值函数(即期望累积奖励),二者同样以隐式帧形式编码,从而支持在测试阶段进行基于隐空间的轨迹规划,显著提升动作序列执行成功的概率。实验评估表明,Cosmos Policy 在 LIBERO 和 RoboCasa 两大仿真基准测试中均达到当前最优性能(平均成功率分别为 98.5% 和 67.1%),并在极具挑战性的现实世界双臂操作任务中取得最高平均得分,全面超越了从零训练的扩散策略、其他基于视频模型的策略,以及在相同机器人演示数据上微调的最先进视觉—语言—动作联合模型。更进一步,当提供策略 rollout(策略执行轨迹)所产生的经验数据时,Cosmos Policy 还能持续在线学习,不断优化其世界模型与价值函数,并借助基于模型的规划机制,在高难度任务中实现更高的成功率。我们已开源全部代码、预训练模型及训练数据,详见:https://research.nvidia.com/labs/dir/cosmos-policy/
-
- 图表
- 解决问题如何在不修改架构、不引入多阶段训练的前提下,高效地将大型预训练视频生成模型(具备强时空先验)直接适配为机器人策略模型,以解决真实世界复杂操作任务中的动作生成、状态预测与价值估计问题。这是一个新方向:此前工作通常需额外动作头、分阶段微调或从头训练扩散策略,而本文首次探索‘将动作/状态/价值统一编码为视频模型潜在帧’的端到端单阶段适配范式。
- 关键思路提出Cosmos Policy——将机器人动作、未来状态图像、预期累积奖励全部编码为Cosmos-Predict2视频扩散模型的潜在空间帧(latent frames),复用其预训练的时空扩散过程与先验知识,仅通过单阶段监督微调(on robot demo data)即可实现策略学习;无需新增网络模块,动作生成即‘视频补全’,规划即‘多步潜在帧采样’。
- 其它亮点在LIBERO(98.5%)和RoboCasa(67.1%)仿真基准及真实双臂操作任务中均达SOTA;支持test-time planning(基于生成的状态与值函数进行rollout搜索);具备在线经验驱动的世界模型与价值函数自更新能力;代码、模型、数据全部开源;实验覆盖仿真+真实硬件双验证;值得深入的方向包括:潜在动作空间的可解释性对齐、跨任务零样本策略迁移、以及潜在帧编码对接触动力学建模的理论边界。
- Diffusion Policy: Visuomotor Policy Learning via Action Diffusion (CoRL 2023); VILA: Vision-Language-Action Models for Robotic Manipulation (ICLR 2024); RoboCat: Data-Efficient Robotic Learning with Self-Improving Transformers (Science Robotics 2023); Video-LLaMA: Towards Multimodal LLMs for Video Understanding and Generation (NeurIPS 2023); Latent Action Spaces for Hierarchical Imitation Learning (RSS 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流