Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

向作者提问

NEW

简介

近期的视频生成模型展现出卓越的能力，能够精准捕捉复杂的物理交互过程及场景随时间的动态演化规律。为充分利用其蕴含的空间—时间先验知识，机器人学领域已有研究尝试将视频模型适配于策略学习任务，但这类方法往往需引入多阶段的后训练流程，并额外设计新的网络结构组件以实现动作生成，从而显著增加了系统复杂度。本文提出“宇宙策略”（Cosmos Policy）——一种简洁高效的方法：仅需在目标机器人平台上采集的演示数据上，对一个大规模预训练视频模型（Cosmos-Predict2）进行单阶段后训练，即可将其直接转化为高性能的机器人策略，且无需对原始模型架构作任何修改。Cosmos Policy 通过学习将机器人动作编码为视频模型潜在扩散过程中的隐式帧（latent frames），从而直接生成动作；该方法充分复用模型已有的预训练先验知识及其核心学习算法，有效建模复杂、多模态的动作分布。此外，Cosmos Policy 还可同步生成未来状态图像与价值函数（即期望累积奖励），二者同样以隐式帧形式编码，从而支持在测试阶段进行基于隐空间的轨迹规划，显著提升动作序列执行成功的概率。实验评估表明，Cosmos Policy 在 LIBERO 和 RoboCasa 两大仿真基准测试中均达到当前最优性能（平均成功率分别为 98.5% 和 67.1%），并在极具挑战性的现实世界双臂操作任务中取得最高平均得分，全面超越了从零训练的扩散策略、其他基于视频模型的策略，以及在相同机器人演示数据上微调的最先进视觉—语言—动作联合模型。更进一步，当提供策略 rollout（策略执行轨迹）所产生的经验数据时，Cosmos Policy 还能持续在线学习，不断优化其世界模型与价值函数，并借助基于模型的规划机制，在高难度任务中实现更高的成功率。我们已开源全部代码、预训练模型及训练数据，详见：https://research.nvidia.com/labs/dir/cosmos-policy/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在不修改架构、不引入多阶段训练的前提下，高效地将大型预训练视频生成模型（具备强时空先验）直接适配为机器人策略模型，以解决真实世界复杂操作任务中的动作生成、状态预测与价值估计问题。这是一个新方向：此前工作通常需额外动作头、分阶段微调或从头训练扩散策略，而本文首次探索‘将动作/状态/价值统一编码为视频模型潜在帧’的端到端单阶段适配范式。
关键思路

提出Cosmos Policy——将机器人动作、未来状态图像、预期累积奖励全部编码为Cosmos-Predict2视频扩散模型的潜在空间帧（latent frames），复用其预训练的时空扩散过程与先验知识，仅通过单阶段监督微调（on robot demo data）即可实现策略学习；无需新增网络模块，动作生成即‘视频补全’，规划即‘多步潜在帧采样’。
其它亮点

在LIBERO（98.5%）和RoboCasa（67.1%）仿真基准及真实双臂操作任务中均达SOTA；支持test-time planning（基于生成的状态与值函数进行rollout搜索）；具备在线经验驱动的世界模型与价值函数自更新能力；代码、模型、数据全部开源；实验覆盖仿真+真实硬件双验证；值得深入的方向包括：潜在动作空间的可解释性对齐、跨任务零样本策略迁移、以及潜在帧编码对接触动力学建模的理论边界。
相关研究

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion (CoRL 2023); VILA: Vision-Language-Action Models for Robotic Manipulation (ICLR 2024); RoboCat: Data-Efficient Robotic Learning with Self-Improving Transformers (Science Robotics 2023); Video-LLaMA: Towards Multimodal LLMs for Video Understanding and Generation (NeurIPS 2023); Latent Action Spaces for Hierarchical Imitation Learning (RSS 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问