Video Generators are Robot Policies

2025年08月01日
  • 简介
    尽管在灵巧操作方面取得了巨大进展,当前的视觉运动策略(visuomotor policies)仍面临两个根本性的限制:它们在感知或行为分布发生变化时难以泛化,且其性能受限于人类示范数据的规模。本文中,我们利用视频生成作为机器人策略学习的替代方式,同时应对这两个限制。我们提出了“视频策略”(Video Policy),这一模块化框架将视频生成与动作生成相结合,并可进行端到端的训练。我们的实验结果表明,通过学习生成机器人行为的视频,可以在仅需少量示范数据的情况下提取出有效的策略,从而显著提升策略的鲁棒性和样本效率。我们的方法在面对未曾见过的物体、背景和任务时,无论是在仿真环境还是现实世界中,都表现出强大的泛化能力。我们进一步指出,任务的成功与生成的视频密切相关,而无需动作标注的视频数据对于在新任务中实现良好泛化具有关键作用。通过利用大规模视频生成模型,我们的方法在性能上优于传统的模仿学习(行为克隆),为更可扩展、数据效率更高的机器人策略学习开辟了新的路径。
  • 作者讲解
  • 图表
  • 解决问题
    当前的视觉运动策略在感知或行为分布变化下泛化能力有限,且其性能受限于人类演示数据的大小。论文试图通过视频生成来解决这两个问题,以提升策略学习的泛化性和样本效率。
  • 关键思路
    提出Video Policy框架,结合视频和动作生成,以端到端方式训练机器人策略。通过学习生成机器人行为的视频,减少对大量演示数据的依赖,从而提升策略的泛化能力和数据效率。
  • 其它亮点
    1. 通过视频生成提取策略,仅需少量演示数据即可实现高性能。 2. 方法在未见过的物体、背景和任务中表现出良好的泛化能力。 3. 任务成功与生成的视频质量密切相关,动作无关的视频数据对任务泛化有帮助。 4. 相比传统行为克隆方法,利用大规模视频生成模型显著提升了性能。 5. 实验涵盖仿真和真实世界场景,具有广泛适用性。
  • 相关研究
    1. Learning Fine-Grained Bimanual Dexterous Manipulation with Hierarchical Reinforcement Learning 2. Vision-Based Multi-Task Imitation Learning with a Deep Neural Network 3. Unsupervised Learning of Visual Features by Solving a Predictive Task 4. Imitation Learning from Video by Inferring Action Distances 5. Scalable Robotic Policy Learning via Imitation and Self-Supervised Pretraining
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问