Ctrl-World: A Controllable Generative World Model for Robot Manipulation

向作者提问

NEW

简介

通用型机器人策略目前已能执行多种操作技能，但在面对不熟悉物体和指令时，其能力的评估与提升仍面临重大挑战。严格的评估需要大量真实世界的测试，而系统的改进则依赖于带有专家标注的纠错数据。这两个过程都十分缓慢、成本高昂且难以扩展。世界模型提供了一种具有前景且可扩展的替代方案，使策略能够在“想象空间”中进行推演。然而，关键挑战在于构建一个能够支持与通用型机器人策略进行多步交互的可控世界模型。这要求世界模型必须兼容现代通用型策略，具备多视角预测、细粒度动作控制以及长期一致交互的能力，而以往的研究尚未实现这些特性。本文通过提出一种可控的多视角世界模型，向前迈出重要一步，该模型可用于评估并提升通用型机器人策略的指令跟随能力。我们的模型通过姿态条件化的记忆检索机制保持长期一致性，并借助帧级动作条件化实现精确的动作控制。在DROID数据集（包含9.5万条轨迹、564个场景）上训练后，该模型在新场景和新相机位置下，能够生成持续超过20秒的空间与时间上均一致的轨迹。我们证明了所提出方法无需真实机器人推演即可准确排序不同策略的表现。此外，通过在想象中合成成功的轨迹，并将其用于监督式微调，我们的方法可将策略的成功率提升44.7%。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决通用机器人策略在面对不熟悉物体和指令时评估与改进困难的问题。传统的评估和优化方法依赖大量真实世界的试验和专家标注数据，成本高、效率低且难以扩展。这是一个重要且具有挑战性的问题，尤其在推动通用机器人系统实际应用方面，但此前缺乏有效的可扩展解决方案。
关键思路

提出一种可控的多视角世界模型，能够在“想象空间”中模拟机器人策略的执行过程，从而实现无需真实环境 rollout 的策略评估与改进。该模型通过姿态条件的记忆检索机制保障长时程一致性，并通过帧级动作控制实现精细的动作响应，支持与现代通用机器人策略兼容的多视角预测和复杂交互。
其它亮点

模型在DROID数据集（95k轨迹，564场景）上训练，能在新场景和新相机视角下生成超过20秒时空一致的轨迹；实验表明该方法能准确预测策略性能排名，无需真实测试；通过在想象中合成成功轨迹并用于监督微调，策略成功率提升44.7%；具备开源潜力，为低成本、大规模策略优化提供了新范式，未来可探索更复杂的指令泛化与跨任务迁移。
相关研究

1. Tokenized Action Spaces for Scalable Robot Learning 2. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robots 3. PaLM-E: An Embodied Multimodal Language Model 4. VIMA: General Robot Manipulation with Multimodal Prompts 5. DROID: A Large-Scale Dataset for Robotic Affordance Understanding

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问