- 简介长周期的机器人操作在现实应用中日益重要,需要在复杂布局中实现空间消歧,并在动态交互下保持时间上的鲁棒性。然而,现有的端到端和分层式视觉-语言-动作(VLA)策略通常仅依赖纯文本线索,而将规划意图隐含处理,这在杂乱或描述不清的场景中削弱了指代表达的准确性,阻碍了对长周期目标在闭环交互下的有效任务分解,并因掩盖动作选择背后的逻辑而限制了因果解释能力。为解决这些问题,我们首先提出“视觉草图”(Visual Sketch),这是一种非真实的视觉中间表示,通过在机器人当前视野中绘制点、框、箭头以及带类型的关联关系,显式表达空间意图,从而将语言与场景几何结构联系起来。基于视觉草图,我们进一步提出Action-Sketcher——一种VLA框架,采用循环式的“观察-思考-草图-行动”(See-Think-Sketch-Act)工作流,并由自适应的令牌门控策略协调推理触发、草图修订和动作执行,从而在维持实时动作预测的同时,支持动态反馈修正和人机交互。为实现可扩展的训练与评估,我们构建了一个包含交错图像、文本、视觉草图监督信号及动作序列的多样化语料库,并采用多阶段课程学习策略训练Action-Sketcher,该策略融合了交错序列对齐以实现模态统一、语言到草图的一致性以确保精确的语言接地,以及结合草图到动作强化的模仿学习以提升鲁棒性。在模拟环境和真实世界任务中针对杂乱场景和多物体任务开展的大量实验表明,该方法在长周期任务成功率、对动态场景变化的鲁棒性方面均有提升,并通过可编辑的草图与逐步计划显著增强了模型的可解释性。项目网站:https://action-sketcher.github.io
-
- 图表
- 解决问题论文试图解决长视野机器人操作在复杂、动态环境中因依赖纯文本指令而导致的空间指代不清、任务分解困难和因果解释缺失的问题。现有视觉-语言-动作(VLA)策略通常将计划意图隐式处理,导致在杂乱或描述不充分的场景中难以准确 grounding 指令,无法有效支持闭环交互下的任务分解与人类协作。这是一个重要且日益紧迫的问题,尤其在真实世界部署中,但尚未被充分解决。
- 关键思路提出 Visual Sketch 作为一种显式的视觉中间表示,通过在当前视图中绘制点、框、箭头和类型化关系来外化空间意图,实现语言与场景几何的对齐;并基于此构建 Action-Sketcher 框架,采用循环的 See-Think-Sketch-Act 工作流,结合自适应 token-gated 策略控制推理触发、草图修订与动作输出,从而实现可解释、可编辑、可交互的长视野操作决策。其新颖性在于将视觉草图作为显式、可编辑的中间语义层,桥接高层语言指令与低层动作执行,增强了空间 grounding 和时间上的反应能力。
- 其它亮点1) 构建了包含图像、文本、Visual Sketch 标注和动作序列的多样化语料库,支持大规模训练与评估;2) 提出多阶段课程学习策略,融合交错序列对齐、语言到草图一致性、以及草图到动作的强化学习增强模仿学习;3) 在模拟和真实世界任务中验证了方法在杂乱场景和多目标任务中的优越性能,展现出更高的长视野成功率、更强的动态鲁棒性和良好的可解释性;4) 支持人类通过编辑草图进行干预和纠正,提升人机协作潜力;5) 项目网站已公开,代码与数据有望开源,值得进一步探索其在具身智能与人机协同中的应用。
- 1. RT-2: Vision-Language-Action Models Transfer Web-scale Generalization to Robotics 2. PaLM-E: Scaling Language-Action Models with Language, Vision, and Robot Embodiment 3. VIMA: Vision-Language-Action Models for General-Purpose Robot Manipulation 4. Foundation Parsers: Multi-Task Robotic Manipulation from Text and Demonstration 5. Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流