Robotic Control via Embodied Chain-of-Thought Reasoning

2024年07月11日
  • 简介
    学习型机器人控制策略的一个关键限制是它们无法在训练数据之外进行泛化。最近有关视觉语言行动模型(VLAs)的研究表明,使用大型预先训练的互联网视觉语言模型作为学习机器人策略的基础可以显著提高其鲁棒性和泛化能力。然而,大型视觉语言模型在其他领域最令人兴奋的能力之一是它们能够通过复杂问题进行迭代推理。同样的能力能否带入机器人领域,使策略在行动之前通过对给定任务进行推理来提高性能?由于它们可用的训练示例相对简单,因此使用“思维链”(CoT)样式提示的朴素方法在标准VLAs中显著不够有效。此外,对子任务进行纯语义推理,正如常规CoT中所常见的那样,对需要将推理基于感官观察和机器人状态的机器人策略来说是不足够的。为此,我们引入了基于身体的思维链推理(ECoT)来进行VLAs,其中我们训练VLAs在预测机器人行动之前对计划、子任务、动作和基于视觉的特征(如物体边界框和末端执行器位置)进行多步推理。我们为在大型机器人数据集上生成ECoT的合成训练数据设计了可扩展的管道。我们证明,ECoT在没有任何额外机器人训练数据的情况下,可以将当前最强的开源VLA策略OpenVLA在具有挑战性的泛化任务中的绝对成功率提高28%。此外,ECoT使人类更容易解释策略的失败,并使用自然语言纠正其行为。
  • 图表
  • 解决问题
    如何提高机器人控制策略的泛化性和鲁棒性?如何将大型视觉-语言模型的迭代推理能力引入机器人领域?
  • 关键思路
    通过在大型机器人数据集上训练 Embodied Chain-of-Thought Reasoning (ECoT) for VLAs 模型,使其在执行机器人动作前能够进行多步推理,包括计划、子任务、动作和视觉感知等方面,从而提高机器人控制策略的泛化性和鲁棒性。
  • 其它亮点
    论文使用了大型机器人数据集进行训练,并且设计了可扩展的流程生成合成训练数据。实验结果表明,ECoT 可以使 OpenVLA 的成功率提高 28%,并且使人类更容易理解机器人策略的失败并使用自然语言进行纠正。
  • 相关研究
    最近的相关研究包括:Vision-Language Navigation (VLN)、Embodied Question Answering (EQA)、Object Goal Navigation (OGN) 等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论