Robotic Control via Embodied Chain-of-Thought Reasoning

2024年07月11日
  • 简介
    学习型机器人控制策略的一个关键局限是它们无法在训练数据之外进行泛化。最近有关视觉-语言-动作模型(VLAs)的研究表明,使用大型、经过互联网预训练的视觉-语言模型作为学习机器人策略的支撑,可以大大提高它们的鲁棒性和泛化能力。然而,大型视觉-语言模型在其他领域最令人兴奋的能力之一是它们能够通过复杂问题进行迭代推理。同样的能力是否可以引入到机器人技术中,以允许策略在行动之前通过对给定任务进行推理来提高性能?由于它们可用的训练示例相对简单,因此使用“思维链”(CoT)样式提示的天真方法对标准VLAs的效果显著较差。此外,对子任务进行纯语义推理,如常见的CoT,对于需要将推理基于感官观察和机器人状态的机器人策略来说是不足够的。为此,我们引入了VLAs的具有体现式思维链推理(ECoT)的方法,其中我们训练VLAs在预测机器人动作之前对计划、子任务、动作和基于视觉的特征(如物体边界框和末端执行器位置)进行多步推理。我们设计了一个可扩展的管道,用于在大型机器人数据集上生成ECoT的合成训练数据。我们证明,ECoT在没有任何额外机器人训练数据的情况下,可将当前最强的开源VLA策略OpenVLA的绝对成功率在具有挑战性的泛化任务中提高28%。此外,ECoT使人们更容易解释策略的失败,并使用自然语言纠正其行为。
  • 图表
  • 解决问题
    本文试图通过Embodied Chain-of-Thought Reasoning (ECoT) for VLAs解决机器人控制策略无法在训练数据之外进行泛化的问题,并探索将大型视觉-语言模型的迭代推理能力引入机器人领域的可能性。
  • 关键思路
    本文提出了ECoT,通过训练VLAs在预测机器人动作之前进行多步推理,包括计划、子任务、运动和基于视觉的特征,从而提高机器人控制策略的鲁棒性和泛化能力。该方法通过生成合成训练数据来进行训练,并在不需要额外机器人训练数据的情况下,将OpenVLA的绝对成功率提高了28%。
  • 其它亮点
    本文的亮点包括使用ECoT提高机器人控制策略的鲁棒性和泛化能力,通过生成合成训练数据进行训练,实验结果显示ECoT提高了OpenVLA的绝对成功率28%。此外,ECoT使人们更容易解释策略的失败并使用自然语言纠正其行为。
  • 相关研究
    在这个领域中,最近的相关研究包括使用大型预训练模型进行机器人控制策略的研究,以及使用视觉-语言模型进行迭代推理的研究。相关论文包括《RoboNet: Large-Scale Multi-Robot Learning》和《Learning to Solve Visual Reasoning Tasks from Text》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论