Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

简介

大规模的项目，如RT-1，以及广泛的社区努力，例如Open-X-Embodiment，已经为机器人演示数据的规模增长做出了贡献。然而，仍有机会提高机器人演示数据的质量、数量和多样性。虽然已经证明了视觉语言模型可以自动生成演示数据，但它们的实用性受到了限制，只能在具有特权状态信息的环境中使用，需要手动设计技能，并且只能与少量对象实例进行交互。我们提出了Manipulate-Anything，这是一种可扩展的自动化生成真实世界机器人操作的方法。与以往的工作不同，我们的方法可以在没有任何特权状态信息的真实环境中操作，并且可以操作任何静态对象。我们使用两个设置来评估我们的方法。首先，Manipulate-Anything成功地为所有5个真实世界和12个模拟任务生成轨迹，明显优于现有的方法，如VoxPoser。其次，Manipulate-Anything的演示可以训练比使用人类演示或由VoxPoser和Code-As-Policies生成的数据更具鲁棒性的行为克隆策略。我们相信Manipulate-Anything可以成为生成机器人数据和在零-shot设置中解决新任务的可扩展方法。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

解决问题的是如何生成高质量、大量和多样化的机器人演示数据？

关键思路

提出了Manipulate-Anything，一种可扩展的自动化生成实际机器人操作的方法，无需特权状态信息和手动设计技能，可操作任何静态物体。

其它亮点

实验表明Manipulate-Anything能够生成比现有方法更好的轨迹，并且生成的演示可以训练出比使用人类演示或其他生成数据更鲁棒的行为克隆策略。

Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

提问交流

提问交流