- 简介这项工作提出了一种检索和转移框架,名为RAM,用于零样本机器人操作,具有跨各种对象、环境和实体的通用性。与现有方法从昂贵的领域内演示中学习操作不同,RAM利用基于检索的可供性转移范式,从丰富的领域外数据中获取多功能操作能力。首先,RAM从各种演示源(包括机器人数据、人-物互动数据和自定义数据)大规模提取统一的可供性,构建全面的可供性记忆。然后,给定一条语言指令,RAM从可供性记忆中分层检索最相似的演示,并以零样本和实体无关的方式将领域外的2D可供性转移到领域内的3D可执行可供性。广泛的仿真和实际评估表明,我们的RAM在各种日常任务中始终优于现有的工作。此外,RAM显示出下游应用的重要潜力,例如自动和高效的数据收集、一次性视觉模仿以及LLM/VLM集成的长期操作。更多细节请查看我们的网站https://yxkryptonite.github.io/RAM/。
-
- 图表
- 解决问题本文旨在提出一种检索和传递的框架RAM,用于零样本机器人操作,具有跨对象、环境和实体的通用性。该框架旨在从丰富的领域外数据中获取多功能操纵能力,而不是从昂贵的领域内演示中学习操纵。
- 关键思路RAM从各种演示来源中提取统一的可行性,构建全面的可行性记忆,然后根据语言指令从记忆中检索最相似的演示,并以零样本和实体无关的方式将领域外的2D可行性转移到领域内的3D可执行可行性。
- 其它亮点本文提出了一种检索和传递的框架RAM,用于零样本机器人操作,具有跨对象、环境和实体的通用性。该框架从丰富的领域外数据中获取多功能操纵能力,而不是从昂贵的领域内演示中学习操纵。本文的实验结果表明,RAM在各种日常任务中表现出色。此外,RAM还显示出在自动和高效数据收集、一次性视觉模仿和LLM / VLM集成长期操作等下游应用方面的巨大潜力。
- 在这个领域中,还有一些相关的研究,如Learning to Poke by Poking: Experiential Learning of Intuitive Physics和Zero-shot Object Manipulation via Hallucinated Latent Space Planning。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流