RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation

2024年07月05日
  • 简介
    这项工作提出了一种检索和转移框架,名为RAM,用于零样本机器人操作,具有跨各种对象、环境和实体的通用性。与现有方法从昂贵的领域内演示中学习操作不同,RAM利用基于检索的可供性转移范式,从丰富的领域外数据中获取多功能操作能力。首先,RAM从各种演示源(包括机器人数据、人-物互动数据和自定义数据)大规模提取统一的可供性,构建全面的可供性记忆。然后,给定一条语言指令,RAM从可供性记忆中分层检索最相似的演示,并以零样本和实体无关的方式将领域外的2D可供性转移到领域内的3D可执行可供性。广泛的仿真和实际评估表明,我们的RAM在各种日常任务中始终优于现有的工作。此外,RAM显示出下游应用的重要潜力,例如自动和高效的数据收集、一次性视觉模仿以及LLM/VLM集成的长期操作。更多细节请查看我们的网站https://yxkryptonite.github.io/RAM/。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提出一种检索和传递的框架RAM,用于零样本机器人操作,具有跨对象、环境和实体的通用性。该框架旨在从丰富的领域外数据中获取多功能操纵能力,而不是从昂贵的领域内演示中学习操纵。
  • 关键思路
    RAM从各种演示来源中提取统一的可行性,构建全面的可行性记忆,然后根据语言指令从记忆中检索最相似的演示,并以零样本和实体无关的方式将领域外的2D可行性转移到领域内的3D可执行可行性。
  • 其它亮点
    本文提出了一种检索和传递的框架RAM,用于零样本机器人操作,具有跨对象、环境和实体的通用性。该框架从丰富的领域外数据中获取多功能操纵能力,而不是从昂贵的领域内演示中学习操纵。本文的实验结果表明,RAM在各种日常任务中表现出色。此外,RAM还显示出在自动和高效数据收集、一次性视觉模仿和LLM / VLM集成长期操作等下游应用方面的巨大潜力。
  • 相关研究
    在这个领域中,还有一些相关的研究,如Learning to Poke by Poking: Experiential Learning of Intuitive Physics和Zero-shot Object Manipulation via Hallucinated Latent Space Planning。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问