GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping

2024年03月14日
  • 简介
    构建一个能够适应开放式语言查询的3D场景对于机器人领域尤为重要。这种技术可以帮助机器人根据人类语言指令执行物体操作。为了解决这个挑战,一些研究工作致力于开发语言嵌入式隐式场。然而,隐式场(如NeRF)由于需要处理大量的输入视图来进行重建,以及它们在推理方面的固有低效性,存在一定的局限性。因此,我们提出了GaussianGrasper,它利用3D高斯喷洒将场景显式地表示为高斯基元集合。我们的方法采用有限的RGB-D视图,并采用基于瓦片的喷洒技术创建特征场。特别地,我们提出了一种高效的特征蒸馏(EFD)模块,它采用对比学习,从基础模型中高效而准确地提取语言嵌入。通过高斯场的重建几何结构,我们的方法使预训练的抓取模型能够生成无碰撞的抓取姿势候选。此外,我们提出了一个基于法向的抓取模块来选择最佳的抓取姿势。通过全面的实际实验,我们展示了GaussianGrasper可以使机器人根据语言指令准确地查询和抓取物体,为语言引导的操作任务提供了新的解决方案。数据和代码可在https://github.com/MrSecant/GaussianGrasper上获取。
  • 图表
  • 解决问题
    本论文旨在解决语言指令下的物体操纵问题,提出了一种基于高斯场的方法。
  • 关键思路
    论文提出了GaussianGrasper,使用3D高斯喷洒来显式表示场景,使用有限的RGB-D视图和瓦片基础的喷洒技术来创建特征场,并提出了一种有效的特征蒸馏模块(EFD)来提取语言嵌入。
  • 其它亮点
    论文的实验表明,GaussianGrasper可以使机器人准确地查询和抓取物体,并提供了一个新的解决方案,使机器人能够根据语言指令进行操作。论文提供了数据和代码的开源。
  • 相关研究
    在这个领域中,还有一些相关的研究,如使用NeRF等隐式场的方法,但是由于需要处理大量的输入视图以进行重建,并且推理效率低下,因此存在局限性。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问