- 简介本文介绍了一个新的基于语言驱动的抓取检测数据集,名为Grasp-Anything++,包含超过100万个样本、300万个物体和超过1000万个抓取指令。我们利用基础模型创建了一个大规模的场景语料库,包括相应的图像和抓取提示。我们将语言驱动的抓取检测任务视为条件生成问题,并提出了一种基于扩散模型的新的语言驱动抓取检测方法。我们的关键贡献是对比训练目标,明确为去噪过程做出贡献,以便根据语言指令检测抓取姿势。我们证明了我们的方法在理论上是支持的。实验结果表明,我们的方法优于现有的最先进方法,并可以应用于实际机器人抓取。最后,我们展示了我们的大规模数据集实现了零短抓取检测,并成为未来工作的有挑战性的基准。项目网站:https://airvlab.github.io/grasp-anything/。
- 图表
- 解决问题本文试图解决自然语言条件下的抓取姿势检测问题,并提出了一个新的数据集和方法。
- 关键思路本文的关键思路是将抓取姿势检测问题视为一个条件生成问题,并提出了基于扩散模型的语言驱动抓取姿势检测方法。
- 其它亮点本文提出了一个新的语言驱动抓取姿势检测数据集Grasp-Anything++,包含1M个样本、3M个物体和超过10M个抓取指令。通过对基础模型的利用,创建了一个大规模的场景语料库,包含相应的图像和抓取提示。本文提出的方法在理论上得到了支持,并在实验中表现出优异的性能,超越了现有的方法,并可用于实际的机器人抓取。最后,作者还证明了他们的数据集可以实现零短抓取检测,并成为未来工作的一个有挑战性的基准。
- 近期在这个领域中,还有一些相关的研究,包括:1. GraspNet: A Cloud-Based Grasp Planning and Execution System for Industrial Bin-Picking Applications;2. Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation;3. Learning to Grasp with Top-Down Hierarchical Binary Networks。
沙发等你来抢
去评论
评论
沙发等你来抢