Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds

简介

近年来，深度学习和大规模数据集的现代技术在三维实例分割、抓取姿势估计和机器人技术方面取得了令人瞩目的进展。这使得在三维场景中直接进行准确的检测成为可能，同时也可以对物体和环境进行感知，预测出抓取的姿势，从而实现机器人的强大和可重复的操作。本研究旨在将这些最新方法集成到一个综合框架中，用于人类中心环境中的机器人交互和操作。具体而言，我们利用一种商用三维扫描仪的三维重建技术进行开放词汇实例分割，结合抓取姿势估计，演示了动态拾取物体和打开抽屉的操作。我们在两组真实世界的实验中展示了我们模型的性能和鲁棒性，包括动态物体检索和抽屉开启，分别报告了51%和82%的成功率。我们的框架代码以及视频可以在以下网址找到：https://spot-compose.github.io/。
图表
解决问题

论文旨在将现代技术应用于机器人交互和操作，解决在人类中心环境中的物体检测和抓取问题。
关键思路

论文提出了一个综合框架，结合3D实例分割和抓取姿态估计，利用三维重建实现动态物体检索和抽屉打开，并在两组实验中展示了模型的性能和鲁棒性。
其它亮点

论文使用了开源的3D扫描仪进行三维重建，提出了一种开放词汇的实例分割方法，实现了动态物体检索和抽屉打开，并在两组实验中分别获得了51%和82%的成功率。
相关研究

最近的相关研究包括基于深度学习和大规模数据集的3D实例分割、抓取姿态估计和机器人操作等方面的研究。

Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds

评论