- 简介现代的类别不可知图像分割工具(例如SegmentAnything)和开放式语义理解工具(例如CLIP)为机器人感知和制图提供了前所未有的机会。传统的封闭式度量语义地图仅限于数十个或数百个语义类别,而现在我们可以建立具有大量对象和无数语义变化的地图。这让我们面临一个根本性问题:机器人必须在其地图表示中包含哪些对象(更一般地说,包含哪些语义概念)的合适细粒度?虽然相关工作通过调整对象检测的阈值隐含地选择了细粒度,但我们认为这种选择本质上是任务相关的。本文的第一项贡献是提出了一个任务驱动的三维场景理解问题,机器人在自然语言中获得任务列表,并必须选择粒度和对象子集以及场景结构,以便完成任务。我们展示了这个问题可以使用信息瓶颈(IB)自然地进行公式化,这是一个已经建立的信息理论框架。第二个贡献是一种基于聚合IB方法的任务驱动三维场景理解算法,它能够将环境中的三维基元聚类成与任务相关的对象和区域,并进行增量执行。第三个贡献是将我们的任务驱动聚类算法集成到一个名为Clio的实时管道中,该管道仅使用机器人探索环境时的机载计算,构建环境的分层三维场景图。我们的最终贡献是一个广泛的实验活动,证明Clio不仅允许实时构建紧凑的开放式三维场景图,而且通过限制地图的相关语义概念,提高了任务执行的准确性。
- 图表
- 解决问题本文试图解决任务驱动的三维场景理解问题,即如何根据给定的任务选择场景中的物体和结构,以完成任务。
- 关键思路本文提出了一种基于信息瓶颈的聚类算法,能够将环境中的三维基元聚类成任务相关的物体和区域,并实现增量式执行。同时将该算法整合进实时管道中,构建一个层次化的三维场景图,并限制地图只包含相关的语义概念,从而提高任务执行的准确性。
- 其它亮点本文提出的算法能够实现实时构建紧凑的开放式三维场景图,并限制地图只包含相关的语义概念,同时能够提高任务执行的准确性。实验使用了自己构建的数据集,并开源了代码。值得进一步深入研究。
- 近期相关研究包括:SegmentAnything和CLIP等现代工具,以及传统的闭集度量语义地图等。
沙发等你来抢
去评论
评论
沙发等你来抢