- 简介现代的类别无关图像分割工具(例如SegmentAnything)和开放式语义理解工具(例如CLIP)为机器人感知和制图提供了前所未有的机会。传统的封闭式度量语义地图仅限于几十个或几百个语义类别,而现在我们可以建立具有大量对象和无数语义变化的地图。这给我们留下了一个根本性的问题:机器人在其地图表示中必须包括哪些对象(更一般地说,包括哪些语义概念)的正确粒度是什么?虽然相关工作通过调整对象检测的阈值隐含地选择了粒度级别,但我们认为这样的选择本质上是与任务相关的。本文的第一个贡献是提出了一个任务驱动的三维场景理解问题,机器人在自然语言中获得任务列表,并必须选择足以完成任务的粒度和对象子集以及场景结构来在其地图中保留。我们展示了这个问题可以自然地使用信息瓶颈(IB)这个已经建立的信息理论框架来进行表述。第二个贡献是一种基于聚合IB方法的任务驱动的三维场景理解算法,能够将环境中的三维基元聚类成与任务相关的对象和区域,并进行增量执行。第三个贡献是将我们的任务驱动聚类算法集成到实时管道中,命名为Clio,使用仅有机载计算,随着机器人的探索在线构建环境的分层三维场景图。我们最后的贡献是进行了广泛的实验,展示Clio不仅允许实时构建紧凑的开放式三维场景图,而且通过限制地图中的相关语义概念,提高了任务执行的准确性。
- 图表
- 解决问题本文试图解决任务驱动的3D场景理解问题,即如何根据任务需求选择场景中需要保留的物体和场景结构的粒度和子集。
- 关键思路本文提出了一种基于信息瓶颈的聚合算法,能够将环境中的三维基元聚类成与任务相关的物体和区域,并进行增量式执行。
- 其它亮点本文提出的Clio算法能够实时构建紧凑的开放式3D场景图,同时通过限制地图中的相关语义概念,提高任务执行的准确性。实验结果表明,Clio算法能够在机器人探索环境时使用仅有的本地计算资源构建层次化的3D场景图。
- 相关研究包括SegmentAnything和CLIP等工具,以及传统的闭合度量语义地图。
沙发等你来抢
去评论
评论
沙发等你来抢