Clio: Real-time Task-Driven Open-Set 3D Scene Graphs

2024年04月21日
  • 简介
    现代化的无类别图像分割工具(例如SegmentAnything)和开放式语义理解工具(例如CLIP)为机器人感知和制图提供了前所未有的机会。传统的闭集度量语义地图仅限于几十个或几百个语义类别,而现在我们可以建立具有大量对象和无数语义变化的地图。这使我们面临一个根本性问题:机器人必须在其地图表示中包含哪些对象(更一般地说,是哪些语义概念)的正确粒度?虽然相关工作通过调整对象检测的阈值隐含地选择了一个粒度级别,但我们认为这样的选择本质上是任务相关的。本文的第一个贡献是提出了一个任务驱动的3D场景理解问题,其中机器人获得了自然语言中的任务列表,并必须选择粒度和要在其地图中保留的对象和场景结构的子集,以完成任务。我们展示了这个问题可以使用信息瓶颈(IB)自然地进行表述,这是一个已经建立的信息理论框架。第二个贡献是基于聚合IB方法的任务驱动3D场景理解算法,该算法能够将环境中的3D基元聚类为与任务相关的对象和区域,并进行增量执行。第三个贡献是将我们的任务驱动聚类算法集成到名为Clio的实时管道中,该管道仅使用机载计算,随着机器人的探索在线构建环境的分层3D场景图。我们的最终贡献是进行了广泛的实验活动,表明Clio不仅允许实时构建紧凑的开放式3D场景图,而且通过限制地图中的相关语义概念,提高了任务执行的准确性。
  • 图表
  • 解决问题
    如何确定机器人在地图表示中应该包括哪些对象和场景结构的语义概念?这个问题是如何被解决的?
  • 关键思路
    利用信息瓶颈(IB)框架,提出了一种基于聚合IB的算法,将环境中的3D基元聚类成任务相关的对象和区域,并进行增量执行。将该算法集成到实时管道中,构建了一个层次化的3D场景图,名为Clio。通过限制地图中的语义概念,提高了任务执行的准确性。
  • 其它亮点
    Clio允许实时构建紧凑的开放式3D场景图,并提高了任务执行的准确性;实验使用了多个数据集,开源了代码;该算法可用于机器人感知和制图领域,值得进一步研究。
  • 相关研究
    该论文与现有的基于语义的地图表示、对象检测、聚类和信息瓶颈等相关工作有关。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论