- 简介理解室内三维场景的结构组织通常通过平面图提取来完成。机器人任务如规划和导航需要对场景进行语义理解。这通常通过对象级别的语义分割来实现。然而,这种方法在场景中分割出像“厨房”这样的拓扑区域时往往会遇到困难。在这项工作中,我们引入了一个两步流程。首先,我们使用一种新的多通道占用表示法提取室内场景的拓扑图,即平面图。然后,我们使用自我注意变换器基于房间包含的对象生成与CLIP对齐的特征和语义标签,以实现对每个房间实例的分类。我们的语言-拓扑图对齐支持自然语言查询,例如,“做饭的地方”可以定位到“厨房”。我们在房间分割方面的表现超过了当前的最新技术水平约20%,在房间分类方面超过了约12%。我们的详细定性分析和消融研究为联合结构和语义三维场景理解问题提供了深入的见解。
-
- 图表
- 解决问题本论文旨在解决室内场景的结构和语义理解问题,特别是在提取楼层平面图和进行房间语义分割时遇到的困难。
- 关键思路该论文提出了一个两步流程,首先使用新颖的多通道占用表示法提取室内场景的拓扑地图(即楼层平面图),然后使用自注意力变换器基于房间内包含的物体生成CLIP对齐特征和语义标签,以支持自然语言查询。
- 其它亮点论文在房间分割和分类方面的表现超过了当前的最新研究水平,具有较高的实用价值。实验使用了公开数据集,提供了开源代码,有利于进一步研究。
- 在室内场景的结构和语义理解方面,最近还有其他相关研究,如《A Survey of Semantic Segmentation in Robotics》、《Room Layout Estimation using Object Detection and Geometric Constraints》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流