- 简介我们提出了一种实时跟踪型SLAM系统,通过3D高斯点阵(3DGS)技术,将高效的相机跟踪与逼真的、富含特征的建图过程统一起来。我们的主要贡献在于,将密集特征光栅化融入新视角合成中,并使其与视觉基础模型保持对齐。这种方法获得了更强的语义信息,超越了基本的RGB-D输入,从而提升了跟踪与建图的精度。不同于以往语义SLAM方法(仅嵌入预定义类别标签),FeatureSLAM通过自由视角、开放集分割,支持一系列全新的下游任务。在多个标准基准测试中,我们的方法实现了与当前最先进系统相当的实时跟踪性能,同时在无需过高计算开销的前提下,显著提高了跟踪稳定性与地图保真度。定量结果显示,相比近期固定类别集的SLAM基线方法,我们的系统姿态误差降低了9%,建图精度提高了8%。实验结果表明,嵌入特征的实时SLAM不仅为各类新型下游应用提供了可能,还能反向提升底层跟踪与建图模块的性能,其语义和语言掩码效果可媲美离线3DGS模型,同时在跟踪、深度估计和RGB图像渲染方面均达到先进水平。
-
- 图表
- 解决问题论文试图解决传统SLAM系统在实时性、语义理解与地图保真度之间的权衡问题。大多数现有SLAM系统依赖于RGB-D输入和预定义的语义类别,限制了下游任务的灵活性,且难以实现开放集语义理解。本文验证了一个假设:将密集特征嵌入实时SLAM框架中,不仅能提升跟踪与建图精度,还能支持自由视角、开放集分割等新应用。这是一个新兴但重要的问题,尤其在需要语义感知与交互式3D重建的应用中。
- 关键思路核心思想是将3D Gaussian Splatting(3DGS)与实时SLAM结合,并引入密集特征光栅化,使其与视觉基础模型对齐,从而在新视角合成中融合高维语义特征。与以往仅使用RGB或预定义语义标签的方法不同,FeatureSLAM利用来自视觉基础模型的通用特征,实现了开放词汇语义理解,同时提升了跟踪稳定性与建图质量。这一思路首次将实时SLAM与可微分、特征级渲染的3DGS在语义增强层面统一,无需昂贵计算即可实现实时性能。
- 其它亮点实验在标准SLAM基准上进行,展示了9%更低的位姿误差和8%更高的建图精度,优于近期固定语义集的SLAM基线。系统实现了实时跟踪与高质量RGB、深度及语义渲染,语义掩码质量媲美离线3DGS方法。支持自由视角下的开放集分割,为AR/VR、机器人交互等下游任务提供了新可能。尽管论文未明确提及是否开源代码,但基于3DGS的架构暗示其具备良好的工程可复现性。未来工作可探索动态场景建模、多模态语言-视觉对齐优化,以及轻量化部署。
- 1. SemanticFusion: Dense 3D Semantic Mapping with Convolutional Neural Networks 2. Masked 3D Scene Reconstruction with Foundation Models 3. Gaussian Splatting for Real-Time Radiance Field Rendering 4. Open-Vocabulary Object Detection via Vision and Language Knowledge Distillation 5. InstructNeRF2NeRF: Editing 3D Scenes via Natural Language
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流