FeatureSLAM: Feature-enriched 3D gaussian splatting SLAM in real time

向作者提问

NEW

简介

我们提出了一种实时跟踪型SLAM系统，通过3D高斯点阵（3DGS）技术，将高效的相机跟踪与逼真的、富含特征的建图过程统一起来。我们的主要贡献在于，将密集特征光栅化融入新视角合成中，并使其与视觉基础模型保持对齐。这种方法获得了更强的语义信息，超越了基本的RGB-D输入，从而提升了跟踪与建图的精度。不同于以往语义SLAM方法（仅嵌入预定义类别标签），FeatureSLAM通过自由视角、开放集分割，支持一系列全新的下游任务。在多个标准基准测试中，我们的方法实现了与当前最先进系统相当的实时跟踪性能，同时在无需过高计算开销的前提下，显著提高了跟踪稳定性与地图保真度。定量结果显示，相比近期固定类别集的SLAM基线方法，我们的系统姿态误差降低了9%，建图精度提高了8%。实验结果表明，嵌入特征的实时SLAM不仅为各类新型下游应用提供了可能，还能反向提升底层跟踪与建图模块的性能，其语义和语言掩码效果可媲美离线3DGS模型，同时在跟踪、深度估计和RGB图像渲染方面均达到先进水平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决传统SLAM系统在实时性、语义理解与地图保真度之间的权衡问题。大多数现有SLAM系统依赖于RGB-D输入和预定义的语义类别，限制了下游任务的灵活性，且难以实现开放集语义理解。本文验证了一个假设：将密集特征嵌入实时SLAM框架中，不仅能提升跟踪与建图精度，还能支持自由视角、开放集分割等新应用。这是一个新兴但重要的问题，尤其在需要语义感知与交互式3D重建的应用中。
关键思路

核心思想是将3D Gaussian Splatting（3DGS）与实时SLAM结合，并引入密集特征光栅化，使其与视觉基础模型对齐，从而在新视角合成中融合高维语义特征。与以往仅使用RGB或预定义语义标签的方法不同，FeatureSLAM利用来自视觉基础模型的通用特征，实现了开放词汇语义理解，同时提升了跟踪稳定性与建图质量。这一思路首次将实时SLAM与可微分、特征级渲染的3DGS在语义增强层面统一，无需昂贵计算即可实现实时性能。
其它亮点

实验在标准SLAM基准上进行，展示了9%更低的位姿误差和8%更高的建图精度，优于近期固定语义集的SLAM基线。系统实现了实时跟踪与高质量RGB、深度及语义渲染，语义掩码质量媲美离线3DGS方法。支持自由视角下的开放集分割，为AR/VR、机器人交互等下游任务提供了新可能。尽管论文未明确提及是否开源代码，但基于3DGS的架构暗示其具备良好的工程可复现性。未来工作可探索动态场景建模、多模态语言-视觉对齐优化，以及轻量化部署。
相关研究

1. SemanticFusion: Dense 3D Semantic Mapping with Convolutional Neural Networks 2. Masked 3D Scene Reconstruction with Foundation Models 3. Gaussian Splatting for Real-Time Radiance Field Rendering 4. Open-Vocabulary Object Detection via Vision and Language Knowledge Distillation 5. InstructNeRF2NeRF: Editing 3D Scenes via Natural Language

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问