FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding

2024年01月03日
  • 简介
    精确地感知现实世界三维物体的几何和语义特性对于增强现实和机器人应用的持续发展至关重要。为此,我们提出了\algfull{}(\algname{}),将基础模型的视觉语言嵌入集成到三维高斯点描(GS)中。本文的关键贡献是提出了一种有效的方法来重建和表示三维视觉语言模型。这是通过将基于图像的基础模型生成的特征图精简到我们的三维模型中生成的特征图来实现的。为了确保高质量的渲染和快速的训练,我们引入了一种新的场景表示方法,将GS和多分辨率哈希编码(MHE)的优势相结合。我们的有效训练过程还引入了像素对齐损失,使相同语义实体的渲染特征距离接近,遵循像素级语义边界。我们的结果展示了显著的多视角语义一致性,有助于多样化的下游任务,在开放词汇语言的物体检测中击败了现有最先进的方法,而我们的推理速度快了851倍。这项研究探讨了视觉、语言和三维场景表示的交叉点,为在不受控制的现实世界环境中增强场景理解铺平了道路。我们计划在论文被接受后发布代码。
  • 图表
  • 解决问题
    本文旨在通过结合视觉语言嵌入和三维高斯喷洒技术,实现对真实世界三维物体的准确感知和重建,以提高增强现实和机器人应用的效果。
  • 关键思路
    本文的关键思路是将基础模型生成的特征图转化为三维模型的特征图,通过高效的训练和新的场景表示方法实现高质量渲染和快速训练,同时引入像素对齐损失以保证渲染的语义一致性。
  • 其它亮点
    本文的实验结果表明,该方法在多视角语义一致性方面表现出色,且在开放词汇语言物体检测方面超过现有方法10.2%,且推理速度快851倍。作者计划在论文接受后发布代码。
  • 相关研究
    最近的相关研究包括《3D场景理解:从深度学习到几何推理》和《基于视觉语言嵌入的场景重建》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论