- 简介本文介绍了一种名为GOI的框架,它将2D视觉语言基础模型中的语义特征整合到3D高斯光斑(3DGS)中,并使用可优化的语义空间超平面识别感兴趣的3D高斯。我们的方法包括一种高效的压缩方法,利用场景先验将嘈杂的高维语义特征压缩成紧凑的低维向量,随后将其嵌入3DGS中。在开放词汇查询过程中,我们采用了一种独特的方法,与现有方法相比,它依赖于手动设置的固定经验阈值,根据它们与查询文本嵌入的语义特征距离选择区域。这种传统方法通常缺乏普遍准确性,导致精确定位特定目标区域的挑战。相反,我们的方法将特征选择过程视为特征空间内的超平面分割,仅保留与查询高度相关的特征。我们利用现成的2D指代表达分割(RES)模型来微调语义空间超平面,从而更精确地区分目标区域和其他区域。这种微调极大地提高了开放词汇查询的准确性,确保了相关3D高斯的精确定位。大量实验证明了GOI优于先前的最先进方法。我们的项目页面可在https://goi-hyperplane.github.io/上找到。
-
- 图表
- 解决问题论文旨在解决3D开放词汇场景理解的问题,即通过自然语言指令解释和定位3D空间内的特定区域。
- 关键思路论文提出了一个名为GOI的框架,将2D视觉语言基础模型的语义特征集成到3D高斯光斑(3DGS)中,并使用可优化的语义空间超平面识别感兴趣的3D高斯函数。该方法采用高效的压缩方法,利用场景先验将嘈杂的高维语义特征压缩成紧凑的低维向量,随后将其嵌入到3DGS中。在开放词汇查询过程中,与现有方法不同,我们的方法将特征选择过程视为特征空间内的超平面划分,仅保留与查询高度相关的特征。我们利用现成的2D指称表达分割(RES)模型来微调语义空间超平面,从而更精确地区分目标区域和其他区域。这种微调显著提高了开放词汇查询的准确性,确保了相关3D高斯函数的精确定位。
- 其它亮点论文的亮点包括高效的压缩方法、超平面划分特征选择过程以及微调语义空间超平面等。论文使用了现成的2D指称表达分割(RES)模型来微调语义空间超平面,并在多个数据集上进行了实验验证。论文的代码和项目主页也已经开源。
- 近期在这个领域中的相关研究包括:“3D场景理解的深度学习方法”、“基于自然语言指令的机器人导航”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流