Geometry Meets Vision: Revisiting Pretrained Semantics in Distilled Fields

向作者提问

NEW

简介

辐射场中的语义蒸馏已推动了开放词汇机器人策略的显著进展，例如在操作和导航方面，这些进展建立在大型视觉模型预训练语义的基础之上。尽管先前的研究已证明仅使用视觉语义特征（如DINO和CLIP）在高斯点阵化和神经辐射场中的有效性，但将几何信息融入蒸馏场中可能带来的优势仍是一个未解的问题。理论上，视觉-几何特征对于姿态估计等空间任务似乎极具前景，由此引出一个问题：几何锚定的语义特征是否在蒸馏场中具有优势？具体而言，我们提出三个关键问题：第一，空间锚定能否生成保真度更高、更具几何感知能力的语义特征？我们发现，来自几何锚定主干网络的图像特征相比其非几何锚定对应物包含了更精细的结构细节。第二，几何锚定能否提升语义对象定位的准确性？我们在该任务中未观察到显著差异。第三，几何锚定能否实现更高精度的辐射场反演？鉴于先前工作的局限性及其缺乏对语义信息的有效整合，我们提出了一种新颖的框架SPINE，用于在无需初始猜测的情况下反演辐射场，该框架包含两个核心组件：基于蒸馏语义的粗略反演，以及基于光度优化的精细反演。令人意外的是，我们发现使用几何锚定特征反而导致姿态估计精度下降。我们的结果表明，仅依赖视觉的特征在更广泛的下游任务中展现出更强的通用性，尽管几何锚定特征包含更丰富的几何细节。值得注意的是，我们的研究结果凸显了未来亟需探索有效的几何锚定策略，以增强预训练语义特征的通用性和性能表现。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文探讨了几何对齐的语义特征是否能在辐射场蒸馏中带来优势，特别是在机器人策略中的开放词汇任务（如操作与导航）中。具体验证了三个假设：几何对齐是否能产生更高质量的语义特征、是否提升语义对象定位能力、以及是否有助于更高精度的辐射场反演。这是一个重要且尚未充分探索的问题，尤其是在如何有效融合预训练视觉语义与三维几何信息方面。
关键思路

提出SPINE框架，用于无需初始猜测的辐射场反演，包含两个阶段：基于蒸馏语义的粗略反演和基于光度误差优化的精细反演。核心思想是引入几何对齐的视觉-几何特征（如来自3D感知模型的特征），但实验发现视觉-only特征（如CLIP、DINO）在实际下游任务中表现更优，尽管几何对齐特征包含更多结构细节。这一发现挑战了‘几何对齐必然更好’的直觉，提出了对特征设计的新思考。
其它亮点

实验设计系统地比较了视觉-only与几何对齐特征在语义保真度、对象定位和辐射场反演三个任务上的表现。使用了标准辐射场数据集（如Blender, RealEstate10K等）进行评估，并开源了代码以促进可复现性。值得注意的是，在姿态估计任务中，几何对齐特征反而导致精度下降，揭示了当前几何对齐方法可能引入噪声或不匹配的问题。未来值得深入研究如何更有效地融合几何与语义信息，例如通过解耦学习或自适应特征选择。
相关研究

1. Towards Open-Vocabulary Semantic Radiance Fields for Robotics 2. Gaussian Splatting with Dense Semantic Features from CLIP 3. NeRF meets Vision Language Models: Open-World Scene Representation via Semantic Radiance Fields 4. 3D Visual Grounding with Pose-Aware Transformers 5. Self-Supervised Geometric Distillation for 3D-Aware Image Synthesis

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问