OpenOcc: Open Vocabulary 3D Scene Reconstruction via Occupancy Representation

2024年03月18日
  • 简介
    3D重建技术已经被广泛应用于移动机器人的自主导航领域。然而,以往的研究只能提供基本的几何结构,没有开放世界场景理解的能力,从而限制了人机交互和视觉导航等高级任务的实现。此外,传统的3D场景理解方法依赖于昂贵的标记3D数据集来训练模型,只能针对单一任务进行监督式训练。因此,具有零样本场景理解能力的几何重建技术,即开放词汇3D理解和重建,对于移动机器人未来的发展至关重要。本文提出了一种新颖的框架OpenOcc,它将3D场景重建和开放词汇理解与神经辐射场相结合。我们使用占据表示法对场景的几何结构进行建模,并通过体积渲染将预训练的开放词汇模型提炼为3D语言场,以进行零样本推理。此外,我们还提出了一种新颖的语义感知置信度传播(SCP)方法,以缓解由于提炼特征中的不一致测量而导致的语言场表示退化问题。实验结果表明,我们的方法在3D场景理解任务中取得了竞争性的性能,特别是对于小型和长尾物体。
  • 图表
  • 解决问题
    论文提出了OpenOcc框架,旨在解决3D场景重建和开放式词汇理解的问题。
  • 关键思路
    OpenOcc框架将神经辐射场与占用表示相结合,通过体积渲染将预训练的开放式词汇模型转化为3D语言场,实现零样本推理。同时,论文提出了一种新的语义感知置信传播方法,以缓解由于不一致的测量导致的语言场表示退化问题。
  • 其它亮点
    论文的实验结果表明,OpenOcc框架在3D场景理解任务中取得了有竞争力的表现,尤其是在小物体和长尾物体方面。此外,论文还使用了多个数据集进行了实验验证,并提供了开源代码。
  • 相关研究
    在最近的相关研究中,还有一些与本文相关的工作,如《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》和《3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论