HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections

2024年02月14日
  • 简介
    网络图像集合包含由众多摄影师拍摄的照片,为大规模旅游景点的数字探索提供了希望。然而,先前的研究主要关注几何重建和可视化,忽视了语言在提供语义导航和细粒度理解方面的关键作用。在受限的三维领域中,最近的方法利用视觉和语言模型作为二维视觉语义的强先验。虽然这些模型展示了对广泛视觉语义的出色理解,但它们在描绘此类旅游景点的非受限照片集合时遇到了困难,因为它们缺乏建筑领域的专业知识。在这项工作中,我们提出了一种定位系统,通过利用适应于理解地标场景语义的SOTA视觉和语言模型的力量,将描绘大规模地标的场景的神经表示与描述场景中语义区域的文本连接起来。为了增强这样的模型的细粒度知识,我们利用了包含类似地标的图像和弱相关文本信息的大规模互联网数据。我们的方法建立在这样一个前提之上,即在空间中物理上接地的图像可以为定位新概念提供强大的监督信号,这些概念的语义可以从具有大语言模型的互联网文本元数据中解锁。我们利用场景视图之间的对应关系来引导这些语义的空间理解,为三维兼容的分割提供指导,最终提升到体积场景表示。我们的结果表明,HaLo-NeRF可以准确地定位与建筑地标相关的各种语义概念,超过其他3D模型以及强2D分割基线的结果。我们的项目页面位于https://tau-vailab.github.io/HaLo-NeRF/。
  • 图表
  • 解决问题
    本论文旨在解决现有的大规模旅游景点图像集合在语义导航和细粒度理解方面存在的问题,提出了一种连接神经场景表示和描述场景语义区域的本地化系统,以及一种基于大规模互联网数据和弱相关文本信息的方法来增强模型的细粒度知识。
  • 关键思路
    本文提出的HaLo-NeRF系统连接了视觉语言模型和场景的神经表示,通过对场景视图之间的对应关系进行引导,提供了3D兼容分割的指导,最终提供了体积场景表示。该系统通过使用大规模互联网数据和弱相关文本信息增强模型的细粒度知识,从而能够准确地定位与建筑地标相关的各种语义概念。
  • 其它亮点
    本论文的亮点包括:1)提出了一种连接视觉语言模型和场景的神经表示的本地化系统,以解决大规模旅游景点图像集合在语义导航和细粒度理解方面存在的问题;2)通过使用大规模互联网数据和弱相关文本信息增强模型的细粒度知识;3)通过对场景视图之间的对应关系进行引导,提供了3D兼容分割的指导,最终提供了体积场景表示;4)实验结果表明,HaLo-NeRF可以准确地定位与建筑地标相关的各种语义概念,超过了其他3D模型和强2D分割基线。
  • 相关研究
    与本文相关的研究包括:1)基于视觉语言模型的2D视觉语义先验方法;2)基于大规模互联网数据的语义场景理解方法;3)基于3D场景表示的语义导航方法。相关论文包括:“Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments”、“A Large-Scale Hierarchical Multi-View RGB-D Object Dataset”、“NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论