GARField: Group Anything with Radiance Fields

2024年01月17日
  • 简介
    Grouping是本质上存在歧义的,因为可以将场景分解成多个层次的细节,比如挖掘机的轮子应该被视为独立的还是整体的一部分?我们提出了一种名为GARField的方法,可以从姿态图像输入中将3D场景分解为具有语义意义的分层组。为了做到这一点,我们通过物理尺度来接受组歧义:通过优化一个尺度条件下的3D亲和力特征场,世界中的一个点可以属于不同大小的不同组。我们从Segment Anything (SAM)提供的一组2D掩模中优化这个场,以一种尊重从粗到细层次结构的方式,利用尺度来一致地融合来自不同视角的冲突掩模。从这个场中,我们可以通过自动树构建或用户交互推导出可能的分组层次结构。我们在各种野外场景中评估了GARField,并发现它可以有效地提取许多层次的组:对象簇、对象和各种子部分。GARField本质上表示多视角一致的分组,并产生比输入的SAM掩模更高保真度的分组。GARField的分层分组可能具有令人兴奋的下游应用,例如3D资产提取或动态场景理解。请参见项目网站https://www.garfield.studio/。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决从图像输入中将3D场景分解成具有语义含义的组的问题。这是否是一个新问题?
  • 关键思路
    通过优化一个尺度条件的3D亲和力特征场,从提供的2D掩模中生成场,以一种尊重从粗到细层次结构的方式,使用尺度一致地融合不同视点的冲突掩模。从这个场中可以得出可能的分组层次结构,通过自动树构建或用户交互来实现。这种方法可以有效地提取出许多层次的组,包括对象的聚类、对象和各种子部分。
  • 其它亮点
    论文提出了一种新方法,GARField,可以将3D场景分解成具有语义含义的组。该方法可以有效地提取出许多层次的组,包括对象的聚类、对象和各种子部分。实验结果表明,GARField可以自动构建层次结构,并产生比输入SAM掩模更高的保真度组。论文提供了项目网站,其中包括数据集和代码。
  • 相关研究
    在最近的相关研究中,还有一些研究探讨了从图像输入中提取3D场景信息的问题。例如,'3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction'和'Learning to Reconstruct 3D Manhattan Wireframes from a Single Image'。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问