- 简介将三维物体分割为部件是计算机视觉领域长期存在的挑战。为了突破类别体系的限制,并实现对未见过的三维物体的泛化,近期研究转向开放世界部件分割。这些方法通常通过将多视角的掩码提升到三维空间,将来自SAM等二维基础模型的监督信息进行迁移。然而,这种间接范式难以捕捉物体的内在几何结构,导致只能理解表面、分解过程缺乏控制,且泛化能力有限。我们提出了PartSAM,这是首个在大规模三维数据上原生训练的可提示部件分割模型。秉承SAM的设计理念,PartSAM采用编码器-解码器架构,其中基于三平面(triplane)的双分支编码器生成具有空间结构的token,以支持可扩展的部件感知表征学习。为了实现大规模监督,我们进一步提出一种“模型在环”的标注流程,从在线资源中整理出超过五百万个三维形状-部件配对数据,提供丰富且细粒度的标签。这种可扩展的架构与多样化的三维数据相结合,催生了强大的开放世界能力:仅通过单一提示,PartSAM即可实现高度准确的部件识别;而在“分割所有部件”模式下,它能自动将形状分解为表面和内部结构。大量实验表明,PartSAM在多个基准测试上显著超越现有最先进方法,标志着迈向面向三维部件理解的基础模型迈出了决定性的一步。
-
- 图表
- 解决问题论文试图解决3D物体部件分割中的开放世界泛化问题,尤其是现有方法依赖2D基础模型(如SAM)通过多视角掩码提升到3D,导致对3D几何结构理解不充分、分解不可控、泛化能力弱的问题。这是一个重要且相对较新的问题,尤其是在追求通用3D理解的背景下。
- 关键思路提出PartSAM,首个直接在大规模3D数据上训练的可提示部件分割模型。其核心思想是采用基于三平面(triplane)的双分支编码器架构,生成具有空间结构的token,实现对3D形状的细粒度、部分感知的表示学习,并通过模型在环路的标注流程自动生成大量3D形状-部件标注对。相比间接利用2D模型的方法,PartSAM原生建模3D结构,实现了从表面到内部结构的完整分解。
- 其它亮点亮点包括:1)设计了可扩展的3D原生架构,支持精确的部件识别和全自动的‘分割每一部分’模式;2)构建了包含超过500万个3D形状-部件对的大规模数据集,通过在线资产与模型协同标注完成;3)实验表明PartSAM在多个基准上显著超越现有最先进方法;4)支持开放世界场景下的零样本泛化;5)展示了对内部结构的理解能力,突破了传统表面分割的局限。目前尚未提及代码是否开源。未来可深入研究其在机器人、AR/VR、3D编辑等场景的应用以及进一步提升内部结构推理能力。
- 近期相关研究集中在将2D基础模型迁移至3D任务,例如:《Segment Anything in 3D with NeRFs》、《3D-SPS: Segmenting Any 3D Point Cloud by Prompting SAM》、《Open-World 3D Segmentation with Masked Depth Diffusion》、《Triplane-based 3D Generative Models from Unstructured Point Clouds》以及《Panoptic 3D Scene Reconstruction from a Single RGB Image》等。这些工作大多依赖于多视图投影或神经辐射场来桥接2D与3D,而PartSAM首次实现完全基于3D原生数据的可提示部件分割,标志着向真正的3D基础模型迈进的关键一步。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流