PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

向作者提问

NEW

简介

将三维物体分割为部件是计算机视觉领域长期存在的挑战。为了突破类别体系的限制，并实现对未见过的三维物体的泛化，近期研究转向开放世界部件分割。这些方法通常通过将多视角的掩码提升到三维空间，将来自SAM等二维基础模型的监督信息进行迁移。然而，这种间接范式难以捕捉物体的内在几何结构，导致只能理解表面、分解过程缺乏控制，且泛化能力有限。我们提出了PartSAM，这是首个在大规模三维数据上原生训练的可提示部件分割模型。秉承SAM的设计理念，PartSAM采用编码器-解码器架构，其中基于三平面（triplane）的双分支编码器生成具有空间结构的token，以支持可扩展的部件感知表征学习。为了实现大规模监督，我们进一步提出一种“模型在环”的标注流程，从在线资源中整理出超过五百万个三维形状-部件配对数据，提供丰富且细粒度的标签。这种可扩展的架构与多样化的三维数据相结合，催生了强大的开放世界能力：仅通过单一提示，PartSAM即可实现高度准确的部件识别；而在“分割所有部件”模式下，它能自动将形状分解为表面和内部结构。大量实验表明，PartSAM在多个基准测试上显著超越现有最先进方法，标志着迈向面向三维部件理解的基础模型迈出了决定性的一步。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决3D物体部件分割中的开放世界泛化问题，尤其是现有方法依赖2D基础模型（如SAM）通过多视角掩码提升到3D，导致对3D几何结构理解不充分、分解不可控、泛化能力弱的问题。这是一个重要且相对较新的问题，尤其是在追求通用3D理解的背景下。
关键思路

提出PartSAM，首个直接在大规模3D数据上训练的可提示部件分割模型。其核心思想是采用基于三平面（triplane）的双分支编码器架构，生成具有空间结构的token，实现对3D形状的细粒度、部分感知的表示学习，并通过模型在环路的标注流程自动生成大量3D形状-部件标注对。相比间接利用2D模型的方法，PartSAM原生建模3D结构，实现了从表面到内部结构的完整分解。
其它亮点

亮点包括：1）设计了可扩展的3D原生架构，支持精确的部件识别和全自动的‘分割每一部分’模式；2）构建了包含超过500万个3D形状-部件对的大规模数据集，通过在线资产与模型协同标注完成；3）实验表明PartSAM在多个基准上显著超越现有最先进方法；4）支持开放世界场景下的零样本泛化；5）展示了对内部结构的理解能力，突破了传统表面分割的局限。目前尚未提及代码是否开源。未来可深入研究其在机器人、AR/VR、3D编辑等场景的应用以及进一步提升内部结构推理能力。
相关研究

近期相关研究集中在将2D基础模型迁移至3D任务，例如：《Segment Anything in 3D with NeRFs》、《3D-SPS: Segmenting Any 3D Point Cloud by Prompting SAM》、《Open-World 3D Segmentation with Masked Depth Diffusion》、《Triplane-based 3D Generative Models from Unstructured Point Clouds》以及《Panoptic 3D Scene Reconstruction from a Single RGB Image》等。这些工作大多依赖于多视图投影或神经辐射场来桥接2D与3D，而PartSAM首次实现完全基于3D原生数据的可提示部件分割，标志着向真正的3D基础模型迈进的关键一步。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问