SAM 3: Segment Anything with Concepts

2025年11月20日
  • 简介
    我们提出Segment Anything Model(SAM)3,这是一种统一的模型,能够根据概念提示对图像和视频中的物体进行检测、分割和跟踪。所谓概念提示,我们定义为简短的名词短语(例如“黄色校车”)、图像示例,或两者的组合。可提示的概念分割(Promptable Concept Segmentation, PCS)接受此类提示,并返回所有匹配物体实例的分割掩码及唯一标识。为了推动PCS的发展,我们构建了一个可扩展的数据引擎,生成包含400万个独特概念标签(包括困难负样本)的高质量数据集,覆盖图像与视频。我们的模型由一个图像级检测器和一个基于记忆的视频追踪器组成,二者共享同一个主干网络。通过引入存在性预测头(presence head),我们将识别与定位任务解耦,从而提升了检测精度。SAM 3在图像和视频的PCS任务上,准确率均达到现有系统的两倍,并在视觉分割任务中超越了此前SAM的各项能力。我们同时开源了SAM 3模型以及全新的“带概念的Segment Anything”(SA-Co)基准数据集,用于可提示概念分割的研究。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决图像和视频中基于概念提示的可提示化概念分割(Promptable Concept Segmentation, PCS)问题,即根据自然语言描述(如‘黄色校车’)、示例图像或两者组合来检测、分割并跟踪物体实例。现有方法在跨模态提示理解、多实例识别与视频时序一致性方面表现不足,且缺乏大规模高质量标注数据支持。该问题结合了开放词汇分割、零样本识别与视频实例分割,具有较强的新颖性和挑战性。
  • 关键思路
    提出Segment Anything Model 3(SAM 3),通过统一框架实现图像与视频中的检测、分割与跟踪,核心创新在于解耦识别与定位:使用共享主干网络,配备一个‘存在头’(presence head)提升检测准确性,并引入基于记忆机制的视频追踪模块。模型支持多种概念提示输入,实现了真正意义上的可提示化概念感知分割。
  • 其它亮点
    构建了可扩展的数据引擎,生成包含400万个独特概念标签的大规模高质量数据集SA-Co,涵盖图像与视频,并包含难负样本;在图像和视频PCS任务上,SAM 3准确率较现有系统翻倍;同时在传统视觉分割任务上也超越前代SAM模型;已开源模型及新提出的SA-Co基准,推动社区发展;实验设计覆盖零样本迁移、跨模态提示泛化与长时视频跟踪,验证充分。
  • 相关研究
    1. Segment Anything Model (SAM) - Meta AI 2. Open-Vocabulary Object Detection via Vision and Language Knowledge Distillation 3. Language for Prompting: A Survey on Promptable Vision Models 4. Mask2Former: Unified Mask-Based Transformer for Panoptic Segmentation 5. DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 6. EgoHOS: Egocentric Articulated Hand-Object Segmentation in Videos 7. PerSAM: Personalized Segment Anything Model via Fine-Tuning
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问