NEW

SAM 3: Segment Anything with Concepts

Nicolas Carion ,

Laura Gustafson ,

Yuan-Ting Hu ,

Shoubhik Debnath ,

Ronghang Hu ,

Didac Suris ,

Chaitanya Ryali ,

Kalyan Vasudev Alwala ,

Haitham Khedr ,

Andrew Huang ,

Jie Lei ,

Tengyu Ma ,

Baishan Guo ,

Arpit Kalla ,

Markus Marks ,

Joseph Greer ,

Meng Wang ,

Peize Sun ,

Roman Rädle ,

Triantafyllos Afouras ,

Effrosyni Mavroudi ,

Katherine Xu ,

Tsung-Han Wu ,

Yu Zhou ,

Liliane Momeni ,

Rishi Hazra ,

Shuangrui Ding ,

Sagar Vaze ,

Francois Porcher ,

Feng Li ,

Siyuan Li ,

Aishwarya Kamath ,

Ho Kei Cheng ,

Piotr Dollár ,

Nikhila Ravi ,

Kate Saenko ,

Pengchuan Zhang ,

Christoph Feichtenhofer

热度 624

2025年11月20日

简介

我们提出Segment Anything Model（SAM）3，这是一种统一的模型，能够根据概念提示对图像和视频中的物体进行检测、分割和跟踪。所谓概念提示，我们定义为简短的名词短语（例如“黄色校车”）、图像示例，或两者的组合。可提示的概念分割（Promptable Concept Segmentation, PCS）接受此类提示，并返回所有匹配物体实例的分割掩码及唯一标识。为了推动PCS的发展，我们构建了一个可扩展的数据引擎，生成包含400万个独特概念标签（包括困难负样本）的高质量数据集，覆盖图像与视频。我们的模型由一个图像级检测器和一个基于记忆的视频追踪器组成，二者共享同一个主干网络。通过引入存在性预测头（presence head），我们将识别与定位任务解耦，从而提升了检测精度。SAM 3在图像和视频的PCS任务上，准确率均达到现有系统的两倍，并在视觉分割任务中超越了此前SAM的各项能力。我们同时开源了SAM 3模型以及全新的“带概念的Segment Anything”（SA-Co）基准数据集，用于可提示概念分割的研究。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决图像和视频中基于概念提示的可提示化概念分割（Promptable Concept Segmentation, PCS）问题，即根据自然语言描述（如‘黄色校车’）、示例图像或两者组合来检测、分割并跟踪物体实例。现有方法在跨模态提示理解、多实例识别与视频时序一致性方面表现不足，且缺乏大规模高质量标注数据支持。该问题结合了开放词汇分割、零样本识别与视频实例分割，具有较强的新颖性和挑战性。
关键思路

提出Segment Anything Model 3（SAM 3），通过统一框架实现图像与视频中的检测、分割与跟踪，核心创新在于解耦识别与定位：使用共享主干网络，配备一个‘存在头’（presence head）提升检测准确性，并引入基于记忆机制的视频追踪模块。模型支持多种概念提示输入，实现了真正意义上的可提示化概念感知分割。
其它亮点

构建了可扩展的数据引擎，生成包含400万个独特概念标签的大规模高质量数据集SA-Co，涵盖图像与视频，并包含难负样本；在图像和视频PCS任务上，SAM 3准确率较现有系统翻倍；同时在传统视觉分割任务上也超越前代SAM模型；已开源模型及新提出的SA-Co基准，推动社区发展；实验设计覆盖零样本迁移、跨模态提示泛化与长时视频跟踪，验证充分。
相关研究

1. Segment Anything Model (SAM) - Meta AI 2. Open-Vocabulary Object Detection via Vision and Language Knowledge Distillation 3. Language for Prompting: A Survey on Promptable Vision Models 4. Mask2Former: Unified Mask-Based Transformer for Panoptic Segmentation 5. DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 6. EgoHOS: Egocentric Articulated Hand-Object Segmentation in Videos 7. PerSAM: Personalized Segment Anything Model via Fine-Tuning

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问