- 简介近期的视频基础模型(如 SAM2)通过将掩码视为一种通用的基本单元,在提示式视频分割任务中表现出色。然而,许多实际应用场景需要的是无提示分割,即在没有外部提示的情况下检测并跟踪视频中的所有物体,而目前这一领域仍被各种特定任务的模型和流程所分割。我们将视频流分割任务重新定义为一种顺序掩码预测问题,类似于语言建模,并由此提出了自回归通用分割模型(Autoregressive Universal Segmentation Model,简称 AUSM)。该模型采用统一的架构,能够同时处理提示式和无提示式的视频分割任务。AUSM 基于最新的状态空间模型构建,维持一个固定大小的空间状态,并可扩展至任意长度的视频流。此外,AUSM 的所有组件都设计为可在多个视频帧上并行训练,相比迭代训练方式显著提升了训练速度。在多个标准基准数据集(DAVIS17、YouTube-VOS 2018 与 2019、MOSE、YouTube-VIS 2019 与 2021 以及 OVIS)上,AUSM 均超越了以往的通用视频流分割方法,并在 16 帧视频序列上的训练速度最高提升了 2.5 倍。
-
- 图表
- 解决问题论文旨在解决视频分割中未被充分探索的无提示(unprompted)分割问题,即在没有外部提示的情况下检测和跟踪视频中的所有物体。目前,大多数先进方法集中在需要提示的视频分割任务上,而现实场景中往往需要模型自主识别所有物体。这是一个重要但尚未被充分解决的问题。
- 关键思路论文提出了一种新的视频分割框架——自回归通用分割模型(AUSM),将视频分割任务重新建模为类似于语言模型的连续掩码预测问题。该模型基于状态空间模型(state-space models),能够处理任意长度的视频流,并统一处理提示和无提示的视频分割任务。这一思路与传统基于提示的视频分割方法不同,具有较高的通用性和创新性。
- 其它亮点1. AUSM采用固定大小的空间状态表示,支持对任意长度的视频流进行实时处理。 2. 模型的所有组件都支持帧间的并行训练,相比迭代训练方式,训练速度提升了最多2.5倍。 3. 在多个主流视频分割基准数据集(如DAVIS17、YouTube-VOS、MOSE、YouTube-VIS、OVIS)上,AUSM均优于现有的通用视频分割方法。 4. 实验设计全面,覆盖多个任务和数据集,展示了模型的泛化能力。 5. 论文没有提及是否开源代码,未来若开放代码库,将有助于社区进一步研究和应用。
- 1. Segment Anything Model (SAM) 系列:基于提示的图像和视频分割模型,如SAM和SAM2。 2. YouTube-VIS系列论文:专注于视频实例分割任务。 3. DAVIS挑战赛相关工作:专注于高质量视频对象分割。 4. 基于状态空间模型的序列建模研究,如S4(Structured State Space Sequence Models)。 5. Streaming Video Segmentation方法,如STCN、XMem等,专注于提示驱动的视频分割任务。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流