Autoregressive Universal Video Segmentation Model

向作者提问

NEW

简介

近期的视频基础模型（如 SAM2）通过将掩码视为一种通用的基本单元，在提示式视频分割任务中表现出色。然而，许多实际应用场景需要的是无提示分割，即在没有外部提示的情况下检测并跟踪视频中的所有物体，而目前这一领域仍被各种特定任务的模型和流程所分割。我们将视频流分割任务重新定义为一种顺序掩码预测问题，类似于语言建模，并由此提出了自回归通用分割模型（Autoregressive Universal Segmentation Model，简称 AUSM）。该模型采用统一的架构，能够同时处理提示式和无提示式的视频分割任务。AUSM 基于最新的状态空间模型构建，维持一个固定大小的空间状态，并可扩展至任意长度的视频流。此外，AUSM 的所有组件都设计为可在多个视频帧上并行训练，相比迭代训练方式显著提升了训练速度。在多个标准基准数据集（DAVIS17、YouTube-VOS 2018 与 2019、MOSE、YouTube-VIS 2019 与 2021 以及 OVIS）上，AUSM 均超越了以往的通用视频流分割方法，并在 16 帧视频序列上的训练速度最高提升了 2.5 倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视频分割中未被充分探索的无提示（unprompted）分割问题，即在没有外部提示的情况下检测和跟踪视频中的所有物体。目前，大多数先进方法集中在需要提示的视频分割任务上，而现实场景中往往需要模型自主识别所有物体。这是一个重要但尚未被充分解决的问题。
关键思路

论文提出了一种新的视频分割框架——自回归通用分割模型（AUSM），将视频分割任务重新建模为类似于语言模型的连续掩码预测问题。该模型基于状态空间模型（state-space models），能够处理任意长度的视频流，并统一处理提示和无提示的视频分割任务。这一思路与传统基于提示的视频分割方法不同，具有较高的通用性和创新性。
其它亮点

1. AUSM采用固定大小的空间状态表示，支持对任意长度的视频流进行实时处理。 2. 模型的所有组件都支持帧间的并行训练，相比迭代训练方式，训练速度提升了最多2.5倍。 3. 在多个主流视频分割基准数据集（如DAVIS17、YouTube-VOS、MOSE、YouTube-VIS、OVIS）上，AUSM均优于现有的通用视频分割方法。 4. 实验设计全面，覆盖多个任务和数据集，展示了模型的泛化能力。 5. 论文没有提及是否开源代码，未来若开放代码库，将有助于社区进一步研究和应用。
相关研究

1. Segment Anything Model (SAM) 系列：基于提示的图像和视频分割模型，如SAM和SAM2。 2. YouTube-VIS系列论文：专注于视频实例分割任务。 3. DAVIS挑战赛相关工作：专注于高质量视频对象分割。 4. 基于状态空间模型的序列建模研究，如S4（Structured State Space Sequence Models）。 5. Streaming Video Segmentation方法，如STCN、XMem等，专注于提示驱动的视频分割任务。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问