VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

2026年02月19日
  • 简介
    现有的在线视频分割模型通常将逐帧分割器与复杂且专用的跟踪模块相结合。尽管这类方法效果显著,但这些专用模块却带来了显著的架构复杂性和计算开销。近期研究表明,当视觉Transformer(ViT)编码器具备足够大的模型容量并经过大规模预训练后,仅凭其本身就能实现高精度的图像分割,无需依赖任何专用模块。受此启发,我们提出了“纯视频编码器掩码Transformer”(VidEoMT),这是一种结构简洁、仅含编码器的视频分割模型,完全摒弃了专用跟踪模块。为使纯编码器架构的ViT具备时序建模能力,VidEoMT引入了一种轻量级查询传播机制:通过复用前一帧的查询,将信息跨帧传递。为兼顾该机制对新内容的适应能力,模型进一步采用查询融合策略,将传播所得的查询与一组与时间无关、预先学习得到的查询进行融合。由此,VidEoMT在不增加模型复杂度的前提下,实现了传统跟踪器所具备的优势,在保持竞争力的分割精度的同时,推理速度提升达5至10倍,采用ViT-L主干网络时最高可达160帧/秒(FPS)。代码地址:https://www.tue-mps.org/videomt/
  • 作者讲解
  • 图表
  • 解决问题
    现有视频实例分割模型严重依赖复杂的专用跟踪模块(如光流、记忆库、跨帧注意力等),导致架构臃肿、计算开销大、推理速度慢;论文旨在验证:仅靠扩展的、预训练充分的ViT编码器,配合轻量时序建模机制,能否在不引入显式跟踪模块的前提下实现高质量、高效率的视频分割——这是一个对‘编码器-only范式能否替代传统检测+跟踪两阶段范式’的重要实证探索。
  • 关键思路
    提出VidEoMT:一种纯编码器视频分割模型;核心创新在于轻量级‘查询传播+查询融合’机制——将前一帧的实例查询(object queries)直接复用并线性传播至当前帧,再与一组固定、时间无关的可学习查询进行加权融合;该设计隐式建模时序一致性,无需额外跟踪头、记忆网络或帧间匹配损失,以极简方式获得类跟踪能力。
  • 其它亮点
    在YouTube-VIS 2019/2021和OVIS上达到SOTA或接近SOTA精度(如YouTube-VIS 2021上48.2 AP);推理速度达160 FPS(ViT-L),比主流方法快5–10倍;完全开源代码与模型权重;消融充分验证了查询传播的必要性与融合策略的鲁棒性;工作启示深远:提示我们‘规模+预训练+结构简约’可能比‘手工设计跟踪逻辑’更高效、更可扩展。
  • 相关研究
    Mask2Former (CVPR 2022);VideoSegFormer (ICCV 2023);TrackFormer (ECCV 2022);VisTR (ICCV 2021);SeqFormer (CVPR 2022);Perceiver IO (NeurIPS 2021)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问