MatAnyone 2: Scaling Video Matting via a Learned Quality Evaluator

2025年12月12日
  • 简介
    视频抠图技术目前仍受限于现有数据集的规模和真实感。尽管利用分割数据可以提升语义稳定性,但由于缺乏有效的边界监督,往往导致生成的抠图结果类似于分割图,缺少精细细节。为此,我们提出了一种可学习的抠图质量评估器(Matting Quality Evaluator, MQE),它能够在无需真实标注的情况下,评估alpha抠图的语义和边界质量。该评估器生成一张像素级的评价图,用以识别结果中可靠与错误的区域,从而实现细粒度的质量评估。MQE从两个方面推动了视频抠图的发展:(1)作为训练过程中的在线抠图质量反馈机制,抑制错误区域的产生,提供更全面的监督信号;(2)作为离线的数据筛选模块,用于数据整理,通过融合当前最先进的视频和图像抠图模型的优势,提升标注质量。这一流程使我们得以构建一个大规模的真实世界视频抠图数据集VMReal,包含28,000个视频片段和240万帧图像。为了应对长视频中外观变化剧烈的问题,我们引入了一种参考帧训练策略,在训练过程中引入超出局部窗口范围的远距离帧,以实现更有效的学习。我们的MatAnyone 2模型在合成数据和真实场景的各类基准测试中均达到了最先进水平,在所有指标上均优于以往方法。
  • 作者讲解
  • 图表
  • 解决问题
    视频抠图(video matting)受限于现有数据集的规模和真实感,尤其是在处理真实世界场景时缺乏足够的高质量标注数据。同时,当前方法在边界细节保留上表现不佳,导致生成的alpha matte过于类似分割结果而丢失精细结构,如发丝、透明物体等。这个问题尚未被充分解决,尤其在大规模真实视频数据上的应用仍存在挑战。
  • 关键思路
    提出一种无需真值监督的可学习Matting Quality Evaluator(MQE),通过评估alpha matte的语义和边界质量生成像素级质量图,识别可靠与错误区域。利用MQE在训练中提供在线反馈以抑制错误区域,并作为离线模块筛选高质量样本,从而构建大规模真实视频抠图数据集VMReal。此外,引入参考帧训练策略,利用长距离上下文信息提升对长视频中外观变化的鲁棒性。
  • 其它亮点
    1. 构建了目前最大的真实世界视频抠图数据集VMReal,包含28K视频片段和2.4M帧,显著超越以往数据集规模;2. MQE实现了无真值情况下的细粒度质量评估,支持自动数据清洗与模型优化闭环;3. 实验验证了MatAnyone 2在合成与真实场景下均达到SOTA性能,在多个基准上全面超越先前方法;4. 提出的参考帧训练机制有效提升了长视频中的时序一致性和细节恢复能力;5. 方法具有良好的扩展性,为未来基于混合生成-评估框架的数据增强提供了新范式。
  • 相关研究
    1. “Deep Video Matting” (CVPR 2020) 2. “IndexNet: Indexed-Based Photorealistic Image Matting” (CVPR 2021) 3. “Learning Base-Attention-Scale Prediction for High-Resolution Natural Image Matting with Total Memory Control” (ICCV 2023) 4. “MatteFormer: Transformer-Based Image Matting with Detail-Preserving Decoder” (NeurIPS 2023) 5. “Segment Anything Model (SAM)” (Meta AI, 2023) — 虽非专用于matting,但其零样本分割能力启发了本工作对分割先验的利用 6. “Recurrent Neural Networks for Video Matting I and II” (ICML 2021 & 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问