Video-XL-Pro: Reconstructive Token Compression for Extremely Long Video Understanding

2025年03月24日
  • 简介
    尽管采用了先进的标记压缩技术,现有的多模态大语言模型(MLLMs)在处理长达数小时的视频理解任务时仍然面临挑战。在这项工作中,我们提出了 Video-XL-Pro,这是一种高效的极长视频理解方法,基于可学习模块“标记重构压缩”(ReCoT)。ReCoT 利用自监督学习生成全面且紧凑的视频标记。ReCoT 引入了两个关键组件:(i) 动态标记合成器(DTS):DTS 通过学习静态图像标记之间的内部关系生成伪视频标记,并将其用于掩码视频建模;(ii) 语义引导掩码(SGM):SGM 自适应地掩码冗余的视觉标记,从而促进更有效的重构学习。 为了提高 MLLMs 微调过程中的训练效率,我们引入了一种特定于视频的数据集剪枝策略,并设计了一个简单但具备查询感知能力的选择器(Query-aware Selector),使模型能够精准定位与查询相关的视频标记。Video-XL-Pro 拥有仅 3B 参数,在多个长视频理解基准测试中超越了大多数在更大数据集上训练的 7B 模型。此外,它能够在单个 A100 GPU 上处理超过 8K 帧,同时保持高质量的性能表现。
  • 图表
  • 解决问题
    论文试图解决长视频理解的问题,尤其是对于小时级别视频的理解。现有方法在处理此类数据时效率低下或性能不足,因此这是一个需要创新解决方案的挑战性问题。
  • 关键思路
    论文提出了一种名为Video-XL-Pro的方法,基于Reconstructive Compression of Tokens (ReCoT) 模块,通过动态生成紧凑的视频表示(DTS)和语义引导的掩码策略(SGM),实现了高效的长视频压缩与理解。相比传统方法,该方法结合了自监督学习和细粒度查询感知选择器,显著提高了模型对长视频的处理能力。
  • 其它亮点
    1. Video-XL-Pro仅用3B参数即可超越大多数7B参数模型的性能;2. 能够在单个A100 GPU上处理超过8K帧的视频;3. 提出了Query-aware Selector用于精确定位相关视频片段;4. 实验涵盖了多个长视频理解基准数据集;5. 方法开源,便于后续研究者复现和改进。
  • 相关研究
    相关研究包括:1. MLLMs(Multimodal Large Language Models)如Flamingo和BLIP-2,主要关注多模态任务但未专门优化长视频场景;2. 视频压缩技术如ViT-VQVAE,侧重于视觉特征的无损压缩;3. 自监督学习方法如MAE(Masked Autoencoders)和BEiT,为ReCoT模块提供了理论基础。一些相关的论文标题包括《Flamingo: a Visual Language Model》、《BLIP-2: Bootstrapping Language-Image Pre-training》和《Masked Autoencoders Are Scalable Vision Learners》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论