When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

2025年07月27日
  • 简介
    多模态大语言模型(MLLMs)近年来取得了显著进展,这主要得益于它们处理越来越长且复杂上下文的能力,例如高分辨率图像、长时间视频序列以及长段音频输入。虽然这种能力极大地提升了MLLM的表现,但也带来了显著的计算挑战,主要源于自注意力机制的平方复杂度,特别是在面对大量输入token时。为缓解这些瓶颈,token压缩作为一种有前景且关键的方法逐渐兴起,能够在训练和推理过程中高效地减少token数量。 本文对这一快速发展的多模态长上下文token压缩领域进行了首次系统性的综述与整合。考虑到有效的压缩策略与各模态自身的特性及冗余密切相关,我们根据方法的主要数据关注点进行分类,使研究人员能够快速了解并掌握与其研究领域相关的技术:(1)以图像为中心的压缩方法,主要应对视觉数据中的空间冗余;(2)以视频为中心的压缩方法,旨在处理动态序列中的时空冗余;(3)以音频为中心的压缩方法,用于处理音频信号中的时间与频谱冗余。除了基于模态的分类,我们还根据方法的核心机制进行了进一步的梳理,包括基于变换、基于相似性、基于注意力以及基于查询的压缩方法。 通过提供全面且结构清晰的概述,本综述旨在整合当前的研究进展,指出关键挑战,并为未来的研究方向提供启发。同时,我们维护了一个公开的代码库,以持续追踪并更新这一前景广阔领域的最新进展。
  • 图表
  • 解决问题
    该论文旨在系统性地总结和分析多模态长上下文token压缩这一新兴领域。随着多模态大语言模型(MLLMs)处理长而复杂上下文的能力增强,如高分辨率图像、长时间视频和长音频输入,计算瓶颈问题也愈发严重,尤其是自注意力机制的二次复杂度问题。论文试图解决如何高效减少token数量以缓解计算瓶颈,这是一个随着MLLM发展而变得日益关键的问题。
  • 关键思路
    论文的核心思路是通过模态驱动的视角对token压缩方法进行系统分类,即根据图像、视频和音频各自的特点和冗余性,分别归纳其压缩策略,并进一步从机制层面将其分为基于变换、相似性、注意力和查询的方法。这是首次对多模态token压缩领域进行系统性综述,为研究人员提供了一个结构化的知识框架。
  • 其它亮点
    1. 提出了一个清晰的分类体系,帮助研究人员快速定位与其研究领域相关的压缩方法。 2. 不仅总结了现有方法,还指出了当前研究的挑战和未来方向。 3. 维护了一个公共代码库以持续跟踪该领域的最新进展,增强了研究的可复现性和实用性。 4. 涵盖了不同模态(图像、视频、音频)的压缩方法,具有较强的跨模态通用性。
  • 相关研究
    1. Efficient Attention: Attention with Linear Complexity (2018) 2. Longformer: The Long-Document Transformer (2020) 3. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (2021) 4. VideoMAE: Masked Autoencoders are Data-Efficient Vision Learners for Video (2022) 5. Compressing Vision Transformers by Progressive Channel Pruning (2023)
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论