LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

向作者提问

NEW

简介

多模态大语言模型（MLLMs）在理解和分析视频内容方面展示了令人鼓舞的进展。然而，处理长视频仍然是一个重大挑战，受到大语言模型（LLM）上下文长度的限制。为了解决这一局限性，我们提出了LongVU，这是一种时空自适应压缩机制，能够在保留长视频视觉细节的同时减少视频标记的数量。我们的想法是利用跨模态查询和帧间依赖关系，自适应地减少视频中的时间和空间冗余。具体来说，我们利用DINOv2特征来移除高度相似的冗余帧。然后，我们利用文本引导的跨模态查询进行选择性的帧特征减少。此外，我们基于帧的时间依赖关系进行空间标记减少。我们的自适应压缩策略在给定的上下文长度内有效处理大量帧，同时保持较少的视觉信息损失。我们的LongVU在各种视频理解基准测试中始终超过现有方法，尤其是在VideoMME和MLVU等长达一小时的视频理解任务上表现突出。即使使用轻量级的大语言模型，我们的LongVU也能有效地缩小规模，并保持最先进的视频理解性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决长视频处理中的上下文限制问题，这是由于现有的多模态大语言模型（MLLMs）在处理长视频时受到其上下文大小的限制。这是一个现有但尚未完全解决的问题。
关键思路

论文提出了一种名为LongVU的时空自适应压缩机制，通过利用跨模态查询和帧间依赖性来减少视频中的时间和空间冗余。具体来说，使用DINOv2特征去除高相似度的冗余帧，并通过文本引导的跨模态查询进行选择性的帧特征减少，同时基于帧的时序依赖性进行空间令牌减少。这种策略在保持视觉细节的同时有效减少了视频令牌的数量。
其它亮点

论文在多个视频理解基准上进行了广泛的实验，特别是在长达一小时的视频理解任务（如VideoMME和MLVU）上表现突出。此外，LongVU在轻量级LLM上也表现出色，能够在较小的模型规模下实现最先进的视频理解性能。论文还提供了详细的实验设计和数据集信息，并且开源了代码，为后续研究提供了良好的基础。
相关研究

最近在这个领域中，相关研究包括《Temporal Compression for Efficient Video Understanding》、《Cross-Modal Attention for Video Summarization》和《Adaptive Frame Selection for Long Video Analysis》等。这些研究主要集中在如何有效地减少视频的时空冗余，提高视频处理的效率和准确性。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问