- 简介尽管目前的多模态大语言模型(MLLMs)在视频理解方面展现出了很好的结果,但处理极长视频仍然是一个持续的挑战。通常,MLLMs难以处理超过LLMs最大上下文长度的数千个标记,并且由于标记聚合而导致视觉清晰度降低。另一个挑战是由于大量视频标记而导致的高计算成本。为了解决这些问题,我们提出了Video-XL,这是一个专为高效处理长达数小时的视频理解而设计的超长视觉语言模型。具体而言,我们认为LLMs可以被改进为有效的视觉压缩器,并引入了视觉上下文潜在摘要,将视觉上下文压缩成高度紧凑的形式。广泛的实验表明,尽管受到图像数据限制,我们的模型在流行的长视频理解基准测试中取得了很好的结果。此外,Video-XL在效率和有效性之间取得了良好的平衡,在单个80GB GPU上处理1024帧,并在“寻找针在哪里”评估中实现了近100%的准确性。我们预计Video-XL将成为长视频应用的有价值的工具,例如视频摘要、监视异常检测和广告放置识别。
- 图表
- 解决问题论文旨在解决长视频处理的问题,即当前的MLLMs难以处理超过LLMs最大上下文长度的数千个标记,并且由于标记聚合而导致视觉清晰度降低,同时由于大量视频标记而产生高计算成本。
- 关键思路论文提出了一种名为Video-XL的额外长视觉语言模型,通过将LLMs作为有效的视觉压缩器来处理长视频,同时引入了Visual Context Latent Summarization,将视觉上下文压缩成高度紧凑的形式。
- 其它亮点论文通过广泛的实验表明,尽管仅在有限的图像数据上进行训练,但该模型在流行的长视频理解基准测试中取得了有希望的结果。此外,Video-XL在处理1024帧的视频时,仅需单个80GB GPU,同时在Needle-in-a-Haystack评估中实现了近100%的准确性。
- 最近的相关研究包括ViViT,COTR,VATT,VidL,Swin Transformer等。
沙发等你来抢
去评论
评论
沙发等你来抢