- 简介随着大型语言模型(LLMs)的成功,将视觉模型整合到LLMs中以构建视觉语言基础模型最近引起了更多的关注。然而,现有的基于LLM的大型多模型模型(例如Video-LLaMA、VideoChat)只能接受有限数量的帧以进行短视频理解。在本研究中,我们主要关注设计一种有效的模型,用于长期视频理解。与大多数现有工作一样,不是尝试同时处理更多的帧,我们建议以在线方式处理视频,并将过去的视频信息存储在记忆库中。这使得我们的模型可以参考历史视频内容进行长期分析,而不会超过LLMs的上下文长度限制或GPU内存限制。我们的记忆库可以无缝地集成到当前的多模LLMs中。我们对各种视频理解任务进行了广泛的实验,例如长视频理解、视频问答和视频字幕生成,并且我们的模型可以在多个数据集上实现最先进的性能。代码可在https://boheumd.github.io/MA-LMM/上获得。
-
- 图表
- 解决问题设计一个高效有效的模型用于长视频理解,解决现有模型只能处理有限帧数的问题。
- 关键思路提出在线处理视频并将过去的视频信息存储在记忆库中的方法,以便长期分析。
- 其它亮点通过在多个数据集上进行实验,论文证明了该模型在长视频理解、视频问答和视频字幕生成方面的表现优于现有模型。论文提供了开源代码。
- 最近的相关研究包括Video-LLaMA和VideoChat等基于LLM的大型多模型模型。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流