- 简介最近,随着大型语言模型(LLMs)的加强,VideoLLMs的进展推动了各种视频理解任务的进展。这些模型通过对大量视觉标记进行汇集或查询聚合来编码视频表示,从而使计算和内存成本可承受。尽管成功地提供了对视频内容的整体理解,但现有的VideoLLMs在实现对视频的详细理解方面仍面临挑战,因为它们忽略了长期视频中的局部信息。为了解决这个问题,我们引入了LongVLM,这是一个简单而强大的VideoLLM,用于长视频的理解。我们的方法建立在这样的观察基础上:长视频通常由连续的关键事件、复杂的动作和摄像机移动组成。我们的方法建议将长视频分解成多个短期片段,并通过分层标记合并模块对每个本地片段进行本地特征编码。这些特征按时间顺序连接起来,以保持连续的短期片段之间的故事情节。此外,我们还建议将全局语义集成到每个本地特征中,以增强上下文理解。通过这种方式,我们编码了既包含局部信息又包含全局信息的视频表示,使LLM能够为长期视频生成全面的响应。在VideoChatGPT基准测试和零-shot视频问答数据集上的实验结果表明,我们的模型比先前的最先进方法具有更强的能力。定性示例表明,我们的模型为长视频理解产生了更精确的响应。代码将在https://github.com/ziplab/LongVLM上提供。
-
- 图表
- 解决问题解决问题:论文试图提出一种新的视频理解模型 LongVLM,来解决现有 VideoLLMs 在理解长视频时忽略局部信息的问题。
- 关键思路关键思路:LongVLM 将长视频分解为多个短期片段,在每个局部片段上使用分层的 Token 合并模块来编码局部特征,并将这些特征按时间顺序连接起来,以保持故事情节的连续性。此外,还提出将全局语义集成到每个局部特征中,以增强上下文理解。
- 其它亮点其他亮点:论文在 VideoChatGPT 基准测试和零样本视频问答数据集上进行了实验,证明了 LongVLM 模型相对于先前的最先进方法具有更高的性能。模型的开源代码可在 Github 上获取。
- 相关研究:最近的相关研究包括使用 Transformer 模型的 VideoBERT 和使用局部-全局交互模块的 LGI。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流