LongVLM: Efficient Long Video Understanding via Large Language Models

简介

最近，借助大型语言模型（LLMs）的支持，VideoLLMs的进展推动了各种视频理解任务的发展。这些模型通过对大量视觉标记进行汇聚或查询聚合来编码视频表示，从而使计算和内存成本可承受。尽管成功提供了对视频内容的整体理解，但现有的VideoLLMs在实现对视频的详细理解方面仍然面临挑战，因为它们忽略了长期视频中的局部信息。为了解决这个问题，我们介绍了LongVLM，这是一个简单但强大的VideoLLM，用于长视频理解，建立在这样的观察基础上：长视频通常由连续的关键事件、复杂的动作和摄像机移动组成。我们的方法是将长视频分解为多个短期片段，并通过分层标记合并模块对每个本地片段进行本地特征编码。这些特征按时间顺序连接起来，以保持连续短期片段的故事情节。此外，我们建议将全局语义集成到每个本地特征中，以增强上下文理解。通过这种方式，我们编码了同时包含局部和全局信息的视频表示，使LLM能够为长期视频生成全面的响应。在VideoChatGPT基准测试和零-shot视频问答数据集上的实验结果表明，我们的模型比以前的最先进方法具有更强的能力。定性示例表明，我们的模型为长视频理解产生了更精确的响应。代码可在\url{https://github.com/ziplab/LongVLM}上获得。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

LongVLM试图解决长视频理解中忽略局部信息的问题，提高长视频细节理解能力。

关键思路

LongVLM将长视频分解为多个短期片段，并通过分层令牌合并模块对每个局部片段进行编码，然后按时间顺序将这些特征连接起来，同时将全局语义集成到每个局部特征中，从而获得包含局部和全局信息的视频表示。

其它亮点

论文在VideoChatGPT基准测试和零样本视频问答数据集上进行了实验，证明了LongVLM相对于现有最先进方法的优越性。LongVLM的代码可在GitHub上获得。

LongVLM: Efficient Long Video Understanding via Large Language Models

提问交流

提问交流