LongVLM: Efficient Long Video Understanding via Large Language Models

简介

最近，随着大型语言模型（LLMs）的加强，VideoLLMs的进展推动了各种视频理解任务的进展。这些模型通过对大量视觉标记进行汇集或查询聚合来编码视频表示，从而使计算和内存成本可承受。尽管成功地提供了对视频内容的整体理解，但现有的VideoLLMs在实现对视频的详细理解方面仍面临挑战，因为它们忽略了长期视频中的局部信息。为了解决这个问题，我们引入了LongVLM，这是一个简单而强大的VideoLLM，用于长视频的理解。我们的方法建立在这样的观察基础上：长视频通常由连续的关键事件、复杂的动作和摄像机移动组成。我们的方法建议将长视频分解成多个短期片段，并通过分层标记合并模块对每个本地片段进行本地特征编码。这些特征按时间顺序连接起来，以保持连续的短期片段之间的故事情节。此外，我们还建议将全局语义集成到每个本地特征中，以增强上下文理解。通过这种方式，我们编码了既包含局部信息又包含全局信息的视频表示，使LLM能够为长期视频生成全面的响应。在VideoChatGPT基准测试和零-shot视频问答数据集上的实验结果表明，我们的模型比先前的最先进方法具有更强的能力。定性示例表明，我们的模型为长视频理解产生了更精确的响应。代码将在https://github.com/ziplab/LongVLM上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文试图提出一种新的视频理解模型 LongVLM，来解决现有 VideoLLMs 在理解长视频时忽略局部信息的问题。
关键思路

关键思路：LongVLM 将长视频分解为多个短期片段，在每个局部片段上使用分层的 Token 合并模块来编码局部特征，并将这些特征按时间顺序连接起来，以保持故事情节的连续性。此外，还提出将全局语义集成到每个局部特征中，以增强上下文理解。
其它亮点

其他亮点：论文在 VideoChatGPT 基准测试和零样本视频问答数据集上进行了实验，证明了 LongVLM 模型相对于先前的最先进方法具有更高的性能。模型的开源代码可在 Github 上获取。
相关研究

相关研究：最近的相关研究包括使用 Transformer 模型的 VideoBERT 和使用局部-全局交互模块的 LGI。

LongVLM: Efficient Long Video Understanding via Large Language Models

提问交流

提问交流