LongVLM: Efficient Long Video Understanding via Large Language Models

2024年04月04日
  • 简介
    最近,借助大型语言模型(LLMs)的支持,VideoLLMs的进展推动了各种视频理解任务的发展。这些模型通过对大量视觉标记进行汇聚或查询聚合来编码视频表示,从而使计算和内存成本可承受。尽管成功提供了对视频内容的整体理解,但现有的VideoLLMs在实现对视频的详细理解方面仍然面临挑战,因为它们忽略了长期视频中的局部信息。为了解决这个问题,我们介绍了LongVLM,这是一个简单但强大的VideoLLM,用于长视频理解,建立在这样的观察基础上:长视频通常由连续的关键事件、复杂的动作和摄像机移动组成。我们的方法是将长视频分解为多个短期片段,并通过分层标记合并模块对每个本地片段进行本地特征编码。这些特征按时间顺序连接起来,以保持连续短期片段的故事情节。此外,我们建议将全局语义集成到每个本地特征中,以增强上下文理解。通过这种方式,我们编码了同时包含局部和全局信息的视频表示,使LLM能够为长期视频生成全面的响应。在VideoChatGPT基准测试和零-shot视频问答数据集上的实验结果表明,我们的模型比以前的最先进方法具有更强的能力。定性示例表明,我们的模型为长视频理解产生了更精确的响应。代码可在\url{https://github.com/ziplab/LongVLM}上获得。
  • 作者讲解
  • 图表
  • 解决问题
    LongVLM试图解决长视频理解中忽略局部信息的问题,提高长视频细节理解能力。
  • 关键思路
    LongVLM将长视频分解为多个短期片段,并通过分层令牌合并模块对每个局部片段进行编码,然后按时间顺序将这些特征连接起来,同时将全局语义集成到每个局部特征中,从而获得包含局部和全局信息的视频表示。
  • 其它亮点
    论文在VideoChatGPT基准测试和零样本视频问答数据集上进行了实验,证明了LongVLM相对于现有最先进方法的优越性。LongVLM的代码可在GitHub上获得。
  • 相关研究
    最近的相关研究包括:CoViAR、ViLBERT和HERO等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问