MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

2024年04月08日
  • 简介
    随着大型语言模型(LLMs)的成功,将视觉模型整合到LLMs中以构建视觉语言基础模型最近引起了更多的关注。然而,现有的基于LLM的大型多模型模型(例如Video-LLaMA、VideoChat)只能接受有限数量的帧以进行短视频理解。在本研究中,我们主要关注设计一种有效的模型,用于长期视频理解。与大多数现有工作一样,不是尝试同时处理更多的帧,我们建议以在线方式处理视频,并将过去的视频信息存储在记忆库中。这使得我们的模型可以参考历史视频内容进行长期分析,而不会超过LLMs的上下文长度限制或GPU内存限制。我们的记忆库可以无缝地集成到当前的多模LLMs中。我们对各种视频理解任务进行了广泛的实验,例如长视频理解、视频问答和视频字幕生成,并且我们的模型可以在多个数据集上实现最先进的性能。代码可在https://boheumd.github.io/MA-LMM/上获得。
  • 作者讲解
  • 图表
  • 解决问题
    设计一个高效有效的模型用于长视频理解,解决现有模型只能处理有限帧数的问题。
  • 关键思路
    提出在线处理视频并将过去的视频信息存储在记忆库中的方法,以便长期分析。
  • 其它亮点
    通过在多个数据集上进行实验,论文证明了该模型在长视频理解、视频问答和视频字幕生成方面的表现优于现有模型。论文提供了开源代码。
  • 相关研究
    最近的相关研究包括Video-LLaMA和VideoChat等基于LLM的大型多模型模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问