MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

简介

随着大型语言模型（LLMs）的成功，将视觉模型整合到LLMs中以构建视觉语言基础模型最近引起了更多的关注。然而，现有的基于LLM的大型多模型模型（例如Video-LLaMA、VideoChat）只能接受有限数量的帧以进行短视频理解。在本研究中，我们主要关注设计一种有效的模型，用于长期视频理解。与大多数现有工作一样，不是尝试同时处理更多的帧，我们建议以在线方式处理视频，并将过去的视频信息存储在记忆库中。这使得我们的模型可以参考历史视频内容进行长期分析，而不会超过LLMs的上下文长度限制或GPU内存限制。我们的记忆库可以无缝地集成到当前的多模LLMs中。我们对各种视频理解任务进行了广泛的实验，例如长视频理解、视频问答和视频字幕生成，并且我们的模型可以在多个数据集上实现最先进的性能。代码可在https://boheumd.github.io/MA-LMM/上获得。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

设计一个高效有效的模型用于长视频理解，解决现有模型只能处理有限帧数的问题。

关键思路

提出在线处理视频并将过去的视频信息存储在记忆库中的方法，以便长期分析。

其它亮点

通过在多个数据集上进行实验，论文证明了该模型在长视频理解、视频问答和视频字幕生成方面的表现优于现有模型。论文提供了开源代码。

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

提问交流

提问交流