VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

简介

我们探索了如何通过将多个基础模型（大型语言模型和视觉语言模型）与一种新颖的统一记忆机制相结合，来解决具有挑战性的视频理解问题，特别是捕捉长视频中的长期时间关系。具体而言，所提出的多模态代理VideoAgent：1）构建一个结构化记忆，用于存储视频的通用时间事件描述和以物体为中心的跟踪状态；2）在给定输入任务查询的情况下，它利用视频段定位和对象记忆查询等工具，以及其他视觉基础模型来交互式地解决任务，利用LLMs的零-shot工具使用能力。VideoAgent在几个长期视频理解基准测试中展现出了令人印象深刻的表现，相对于基线模型，NExT-QA平均提高了6.6％，EgoSchema提高了26.0％，缩小了开源模型和私有对手（包括Gemini 1.5 Pro）之间的差距。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决视频理解中的长期时间关系捕捉问题，提出了一种基于多模态代理VideoAgent的解决方案。
关键思路

本文提出的VideoAgent方案包括构建结构化记忆、利用多种视觉基础模型以及零-shot工具使用能力等关键思路，能够交互式地解决视频理解任务。
其它亮点

本文的实验结果表明，VideoAgent在多个长期时间关系视频理解基准测试上表现出色，相比基线模型平均提高了6.6%的NExT-QA准确率和26.0%的EgoSchema准确率，与私有模型Gemini 1.5 Pro的表现不相上下。
相关研究

最近的相关研究包括：《Unifying Vision-and-Language Task via Text Generation》、《VideoBERT: A Joint Model for Video and Language Representation Learning》等。

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

提问交流

提问交流