VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

2024年03月18日
  • 简介
    我们探索了如何通过将多个基础模型(大型语言模型和视觉语言模型)与一种新颖的统一记忆机制相结合,来解决具有挑战性的视频理解问题,特别是捕捉长视频中的长期时间关系。具体而言,所提出的多模态代理VideoAgent:1)构建一个结构化记忆,用于存储视频的通用时间事件描述和以物体为中心的跟踪状态;2)在给定输入任务查询的情况下,它利用视频段定位和对象记忆查询等工具,以及其他视觉基础模型来交互式地解决任务,利用LLMs的零-shot工具使用能力。VideoAgent在几个长期视频理解基准测试中展现出了令人印象深刻的表现,相对于基线模型,NExT-QA平均提高了6.6%,EgoSchema提高了26.0%,缩小了开源模型和私有对手(包括Gemini 1.5 Pro)之间的差距。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图解决视频理解中的长期时间关系捕捉问题,提出了一种基于多模态代理VideoAgent的解决方案。
  • 关键思路
    本文提出的VideoAgent方案包括构建结构化记忆、利用多种视觉基础模型以及零-shot工具使用能力等关键思路,能够交互式地解决视频理解任务。
  • 其它亮点
    本文的实验结果表明,VideoAgent在多个长期时间关系视频理解基准测试上表现出色,相比基线模型平均提高了6.6%的NExT-QA准确率和26.0%的EgoSchema准确率,与私有模型Gemini 1.5 Pro的表现不相上下。
  • 相关研究
    最近的相关研究包括:《Unifying Vision-and-Language Task via Text Generation》、《VideoBERT: A Joint Model for Video and Language Representation Learning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问