VideoAgent: Long-form Video Understanding with Large Language Model as Agent

2024年03月15日
  • 简介
    长视频理解是计算机视觉中的一个重要挑战,需要一个能够推理长时间多模态序列的模型。受人类认知长视频的过程启发,我们强调交互式推理和规划,而不是处理长时间视觉输入的能力。我们引入了一种新颖的基于代理的系统VideoAgent,它采用了一个大型语言模型作为中央代理来迭代地识别和编译关键信息以回答问题,视觉语言基础模型作为工具来翻译和检索视觉信息。在具有挑战性的EgoSchema和NExT-QA基准测试中进行评估,VideoAgent仅使用平均8.4和8.2帧,就实现了54.1%和71.3%的零样本准确率。这些结果证明了我们的方法比当前最先进的方法具有更高的效果和效率,突显了代理方法在推进长视频理解方面的潜力。
  • 作者讲解·1
  • 图表
  • 解决问题
    本论文旨在解决长视频理解的问题,提出了一种基于代理的系统 VideoAgent,通过交互式推理和规划来回答问题,相比于处理长时间视觉输入,使用了大型语言模型作为中央代理来识别和编译关键信息。
  • 关键思路
    本论文的解决方案是使用代理进行交互式推理和规划,使用大型语言模型作为中央代理来识别和编译关键信息,使用视觉-语言基础模型作为工具来翻译和检索视觉信息。
  • 其它亮点
    本论文使用了 EgoSchema 和 NExT-QA 数据集进行评估,仅使用平均 8.4 和 8.2 帧,就实现了 54.1% 和 71.3% 的零-shot准确率,相比于当前最先进的方法,本论文的方法在有效性和效率上都有优势。该方法的亮点包括使用代理进行交互式推理和规划,使用大型语言模型作为中央代理来识别和编译关键信息。
  • 相关研究
    在该领域的相关研究包括但不限于:《A Dual-Stream Network for Video Question Answering》、《Learning to Jointly Generate and Resolve Queries for Visually Grounded Navigation》、《Answering Questions About Moving Objects in Videos with Spatio-Temporal Memory Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问