Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

2024年07月17日
  • 简介
    目前大多数基于LLM的视频理解模型可以在几分钟内处理视频。然而,由于“噪声和冗余”以及“内存和计算”等挑战,它们在处理长视频方面存在困难。本文介绍了一种名为Goldfish的方法,专门用于理解任意长度的视频。我们还介绍了TVQA-long基准,专门设计用于评估模型在理解具有视觉和文本内容的长视频方面的能力。Goldfish通过一个高效的检索机制来应对这些挑战,该机制最初收集与指令相关的前k个视频片段,然后提供所需的响应。这种检索机制的设计使Goldfish能够高效地处理任意长的视频序列,从而便于在电影或电视系列等情境中应用。为了促进检索过程,我们开发了MiniGPT4-Video,用于生成视频片段的详细描述。为了解决长视频评估基准的稀缺性,我们将TVQA短视频基准适应于整个剧集的内容分析,通过汇总问题,将评估从部分转移到完整剧集的理解。我们在TVQA-long基准上获得了41.78%的准确率,超过了先前方法14.94%。我们的MiniGPT4-Video在短视频理解方面也表现出色,在MSVD、MSRVTT、TGIF和TVQA短视频基准上,分别超过现有最先进方法3.23%、2.03%、16.5%和23.59%。这些结果表明我们的模型在长视频和短视频理解方面都有显着的改进。我们的模型和代码已公开发布在https://vision-cair.github.io/Goldfish_website/。
  • 图表
  • 解决问题
    Goldfish试图解决视频理解中的长视频处理问题,即如何在处理长视频时克服噪声、冗余和内存计算限制等挑战。
  • 关键思路
    Goldfish采用高效的检索机制,首先收集与指令相关的前k个视频片段,然后提供所需的响应。此设计使Goldfish能够有效处理任意长度的视频序列,适用于电影或电视连续剧等场景。
  • 其它亮点
    论文提出了MiniGPT4-Video,用于为视频片段生成详细描述。作者还扩展了TVQA短视频基准,通过聚合整个剧集的问题,将评估从部分转移到完整剧集理解。在TVQA-long基准测试中,Goldfish的准确率达到了41.78%,比以前的方法高出14.94%。MiniGPT4-Video在短视频理解方面表现出色,在MSVD,MSRVTT,TGIF和TVQA短视频基准测试中,分别比现有最先进的方法高出3.23%,2.03%,16.5%和23.59%。作者已公开发布了模型和代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Learning to Comprehend Long Videos via Text-Video Association》、《VideoBERT: A Joint Model for Video and Language Representation Learning》、《Movie Question Answering: Remembering the Textual Cues for Layered Visual Contents》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论