VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT

2024年03月04日
  • 简介
    视频时间定位(VTG)旨在基于语言查询从未经剪辑的视频中定位特定的时间段。大多数现有的VTG模型都是基于大量注释的视频-文本对进行训练的,这个过程不仅会从查询中引入人为偏见,而且还会产生重大的计算成本。为了解决这些挑战,我们提出了VTG-GPT,一种基于GPT的零样本VTG方法,无需训练或微调。为了减少原始查询中的偏见,我们使用Baichuan2生成无偏查询。为了减少视频中的冗余信息,我们应用MiniGPT-v2将视觉内容转换为更精确的字幕。最后,我们设计了提议生成器和后处理,从无偏查询和图像字幕中生成准确的时间段。广泛的实验表明,VTG-GPT在零样本设置中显著优于SOTA方法,并超过了无监督方法。更值得注意的是,它实现了与监督方法相当的竞争性能。代码可在https://github.com/YoucanBaby/VTG-GPT上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决视频时间定位(VTG)的问题,即如何根据自然语言查询从未经剪辑的视频中定位特定的时间段。同时,该论文试图通过零样本学习的方式,减少对大量标注数据的依赖。
  • 关键思路
    本论文提出了一种基于GPT的方法VTG-GPT,通过使用Baichuan2生成无偏差的查询,使用MiniGPT-v2将视觉内容转换为更精确的字幕,以及设计提议生成器和后处理来从无偏差查询和图像字幕中产生准确的时间段。
  • 其它亮点
    该方法在零样本学习的情况下,显著优于当前最先进的方法,并超过了无监督方法。同时,它在性能上与监督方法相当,具有较高的实用性。该论文开源了代码,并在多个数据集上进行了实验验证。
  • 相关研究
    在相关研究方面,最近的一些研究包括:《Temporally Grounding Natural Language Queries in Videos》、《Cross-Modal Moment Localization in Videos》、《Query2Label: Reasoning with Language Models and Knowledge Graphs for Video Captioning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问