VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding

2024年05月22日
  • 简介
    视频时间定位(VTG)旨在基于语言查询在特定视频中准确识别事件时间戳,对于视频浏览和编辑等下游任务至关重要。虽然视频大语言模型(Video LLMs)在理解视频内容方面取得了重大进展,但它们通常面临准确定位视频时间戳的挑战,这限制了它们在VTG任务上的性能。因此,为了提高视频LLMs有效定位时间戳的能力,我们认为需要加强两个关键方面。首先,必须拥有高质量的指导调整数据集,涵盖主流VTG任务。其次,直接将时间戳知识纳入视频LLMs至关重要,因为它使模型能够有效地理解时间戳信息。为了满足这些需求,我们首先介绍了VTG-IT-120K,这是一个高质量、全面的指导调整数据集,涵盖了如时刻检索、密集视频字幕、视频摘要和视频亮点检测等VTG任务。此外,我们提出了一个专门为VTG任务设计的视频LLM模型,即VTG-LLM,它(1)有效地将时间戳知识集成到视觉符号中;(2)纳入绝对时间符号,专门处理时间戳知识,从而避免概念转移;(3)引入轻量级、高性能的基于槽的符号压缩方法,以便采样更多的视频帧。全面的实验展示了VTG-LLM在各种VTG任务上相对于其他视频LLM方法的卓越性能。我们的代码和数据集可在\url{https://github.com/gyxxyg/VTG-LLM}上获得。
  • 图表
  • 解决问题
    提高视频语言模型在视频时序定位中的准确性
  • 关键思路
    将时间戳知识直接融入视频语言模型中,提出了VTG-LLM模型,同时提供了一个高质量的指导调优数据集VTG-IT-120K
  • 其它亮点
    VTG-LLM模型有效地整合了时间戳知识,引入了绝对时间标记和轻量级的基于槽位的标记压缩方法,实现了更多视频帧的采样。实验结果表明,在各种VTG任务中,VTG-LLM模型的性能优于其他视频语言模型方法。研究提供了代码和数据集,值得深入研究。
  • 相关研究
    最近的相关研究包括《Temporal Grounding in Videos Using Natural Language Queries》、《VidSTG-Net: Video Spatial-Temporal Grounding Network for Natural Language to Video》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论