- 简介视频文本大语言模型(video-text LLMs)在回答问题和简单视频对话方面表现出了显著的性能。然而,它们在长而复杂的视频中几乎与随机表现相同,几乎没有理解和推理时间信息的能力,而这是视频和图像之间最基本的区别。本文提出了HawkEye,它是第一个能够以完全的文本方式执行时间视频定位的视频文本LLMs之一。为了收集适用于时间视频定位的训练数据,我们构建了InternVid-G,这是一个具有段级字幕和负面跨度的大规模视频文本语料库,我们在其中引入了两个新的面向时间的训练目标,用于视频文本LLMs。我们还提出了一种粗粒度的表示视频片段的方法,它比其他替代方案更健壮,更容易学习和遵循。广泛的实验表明,HawkEye在时间视频定位方面表现更好,并且在其他视频文本任务上与现有的视频文本LLMs相当,这验证了它在视频文本多模态理解能力方面的优越性。
- 图表
- 解决问题本文旨在解决视频文本大型语言模型(video-text LLMs)在长且复杂的视频中理解和推理时间信息的问题。作者提出了HawkEye,这是一种可以以完全文本方式执行时间视频定位的video-text LLMs之一。
- 关键思路为了解决时间视频定位的问题,作者构建了InternVid-G数据集,并引入了两种新的时间感知训练目标。此外,作者还提出了一种粗粒度的视频片段表示方法,这种方法比其他替代方法更加鲁棒且更易于LLMs学习和遵循。
- 其它亮点本文的亮点包括构建了InternVid-G数据集,提出了两种新的时间感知训练目标和一种粗粒度的视频片段表示方法。作者进行了广泛的实验,证明了HawkEye在时间视频定位方面更好,在其他视频文本任务上与现有的video-text LLMs相当。
- 最近在这个领域中,还有一些相关的研究,例如"Hero: Hierarchical video-object representation and segmentation for fine-grained recognition"和"Action Genome: Actions as compositions of spatio-temporal scene graphs"。
沙发等你来抢
去评论
评论
沙发等你来抢