- 简介目前,多模态大语言模型(LLM)已经取得了巨大进展。最近的研究将这些模型扩展到了视频输入,并具有很有前途的指令跟踪能力。然而,一个重要的缺失是时间本地化。这些模型无法准确回答“何时?”的问题。我们确定了三个关键方面限制了它们的时间本地化能力:(i)时间表示,(ii)体系结构,和(iii)数据。我们通过提出语言指导的时间本地化助手(LITA)来解决这些缺点,具有以下特点:(1)我们引入时间令牌,将时间戳编码为相对于视频长度的时间,以更好地表示视频中的时间。 (2)我们在体系结构中引入SlowFast令牌,以在精细的时间分辨率下捕捉时间信息。 (3)我们强调LITA的时间本地化数据。除了利用具有时间戳的现有视频数据集外,我们还提出了一个新的任务,即推理时间本地化(RTL),以及用于学习和评估此任务的数据集ActivityNet-RTL。推理时间本地化需要视频LLM的推理和时间本地化。LITA在这项具有挑战性的任务上表现出强大的性能,将基线的时间平均交集联合(mIoU)几乎提高了一倍。此外,我们还展示了我们对时间本地化的强调也大大改善了基于视频的文本生成,包括相对于现有的视频LLM,包括Temporal Understanding的36%相对改进。代码可在以下链接找到:https://github.com/NVlabs/LITA。
- 图表
- 解决问题本文旨在解决多模态大语言模型在视频输入中无法准确回答“何时?”问题的问题。论文提出的Language Instructed Temporal-Localization Assistant(LITA)通过引入时间令牌、SlowFast令牌和强调时间本地化数据等方法来提高模型的时间本地化能力。
- 关键思路本文提出的LITA模型通过引入时间令牌和SlowFast令牌来更好地表示时间信息,并强调时间本地化数据。在新提出的Reasoning Temporal Localization(RTL)任务和数据集上,LITA表现出优异的性能。
- 其它亮点本文提出了一种新的模型LITA,该模型能够在视频输入中更好地解决时间本地化问题。此外,本文还提出了一个新的任务RTL和数据集ActivityNet-RTL,用于学习和评估模型。实验结果表明,LITA模型在RTL任务上表现出优异的性能,并且在文本生成方面也比现有的视频LLMs表现更好。
- 最近在这个领域中,还有一些相关的研究,如《Multimodal Transformer for Unaligned Multimodal Language Sequences》、《VideoBERT: A Joint Model for Video and Language Representation Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢