The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval

向作者提问

NEW

简介

最近的研究表明，利用多模态大型语言模型（MLLMs）进行计算机视觉任务（如物体检测和语义分割）取得了有希望的结果。然而，许多具有挑战性的视频任务仍未得到充分开发。视频语言任务需要空间和时间理解，并需要大量计算。因此，先前的工作开发了复杂的、高度专业化的架构或利用其他输入信号（如视频转录本）来最佳编码上下文和时间信息，这限制了它们的通用性并可能不实用。其中一个特别具有挑战性的任务是视频时刻检索，需要精确的时间和上下文基础。本文展示了利用图像-文本预训练MLLMs进行时刻检索的出人意料的有效性。我们介绍了Mr. BLIP（Mr.代表Moment Retrieval），这是一个多模态、单阶段模型，不需要昂贵的视频-语言预训练，不需要额外的输入信号（例如转录或音频），比先前最先进的方法更简单、更通用。我们在广泛使用的基准测试Charades-STA、QVHighlights和ActivityNet Captions上实现了新的时刻检索最新技术，并用ActivityNet上的新的时序动作本地化的最新技术说明了我们方法的通用性。值得注意的是，我们在具有挑战性的长视频多时刻QVHighlights基准测试中实现了超过9%（绝对值）的更高召回率（在0.5和0.7 IoU上）。我们的代码是公开可用的。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视频时刻检索的问题，即需要精确的时间和上下文定位。同时，该论文试图证明利用图文预训练多模态大语言模型（MLLMs）进行视频任务的有效性。
关键思路

论文提出了Mr.BLIP，一种多模态的单阶段模型，不需要昂贵的视频-语言预训练，也不需要额外的输入信号，具有比先前最先进的方法更简单和更灵活的设计。该模型使用图像和文本预训练的MLLMs进行时刻检索，并在Charades-STA、QVHighlights和ActivityNet Captions等广泛使用的基准测试中取得了新的最先进成果。
其它亮点

论文的实验设计了哪些亮点，使用了哪些数据集，有没有开源代码？实验结果表明，Mr.BLIP在QVHighlights基准测试中的召回率（在0.5和0.7 IoU时）比先前的最佳方法高出9％以上。此外，该论文还在ActivityNet上实现了新的最先进的时间动作定位。该论文的代码是公开可用的。
相关研究

在最近的相关研究中，也有一些关于视频时刻检索的研究，例如“Temporally Grounding Natural Language Instructions in Videos”和“Cross-modal Moment Localization in Videos”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问