- 简介最近的研究表明,利用多模态大型语言模型(MLLMs)进行计算机视觉任务(如物体检测和语义分割)取得了有希望的结果。然而,许多具有挑战性的视频任务仍未得到充分开发。视频语言任务需要空间和时间理解,并需要大量计算。因此,先前的工作开发了复杂的、高度专业化的架构或利用其他输入信号(如视频转录本)来最佳编码上下文和时间信息,这限制了它们的通用性并可能不实用。其中一个特别具有挑战性的任务是视频时刻检索,需要精确的时间和上下文基础。本文展示了利用图像-文本预训练MLLMs进行时刻检索的出人意料的有效性。我们介绍了Mr. BLIP(Mr.代表Moment Retrieval),这是一个多模态、单阶段模型,不需要昂贵的视频-语言预训练,不需要额外的输入信号(例如转录或音频),比先前最先进的方法更简单、更通用。我们在广泛使用的基准测试Charades-STA、QVHighlights和ActivityNet Captions上实现了新的时刻检索最新技术,并用ActivityNet上的新的时序动作本地化的最新技术说明了我们方法的通用性。值得注意的是,我们在具有挑战性的长视频多时刻QVHighlights基准测试中实现了超过9%(绝对值)的更高召回率(在0.5和0.7 IoU上)。我们的代码是公开可用的。
-
- 图表
- 解决问题本论文旨在解决视频时刻检索的问题,即需要精确的时间和上下文定位。同时,该论文试图证明利用图文预训练多模态大语言模型(MLLMs)进行视频任务的有效性。
- 关键思路论文提出了Mr.BLIP,一种多模态的单阶段模型,不需要昂贵的视频-语言预训练,也不需要额外的输入信号,具有比先前最先进的方法更简单和更灵活的设计。该模型使用图像和文本预训练的MLLMs进行时刻检索,并在Charades-STA、QVHighlights和ActivityNet Captions等广泛使用的基准测试中取得了新的最先进成果。
- 其它亮点论文的实验设计了哪些亮点,使用了哪些数据集,有没有开源代码?实验结果表明,Mr.BLIP在QVHighlights基准测试中的召回率(在0.5和0.7 IoU时)比先前的最佳方法高出9%以上。此外,该论文还在ActivityNet上实现了新的最先进的时间动作定位。该论文的代码是公开可用的。
- 在最近的相关研究中,也有一些关于视频时刻检索的研究,例如“Temporally Grounding Natural Language Instructions in Videos”和“Cross-modal Moment Localization in Videos”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流